Apple stále posouvá průmysl AI kupředu s dalšími modely

Schopnost Applu vytvářet neuvěřitelně kompaktní, ale výkonné modely AI nemá v tomto odvětví obdoby.

Výzkumný tým Apple Intelligence společnosti Apple vydal dva nové malé, ale vysoce výkonné jazykové modely používané k výcviku generátorů umělé inteligence.

Tým Machine Learning společnosti Apple se spolu s dalšími v oboru účastní projektu DataComp for Language Models s otevřeným zdrojovým kódem. Dva modely, které Apple nedávno vyrobil, se vyrovnaly nebo porazily jiné přední tréninkové modely, jako jsou Llama 3 a Gemma.

Jazykové modely, jako jsou tyto, se používají k trénování motorů AI, jako je ChatGPT, tím, že poskytují standardní rámec. To zahrnuje architekturu, parametry a filtrování datových sad za účelem poskytování kvalitnějších dat pro AI motory, ze kterých mohou čerpat.

Jsem opravdu nadšený, že mohu představit DataComp for Language Models (DCLM), naše nové testovací prostředí pro experimenty s řízenými datovými sadami zaměřené na zlepšení jazykových modelů. 1/x pic.twitter.com/uNe5mUJJxb

— Vaishaal Shankar (@Vaishaal) 18. června 2024

Zadání společnosti Apple do projektu zahrnuje dva modely: větší se sedmi miliardami parametrů a menší s 1,4 miliardami parametrů. Tým Applu uvedl, že větší model překonal předchozí top model MAP-Neo o 6,6 procenta v benchmarcích.

Ještě pozoruhodnější je, že model DataComp-LM týmu Apple využívá k dosažení těchto benchmarků o 40 procent méně výpočetního výkonu. Jednalo se o nejvýkonnější model mezi těmi s otevřenými datovými sadami a konkurenceschopný vůči těm se soukromými datovými sadami.

Apple plně otevřel své modely – datová sada, váhové modely a tréninkový kód jsou k dispozici dalším výzkumníkům, se kterými mohou pracovat. Větší i menší modely dosáhly dostatečně dobrých výsledků v testech Massive Multi-task Language Understanding (MMLU), aby byly konkurenceschopné vůči komerčním modelům.

Tabulka porovnávající modely umělé inteligence týkající se parametrů, tokenů, otevřených datových sad a výkonu ve třech metrikách: CORE, MMLU a EXTENDED. Mezi modely patří Llama2, DeepSeek, QWEN-2, Falcon a další.

Benchmarky pro větší datovou sadu Apple se ukázaly jako konkurenceschopné vůči jiným modelům.

Při debutu Apple Intelligence a Private Cloud Compute na červnové konferenci WWDC společnost umlčela kritiky, kteří tvrdili, že Apple stojí za průmyslem aplikací umělé inteligence ve svých zařízeních. Výzkumné práce týmu Machine Learning zveřejněné před a po této události prokázaly, že společnost je ve skutečnosti lídrem v oboru AI.

Tyto modely, které tým Apple vydal, nejsou určeny k použití v žádných budoucích produktech Apple. Jedná se o komunitní výzkumné projekty, které mají prokázat zlepšenou efektivitu při správě malých nebo velkých souborů dat používaných k trénování modelů umělé inteligence.

Tým Machine Learning společnosti Apple již dříve sdílel výzkum s větší komunitou AI. Soubory dat, výzkumné poznámky a další aktiva lze nalézt na HuggingFace.co, platformě věnované rozšiřování komunity AI.

Zdroj: appleinsider.com