Apple uvolňuje čtyři OpenELM, které pomáhají podpořit rozvoj LLM

Lukáš Petránek 24. 4. 2024 2 minut čtení

Ikona Siri na Apple Parku

Apple veřejně sdílel čtyři modely s otevřeným zdrojovým kódem, které se mohou pochlubit zvýšenou přesností pro dotazy, což by mohlo pomoci při vývoji budoucích modelů umělé inteligence.

Vzhledem k tomu, že technologický průmysl pokračuje ve vývoji AI, Apple nadále nabízí další pohledy na technologii, na které pracuje. V nejnovější veřejné verzi Apple vydal kvarteto open-source modelů.

Instruct modely označované jako Open Source Efficient LLMs nebo OpenELMs jsou hostovány na kolaborativní platformě Hugging Face. Hugging Face se používá k hostování modelů umělé inteligence, k jejich trénování a ke spolupráci s ostatními na vylepšeních.

OpenELM odkazuje na open-source knihovnu, která kombinuje několik velkých jazykových modelů (LLM) pomocí evolučních algoritmů.

Čtyři modely OpenELM používají „strategii škálování po vrstvách“ k alokaci parametrů v rámci vrstev modelu transformátoru pro zvýšení přesnosti, uvádí karta modelu pro verze.

Modely byly předem trénovány pomocí knihovny CoreNet. Apple poskytl jak předtrénované, tak instrukčně vyladěné modely využívající 270 milionů, 450 milionů, 1,1 miliardy a 3 miliardy parametrů.

Předtréninková datová sada používala kombinaci podmnožiny Dolma v1.6, RefinedWeb, deduplikovaného PILE a podmnožiny RedPajama. Výsledkem byl soubor dat s přibližně 1,8 bilionu tokenů.

V souvisejícím dokumentu vydaném v úterý vědci za projektem říkají, že reprodukovatelnost a transparentnost velkých jazykových modelů je „zásadní pro pokrok v otevřeném výzkumu“. Pomáhá také zajistit důvěryhodnost výsledků a umožňuje vyšetřování zkreslení modelu a rizik.

Pokud jde o přesnost modelů, je vysvětleno, že při použití rozpočtu parametrů ve výši jedné miliardy parametrů má OpenELM 2,36% zlepšení přesnosti oproti OLMo, přičemž vyžaduje poloviční počet předtréninkových tokenů.

Mezi autory modelů a dokumentů patří Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal a Mohammad Rastegari.

Zveřejnění zdrojového kódu modelů je nejnovějším pokusem společnosti Apple propagovat svůj vývoj v oblasti umělé inteligence a strojového učení.

Toto není první veřejné vydání rutin AI od společnosti Apple. V říjnu sdílela open-source LLM s názvem Ferret, která zlepšila způsob, jakým může model analyzovat obrázek.

V dubnu přidala nová verze Ferret možnost analyzovat datové body na snímku obrazovky aplikace a obecně porozumět tomu, jak aplikace funguje.

Očekává se, že červnová WWDC bude zahrnovat několik vylepšení v oblasti umělé inteligence pro produkty Apple.

Zdroj: appleinsider.com