Výzkum Apple AI odhaluje model, který urychlí a zefektivní zadávání příkazů Siri tím, že převede jakýkoli daný kontext na text, který lze snáze analyzovat pomocí velkého jazykového modelu.
Výzkum umělé inteligence ve společnosti Apple je stále zveřejňován, když se společnost blíží k veřejnému spuštění svých iniciativ AI v červnu během WWDC. Dosud byla publikována celá řada výzkumů, včetně nástroje pro animaci obrázků.
Nejnovější dokument byl poprvé sdílen uživatelem VentureBeat. Článek podrobně popisuje něco, co se nazývá ReALM — Reference Resolution As Language Modeling.
Nechat počítačový program provést úlohu založenou na vágních jazykových vstupech, například jak by uživatel mohl říci „toto“ nebo „tamto“, se nazývá referenční rozlišení. Je to složitý problém, který je třeba vyřešit, protože počítače nedokážou interpretovat obrázky tak, jak to dokážou lidé, ale Apple možná našel efektivní řešení pomocí LLM.
Při rozhovoru s chytrými asistenty, jako je Siri, mohou uživatelé odkazovat na libovolný počet kontextových informací, se kterými mohou komunikovat, jako jsou úkoly na pozadí, data na displeji a další nekonverzační entity. Tradiční metody analýzy spoléhají na neuvěřitelně velké modely a referenční materiály, jako jsou obrázky, ale Apple tento přístup zefektivnil převedením všeho na text.
Apple zjistil, že jeho nejmenší modely ReALM fungovaly podobně jako GPT-4 s mnohem méně parametry, takže se lépe hodí pro použití na zařízení. Zvýšením parametrů používaných v ReALM výrazně překonal GPT-4.
Jedním z důvodů tohoto zvýšení výkonu je, že GPT-4 se spoléhá na analýzu obrazu, aby porozuměl informacím na obrazovce. Velká část dat pro trénování obrázků je postavena na přirozených snímcích, nikoli na umělých webových stránkách založených na kódu vyplněných textem, takže přímé OCR je méně efektivní.
Konverze obrázku na text umožňuje ReALM přeskočit potřebu těchto pokročilých parametrů rozpoznávání obrázků, čímž je menší a efektivnější. Apple se také vyhýbá problémům s halucinacemi tím, že zahrnuje možnost omezit dekódování nebo použít jednoduché následné zpracování.
Pokud například procházíte webovou stránkou a rozhodnete se, že chcete do firmy zavolat, stačí, když řeknete „zavolejte do firmy“, Siri analyzovat, co máte na mysli vzhledem k kontextu. Byl by schopen „vidět“, že na stránce je telefonní číslo, které je označeno jako obchodní číslo, a zavolat na něj bez další výzvy uživatele.
Apple pracuje na vydání komplexní strategie umělé inteligence během WWDC 2024. Některé zvěsti naznačují, že se společnost bude spoléhat na menší modely na zařízení, které zachovají soukromí a bezpečnost, a zároveň bude licencovat LLM jiných společností pro kontroverznější zpracování mimo zařízení plné etických hádanek.
Zdroj: appleinsider.com