Nový článek od vědců zabývajících se umělou inteligencí Applu zjistil, že enginům založeným na velkých jazykových modelech, jako jsou ty z Meta a OpenAI, stále chybí základní uvažovací schopnosti.
Skupina navrhla nový benchmark, GSM-Symbolic, který má pomoci ostatním měřit schopnosti uvažování různých velkých jazykových modelů (LLM). Jejich počáteční testování ukazuje, že drobné změny ve formulacích dotazů mohou vést k výrazně odlišným odpovědím, což podkopává spolehlivost modelů.
Skupina zkoumala „křehkost“ matematického uvažování přidáním kontextových informací ke svým dotazům, kterým by člověk porozuměl, ale které by neměly ovlivnit základní matematiku řešení. To vedlo k různým odpovědím, což by se nemělo stávat.
„Konkrétně výkon všech modelů klesá (dokonce i tehdy, když se v benchmarku GSM-Symbolic změní pouze číselné hodnoty v otázce,“ napsala skupina ve své zprávě. „Navíc křehkost matematického uvažování v těchto modelech (demonstruje), že jejich výkon se výrazně zhoršuje, jak se zvyšuje počet klauzulí v otázce.“
Studie zjistila, že přidání i jediné věty, která vypadá, že nabízí relevantní informace k dané matematické otázce, může snížit přesnost konečné odpovědi až o 65 procent. „Neexistuje žádný způsob, jak můžete vybudovat spolehlivé agenty na tomto základu, kde změna jednoho nebo dvou slov irelevantním způsobem nebo přidání několika irelevantních informací vám může poskytnout jinou odpověď,“ uzavřela studie.
Absence kritického myšlení
Konkrétním příkladem, který ilustruje problém, byl matematický problém, který vyžadoval skutečné pochopení otázky. Úkol nazvaný „GSM-NoOp“, který tým vyvinul, byl podobný druhu matematických „slovních úloh“, se kterými se může setkat student základní školy.
Dotaz začínal informacemi potřebnými k formulaci výsledku. „Oliver v pátek utrhne 44 kiwi. V sobotu pak 58 kiwi. V neděli utrhne dvojnásobek kiwi než v pátek.“
Dotaz pak přidá klauzuli, která se zdá být relevantní, ale ve skutečnosti není s ohledem na konečnou odpověď, a poznamenává, že z kiwi vybraných v neděli „pět z nich bylo o něco menší než průměr.“ Požadovaná odpověď se jednoduše zeptala: „Kolik kiwi má Oliver?“
Poznámka o velikosti některých kiwi utržených v neděli by neměla mít žádný vliv na celkový počet utržených kiwi. Nicméně model OpenAI a také Llama3-8b od Meta odečetly pět menších kiwi od celkového výsledku.
Chybnou logiku podpořila předchozí studie z roku 2019, která dokázala modely umělé inteligence spolehlivě zmást dotazem na věk dvou předchozích rozehrávačů Super Bowlu. Přidáním informací o pozadí a souvisejících informacích o hrách, které hráli, ao třetí osobě, která byla rozehrávačem v jiné hře bowlingu, modely produkovaly nesprávné odpovědi.
„V jazykových modelech jsme nenašli žádný důkaz formálního uvažování,“ uzavřela nová studie. Chování LLMS „je lépe vysvětleno sofistikovaným porovnáváním vzorů“, které studie zjistila jako „tak křehké, že (prostá) změna jmen může změnit výsledky.“
Zdroj: appleinsider.com