Společnost Apple si udělala velký problém z placení za data používaná k výcviku své Apple Intelligence, ale jedna firma, kterou použil, je obviněna z údajného trhání videí na YouTube.
Veškerá generativní umělá inteligence funguje tak, že shromažďuje obrovské datové sady nazývané velké jazykové modely (LLM) a velmi často je zdroj těchto dat kontroverzní. Natolik, že Apple opakovaně prohlašoval, že jeho zdroje jsou etické, a je známo, že zaplatil miliony vydavatelům a licencoval obrázky od firem zabývajících se knihovnami fotografií.
Podle KabelovéZdá se však, že jedna firma, jejíž data Apple použil, byla ohledně svých zdrojů méně pečlivá. EleutherAI údajně vytvořil datový soubor, který nazývá Pile a který Apple podle zpráv používá pro své školení LLM.
Část Hromady se však nazývá Titulky YouTube, které se skládají z titulků stažených z videí YouTube bez povolení. Je to zřejmě také porušení smluvních podmínek YouTube, ale to může být více šedá zóna, než by měla být.
Kromě Applu patří mezi firmy, které Pile používají, společnost Anthropic, jejíž mluvčí tvrdil, že je rozdíl mezi používáním titulků YouTube a používáním videí.
„The Pile obsahuje velmi malou podmnožinu titulků YouTube,“ řekla Jennifer Martinez. „Podmínky YouTube pokrývají přímé použití jeho platformy, které se liší od použití datové sady Pile.“
„Pokud jde o potenciální porušení podmínek služby YouTube,“ pokračovala, „musíme vás odkázat na autory Pile.“
Salesforce také potvrdil, že použil Pile při vytváření modelu umělé inteligence pro „akademické a výzkumné účely“. Viceprezident pro výzkum AI společnosti Salesforce zdůraznil, že soubor dat Pile je „veřejně dostupný“.
Vývojáři ze Salesforce také údajně zjistili, že datová sada Pile obsahuje vulgární výrazy a „předpojatost vůči pohlaví a určitým náboženským skupinám“.
Salesforce a Anthropic jsou zatím jediné firmy, které se vyjádřily k jejich používání Pile. Je známo, že Apple, Nvidia, Bloomberg a Databricks to použily, ale nereagovaly.
Organizace Proof News tvrdí, že zjistila, že v Pile byly použity titulky ze 173 536 videí YouTube z více než 48 000 kanálů. Použitá videa zahrnují sedm od Marquese Brownlee (MKBHD) a 337 od PewDiePie.
Proof News vytvořil online nástroj, který pomáhá youtuberům zjistit, zda byla jejich práce použita.
Nejsou to však pouze titulky YouTube, které byly shromážděny bez povolení. Tvrdí se, že byla použita Wikipedie, stejně jako dokumentace z Evropského parlamentu.
Akademici a dokonce i matematici dříve používali tisíce e-mailů zaměstnanců Enronu pro statistickou analýzu. Nyní se tvrdí, že Pile použil text těchto e-mailů pro své školení.
Již dříve se tvrdilo, že generativní AI společnosti Apple může být jedinou, která byla vyškolena legálně a eticky. Ale navzdory záměrům Applu se zdá, že Apple Intelligence byla vyškolena na titulcích YouTube, na které neměla právo.
Zdroj: appleinsider.com