Majitelé webových stránek mají jednoduchý mechanismus, jak říct Apple Intelligence, aby stránky neškrábala pro účely školení, a údajně jej používají velké platformy jako Facebook a New York Times.
Apple nabízí vydavatelům miliony dolarů za právo skartovat jejich stránky, na rozdíl od Googlu, který věří, že všechna data by měla být volně dostupná pro trénování velkých jazykových modulů AI. V rámci toho Apple ctí systém, kdy web může v konkrétním souboru říct, že nechce být skartován.
Tento soubor je jednoduchý textový soubor s názvem robots.txt a podle Kabelovévelmi mnoho velkých vydavatelů se rozhodlo použít toto k zablokování školení AI společnosti Apple.
Tento soubor robots.txt nepředstavuje žádnou technickou překážku pro scraping, a dokonce ani právní překážku, a existují firmy, o kterých je známo, že blokování ignorují.
Údajně mnoho zpravodajských webů blokuje Apple Intelligence. Mezi ty významné patří:
- The New York Times
- Craigslist
- Timblr
- Financial Times
- Atlantik
- USA dnes
- Conde Nast
V případě Applu, Kabelové říká, že dvě hlavní studie z minulého týdne ukázaly, že přibližně 6 až 7 % vysoce navštěvovaných webů blokuje vyhledávací nástroj společnosti Apple, nazvaný Applebot-Extended. Další studie Bena Welshe, provedená rovněž v minulém týdnu, uvádí, že jej blokuje jen něco málo přes 25 % kontrolovaných stránek.
Rozdíl je způsoben tím, které soubory webů s vysokou návštěvností byly zkoumány. Velšská studie pro srovnání zjistila, že robot OpenAI je blokován 53 % kontrolovaných zpravodajských webů a ekvivalent Google-Extended je blokován téměř 43 %.
Kabelové dochází k závěru, že i když webům nemusí být jedno, zda je Apple Intelligence stahuje, hlavním důvodem nízkých čísel blokování je to, že robot AI od Applu je příliš málo známý na to, aby si ho firmy všimli.
Apple Intelligence se však přesně neskrývá ve tmě a AppleBot-Extended je nadmnožinou AppleBot. To bylo poprvé zaznamenáno weby v listopadu 2014 a oficiálně odhaleno společností Apple v květnu 2015.
AppleBot tedy již deset let prohledává a škrábe webové stránky a činí tak, aby posílil vyhledávání Siri a Spotlight.
V důsledku toho je méně pravděpodobné, že majitelé webových stránek neslyšeli o Apple Intelligence, a spíše slyšeli o tom, že Apple uzavírá obchody v hodnotě milionů. Zatímco jednání pokračují, nebo by se jen mohlo začít, některé weby vědomě blokují Apple Intelligence.
To zahrnuje The New York Timeskterá také žaluje OpenAI kvůli porušení autorských práv kvůli jeho AI scraping.
„Jak jasně uvádí zákon a vlastní podmínky služby The Times, je bez našeho předchozího písemného souhlasu zakázáno škrábání nebo používání našeho obsahu pro komerční účely,“ říká Charlie Stadtlander z deníku. „Důležité je, že autorský zákon stále platí bez ohledu na to, zda jsou nebo nejsou zavedena technická blokovací opatření.“
Zdroj: appleinsider.com