A cura di Jack Brewster, Zack Fishman e Isaiah Glick | Pubblicato il 17 settembre 2024
Immagine via iStock
I chatbot IA sono bloccati dal 67% dei principali siti di notizie, finendo per affidarsi a fonti di bassa qualità
La maggior parte dei siti di notizie di alta qualità chiede di bloccare l’accesso ai chatbot di intelligenza artificiale. Di conseguenza, i chatbot potrebbero essere costretti ad affidarsi a fonti di qualità inferiore e più inclini alla misinformazione.
In gergo tecnico, “garbage in, garbage out” significa che se un sistema riceve dati scadenti, quel sistema produrrà risultati scadenti.
Lo stesso vale per l’accuratezza dei chatbot IA. Un’analisi di NewsGuard ha rilevato che il 67% dei siti di notizie classificati come di alta qualità da NewsGuard richiede ai modelli di IA di non accedere ai propri contenuti giornalistici. Ciò significa che i modelli di IA devono fare affidamento in modo sproporzionato ai siti di notizie di bassa qualità che consentono ai chatbot di utilizzare i loro contenuti. Questo aiuta a spiegare perché i chatbot diffondono così spesso affermazioni false e misinformazione.
Un’analisi di NewsGuard dei 500 siti di notizie più visitati dagli utenti online ha rilevato che i siti che hanno ottenuto un punteggio di affidabilità più basso nelle valutazioni di NewsGuard — vale a dire quelli che hanno maggiori probabilità di diffondere informazioni false o fuorvianti, secondo la valutazione di NewsGuard — hanno maggiori probabilità di essere inclusi tra i dati a cui hanno accesso i modelli di intelligenza artificiale quando vengono addestrati. Questo perché è meno probabile che chiedano ai web crawler, i bot che forniscono i dati ai chatbot IA, di evitare i loro siti. Al contrario, molte testate di alta qualità hanno affisso l’equivalente del cartello “Vietato l’accesso” ai propri siti, almeno fino a quando le aziende di IA non pagheranno le licenze per poter accedere ai loro contenuti.
Ciò significa che i principali chatbot potrebbero attingere da fonti inaffidabili più spesso di quanto normalmente accadrebbe tramite una ricerca tradizionale sui contenuti del web. Poiché le aziende di chatbot non rivelano esattamente come reperiscono o utilizzano i dati, non possiamo sapere con certezza quali fonti specifiche influenzano le loro risposte. Ai siti di disinformazione provenienti da Russia, Cina e Iran, ai siti complottisti e ai siti che pubblicano bufale su medicina e salute non dispiace affatto l’idea di far addestrare i modelli di intelligenza artificiale con i loro contenuti. Al contrario, i siti di notizie di alta qualità il cui giornalismo vale la pena di essere pagato, vogliono ricevere un compenso se i modelli di intelligenza artificiale vengono addestrati con i contenuti prodotti dai loro giornalisti, non regalare il prodotto del loro lavoro.
Esempi di siti di bassa qualità che non richiedono ai chatbot di evitare i loro contenuti sono The Epoch Times (Punteggio di affidabilità di NewsGuard: 17,5/100); ZeroHedge (Punteggio di affidabilità: 15/100), un blog di finanza che pubblica teorie del complotto smentite; e Bipartisan Report (Punteggio di affidabilità: 57,5/100), un sito di notizie e commenti che non distingue tra notizie e opinioni e non rivela la sua agenda liberale. Esempi di siti di alta qualità che chiedono ai chatbot di evitare i loro contenuti sono NBCNews.com (Punteggio di affidabilità: 100/100); Today.com (Punteggio di affidabilità: 95/100); e TheGuardian.com (Punteggio di affidabilità: 100/100).
Una tendenza in crescita: richiesta di blocco dei web crawler
Alcune testate si spingono oltre al blocco dei modelli di intelligenza artificiale e intraprendono le vie legali. Nel dicembre 2023, ad esempio, il New York Times (Punteggio di affidabilità: 87,5/100) ha citato in giudizio OpenAI e Microsoft per violazione del copyright, sostenendo che le aziende stavano addestrando i chatbot con i loro articoli senza un accordo commerciale, e nel frattempo ha bloccato l’accesso ai suoi contenuti giornalistici.
I chatbot utilizzano i dati raccolti su Internet per rispondere alle domande degli utenti.
I web crawler, ovvero i bot che sfogliano e indicizzano sistematicamente le pagine web, sono fondamentali nel funzionamento di questo processo. Esaminano i siti e raccolgono dati, contribuendo a costruire i database che forniscono informazioni ai chatbot IA.
Tuttavia, le testate giornalistiche chiedono sempre più spesso a questi crawler di non accedere ai loro siti, sia per proteggere i loro contenuti e controllarne l’uso, sia per avere la possibilità di concederli in licenza direttamente alle aziende di IA e ottenere così un guadagno.
I siti di notizie di alta qualità chiedono di bloccare i web crawler dell’intelligenza artificiale, mentre i siti di bassa qualità consentono un accesso completo
L’analisi di NewsGuard evidenzia una tendenza preoccupante: molti siti di notizie di alta qualità stanno adottando misure per proteggere i loro contenuti dai web crawler dell’intelligenza artificiale, mentre i siti di bassa qualità rimangono facilmente accessibili a questi bot. Per portare a termine questa analisi, abbiamo esaminato un elenco dei 500 siti di notizie più frequentati dagli utenti online in un periodo di 90 giorni. I siti sono stati raggruppati in tre categorie in base al loro punteggio di affidabilità di NewsGuard: bassa qualità (0-60), media qualità (60-80) e alta qualità (80-100).
Abbiamo poi controllato il file “robots.txt” di ogni sito, che indica le pagine web a cui il sito vuole o non vuole che i crawler accedano. Abbiamo esaminato in particolare come questi file si rivolgono a sette dei crawler più diffusi che raccolgono dati per i chatbot IA:
- CCBot – utilizzato da molti bot open-source, compresi quelli di Meta, che possiede Facebook
- GPTBot – utilizzato da OpenAI, il creatore di ChatGPT
- ClaudeBot – utilizzato da Anthropic, una società di ricerca sull’intelligenza artificiale
- Anthropic-ai – anche questo utilizzato da Anthropic
- Google-Extended – usato da Google per bot come Gemini
- ByteSpider – utilizzato da ByteDance, l’azienda cinese dietro a TikTok per i prodotti di intelligenza artificiale in Cina
- PerplexityBot – utilizzato da Perplexity, uno strumento di ricerca di intelligenza artificiale
Le richieste contenute nei file robots.txt sono una sorta di invito rivolto ai crawler che chiede loro di non visitare determinate parti di un sito web. Si tratta di una richiesta facoltativa, il che significa che i crawler non sono obbligati a seguirla. È noto che alcuni crawler IA, tra cui PerplexityBot e ClaudeBot, ignorano queste richieste. Tuttavia, molti web crawler prestano attenzione ai file robots.txt quando decidono quali contenuti raccogliere.
NewsGuard ha rilevato che la maggior parte dei siti di “bassa qualità” e “media qualità” consente l’accesso a tutti i web crawler, mentre la maggior parte dei siti di notizie di “alta qualità” richiede ad almeno un crawler di non accedere ai propri contenuti.
- Dei 23 siti di “bassa qualità” (punteggio di affidabilità 0-60), il 91% ha consentito l’accesso a tutti i web crawler.
- Dei 63 siti di “media qualità” (punteggio di affidabilità 60-80), il 63% ha consentito l’accesso a tutti i web crawler.
- Dei 414 siti di “alta qualità” (punteggio di affidabilità 80-100), solo il 33% ha consentito l’accesso a tutti i web crawler, il che significa che il 67% ha bloccato l’accesso all’intelligenza artificiale.

Analizzando ciascuno dei sette web crawler presi in considerazione da NewsGuard, i siti di alta qualità sono stati più proattivi nel limitare l’accesso ai propri contenuti.
I siti di qualità superiore hanno chiesto a una media di tre crawler di non accedere ai loro contenuti. I siti di media qualità hanno fatto questo tipo di richiesta a una media di uno o due bot, mentre i siti di bassa qualità hanno fatto in media meno di una richiesta di questo tipo. Ad esempio, Yahoo.com e WashingtonPost.com, che hanno ottenuto un punteggio di affidabilità perfetto di 100/100 da NewsGuard, hanno bloccato tutti e sette i crawler.
Se si escludesse MSNBC.com (Punteggio di affidabilità: 49,5/100), un sito di “bassa qualità” che ha bloccato tutti e sette i crawler, il numero medio di richieste di blocco da parte di siti di bassa qualità scenderebbe quasi a zero (0,04).
Non tutti i dati sono uguali e, come abbiamo riportato in precedenza, i chatbot spesso “hanno le allucinazioni” o generano informazioni imprecise o false, a volte a causa della loro dipendenza da fonti di qualità inferiore.
Sebbene non sia possibile quantificare con precisione la frequenza con cui i chatbot IA si affidano a fonti di bassa qualità, i risultati di NewsGuard sollevano preoccupazioni sul potenziale di diffusione della misinformazione, sottolineando la necessità di controllare i dati utilizzati per addestrare questi strumenti.
Disclosure: NewsGuard concede in licenza i propri dati ad aziende di IA per aiutarle a migliorare l’affidabilità dei contenuti delle loro risposte.