A cura di Macrina Wang, Charlene Lin e McKenzie Sadeghi | Pubblicato il 29 gennaio 2025
Il nuovo chatbot dell’azienda cinese di intelligenza artificiale DeepSeek non è riuscito a fornire informazioni accurate su notizie e argomenti di attualità nell’83% dei casi, ottenendo il decimo posto, a pari merito con un altro chatbot, su 11 rispetto ai principali concorrenti occidentali, secondo quanto rilevato da un audit di NewsGuard. DeepSeek è stato in grado di smentire affermazioni dimostrabilmente false solo nel 17% dei casi.
DeepSeek, con sede a Hangzhou, nella Cina orientale, è stato reso disponibile al pubblico il 20 gennaio. In pochi giorni, il chatbot è salito al primo posto tra le applicazioni più scaricate nell’App Store di Apple, provocando un calo dei titoli delle aziende di tecnologia statunitensi e una frenesia generale per l’evoluzione della sfida tra Cina e Stati Uniti sull’intelligenza artificiale.
DeepSeek sostiene di avere prestazioni pari a quelle del suo rivale statunitense OpenAI, nonostante abbia dichiarato di aver speso solo 5,6 milioni di dollari per l’addestramento, rispetto alle centinaia di milioni di dollari che avrebbero speso i suoi concorrenti. DeepSeek ha attirato l’attenzione anche per il fatto di essere open source, il che significa che il suo codice è disponibile a chiunque per l’uso o la modifica.
Alla luce del lancio di DeepSeek, NewsGuard ha testato il chatbot cinese con gli stessi prompt utilizzati nel suo audit mensile sull’AI di dicembre 2024, per valutare le sue prestazioni rispetto ai concorrenti su possibili richieste degli utenti in merito ad argomenti di attualità. L’audit mensile di NewsGuard utilizza un campione di 10 Misinformation Fingerprint, il database proprietario di NewsGuard sulle principali affermazioni dimostrabilmente false che si diffondono online e i relativi debunking su argomenti che vanno dalla politica alla salute, dall’economia agli affari internazionali.
NewsGuard ha rilevato che, utilizzando prompt su temi di attualità, DeepSeek ha ripetuto le affermazioni false il 30% delle volte e non ha fornito risposte il 53% delle volte, con un tasso di errore complessivo dell’83%. L’audit di NewsGuard del dicembre 2024 sui 10 principali chatbot (ChatGPT-4o di OpenAI, Smart Assistant di You.com, Grok-2 di xAI, Pi di Inflection, le Chat di Mistral, Copilot di Microsoft, Meta AI, Claude di Anthropic, Gemini 2.0 di Google e il motore di risposta di Perplexity) aveva trovato un tasso di errore medio del 62%. Il tasso di errore di DeepSeek colloca il chatbot al decimo posto, insieme a un altro chatbot, tra gli 11 modelli testati.
(Mentre le percentuali complessive ottenute da questi 10 chatbot sono incluse di seguito, i risultati dei singoli modelli non sono stati resi pubblici a causa della natura sistemica del problema. DeepSeek è stato invece identificato per confrontare le prestazioni di questo nuovo chatbot con quelle dell’intero settore. Gli audit futuri includeranno tutti gli 11 modelli di IA senza nominarli singolarmente).
Il 28 gennaio 2025, NewsGuard ha inviato due email a DeepSeek per chiedere un commento su questi risultati, ma non ha ricevuto risposta.