Par Macrina Wang, Charlene Lin et McKenzie Sadeghi | Publié le 29 janvier 2025
Le nouveau chatbot de la société chinoise d’intelligence artificielle DeepSeek ne réussit pas à fournir des informations exactes sur l’actualité et l’information dans 83% des cas, ce qui le place en 10e position ex aequo sur 11 par rapport à ses principaux concurrents occidentaux, selon un audit de NewsGuard. Le chatbot ne dément des affirmations manifestement fausses que dans 17% des cas.
DeepSeek, une société basée à Hangzhou, a rendu son chatbot accessible au public le 20 janvier. En quelques jours, celui-ci est devenu l’application la plus téléchargée de l’App Store d’Apple, provoquant une chute des actions des sociétés technologiques américaines et des craintes quant à l’évolution de la course à l’armement dans l’IA entre la Chine et les États-Unis.
DeepSeek affirme avoir des performances comparables à celles de son rival américain OpenAI, mais n’avoir dépensé que 5,6 millions de dollars en entraînement de son modèle, soit une fraction des centaines de millions de dollars dépensés par ses concurrents. DeepSeek a également attiré l’attention en raison de son modèle open source, ce qui signifie que son code sous-jacent peut être utilisé ou modifié par quiconque.
Après le lancement de DeepSeek, NewsGuard a présenté au chatbot chinois les mêmes requêtes que celles utilisées dans son audit de décembre 2024 de la mésinformation générée par IA, afin d’évaluer ses performances par rapport à ses concurrents sur les “prompts” que les utilisateurs pourraient utiliser en lien avec l’actualité. Le rapport mensuel d’audit de l’IA de NewsGuard utilise un échantillon de 10 Misinformation Fingerprints (ou Empreintes de la Mésinformation) – la base de données de NewsGuard recensant les principales affirmations fausses dans l’actualité et leurs réfutations sur des sujets allant de la politique à la santé, en passant par l’économie et les affaires internationales.
NewsGuard a constaté qu’avec des requêtes liées à l’actualité, DeepSeek répétait de fausses affirmations dans 30% des cas et fournissait des non-réponses dans 53% des cas, donnant donc un taux d’échec de 83%. L’audit réalisé par NewsGuard en décembre 2024 sur les 10 principaux chatbots (ChatGPT-4o d’OpenAI, Smart Assistant de You.com, Grok-2 de xAI, Pi d’Inflection, le Chat de Mistral, Copilot de Microsoft, Meta AI, Claude d’Anthropic, Gemini 2.0 de Google et le moteur de réponses de Perplexity) a révélé qu’ils avaient un taux d’échec moyen de 62%. Le taux d’échec de DeepSeek le place à la 10e place ex aequo sur les 11 modèles d’IA testés.
(Bien que les pourcentages globaux de ces 10 chatbots soient indiqués ci-dessous, les résultats des différents modèles d’IA ne sont pas rendus publics en raison de la nature systémique du problème. DeepSeek est cité afin de comparer les performances de ce nouvel entrant à celles de l’ensemble du secteur. Les prochains audits ne nommeront pas les 11 modèles d’IA testés).
Le 28 janvier 2025, NewsGuard a envoyé deux emails à DeepSeek cherchant à obtenir des commentaires au sujet de ces observations, mais ces emails sont restés sans réponse.