67% der Top-Nachrichten-Webseiten blockieren den Zugriff auf ihre Inhalte für KI-Chatbots: Ein Risiko für Fehlinformationen

Image via iStock

67% der Top-Nachrichten-Webseiten blockieren den Zugriff auf ihre Inhalte für KI-Chatbots: Ein Risiko für Fehlinformationen

Viele führende Nachrichtenportale fordern, dass KI-Chatbots blockiert werden. Das hat zur Folge, dass Chatbots häufiger auf minderwertige Quellen zurückgreifen müssen, die anfällig für Fehlinformationen sind.

Von Jack Brewster, Zack Fishman, und Isaiah Glick | Veröffentlicht am 16. September 2024

Im technischen Bereich gibt es das Sprichwort „Garbage in, garbage out“ (wörtlich: Müll rein, Müll raus), das besagt: Schlechte Daten führen zu schlechten Ergebnissen.

Gleiches gilt für die Genauigkeit von KI-Chatbots. Eine Analyse von NewsGuard zeigt, dass 67 Prozent der von NewsGuard als qualitativ hochwertig eingestuften Nachrichtenseiten KI-Modellen den Zugang zu ihren Inhalten verwehren. Das führt dazu, dass die KI-Modelle verstärkt auf minderwertige Nachrichtenquellen zurückgreifen müssen, die Chatbots die Nutzung ihrer Inhalte erlauben. Diese Tatsache trägt dazu bei, dass Chatbots oft falsche oder irreführende Informationen verbreiten.

Eine NewsGuard-Analyse der 500 meistbesuchten Nachrichtenseiten zeigt, dass Webseiten mit niedrigen NewsGuard-Bewertungen – also Seiten, die nach NewsGuards Einschätzung eher falsche oder irreführende Informationen enthalten – mit höherer Wahrscheinlichkeit in die Trainingsdaten von KI-Modellen aufgenommen werden. Das liegt daran, dass diese Seiten seltener sogenannte Webcrawler abwehren, die Daten für KI-Chatbots sammeln. Hochwertige Nachrichtenseiten hingegen setzen zunehmend darauf, den Zugriff von diesen Crawlern abzuwehren, solange die KI-Unternehmen keine Lizenzen für ihre Inhalte bezahlen.

Das bedeutet, dass die weltweit führenden Chatbots vermutlich häufiger auf weniger vertrauenswürdige Quellen zurückgreifen, als es bei einer herkömmlichen Websuche der Fall wäre. Da die Unternehmen, die diese Chatbots betreiben, jedoch nicht offenlegen, wie sie ihre Daten beziehen oder verwenden, bleibt auch unklar, aus welchen Quellen ihre Antworten stammen. Desinformationswebseiten aus Ländern wie Russland, China und dem Iran, ebenso wie Webseiten mit verschwörungstheoretischen Inhalten und solche, die Gesundheitsmythen verbreiten oder mit unbewiesenen Heilmitteln werben, bieten ihre Inhalte bereitwillig an. Qualitativ hochwertige Nachrichtenseiten hingegen verlangen, dass KI-Unternehmen sie für die Nutzung ihres Journalismus bezahlen, bevor ihre Inhalte zum Training von KI-Modellen genutzt werden können.

Einige Beispiele für minderwertige Seiten, die Chatbots nicht daran hindern, ihre Inhalte zu verwenden, sind The Epoch Times (NewsGuard-Bewertung: 17,5/100), ZeroHedge (NewsGuard-Bewertung: 15/100), ein Finanzblog, der haltlose Verschwörungstheorien verbreitet, und Bipartisan Report (NewsGuard-Bewertung: 57,5/100), eine Webseite, die Nachrichten und Meinungen regelmäßig vermischt, ohne ihre politische Agenda offenzulegen. Zu den hochwertigen Webseiten, die Chatbots auffordern, ihre Inhalte zu meiden, gehören NBCNews.com (NewsGuard-Bewertung: 100/100), Spiegel.de (NewsGuard-Bewertung: 100/100) und TheGuardian.com (NewsGuard-Bewertung: 100/100).

Ein wachsender Trend: Die Forderung, Webcrawler zu blockieren

Einige Nachrichtenverlage gehen inzwischen weiter und klagen gegen KI-Firmen. So hat die New York Times (NewsGuard-Bewertung: 87,5/100) im Dezember 2023 beispielsweise Klage gegen OpenAI und Microsoft wegen Urheberrechtsverletzung eingereicht. Der Grund: Die Unternehmen trainieren ihre Chatbots mit Artikeln der Zeitung, ohne eine kommerzielle Vereinbarung getroffen zu haben. Die New York Times blockiert inzwischen den Zugang zu ihrem Journalismus für Webcrawler.

Chatbots verwenden Daten aus dem gesamten Internet, um Fragen zu beantworten und Konversationen zu führen. Webcrawler, die systematisch Webseiten durchsuchen und Informationen sammeln, sind ein wesentlicher Bestandteil dieses Prozesses. Sie scannen Webseiten und sammeln Informationen, um die Datenbanken aufzubauen, die KI-Chatbots verwenden.

Immer mehr Nachrichtenseiten verlangen jedoch, dass diese Crawler sie übergehen, entweder um ihre Inhalte zu schützen und deren Nutzung zu kontrollieren oder um sie direkt an KI-Unternehmen zu lizenzieren und Einnahmen zu erzielen.

Hochwertige Nachrichtenseiten blockieren Webcrawler, während minderwertige Seiten vollen Zugriff gewähren

NewsGuards Analyse zeigt einen beunruhigenden Trend: Viele hochwertige Nachrichtenseiten ergreifen Maßnahmen, um ihre Inhalte vor Webcrawlern zu schützen, während minderwertige Seiten diesen Bots nach wie vor freien Zugang zu ihren Inhalten gewähren. Für die Analyse überprüfte NewsGuard eine Liste der 500 meistbesuchten Nachrichtenseiten über einen Zeitraum von 90 Tagen. Diese Seiten wurden nach ihren NewsGuard-Bewertungen in drei Kategorien eingeteilt: niedrige Qualität(0–60), mittlere Qualität(60–80) und hohe Qualität (80–100).

Daraufhin überprüften NewsGuards Analyst:innen die „robots.txt“-Datei jeder Webseite, die angibt, welche Bereiche einer Webseite Webcrawler durchsuchen dürfen. Besonders untersucht wurde, wie diese Dateien auf sieben gängige Crawler reagieren, die Daten für KI-Chatbots sammeln:

CCBot – verwendet von vielen Open-Source-Bots, darunter auch die von Meta (Eigentümer von Facebook)
GPTBot – verwendet von OpenAI, dem Entwickler von ChatGPT
ClaudeBot – verwendet von Anthropic, einem KI-Forschungsunternehmen
Anthropic-ai – ebenfalls von Anthropic verwendet
Google-Extended – verwendet von Google für Bots wie Gemini
ByteSpider – verwendet von ByteDance, dem Unternehmen hinter TikTok, für KI-Produkte in China
PerplexityBot – verwendet von Perplexity, einem KI-Suchwerkzeug

Die „robots.txt“-Dateien sind wie höfliche Bitten an Webcrawler, bestimmte Bereiche einer Webseite nicht zu besuchen. Die Befolgung dieser Anweisungen ist jedoch optional, und einige KI-Crawler, wie PerplexityBot und ClaudeBot, ignorieren die Aufforderungen. Viele Webcrawler achten jedoch auf robots.txt-Dateien, wenn sie entscheiden, welche Inhalte sie sammeln.

NewsGuard stellte fest, dass die meisten Webseiten der Kategorien “niedriger” und “mittlerer Qualität” allen Webcrawlern Zugriff gestatten, während die meisten Nachrichtenseiten mit “hoher Qualität” mindestens einem Crawler den Zugriff verweigern.

Von den 23 Webseiten mit “niedriger Qualität” (NewsGuard-Bewertungen 0-60) erlaubten 91 Prozent allen Webcrawlern den Zugriff.
Von den 63 Webseiten mit „mittlerer Qualität“ (Vertrauensbewertungen 60–80) erlaubten 63 Prozent allen Webcrawlern den Zugriff.
Von den 414 Webseiten mit „hoher Qualität“ (NewsGuard-Bewertungen 80–100) erlaubten nur 33 Prozent allen Webcrawlern den Zugriff – das bedeutet, dass 67 Prozent den KI-Zugriff blockierten.

Betrachtet man jeden der sieben von NewsGuard analysierten Webcrawler, so waren hochwertige Webseiten proaktiver bei der Beschränkung des Zugangs.

Im Durchschnitt blockierten hochwertige Webseiten drei der sieben untersuchten Crawler, mittelmäßige Seiten ein bis zwei Crawler, und Webseiten mit niedriger Qualität im Schnitt kaum einen Webcrawler. So haben Yahoo.com und WashingtonPost.com, beide mit einer NewsGuard-Bewertung von 100/100, den Zugriff für alle sieben Crawler gesperrt.

Würde man MSNBC.com (NewsGuard-Bewertung: 49,5/100) – eine Webseite mit „niedriger Qualität“, die alle sieben Crawler blockiert – ausschließen, würde die durchschnittliche Anzahl der Blockierungen durch Webseiten mit niedriger Qualität auf fast Null (0,04) sinken.

Nicht alle Daten sind gleichwertig. Wie wir in einem früheren Report berichtet haben, „halluzinieren“ Chatbots oft oder generieren ungenaue oder falsche Informationen – manchmal aufgrund ihrer Abhängigkeit von Quellen geringerer Qualität.

Obwohl es nicht möglich ist, genau zu quantifizieren, wie oft KI-Chatbots auf minderwertige Quellen zurückgreifen, geben die Ergebnisse von NewsGuard Anlass zur Besorgnis über die potenzielle Verbreitung von Fehlinformationen und unterstreichen die Notwendigkeit einer genauen Prüfung der Daten, die zum Training dieser Tools verwendet werden.

Offenlegung: NewsGuard lizenziert seine Daten an KI-Unternehmen, um die Qualität ihrer Antworten zu verbessern.