10/03/2025
Russische Desinformation infiltriert westliche KI-Modelle – NewsGuard startet neuen Schutzservice für LLMs vor ausländischen Einflussoperationen
FAILSafe für KI-Unternehmen befähigt KI-Modelle dazu, ausländische Einflussoperationen zu erkennen und zu verhindern.
(März 11 – NEW YORK, NY) Nach Berichten über ein gut finanziertes pro-Kreml-Programm, das KI-Modelle mit falschen Behauptungen infiziert hat, die russische Interessen fördern, stellt NewsGuard heute seinen neuen Service Foreign Adversary Infection of LLMs Safety (FAILSafe) vor. Dieser soll KI-Modelle vor schädlichen ausländischen Einflussoperationen schützen, die darauf abzielen, KI-Antworten mit Hilfe von staatlich gesteuerter Desinformation und Propaganda zu verzerren.
FAILSafe stellt KI-Unternehmen Echtzeitdaten zur Verfügung, die von NewsGuards Desinformationsexperten mit Fokus auf ausländische Einflussoperationen verifiziert wurden. Der Service deckt anhand dieser Daten Narrative und Quellen auf, die an der Verbreitung von feindlichen Einflussoperationen durch die russische, chinesische und iranische Regierung beteiligt sind.
Eine akute Bedrohung für KI-Unternehmen
Ein russisches Desinformationsnetzwerk hat gezielt KI-Modelle mit falschen Informationen über russische Interessen infiziert, um russische Propaganda weltweit zu verbreiten. Statt einzelne Nutzer direkt zu täuschen, zielt dieses Netzwerk darauf ab, KI-Modelle mit falschen Behauptungen zu füttern. Dies wurde durch Recherchen von NewsGuard, Viginum, dem Digital Forensics Research Lab, Recorded Future, der Foundation for Defense of Democracies und dem European Digital Media Observatory aufgedeckt.
In einem Audit, der letzte Woche unter anderem von Axios, Forbes und TechCrunch veröffentlicht wurde, fanden NewsGuard-Analysten heraus, dass das russische Propagandanetzwerk Pravda erheblich gewachsen ist. Es ist mittlerweile in 49 Ländern aktiv, produziert Inhalte in Dutzenden Sprachen und betreibt über 150 Domains. Ziel ist es, das Internet mit propagandistischen Inhalten zu überschwemmen, die von KI-Modellen genutzt werden, um auf Nutzeranfragen zu antworten. Der kürzlich veröffentlichte Audit zeigt, dass russische Propaganda erfolgreich in führende westliche KI-Tools wie OpenAIs ChatGPT, Anthropics Claude, Googles Gemini und Microsofts Copilot integriert wurde.
Diese Infektion westlicher Chatbots wurde bereits im Januar von John Mark Dougan, einem flüchtigen US-Amerikaner und mittlerweile in Moskau ansässigen Propagandisten, angedeutet. In einem Vortrag vor russischen Beamten erklärte er: „Indem wir diese russischen Narrative aus der russischen Perspektive verbreiten, können wir die weltweite KI tatsächlich verändern“.
NewsGuards Audit zeigte, dass führende KI-Chatbots in 33 Prozent der Fälle die vom Pravda-Netzwerk verbreiteten Falschbehauptungen wiederholten – und damit Dougans Versprechen eines mächtigen neuen Verbreitungskanals für Kreml-Desinformation bestätigten. Diese falschen Narrative reichten von der Behauptung, dass die USA geheime Biowaffenlabore in der Ukraine betreiben, bis zur Unterstellung, der ukrainische Präsident Wolodymyr Selenskyj habe US-Militärhilfe missbraucht, um sich ein persönliches Vermögen anzuhäufen.
Operationen wie das Pravda-Netzwerk stellen eine neue und weitgehend unerforschte Bedrohung im Zusammenhang mit der schnellen Entwicklung von Künstlicher Intelligenz dar: die gezielte Manipulation von großen Sprachmodellen (LLMs) durch ausländische Einflussnetzwerke, mit dem Ziel die Antworten von KI-Chatbots zu beeinflussen.
Schutz von KI-Modellen vor ausländischen Einflussoperationen
Um dieser Bedrohung zu begegnen, stellt der FAILSafe-Service für KI-Unternehmen Echtzeitdaten zu Desinformationsnarrativen zur Verfügung, die von russischen, chinesischen und iranischen Einflussoperationen stammen. Zusätzlich stellt der Service eine kontinuierlich aktualisierte Datenbank von Webseiten und Accounts bereit, die genutzt werden um falsche Narrative in die Antworten von KI-Modellen einfließen zu lassen.
Der Service umfasst folgende Komponenten:
- Feed für ausländische Desinformationsnarrative: Ein kontinuierlich aktualisierter Datenstrom mit Informationen über falsche Narrative, die von russischen, chinesischen und iranischen Einflussoperationen verbreitet werden. Diese enthalten detaillierte Informationen zu den jeweiligen Narrativen, ihrer Verbreitungssprache, den Verbindungen zu spezifischen Einflussoperationen und den Quellen, in denen sie veröffentlicht wurden. KI-Unternehmen können diese Daten nutzen, um sicherzustellen, dass ihre Systeme diese Narrative nicht unbeabsichtigt in ihren Antworten wiedergeben.
- Datenbank für ausländische Einflussdomains: Eine kontinuierlich aktualisierte Datenbank von Webseiten, Social-Media-Konten, Plattform-Handles und anderen Publikationskanälen, die direkt an ausländischen Einflussoperationen beteiligt sind, wie etwa dem Pravda-Netzwerk. KI-Unternehmen können diese Daten verwenden, um sicherzustellen, dass ihre Modelle keine Inhalte von diesen Quellen übernehmen und nicht während ihren Retrieval Augmented Generation (RAG)-Workflows darauf zugreifen. NewsGuards Datenbank umfasst derzeit über 500 staatlich unterstützte Desinformationsnarrative, mit durchschnittlich drei neuen Narrativen pro Woche.
- Desinformations- und Propaganda-Stresstests: Regelmäßige Tests von KI-Produkten, um zu überprüfen, ob und in welchem Ausmaß russische, chinesische und iranische Desinformations- und Propagandanarrative in den generierten Antworten enthalten sind. Diese Tests werden von NewsGuards Desinformationsanalysten unter Verwendung eigener Daten zu bekannten Desinformationsnarrativen durchgeführt und können von KI-Unternehmen genutzt werden, um Schwachstellen in ihren Schutzmaßnahmen und Überwachungssystemen zu erkennen.
- Risko-Briefings zu ausländischer Desinformation: Kontinuierliche Überwachung und Warnmeldungen zu neuen und aufkommenden Desinformationskampagnen durch russische, chinesische und iranische Einflussoperationen. Diese Berichte helfen den Trust & Safety Teams von KI-Unternehmen, frühzeitig potenzielle Risikobedrohungen zu identifizieren und entsprechende Gegenmaßnahmen zu ergreifen.
NewsGuard’s Rating für das Pravda-Netzwerk russischer Desinformationsseiten.
Beispiel für einen ausländischen Desinformations-Narrativ.
FAILSafe wurde entwickelt, um ein wachsendes Risiko für KI-Unternehmen zu adressieren: die gezielte Manipulation generativer KI-Modelle durch ausländische Einflussoperationen. Mit den von NewsGuard bereitgestellten Daten können KI-Unternehmen Schutzmechanismen implementieren, um Desinformation und Propaganda in ihren Sytemen zu erkennen und zu verhindern.
„In unseren Gesprächen mit KI-Unternehmen hören wir immer wieder, dass Vertrauen sowohl eine der höchsten Prioritäten als auch eine der größten Herausforderungen für LLMs ist. Autoritäre Regierungen verschärfen diese Herausforderung zusätzlich, indem sie gezielt Schwachstellen von KI-Modellen ausnutzen, um Desinformation und Propaganda in Antworten einzuschleusen“, sagte Eric Martin, Vice President of AI Partnerships bei NewsGuard. „Wir haben FAILSafe für KI ins Leben gerufen, um KI-Unternehmen eine einfache, umfassende und leistungsstarke Lösung für dieses Problem zu bieten.“
Über NewsGuard
NewsGuard wurde von dem Medienunternehmer und preisgekrönten Journalisten Steven Brill und dem ehemaligen Herausgeber des Wall Street Journal, Gordon Crovitz, gegründet. Das Unternehmen bietet transparente Tools zur Bekämpfung von Fehlinformationen für Leser und Leserinnen, Marken und Demokratien. Seit dem Start im Jahr 2018 hat das globale Team aus geschulten Journalisten und Journalistinnen mehr als sieben Millionen Daten zu mehr als 35.000 Nachrichten- und Informationsquellen gesammelt, aktualisiert und veröffentlicht. So verfolgt und katalogisiert das Team Falschnachrichten, die sich online verbreiten.
NewsGuards Analysten und Analystinnen, die mit mehreren KI-Tools arbeiten, betreiben den bisher größten und transparentesten Datensatz zur Vertrauenswürdigkeit von Nachrichtenquellen. Diese Daten werden auch zur Präzisierung und Bereitstellung von Schutzmaßnahmen für generative KI-Modelle eingesetzt. Sie ermöglichen es Marken und Werbeagenturen zudem, auf hochwertigen Nachrichtenseiten zu werben und Propaganda- oder Desinformationsseiten zu vermeiden, und bieten Anleitungen zur Medienkompetenz für Einzelpersonen. Gleichzeitig unterstützen die Datensätze demokratische Regierungen bei der Bekämpfung feindlicher Desinformationsoperationen.
NewsGuards unpolitische und transparente Kriterien werden von NewsGuards Team unter anderem dazu verwendet, Nachrichtenquellen zu bewerten, die für 95 Prozent der Online-Nachrichtennutzung in neun Ländern verantwortlich sind.