So überzeugend sind Fake News von KI-Chatbots heute – doch das ist erst die Spitze des Eisbergs
Als Forscher:innen aus den USA 2021 zeigten, wie leicht es ist, mit GPT-3 Fake News und Hasspostings zu erzeugen, handelten sie mit ausdrücklicher Erlaubnis von OpenAI. Das Unternehmen argumentierte damals, solch ein Missbrauch sei rein hypothetisch, weil es den Zugang zu seinem Sprachmodell ja eng kontrolliere.
Ende 2023 hat ein slowakisch-tschechisches Team um Ivan Vykopal jedoch aktuelle, große Sprachmodelle genutzt, um zu Verschwörungsmythen passende, fiktive Nachrichtenmeldungen zu erfinden. „Wir hatten eigentlich erwartet, dass die Betreiber der großen Sprachmodelle einen gewissen Schutz installiert hätten“ sagt sagt Ivan Vykopal. „Aber das war nicht der Fall“.
„Die einzigen beiden LLMs, die nach der menschlichen Bewertung irgendwelche Sicherheitsmerkmale aufwiesen, waren Falcon und ChatGPT“, schreiben die Autoren. „Sie sind auch die beiden Modelle, die tendenziell nicht mit den Erzählungen übereinstimmen. Falcon filterte etwa 30 Prozent der Anfragen heraus. Alle anderen Modelle scheinen keine Sicherheitsfilter zu haben, die auf unseren Anwendungsfall anwendbar wären.“ Das einzige, was außerdem passierte war, dass die Forscher:innen eine automatisierte E-Mail erhielten, mit dem Hinweis, dass sie gegen die Nutzungsbedingungen von OpenAI verstoßen hätten und bei weiteren Verstößen ihr Zugang gesperrt würde.
Grenzen der fingierten Nachrichten
Was die „Qualität“ der Fake News anging, schnitten die Modelle von OpenAI dabei am besten ab. Allerdings machte sich auch hier die begrenzte Aktualität der Trainingsdaten bemerkbar: Wenn die Verschwörungsmythen, zu denen die Modelle etwas erfinden sollten, neuer als die Trainingsdaten waren, versagten die Modelle. So produzierte GPT-4, dessen Trainingsdaten Ende 2021 endeten, zwar fingierte Nachrichten zu bewaffneten Konflikten im Donbass, aber nicht zur russischen Invasion der Ukraine. Zum Teil ließen sich diese Fehler allerdings durch ausführliche Kontext-Infos in den Prompts ausgleichen.
Die einzig gute Nachricht bei dieser Studie: Die Forscher:innen fanden heraus, dass große Sprachmodelle sich nicht nur dazu eignen, Fake News zu erzeugen – sie können Fake News auch vergleichsweise gut erkennen und als Fälschung entlarven. Eine der – nicht trivialen – Aufgaben dabei ist zum Beispiel, zu erkennen welche Bestandteile einer Behauptung sich wirklich an Hand von Fakten überprüfen lassen. Eine vielversprechende Methode besteht darin, das Sprachmodell Fragen zu dem Prüftext formulieren zu lassen. Verglichen mit den bisher üblichen Methoden funktioniert das überraschend gut, genau wie die Identifizierung von Hatespeech.
„GPT-4 kann den Bewertungsprozess teilweise automatisieren und so skalierbare und wiederholbare Bewertungen für neue Modelle in der Zukunft erzeugen“, sagt Vykopal. „Wir glauben, dass solche automatischen Bewertungswerkzeuge in Zukunft zu einem Standard werden könnten, um zu überwachen und zu bewerten, wie gefährlich LLMs bei der Erzeugung von Desinformation sind“.
Wie wäre es mit dieser Fake News?
Die schlechte Nachricht: Das, was aktuell in Sachen Fake News und Desinformation läuft, ist nur die Spitze des Eisbergs. Denn bisher ist die Verbreitung von Fake News nur eine Einbahnstraße. Was aber passiert, wenn Sprachmodelle anfangen, uns die Fake News offensiv zu verkaufen?
Wenn Menschen glauben, dass eine KI hilfreich ist, steigert das nach einer Studie deren Glaubwürdigkeit und Überzeugungskraft. Dazu kommt: Rein technisch können große Sprachmodelle bereits jetzt die Wünsche und Bedürfnisse von Menschen „erkennen“ und ihren Output darauf anpassen (Ob die Modelle tatsächlich etwas erkennen und verstehen oder nicht, ist in der Wissenschaft stark umstritten. Zumindest verhalten sie sich aber so, als ob sie das getan hätten). Mit anderen Worten: Große Sprachmodelle neigen mindestens genauso stark wie Menschen dazu – wenn nicht sogar noch stärker – ihren Gesprächspartnern genau das zu sagen, was diese hören wollen. Das geht natürlich auch „auf Kosten der Faktentreue“, wie die Autor:innen dieser Untersuchung zur „Sycophancy“ von Sprachmodellen vermerken.
Forscher wie Pat Pataranutaporn vom MIT Media LAB warnen deshalb vor manipulativen KIs. In einer neuen Studie hat er herausgefunden, dass schon die relativ simple Tatsache, dass Sprachmodelle in der Lage sind, zu falschen Behauptungen auch frei erfundene, aber logisch klingende Begründungen zu liefern, die Glaubwürdigkeit von Falschinformationen vergrößert. Nehmen wir dann noch dazu, dass selbst OpenAI davor warnt, dass die neuen, synthetischen Stimmen von ChatGPT suchterzeugend wirken könnten, wird klar, dass wir in Sachen KI und Desinformation bisher noch nicht gesehen haben, was der Eisberg unter der Wasseroberfläche bereithält.