„Von KI geschriebene Texte können potenziell schädlich sein, wenn sie zur Verbreitung von Fehlinformationen oder zur Manipulation der Überzeugungen oder des Verhaltens von Menschen verwendet werden.“ Dieses Zitat stammt nicht von einem Experten, sondern von ChatGPT. Der KI-Chatbot von OpenAI hat damit tatsächlich recht. Leider ist das aber längst nicht immer der Fall.
ChatGPT kann zwar zu jedem Thema einen Text schreiben, da die KI aber nicht wirklich versteht, was sie da schreibt, produziert sie prinzipbedingt leider bisweilen auch völligen Unfug. Der kann aber durchaus glaubwürdig klingen. Problematisch wird das vor allen dann, wenn so erzeugte Texte nicht als KI-generierte Inhalte gekennzeichnet sind.
ChatGPT: Menschen tun sich mit der Erkennung schwer
„In einer Untersuchung über die menschliche Bewertung von maschinell erzeugtem Text wurde festgestellt, dass ungeschulte menschliche Prüfer maschinell erzeugten Text aus GPT-3 in einem Maße korrekt identifizieren konnten, das dem Zufall entspricht“, hieß es in einer Untersuchung aus dem Jahr 2020. Sprich: Man könnte genauso gut per Münzwurf entscheiden, ob ein Text von einer KI generiert wurde.
Immerhin konnte die Erkennungsrate durch etwas Training auf 55 Prozent erhöht werden. Wirklich großartig ist die Trefferquote allerdings nicht. Zumal neuere Sprachmodelle wie GPT-4 oder Claude 3 deutlich überzeugendere Texte generieren als das in der Untersuchung genutzte GPT-3.
Katz-und-Maus-Spiel: KI gegen KI
Erfolgversprechender ist die KI-gestützte Erkennung maschinell erzeugter Texte. Dabei wird die Technik gegen sich selbst eingesetzt. Abhängig von verschiedenen Faktoren kann dabei eine Erkennungsrate von über 90 Prozent erreicht werden.
Allerdings dürfte es in der Realität deutlich schwieriger sein. Wer wirklich verhindern will, dass ein KI-generierter Text als solcher erkannt wird, kann seine Modelle entsprechend anpassen. Auch OpenAI erklärte schon 2019 in einem Paper über die Problematik, dass die automatisierte Erkennung von KI-Texten letztlich auf ein Katz-und-Maus-Spiel hinauslaufen dürfte, bei dem beide Seiten immer wieder nachbessern müssen.
Forschung entwickelt immer neue Ansätze für die KI-Texterkennung
Während große Sprachmodelle immer überzeugendere Ergebnisse liefern, entwickelt die Forschung neue Methoden, um damit erstellte Texte als solche zu entlarven. Die verfolgen dabei recht unterschiedliche Ansätze. Während frühere Erkennungssystem häufig an KI-generierten Texten trainiert wurden, führt das mittlerweile immer weniger zu einer vernünftigen Erkennungsrate.
Ein im März 2024 von Forscher:innen des für seine Atomwaffenforschung bekannten Lawrence Livermore National Laboratory und dem US-Verteidigungsministerium veröffentlichten Paper schlägt daher einen anderen Weg vor. Hier werden dieselben Erkennungsmerkmale herangezogen, mit denen auch unterschiedliche menschliche Autor:innen voneinander unterschieden werden.
Das im selben Monat vorgestellte Projekt Eagle wiederum nutzt eine Auswertung bekannter Trainingsdaten älterer großer Sprachmodelle, um auch mit neueren Modellen erstellte Texte als solche zu entlarven. Das funktioniert laut den beteiligten Wissenschaftler:innen auch bei GPT-4 und Claude gut.
Einen weiteren interessanten Ansatz haben die Informatik-Professoren Junfeng Yang und Carl Vondrick unter dem Namen Raidar (geneRative AI Detection viA Rewriting) vorgestellt. Bei ihrer Methode nutzen sie ein interessantes Phänomen von großen Sprachmodellen aus. Denn wenn die dazu aufgefordert werden, mit KI erstellte Texte umzuschreiben, ändern sie laut den Forschern meist weniger am Text, als wenn der von einem Menschen geschrieben wurde.
Auf Basis dieser Erkenntnis analysiert Raidar im Anschluss den umformulierten Text und soll so um bis zu 29 Prozent besser als bisherige Methoden erkennen, ob der Ausgangstext von einer KI oder einem Menschen stammt. Außerdem soll Raidar auch bei sehr kurzen Texten – also beispielsweise Social-Media-Beiträgen oder Produktbewertungen – gute Ergebnisse liefern.
Das Problem mit KI-generierten Texten
Trotz Fortschritten bei der Erkennung von KI-generierten Texten dürfte es auf absehbare Zeit keine perfekte Lösung geben. Nicht zuletzt, weil auch die großen Sprachmodelle immer besser werden.
Gleichzeitig schlagen automatisierte Erkennungssysteme auch immer wieder bei eigentlich von Menschen verfassten Texten Alarm. Das wiederum kann beispielsweise für eigentlich unschuldige Student:innen für ernste Probleme sorgen.
Hinzu kommt, dass es auf den sozialen Netzwerken bis dato keine solchen Prüfungssysteme gibt. Und genau dort dürften im Wahljahr 2024 wieder viele KI-generierte Desinformationen gestreut werden.
Dieser Text aus dem Jahr 2022 wurde im April 2024 grundlegend überarbeitet.