DetectGPT findet heraus, ob ein Text von einem Menschen oder einer KI stammt

Viele freuen sich schon auf die Einführung von ChatGPT von OpenAI – und das nicht nur Privatpersonen. Auch Unternehmen wie Buzzfeed sehen dem KI-Sprachmodell enthusiastisch entgegen und wollen die KI nutzen, um „Inhalte zu kreieren, zu personalisieren und zu animieren“.
Doch es gibt auch Kritiker:innen, die bemängeln, dass die Software missbraucht werden würde, um bei Tests in der Schule oder an der Uni zu schummeln. Die KI soll laut einer Studie sogar wissenschaftliche Gutachter:innen täuschen können. Aus diesem Grund hat die Pariser Elite-Universität Sciences Po die Nutzung von ChatGPT sogar verboten.
DetectGPT soll KI-Content entlarven
Forscher der Standford University haben nun eine neue Methode entwickelt, die KI-kreierte Texte von Large Language Models wie ChatGPT auf Anhieb erkennen soll. DetectGPT wurde eigens zu dem Zweck entwickelt, um Lehrer:innen, Journalist:innen und Bürger:innen darüber zu informieren, wann sie Texte lesen, die von einer KI und nicht von einem Menschen generiert wurden.
Das Besondere an DetectGPT
DetectGPT muss für eine Textanalyse noch nicht mal trainiert werden, denn das würde eine riesige Datenmenge benötigen. Die Wissenschaftler:innen gehen nämlich davon aus, dass hinter der Funktionsweise von ChatGPT und ähnlichen ein Modell steht, das sich vom menschlichen Verfassen von Texten mathematisch klar unterscheiden lässt.
Die Software soll zwischen einer negativen und einer positiven Krümmung der logarithmischen Wahrscheinlichkeitsfunktion unterscheiden können. Laut den Forscher:innen analysiert DetectGPT den eingegebenen Text auf mathematische Auffälligkeiten, wobei das Tool davon ausgeht, dass ein maschinell erstellter Text negative Krümmungsbereiche einnimmt.
So funktioniert das Tool
Mitchell erkannte, dass seine Idee mit den gängigen Open-Source-Modellen getestet werden könnte, einschließlich derer, die über die API von OpenAI verfügbar sind. DetectGTP verwendet also einfach das LLM, das aller Wahrscheinlichkeit nach den zu prüfenden Text erzeugt hat, um seine eigenen Ausgaben zu erkennen. Im Grunde genommen wird dabei ein LLM gefragt, wie sehr er eine Textprobe „mag“, sagt Mitchell.
Und dabei geht es nicht darum, festzustellen, welche Präferenzen das Sprachmodell hat, sondern vielmehr darum, zu erkennen, ob der Text von dem jeweiligen LLM stammt. „Wenn er ihm sehr gefällt, dann stammt er höchstwahrscheinlich von dem Modell. „Wenn er ihm nicht gefällt, wurde er nicht von diesem Modell verfasst.“ Und dieser Ansatz funktioniert laut Mitchell ziemlich gut. „Es ist viel besser als zufälliges Raten.“
Wie das Tool zwischen den Texten unterscheidet
Bei den Tests werteten Mitchell und seine Kolleg:innen aus, wie sehr verschiedene öffentlich zugängliche LLMs von Menschen erstellte Texte sowie ihre eigenen Texte, einschließlich gefälschter Nachrichtenartikel und akademischer Aufsätze, mochten. Es wurde ebenfalls bewertet, wie die LLMs im Durchschnitt auf 100 Störfaktoren in den Texten eines LLM oder eines von Menschen erstellten Textes reagierten.
Als das Team den Unterschied zwischen diesen beiden Zahlen für KI-erstellte Texte aufzeichnete und mit denen von Menschen erstellten Texten verglich, wurden ihm zwei Glockenkurven angezeigt, die kaum überlappten.
„Anhand dieser einen Zahl können wir ziemlich gut zwischen den Quellen der Texte unterscheiden“, sagt Mitchell. „Wir erhalten ein viel zuverlässigeres Ergebnis verglichen mit Methoden, die einfach nur messen, wie sehr das Modell den Originaltext mag.“
Wann wird DetectGTP verfügbar sein?
Zwar ist noch keine offizielle Version von DetectGTP zu haben, doch Eric Mitchell hat auf seiner Webseite bereits eine Demo zum Projekt veröffentlicht.
Leider wird hier im Artikel nicht erwähnt das das Modell auf GPT2 zugeschnitten ist. ChatGPT verwendet GPT3 und die aktuelle Bing-Chat Version bereits GPT4. Je fortgeschrittener die Version, desto komplizierter die Möglichkeit es zu erkennen.
Darüber hinaus hat z.B. bereits Wharton Professor Ethan Mollick gezeigt wie kluge Prompts das erkennen noch einmal deutlich schwieriger machen.
Er sagt: „Die Menschen werden in ein falsches Sicherheitsgefühl hinsichtlich der Qualität der KI-generierten Arbeit eingelullt, weil sie nur die minderwertige und aufwandsarme KI-Arbeit bemerken.“
Siehe: https://twitter.com/emollick/status/1626712204182687744