Sprache der KI: Welche Wörter entlarven künstlich generierte Texte?

News

Forscher:innen haben in einer Studie herausgefunden, dass künstliche Intelligenzen bestimmte Wörter besonders häufig nutzen. Laut den Wissenschaftler:innen können KI-generierte Texte dadurch leichter erkannt werden.

Von Marvin Fuhrmann

13.07.2024, 08:30 Uhr • 2 Min.

Sprache der KI: Welche Wörter entlarven künstlich generierte Texte? — Oft ist es schwierig, einen KI-generierten Text zu erkennen. Doch laut Forscher:innen geben einige Wörter die Quelle preis. (Foto: Ascannio / Shutterstock)

KI-generierte Texte zu erkennen, ist nicht immer ganz einfach. Zwar gibt es künstliche Intelligenzen, bei denen die Texte ziemlich offensichtlich KI-generiert sind, doch es gibt auch KI-Tools, die ziemlich menschlich schreiben. Aber selbst diese Tools lassen sich laut einer Studie von Forscher:innen der Universität Tübingen und der Northwestern University in Illinois enttarnen. Denn sie nutzen einige Wörter häufiger als andere.

Diese Wörter verraten KI-Texte

Um herauszufinden, welche Wörter besonders häufig von künstlichen Intelligenzen genutzt werden, haben die Wissenschaftler:innen sämtliche Kurzreferate der Datenbank Pubmed heruntergeladen, die bis Ende Juni 2024 erschienen sind. Nun konnten die Wissenschaftler:innen die Anzahl jedes Wortes für das jeweilige Jahr feststellen. Das Ergebnis: Seit der weiten Verfügbarkeit von KI treten bestimmte Wörter deutlich häufiger auf – und lassen deshalb auf eine gemeinsame KI-Quelle schließen.

Empfehlungen der Redaktion

MIT Technology Review News

KI-Tool erkennt Lügen besser als der Mensch – und sorgt für einen überraschenden Effekt

MIT Technology Review In eigener Sache

ChatGPT-Moment? Wie KI die Robotik beflügelt

News

KI für alle: Warum ihr die kostenlosen Online-Kurse der Uni Helsinki nicht verpassen solltet

So trat das Wort „delves“ (zu Deutsch: erforschen, vertiefen) etwa 25-mal so häufig auf wie vor dem Beginn der KI-Ära. Die Wörter „showcasing“ (zu Deutsch: präsentieren) und „underscores“ (zu Deutsch: unterstreichen) kommen etwa neunmal häufiger vor, seitdem einige Referate auf KI-generierte Texte zurückgreifen. Neben diesen Wörtern gab es auch noch „potential“ (Potenzial), „findings“ (Ergebnisse) und „crucial“ (ausschlaggebend, bedeutend), die mehrere Prozentpunkte in ihrer Häufigkeit nach oben geschossen sind.

Die Forscher:innen sind sich bewusst, dass solche Änderungen auch an der natürlichen Evolution der Sprache liegen könnten. Um das zu widerlegen, haben sie sich andere rasante Wortanstiege angeschaut, die in den vergangenen Jahren vorgekommen sind. Das Ergebnis: Ähnliche Anstiege gab es nur durch gravierende Ereignisse wie die Corona-Pandemie zwischen 2020 und 2022 sowie Ebola-Ausbrüche im Jahr 2015 und das Zika-Virus im Jahr 2017.

Sämtliche Wörter, die von den Forscher:innen in ihrer Studie entdeckt wurden, lassen sich nicht auf solche globalen Events zurückführen. Aufgrund ihrer Forschung gehen die Wissenschaftler:innen davon aus, dass rund zehn Prozent der Kurzreferate nach 2022 mit der Hilfe von KI erstellt wurden – sei es komplett oder nur teilweise. Die Forscher:innen gehen davon aus, dass die Zahl der KI-generierten Texte sogar noch höher ist. Andere Wissenschaftler:innen könnten die Füllwörter der KI erkannt haben und diese vor der Veröffentlichung entfernen, um die KI-Nutzung zu verschleiern.