KI-generierte Texte zu erkennen, ist nicht immer ganz einfach. Zwar gibt es künstliche Intelligenzen, bei denen die Texte ziemlich offensichtlich KI-generiert sind, doch es gibt auch KI-Tools, die ziemlich menschlich schreiben. Aber selbst diese Tools lassen sich laut einer Studie von Forscher:innen der Universität Tübingen und der Northwestern University in Illinois enttarnen. Denn sie nutzen einige Wörter häufiger als andere.
Diese Wörter verraten KI-Texte
Um herauszufinden, welche Wörter besonders häufig von künstlichen Intelligenzen genutzt werden, haben die Wissenschaftler:innen sämtliche Kurzreferate der Datenbank Pubmed heruntergeladen, die bis Ende Juni 2024 erschienen sind. Nun konnten die Wissenschaftler:innen die Anzahl jedes Wortes für das jeweilige Jahr feststellen. Das Ergebnis: Seit der weiten Verfügbarkeit von KI treten bestimmte Wörter deutlich häufiger auf – und lassen deshalb auf eine gemeinsame KI-Quelle schließen.
So trat das Wort „delves“ (zu Deutsch: erforschen, vertiefen) etwa 25-mal so häufig auf wie vor dem Beginn der KI-Ära. Die Wörter „showcasing“ (zu Deutsch: präsentieren) und „underscores“ (zu Deutsch: unterstreichen) kommen etwa neunmal häufiger vor, seitdem einige Referate auf KI-generierte Texte zurückgreifen. Neben diesen Wörtern gab es auch noch „potential“ (Potenzial), „findings“ (Ergebnisse) und „crucial“ (ausschlaggebend, bedeutend), die mehrere Prozentpunkte in ihrer Häufigkeit nach oben geschossen sind.
Die Forscher:innen sind sich bewusst, dass solche Änderungen auch an der natürlichen Evolution der Sprache liegen könnten. Um das zu widerlegen, haben sie sich andere rasante Wortanstiege angeschaut, die in den vergangenen Jahren vorgekommen sind. Das Ergebnis: Ähnliche Anstiege gab es nur durch gravierende Ereignisse wie die Corona-Pandemie zwischen 2020 und 2022 sowie Ebola-Ausbrüche im Jahr 2015 und das Zika-Virus im Jahr 2017.
Sämtliche Wörter, die von den Forscher:innen in ihrer Studie entdeckt wurden, lassen sich nicht auf solche globalen Events zurückführen. Aufgrund ihrer Forschung gehen die Wissenschaftler:innen davon aus, dass rund zehn Prozent der Kurzreferate nach 2022 mit der Hilfe von KI erstellt wurden – sei es komplett oder nur teilweise. Die Forscher:innen gehen davon aus, dass die Zahl der KI-generierten Texte sogar noch höher ist. Andere Wissenschaftler:innen könnten die Füllwörter der KI erkannt haben und diese vor der Veröffentlichung entfernen, um die KI-Nutzung zu verschleiern.