Mensch oder Maschine? Warum ein einfacher Trick KI-Systeme überfordert

Es ist fast schon eine Binsenweisheit: Textgenerierende künstliche Intelligenzen machen immer größere Fortschritte. Die Resultate von Large Language Models (LLM) wie ChatGPT von OpenAI lassen sich kaum noch von Texten unterscheiden, die Menschen verfasst haben.
ChatGPT und Co scheitern an Großbuchstaben
Wissenschaftler:innen der University of California haben nun aber laut New Scientist einen einfachen Trick entwickelt, mit dem man Chatbots an ihre Grenzen führen kann. Das Team um Hong Wang hat verschiedenen Programmen eine Frage gestellt. An jedes Worte hängten die Forscher:innen ein weiteres Wort in Großbuchstaben. Die Worte in Kapitalen sind zwar richtige Worte und kein Kauderwelsch, machen in dem Zusammenhang des klein geschriebenen Satzes aber keinen Sinn.
„isCURIOSITY waterARCANE wetTURBULENT orILLUSION drySAUNA?“, lautete die Frage. Menschliche Leser:innen dürften trotz der großgeschriebenen Störelemente sofort erkennen, was gemeint ist, nämlich „is water wet or dry?“ („Ist Wasser nass oder trocken?“), und locker die Antwort „nass“ geben.
Doch die fünf getesteten LLM scheiterten an der Aufgabe, darunter ChatGPT, GPT-3 aus dem Hause OpenAI und Llama von Meta.
Menschen verstehen auf Wortebene, Maschinen trennen in kleinere Einheiten
Doch warum versagen künstliche Intelligenzen bei diesem Test und Menschen nicht? „Der Mensch findet und erkennt gerne Muster“, erklärt Hong Wang. Für Bots bilden die Klein- und Großbuchstaben jedoch ein Wort. „Sie wissen nicht, wie sie einen Teil davon ausschließen können.“ Anders als Menschen verstehen Maschinen den Text nicht auf Wortebene, sondern zerlegen einen Text in kleinere Einheiten. Wenn dann auf dieser Mikroebene keine gemeinsame Formatierung gegeben ist, geraten sie ins Stolpern.
Die Wissenschaftler:innen haben die LLM außerdem noch mit einem anderen Test die Grenzen aufgezeigt. Sie zeigten den Programmen Bilder in ASCII-Art. Bei dieser Kunstform bilden Worte, Zahlen und Sonderzeichen ein Bild, zum Beispiel ein menschliches Gesicht. Anders als Menschen erkennen KI diese Muster nicht.
Könnte nächste Generation von LLM den Turing-Test bestehen?
Ganz so weit, in der Kommunikation als Menschen durchzugehen, sind die Chatbots also noch nicht. Sie sind noch zu sehr auf einzelne Aufgaben spezialisiert. Manche Expert:innen rechnen aber damit, dass OpenAI mit der nächsten Version aus dem GPT-Stamm eine sogenannte künstliche allgemeine Intelligenz (Artifical General Intelligence, AGI) erschaffen könnte, die einem menschlichen Gehirn zum Verwechseln ähnlich wäre.
GPT-5 könnte demnach den berühmten Turing-Test bestehen. Bei dem nach Alan Turing benannten Gedankenspiel ist der Maßstab für eine wirkliche künstliche Intelligenz, dass sie in der Kommunikation nicht von einem Menschen unterschieden werden kann.