Wie oft steckt das E im Wort Erdbeere? Deshalb scheitern KI-Modelle so oft an einer simplen Frage
Wie häufig kommt der Buchstabe E in dem Wort Erdbeere vor? Abhängig vom verwendeten KI-Modell erhaltet ihr auf diese Frage sehr unterschiedliche Antworten. GPT-3.5 Turbo ist überzeugt, die Antwort lautet eins. Claude 3.5 wiederum will drei Es in Erdbeere gefunden haben, und nur GPT-4o liefert uns bei einem kurzen Test die korrekte Antwort.
Aber warum tun sich große Sprachmodelle, die zu nahezu jedem Thema umfangreiche Texte generieren können, mit einer so simplen Frage schwer? Das hängt mit der grundlegenden Funktionsweise dieser Modelle zusammen. Denn während wir Menschen Wörter aus Buchstaben zusammensetzen, funktioniert das Ganze bei KI-Modellen anders.
KI und die Sprache: Alles eine Frage der Token
Die geschriebene Sprache lernen wir Menschen im Grunde alle auf dieselbe Art und Weise. Als Kind lernen wir zunächst das Alphabet. Erst danach lernen wir, wie wir unterschiedliche Wörter aus diesen Buchstaben bilden können.
Die Transformer-Architektur, die als Grundlage für alle großen Sprachmodelle dient, verarbeitet hingegen grundsätzlich nur numerische Daten – und keinen Text. Damit die Modelle aber dennoch Texte verarbeiten können, bedienen sich GPT und Co. sogenannter Token. Ein Token ist ein ganzzahliger Wert, der für einen einzelnen Buchstaben oder auch eine kurze Buchstabenkette stehen kann. Und genau da liegt das Problem.
Wenn ihr in einem KI-Prompt das Wort Erdbeere verwendet, wird das zunächst in eine Reihe von Token umgewandelt. Im Fall von OpenAIs GPT-4 wird das Wort beispielsweise in vier Token aufgeteilt. Die lauten: E, rd, be und ere. Alle vier Token entsprechen wiederum einem eigenen Zahlenwert, mit denen das KI-Modell dann arbeiten kann.
Während das Wort Erdbeere für uns ganz klar aus acht Buchstaben besteht, von denen vier der Buchstabe E sind, besteht das Wort aus Sicht von GPT-4 aus den Token-IDs 36, 6.634, 1.395 und 486. Damit wiederum kann das Sprachmodell etwas anfangen, weil es die statistische Verbindung dieser Token untereinander antrainiert bekommen hat, um so den jeweils nächsten Token in einer Reihe zu erzeugen.
Wobei die obigen Werte auch nur dann stimmen, wenn die Ein- oder Ausgabe wirklich nur das Wort Erdbeere umfassen würde. Bei der eingangs genannten Frage – „Wie häufig kommt der Buchstabe E in dem Wort Erdbeere vor?“ – sähe es schon wieder anders aus.
Der gesamte Satz besteht bei dem von OpenAI für GPT-4 genutzten Verfahren zur Token-Erstellung aus 17 Token. Das Wort Erdbeere kommt in dem Fall nur auf drei, wobei der Erste aus einem Leerzeichen und der Silbe Erd besteht. Die anderen beiden – be und ere – wiederum entsprächen dem vorherigen Beispiel.
KI-generierte Texte und menschliches Sprachverständnis
Die Beispiele zeigen, dass die Art und Weise, wie große Sprachmodelle Texte verarbeiten, grundlegend davon abweicht, wie unsere Gehirne diese Texte verarbeiten. Letztlich auch deswegen, weil wir (idealerweise) die Bedeutung jedes einzelnen Wortes kennen, das wir verwenden.
Für große Sprachmodelle existieren hingegen lediglich statistische Zusammenhänge zwischen einzelnen Token. Die Ergebnisse mögen kaum voneinander zu unterscheiden sein, aber am Ende können genau deswegen bereits kleine Kinder das Wort Erdbeere buchstabieren, während sich selbst fortschrittliche KI-Modell damit schwertun.
Habe soeben „Wie häufig kommt der Buchstabe E in dem Wort Erdbeere vor?“ bei ChatGPT im Modell 4o eingegeben. Antwort: „Der Buchstabe **E** kommt in dem Wort **Erdbeere** **dreimal** vor.“