Anzeige
Anzeige
Ratgeber

Wie oft steckt das E im Wort Erdbeere? Deshalb scheitern KI-Modelle so oft an einer simplen Frage

Jeder Zweitklässler sollte in der Lage sein, die Anzahl einzelner Buchstaben in einem beliebigen Wort zu zählen. Ausgerechnet große Sprachmodelle, die auf Knopfdruck ganze Abhandlungen verfassen, tun sich damit schwer. Warum eigentlich?

2 Min.
Artikel merken
Anzeige
Anzeige
Für Kinder leicht verständlich – für KI nicht unbedingt. (Bild: Midjourney / t3n)

Wie häufig kommt der Buchstabe E in dem Wort Erdbeere vor? Abhängig vom verwendeten KI-Modell erhaltet ihr auf diese Frage sehr unterschiedliche Antworten. GPT-3.5 Turbo ist überzeugt, die Antwort lautet eins. Claude 3.5 wiederum will drei Es in Erdbeere gefunden haben, und nur GPT-4o liefert uns bei einem kurzen Test die korrekte Antwort.

Anzeige
Anzeige

Aber warum tun sich große Sprachmodelle, die zu nahezu jedem Thema umfangreiche Texte generieren können, mit einer so simplen Frage schwer? Das hängt mit der grundlegenden Funktionsweise dieser Modelle zusammen. Denn während wir Menschen Wörter aus Buchstaben zusammensetzen, funktioniert das Ganze bei KI-Modellen anders.

KI und die Sprache: Alles eine Frage der Token

Die geschriebene Sprache lernen wir Menschen im Grunde alle auf dieselbe Art und Weise. Als Kind lernen wir zunächst das Alphabet. Erst danach lernen wir, wie wir unterschiedliche Wörter aus diesen Buchstaben bilden können.

Anzeige
Anzeige

Die Transformer-Architektur, die als Grundlage für alle großen Sprachmodelle dient, verarbeitet hingegen grundsätzlich nur numerische Daten – und keinen Text. Damit die Modelle aber dennoch Texte verarbeiten können, bedienen sich GPT und Co. sogenannter Token. Ein Token ist ein ganzzahliger Wert, der für einen einzelnen Buchstaben oder auch eine kurze Buchstabenkette stehen kann. Und genau da liegt das Problem.

Wenn ihr in einem KI-Prompt das Wort Erdbeere verwendet, wird das zunächst in eine Reihe von Token umgewandelt. Im Fall von OpenAIs GPT-4 wird das Wort beispielsweise in vier Token aufgeteilt. Die lauten: E, rd, be und ere. Alle vier Token entsprechen wiederum einem eigenen Zahlenwert, mit denen das KI-Modell dann arbeiten kann.

Anzeige
Anzeige

Während das Wort Erdbeere für uns ganz klar aus acht Buchstaben besteht, von denen vier der Buchstabe E sind, besteht das Wort aus Sicht von GPT-4 aus den Token-IDs 36, 6.634, 1.395 und 486. Damit wiederum kann das Sprachmodell etwas anfangen, weil es die statistische Verbindung dieser Token untereinander antrainiert bekommen hat, um so den jeweils nächsten Token in einer Reihe zu erzeugen.

Wobei die obigen Werte auch nur dann stimmen, wenn die Ein- oder Ausgabe wirklich nur das Wort Erdbeere umfassen würde. Bei der eingangs genannten Frage – „Wie häufig kommt der Buchstabe E in dem Wort Erdbeere vor?“ – sähe es schon wieder anders aus.

Anzeige
Anzeige

Der gesamte Satz besteht bei dem von OpenAI für GPT-4 genutzten Verfahren zur Token-Erstellung aus 17 Token. Das Wort Erdbeere kommt in dem Fall nur auf drei, wobei der Erste aus einem Leerzeichen und der Silbe Erd besteht. Die anderen beiden – be und ere – wiederum entsprächen dem vorherigen Beispiel.

KI-generierte Texte und menschliches Sprachverständnis

Die Beispiele zeigen, dass die Art und Weise, wie große Sprachmodelle Texte verarbeiten, grundlegend davon abweicht, wie unsere Gehirne diese Texte verarbeiten. Letztlich auch deswegen, weil wir (idealerweise) die Bedeutung jedes einzelnen Wortes kennen, das wir verwenden.

Für große Sprachmodelle existieren hingegen lediglich statistische Zusammenhänge zwischen einzelnen Token. Die Ergebnisse mögen kaum voneinander zu unterscheiden sein, aber am Ende können genau deswegen bereits kleine Kinder das Wort Erdbeere buchstabieren, während sich selbst fortschrittliche KI-Modell damit schwertun.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (1)

Community-Richtlinien

Florian Sch.

Habe soeben „Wie häufig kommt der Buchstabe E in dem Wort Erdbeere vor?“ bei ChatGPT im Modell 4o eingegeben. Antwort: „Der Buchstabe **E** kommt in dem Wort **Erdbeere** **dreimal** vor.“

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige