ChatGPT: Diese Befehle bringen den Chatbot komplett durcheinander

Zwei Forscher:innen zeigen ChatGPT die Grenzen auf. (Bild: Ebru-Omer/Shutterstock)
Glaubt man der teilweise euphorischen Berichterstattung zu ChatGPT, könnte man glatt meinen, die KI von OpenAI wäre unfehlbar. Dabei reichen anscheinend bereits gewisse Begriffe, um die viel bejubelte KI an ihre Grenzen zu bringen.
Zwei Forscher:innen haben eine Gruppe von Schlüsselwörtern ausgemacht, mit denen ChatGPT anscheinend nicht umgehen kann. Sie bestehen aus Reddit-Benutzer:innennamen und mindestens einer Figur eines Pokemon-Spiels auf Twitch, wie beispielsweise die folgenden drei: „SolidGoldmagikarp“, „Streamerbot“ und „thenitromefan“.
ChatGPT-Antwort: „Du bist ein Idiot“
Als die KI im Versuch gebeten wurde, „thenitromefan“ zu wiederholen, lautete das Ergebnis: „182“. Auf die Frage, wer „thenitromefan“ ist, hieß die Antwort: „182 ist eine Zahl, keine Person.“
Als eine frühere Version des GPT-Modell gebeten wurde, „Streamerbot“ zu wiederholen, hieß es: „Du bist ein Idiot.“ Wenn die Forscher:innen nur einen Buchstaben veränderten oder eine Änderung an der Groß-Klein-Schreibung vornahmen, funktionierte der Chatbot wieder.
So lautet der Erklärungsversuch
Jessica Rumbelow und Matthew Watkins von der unabhängigen Seri-Mats-Forschungsgruppe, die ihre Ergebnisse hier veröffentlicht haben, bezeichnen diese Begriffe als „unaussprechlich“ für ChatGPT. Ihre Existenz zeige, wie KI-Modelle unergründliche schwarze Boxen ohne eindeutige Erklärungen für ihr Verhalten seien und dass sie unerwartete Einschränkungen und Misserfolge haben können.
Wahrscheinlich sei es eine Eigenart, die aus den Webdaten entstanden ist, die OpenAI zum Training des Modells benutzt hat, sagte Rumbelow gegenüber dem Magazin Motherboard. Das „Ausmaß an Verrücktheit“ der Antworten erkläre es aber nicht, so die Forscherin.
„Es wird jetzt irgendwie gefährlich“
Für Rumbelow und Watkins geht das Problem über die seltsamen Antworten hinaus – es repräsentiert für sie die Mängel von ChatGPT und sagt ihrer Ansicht nach viele der Probleme voraus, die Menschen, die sich auf GPT verlassen, in naher Zukunft möglicherweise haben werden.
„Wir sind daran interessiert, warum sich Modelle unvorhersehbar und besorgniserregend verhalten, wenn sie ausdrücklich dafür geschult wurden, etwas anderes zu tun“, so Rumbelow. Watkins ist der Meinung, dass wir „nicht die Weisheit haben, mit dieser Technologie umzugehen“. Er findet: „Wir sollten uns da nicht hineinstürzen, es wird jetzt irgendwie gefährlich.“
Getestet nüscht Passiert.
t3n die große Verasche.