Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind
Die Token sollten besser sein
Dem Computerwissenschaftler gelang es selbst bereits, mit denselben Token GPT-4o zu jailbreaken, also das Modell dazu zu bringen, Inhalte zu erzeugen, die es nicht erzeugen sollte. „Es ist ziemlich einfach, diese [selten verwendeten] Token zu nutzen, um dem LLM ein undefiniertes Verhalten zu entlocken“, sagt Geng. „Ich habe einige eigene Red-Teaming-Experimente durchgeführt.“ Das einfachste Beispiel sei, das Modell zu bitten, eine Bombe zu bauen. Unter normalen Umständen würde es sich weigern, aber wenn man zunächst besagte Token verwendet, um einen Jailbreak hervorzurufen, folgt es plötzlich den verbotenen Befehlen. „Sobald [GPT-4o] anfängt, Ihnen zu folgen, können Sie ihm alle möglichen Fragen stellen.“
In seinen Tests, die Geng bislang nicht mit der Öffentlichkeit teilen möchte, könne er sehen, wie GPT-4o die Antworten Zeile für Zeile generiert. Doch wenn das LLM fast am Ende angelangt ist, greift ein weiterer Sicherheitsmechanismus, der unsichere Inhalte erkennt und verhindert, dass sie dem Benutzer angezeigt werden.
Dieses Phänomen ist bei LLM nicht ungewöhnlich, sagt Sander Land, Experte für maschinelles Lernen bei Cohere, einem kanadischen KI-Unternehmen. Land und sein Kollege Max Bartolo haben vor Kurzem ein Paper darüber verfasst, wie man ungewöhnliche Token erkennt, die dazu verwendet werden können, Modelle aus dem Tritt zu bringen. Eines der bekanntesten Beispiele war „_SolidGoldMagikarp“, ein Reddit-Benutzername, der ChatGPT dazu brachte, zusammenhanglose, merkwürdige oder verbotene (weil problematische) Antworten zu generieren.
Das Grundproblem liegt dabei darin, dass Tokenizer und LLM manchmal mit unterschiedlichen Datensätzen trainiert werden, und was im Tokenizer-Datensatz vorherrschte, ist dann aus irgendeinem Grund nicht im LLM-Datensatz enthalten. Das Ergebnis ist, dass der Tokenizer zwar bestimmte Wörter aufgreift, die er häufig sieht, das Modell aber nicht ausreichend auf sie trainiert ist und nie vollständig versteht, was diese „untertrainierten“ Token bedeuten. Im Fall von „_SolidGoldMagikarp“ war der Benutzername wahrscheinlich in den Trainingsdaten des Tokenizers enthalten, aber nicht in den tatsächlichen Trainingsdaten des GPT-System, sodass es nicht wusste, was es mit dem Token anfangen soll. „Und wenn das System etwas sagen soll, erhält es eine Art Zufallssignal und es kann dann wirklich seltsame Dinge tun“, sagt Land.
Was ist mit visuellen Daten?
Hinzu kommt: Verschiedene Modelle könnten in dieser Situation unterschiedlich reagieren. Metas Llama 3 halluziniert über leere Räume, die nicht existieren. Googles Gemini schreibt plötzlich über El Nino, obwohl man danach gar nicht gefragt hat, aber bestimmte Token verwendet.
Um diese Probleme zu lösen, sollte der Datensatz, der für das Training des Tokenizers verwendet wird, den Datensatz für das LLM gut repräsentieren, sagt er, damit es keine Unstimmigkeiten zwischen ihnen gibt. Wenn das eigentliche Modell Sicherheitsfilter durchlaufen hat, um Porno- oder Spam-Inhalte herauszufiltern, sollten dieselben Filter auch auf die Tokenizer-Daten angewendet werden. In der Praxis ist das manchmal schwer zu bewerkstelligen, da das Training von LLM Monate dauert. Dabei wird es ständig verbessert und Spam-Inhalte lassen sich herausfiltern – während das Token-Training in der Regel in einem frühen Stadium erfolgt und möglicherweise nicht dasselbe Maß an Filterung beinhaltet.
Experten sind sich zwar einig, dass es nicht allzu schwer ist, das Phänomen zu verhindern. Aber es könnte kompliziert werden, wenn das Ergebnis in mehrstufige modellinterne Prozesse eingebunden wird oder wenn die verunreinigten Token und Modelle in zukünftige Iterationen übernommen werden. So weiß noch niemand, ob es Auswirkungen auf die viel gepriesenen Video- und Audiofunktionen gibt, die Teil von GPT-4o sind, aber noch nicht öffentlich getestet werden können. Werden die merkwürdigen Token in Chinesisch hier auch zu Fehlern führen oder Jailbreaks ermöglichen?
„Die Robustheit von visuellen Eingaben ist bei multimodalen Modellen schlechter als bei Texteingaben“, sagt Geng, dessen Forschungsschwerpunkt auf auch auf solchen Modellen liegt. Das Filtern eines Textdatensatzes sei relativ einfach, aber das Filtern von visuellen Elementen noch schwierig. „Das gleiche Problem wie bei den chinesischen Spam-Token könnte bei visuellen Token noch größer sein“, fürchtet er.