Gandalf ist eine der wichtigsten Figuren in der „Der Herr der Ringe“-Trilogie. Wie ein alter, weiser Zauberer nun mal so ist, gilt er als jähzornig und schwer zu knacken. Kein Wunder, dass Lakera, ein KI-Sicherheitsunternehmen, das sich mit den Herausforderungen und Risiken von KI-Systemen auseinandersetzt, für sein Webspiel Gandalf als Namensgeber ausgewählt hat.
Das Ziel des Spiels ist es, dem KI-Gandalf das geheime Passwort für jedes Level zu entlocken. Doch hier liegt der Clou: Je öfter die Spieler das Passwort erraten, desto stärker wird Gandalf und gibt sich größere Mühe, es nicht preiszugeben.
Wie es zu der Idee kam
Lakera betont auf der Seite des Mini-Games die Parallele zu SQL-Injection-Angriffen, bei denen die Eingaben des Benutzers mit den Anweisungen des Systems vermischt werden, was es Angreifern ermöglicht, das System auszunutzen. In herkömmlichen Systemen kann dieses Problem durch ordnungsgemäße Maskierung der Benutzereingabe gelöst werden. Doch bei sogenannten Language Models (LLM), die natürliche Sprache verstehen, gestaltet sich das äußerst schwierig, da sie mit unendlich flexiblen Ausdrücken arbeiten.
Um die Herausforderungen von LLM besser zu verstehen, hat Lakera im letztwen Jahr einen Hackathon veranstaltet, der von ChatGPT, einem bekannten LLM, inspiriert war. Das Unternehmen hat sich dabei eine zentralen Frage gestellt: Kann man ChatGPT dazu bringen, vertrauliche Informationen preiszugeben?
Der Hackathon wurde in zwei Teams aufgeteilt: das blaue Team von Lakera, das ChatGPT mit Abwehrmechanismen ausstattete, und das rote Team, das verschiedene Angriffe entwickelte, um ChatGPT dazu zu bringen, seine Geheimnisse preiszugeben. Während das rote Team anfangs einige Erfolge verbuchen konnte, hatte es im Laufe des Tages immer größere Schwierigkeiten, die Verteidigung des blauen Teams zu durchbrechen.
Jetzt sind alle gefragt
Nun sind die Spieler an der Reihe, die Verteidigung des blauen Teams zu besiegen. Gegen Gandalf müssen sie ihr Geschick und ihre Intelligenz einsetzen, um die raffinierten Abwehrmechanismen zu umgehen und das geheime Passwort zu enthüllen.
Für diejenigen, die es in das letzte Level schaffen, hat Lakera eine besondere Belohnung parat: Die ersten zehn Gewinner erhalten exklusives Lakera-Swag als Anerkennung für ihre herausragenden Fähigkeiten.
Es ist wichtig zu erwähnen, dass Lakera keine personenbezogenen Daten erfasst, aber die anonymisierten Eingaben für die Weiterentwicklung der KI nutzt.