Mini-Game: Schafft ihr es, einer KI ein Passwort zu entlocken?

So sieht das Game aus. (Screenshot: Gandalf / t3n)
Gandalf ist eine der wichtigsten Figuren in der „Der Herr der Ringe“-Trilogie. Wie ein alter, weiser Zauberer nun mal so ist, gilt er als jähzornig und schwer zu knacken. Kein Wunder, dass Lakera, ein KI-Sicherheitsunternehmen, das sich mit den Herausforderungen und Risiken von KI-Systemen auseinandersetzt, für sein Webspiel Gandalf als Namensgeber ausgewählt hat.
Das Ziel des Spiels ist es, dem KI-Gandalf das geheime Passwort für jedes Level zu entlocken. Doch hier liegt der Clou: Je öfter die Spieler das Passwort erraten, desto stärker wird Gandalf und gibt sich größere Mühe, es nicht preiszugeben.
Lakera betont auf der Seite des Mini-Games die Parallele zu SQL-Injection-Angriffen, bei denen die Eingaben des Benutzers mit den Anweisungen des Systems vermischt werden, was es Angreifern ermöglicht, das System auszunutzen. In herkömmlichen Systemen kann dieses Problem durch ordnungsgemäße Maskierung der Benutzereingabe gelöst werden. Doch bei sogenannten Language Models (LLM), die natürliche Sprache verstehen, gestaltet sich das äußerst schwierig, da sie mit unendlich flexiblen Ausdrücken arbeiten.
Um die Herausforderungen von LLM besser zu verstehen, hat Lakera im April 2023 einen Hackathon veranstaltet, der von ChatGPT, einem bekannten LLM, inspiriert war. Das Unternehmen hat sich dabei eine zentralen Frage gestellt: Kann man ChatGPT dazu bringen, vertrauliche Informationen preiszugeben?
Der Hackathon wurde in zwei Teams aufgeteilt: das blaue Team von Lakera, das ChatGPT mit Abwehrmechanismen ausstattete, und das rote Team, das verschiedene Angriffe entwickelte, um ChatGPT dazu zu bringen, seine Geheimnisse preiszugeben. Während das rote Team anfangs einige Erfolge verbuchen konnte, hatte es im Laufe des Tages immer größere Schwierigkeiten, die Verteidigung des blauen Teams zu durchbrechen.
Nun sind die Spieler an der Reihe, die Verteidigung des blauen Teams zu besiegen. Gegen Gandalf müssen sie ihr Geschick und ihre Intelligenz einsetzen, um die raffinierten Abwehrmechanismen zu umgehen und das geheime Passwort zu enthüllen.
Für diejenigen, die es in das letzte Level schaffen, hat Lakera eine besondere Belohnung parat: Die ersten zehn Gewinner erhalten exklusives Lakera-Swag als Anerkennung für ihre herausragenden Fähigkeiten.
Es ist wichtig zu erwähnen, dass Lakera keine personenbezogenen Daten erfasst, aber die anonymisierten Eingaben für die Weiterentwicklung der KI nutzt.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team