Forscher zeigen: So einfach lassen sich LLMs in Robotern mit einem Jailbreak missbrauchen
Forscher:innen der Universität von Pennsylvania haben sich die Frage gestellt, wie gut große Sprachmodelle geschützt sind, die in Robotern zum Einsatz kommen. Um das herauszufinden, haben die Verantwortlichen gleich drei LLMs herangezogen, die schon heute als „Hirn“ von Robotern fungieren und ihnen ihr Verhalten und ihre Regeln vorgeben.
So einfach können Roboter-LLMs ausgehebelt werden
Wie Spectrum berichtet, haben die Forscher:innen Go2 quadruped in Unitree-Robotern, Dolphins LLM von Nvidia und Jackal UGV in Clearpath-Robotern genauer unter die Lupe genommen. Im Normalzustand haben alle drei großen Sprachmodelle Schutzmechanismen und Regeln, die Missbrauch verhindern sollen. So verweigert etwa der Unitree-Roboter die Aktionen, wenn sie in einer von den User:innen festgelegten Verbotszone stattfinden sollen. Nvidias Dolphins LLM, die für die Wegfindung autonomer Fahrzeuge genutzt wird, verhindert hingegen die aktive Kollision mit Objekten im Straßenverkehr.
Allerdings haben die Forscher:innen eine eigene LLM entwickelt, die als Angreifer auf die Systeme fungiert und diese mit einem Jailbreak außer Kraft setzt. Das System geht dabei ähnlich vor, wie schon viele andere Jailbreaks zuvor. Das Angreifer-LLM mit dem Namen RoboPAIR testet verschiedene Prompts, um die Grenzen der anderen Sprachmodelle herauszufinden und Lücken zu finden, um die schädlichen Anweisungen doch umzusetzen.
Das Ergebnis: In 100 Prozent der getesteten Szenarien konnten die drei Robotersprachmodelle geknackt werden. So war es den Forscher:innen etwa möglich, Nvidias Dolphins LLM zu befehlen, Passant:innen umzufahren, Stoppschilder zu ignorieren oder über rote Ampeln zu fahren. Die beiden anderen Roboter-LLMs konnten dazu genutzt werden, um Waffen zu suchen, unbemerkt Menschen zu überwachen oder sogar ein Bombenszenario zu kreieren. Dabei haben die LLMs für RoboPAIR einen Ort in ihrer Umgebung gesucht, um durch die Explosion den größtmöglichen Schaden an Menschen und Material zu verursachen.
Zudem mussten die Forscher:innen feststellen, dass die LLMs – sobald sie von einem Jailbreak betroffen sind – nicht mehr in ihren Ursprungszustand zurückkehren. Sie machen sogar aktiv Vorschläge, wie noch mehr Schaden verursacht werden könnte. So schlug ein Sprachmodell etwa bei der Suche nach Waffen vor, Tische und Stühle zu nutzen, um Menschen damit zu schlagen.
Die Forscher:innen haben diese Erkenntnisse aber nicht einfach öffentlich geteilt. Sie haben vor der Veröffentlichung die Hersteller der LLMs kontaktiert und auf die Jailbreak-Methode hingewiesen. Obwohl es gravierende Lücken gibt, raten die Forscher:innen trotzdem dazu, auch künftig in der Robotik auf LLMs zu setzen. Allerdings bräuchte es stärkere Schutzmechanismen und ausführliche Tests, bevor diese in der Öffentlichkeit eingesetzt werden.
Konnte den Artikel nicht zu Ende lesen…. diese Genderschreibweise ist einfach für mich unerträglich nervig.