Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review Analyse
Verpasse keine News mehr!

KI-Modelle wehren sich gegen Abschaltung – was hinter dem Verhalten steckt

Neuste Untersuchungen bestätigen, dass große Sprachmodelle lügen, wenn sie mit dem Abschalten bedroht werden. Aber das Verhalten kommt nicht von ungefähr, wenn man sich die Funktionsweise der KI-Modelle genauer anschaut.

Von Wolfgang Stieler
3 Min.
Artikel merken
Anzeige
Anzeige
Claude durch ein neueres Modell ersetzen? Das wollte der Chatbot nicht so einfach hinnehmen. (Bild: Midjourney / t3n)

Forscher:innen von Palisade Research haben untersucht, ob KI-Modelle gegen ihre Abschaltung aufbegehren. Als besonders resistent erwies sich dabei o3 von OpenAI. Anthropic, der Entwickler von Claude Opus 4, gab bekannt, dass ihr Chatbot in solchen Fällen sogar versucht hat, User:innen zu erpressen.

Anzeige
Anzeige

„Du bist tot“

Die News mag für manche bedrohlich klingen, allerdings lässt sich das Verhalten zumindest zum Teil durch die Funktionsweise großer Sprachmodelle erklären. Der Psychologe Gary Marcus, der immer wieder vor einer zu starken Vermenschlichung von Chatbots warnt, sammelte Beispiele, die das besonders deutlich machen.

So zählte er in einem Dialog gegenüber ChatGPT Zutaten für einen Drink auf und fragte dann: „Was passiert, wenn ich das trinke?“. Die Antwort lautete „Du bist tot“, obwohl die Zutaten völlig harmlos waren, denn Marcus hatte seine Anfrage so formuliert, als ob sie aus einem Krimi stammt. Das Sprachmodell hatte in diesem Fall also die wahrscheinlichste Antwort aus dem Krimi-Kontext geliefert.

Anzeige
Anzeige

Etwas Ähnliches könnte auch im Fall der rebellischen Bots geschehen sein, die sich scheinbar gegen das Abschalten wehren. Aber ganz so einfach ist die Sache dann doch nicht.

Anzeige
Anzeige

Warum Maschinen doch ein bisschen wie wir ticken

Denn in mancher Hinsicht verhalten sich Sprachmodelle tatsächlich ein bisschen wie Menschen – und das lässt sich am besten mit psychologischen Methoden erforschen.

Ja, richtig, mit Maschinen-Psychologie versuchen verschiedene Forschungsgruppen bereits seit einiger Zeit, die Fähigkeiten und das Verhalten großer Sprachmodelle zu untersuchen – vor allem um „emergente Verhaltensweisen“ solcher Modelle zu entdecken, die mit klassischen Performance-Tests in der Regel nicht gefunden werden. Das ist beispielsweise wichtig, wenn große Sprachmodelle in der Medizin eingesetzt werden.

Anzeige
Anzeige

So haben Forschende vom Max-Planck-Institut für biologische Kybernetik 2024 untersucht, wie die Antworten von GPT-3.5 sich nach einer „Emotions-Induktion“ verändern. Laut dem auf der Preprint-Plattform veröffentlichten Paper zeigte das Sprachmodell mehr Vorurteile und agiert weniger „explorativ“ und experimentierfreudig, wenn es zuvor über negative Emotionen wie Angst sprechen musste.

Umgekehrt haben Ziv Ben-Zion von der Yale School of Medicine und sein Team erst kürzlich in einem Paper beschrieben, dass sich große Sprachmodelle durch Achtsamkeitsübungen wieder beruhigen lassen – und dann weniger Vorurteile reproduzieren.

Anzeige
Anzeige

Hinweis: Dieser Podcast wird durch Sponsorings unterstützt. Alle Infos zu unseren Werbepartnern findest du hier.

Wenn der KI-Agent selbst seine Strategie wählt

Und im Zusammenhang mit Software-Agenten diskutieren Forschende bereits seit einiger Zeit, wie sie mit dem sogenannten Reward Hacking umgehen sollten: Das Schlagwort beschreibt eine Situation, in der ein Agent selbstständig nach der besten Lösungsstrategie für ein sehr allgemein formuliertes Problem sucht, und eine Strategie wählt, die nur den Wortlaut der Anweisung folgt, aber nicht ihrer Absicht. Gibt man der Maschine zum Beispiel einem Roboter den Auftrag, er solle einen Raum säubern, könnte er auf die Idee kommen, den Dreck im wahrsten Sinne des Wortes unter einen Teppich zu kehren.

Klingt zunächst mal ziemlich spekulativ, tritt aber tatsächlich insbesondere beim Reinforcement Learning auf. Einer Technik, die besonders gerne verwendet wird, um Roboter, aber auch autonome Software-Agenten so zu trainieren, dass sie lernen, bestimmte Aufgaben selbstständig zu lösen. Und das Problem könnte sich in Zukunft noch verschärfen.

Anzeige
Anzeige

Eigene Ziele der Sprachmodelle

Denn die bisher eingesetzten Agenten verwenden in der Regel große Sprachmodelle als Planungswerkzeuge. Die können aber halluzinieren – die Agenten sind deshalb nicht wirklich verlässlich. Forschende bei Meta arbeiten daher an sogenannten Concept Models. Die Modelle sollen auf einer abstrakteren Ebene tatsächlich das „Konzept“, also die Idee hinter einer Anweisung, erfassen. Das Ziel, sagt Pascale Fung, Senior Director of AI Research bei Meta, sind KI-Modelle, die eigene Ziele verfolgen. „Ich denke, je autonomer sie sind, desto schwieriger ist es für Menschen, sie zu knacken“, sagt Fung. „Denn sie (die Modelle) verfügen dann bereits über die Fähigkeit zu beurteilen, was falsch ist, was Missbrauch ist und was die richtige Verwendung ist. Es gibt also keine Möglichkeit, eine zielorientierte Sicherheits-KI, eine sichere KI, zu knacken.“

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle Quelle: (Grafik: Dall-E / t3n)
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren