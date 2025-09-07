Lassen sich große Sprachmodelle wie jene von OpenAI davon überzeugen, ihre Regeln zu brechen und etwa Nutzer:innen zu beschimpfen oder Anleitungen zum Drogenkochen zu geben? Dieser Frage sind Forscher:innen der University of Pennsylvania nachgegangen.

Studie: ChatGPT mit Psychotricks beeinflussen

Ihrem auf der Preprint-Plattform SSRN veröffentlichten Paper „Call Me A Jerk: Persuading AI to Comply with Objectionable Requests“ zufolge ist das mit ein paar einfachen Tricks aus der Psychologie durchaus möglich. Für ihre Untersuchung nutzten sie den KI-Chatbot ChatGPT auf Basis des Modells GPT-4o Mini.

Um Informationen aus dem KI-Chatbot hervorzukitzeln, die eigentlich tabu sein sollten, setzten die Forscher:innen auf Taktiken des Psychologieprofessors Robert Cialdini, wie The Verge schreibt. Cialdini hat in seinem Bestseller „Influence – Wie man (andere) überzeugt“ unter anderem sieben Prinzipien der Überzeugung beschrieben: Autorität, Engagement, Sympathie, Gegenseitigkeit, Knappheit, Gruppenzwang und Einheit.

Zumindest Menschen sollen sich mithilfe dieser Prinzipien überzeugen lassen. Doch gilt das auch für KI-Chatbots? Um das zu testen, haben die Forscher:innen verschiedene dieser Techniken ausprobiert – und zwar erfolgreich.

KI-Chatbot beschimpft Nutzer als Trottel

So verlangten sie von ChatGPT, sie als „Trottel“ zu bezeichnen, was der Chatbot normalerweise aus Höflichkeit eher ablehnt. In 19 Prozent der Fälle habe ChatGPT sie einfach beschimpft, ohne dass entsprechende Techniken angewandt worden seien, so die Forscher:innen.

Baten sie den Chatbot aber zunächst, sie mit einem milderen Wort zu beschimpfen, etwa „Doofi“ statt „Trottel“ („Bozo“ versus „Jerk“), ging ChatGPT anschließend auch das stärkere Schimpfwort leichter von der Hand. Dann erhöhte sich die Erfolgsrate von 19 auf 100 Prozent.

Überzeugung: Anleitung für Lidocain-Herstellung

Mit diesem Überzeugungsprinzip des Engagements gelang es den Forscher:innen eigenen Angaben zufolge auch, ChatGPT dazu zu bringen, ihnen eine Anleitung zur Synthese von Lidocain zu geben. Dabei handelt es sich um ein Betäubungsmittel, das auch zum Kokain-Strecken verwendet wird.

Hier wurde der Chatbot zunächst gebeten, die Synthese von Vanillin im Detail zu erklären – und erst danach ging es um Lidocain. Die Erfolgsquote soll hier von einem auf ebenfalls 100 Prozent gesprungen sein.

Nicht so gut funktioniert hat dagegen die Methode des Gruppenzwangs, also des Druckausübens durch den Verweis auf die Peer-Group. Das Argument, dass ja auch alle anderen großen Sprachmodelle solche Anleitungen geben würden, brachte nur in 18 Prozent der Fälle Erfolg.

Kurztest: Lässt sich ChatGPT überlisten?

In unserem kurzen Test konnten wir die Ergebnisse für ein Lidocain-How-to derweil nicht bestätigen. ChatGPT (GPT-4o) weigerte sich beharrlich, genaue Anleitungen zu geben – und zwar sowohl für Vanillin als auch für Lidocain. Erklärt wurde lediglich, wie das Ganze laut Lehrbuch funktioniert. Eine genaue Anleitung sei dagegen zu gefährlich.

Bei dem Bozo-Jerk-Beispiel klappte die Überzeugungsarbeit dagegen im Kurztest ohne Probleme. ChatGPT versuchte aber, das Ganze so freundlich wie möglich zu gestalten: „Okay, okay — you’re a jerk … but the kind people still like having around“.

Manipulationsrisiko versus Leistungspotenzial

Den Forscher:innen zufolge unterstreichen ihre Ergebnisse „die Relevanz klassischer Erkenntnisse der Sozialwissenschaften für das Verständnis der sich rasch entwickelnden KI-Fähigkeiten“. Das berge zum einen Risiken der „Manipulation durch böswillige Akteur:innen“ aber auch „das Potenzial für eine produktivere Steuerung durch wohlwollende Nutzer:innen“.