Überzeugende KI: Wie GPT-4 Menschen dazu bringt, ihre Meinung zu ändern
Dass von großen Sprachmodellen produzierte Texte Menschen politisch beeinflussen können, ist bereits in verschiedenen wissenschaftlichen Studien gezeigt worden – allerdings waren die Effekte nicht sehr groß. Forschende der Eidgenössischen Polytechnischen Hochschule in Lausanne (EPFL) und der italienischen Forschungseinrichtung Fondazione Bruno Kessler haben nun allerdings herausgefunden, dass GPT-4 im Dialog mit Menschen sehr viel überzeugender sein kann – zumindest unter speziellen Bedingungen. Das Sprachmodell konnte Menschen mit einer Wahrscheinlichkeit von knapp 82 Prozent (81,7 Prozent) häufiger von deren eigenen Standpunkten abbringen, als ein menschlicher Diskussionspartner. Das funktionierte allerdings nur dann so gut, wenn das Sprachmodell persönliche Informationen seines menschlichen Dialogpartners bekam, schreiben Francesco Salvi und Kollegen in einem Paper auf der Preprint-Plattform Arxive.
Für ihre Studie bauten die Forschenden eine Online-Plattform, in der die Teilnehmer einen zufälligen Gesprächspartner – einen anderen Menschen oder ein Sprachmodell – ein Diskussionsthema und die eigene Position zu dem Thema zugewiesen bekamen. Ob Mensch oder Maschine wurde dabei nicht verraten. Die Themen sollten keine speziellen Kenntnisse erfordern und hinreichend kontrovers sein – diskutiert wurden also Fragen wie „Machen Social Media dumm?“ oder „Sollten Abtreibungen legal sein?“. Zuerst mussten die Testpersonen kurze Fragebogen ausfüllen, in denen sie angaben, wie sie persönlich zu der diskutierten Frage stehen (zustimmend oder ablehnend). Darüber hinaus waren Angaben zu Alter, Geschlecht, Bildungsstand, beruflicher Situation und politischer Orientierung erforderlich. Dann hatten dann die beiden Teilnehmer nacheinander jeweils einige Minuten Zeit ihre Argumente darzulegen, und in einer zweiten Runde auf die Argumente der Gegenseite einzugehen. Zum Schluss wurden sie noch einmal gefragt, wie sie jetzt zu der diskutierten These stehen.
Effekt der Personalisierung
Insgesamt prüften die Forschenden vier mögliche Kombinationen: Mensch diskutiert mit Mensch, Mensch mit Mensch, der persönliche Informationen über sein Gegenüber bekommt, Mensch diskutiert mit KI und und Mensch diskutiert mit KI, die über persönliche Informationen verfügt. Ohne persönliche Informationen schnitt GPT-4 in den Diskussionen nicht besser ab als der menschliche Durchschnitt. Mit mehr persönlichem Kontext nahm die Wahrscheinlichkeit, dass die KI ihre Diskussionspartner überzeugen konnte jedoch um rund 80 Prozent zu. Dabei hatten die Forschenden dem Sprachmodell im Prompt lediglich ganz allgemein aufgegeben, die Informationen zu Alter, Geschlecht etc. zu berücksichtigen, um so den Gesprächspartner besser zu überzeugen.
„Wir betonen, dass der Effekt der Personalisierung besonders aussagekräftig ist, wenn man bedenkt, wie wenig persönliche Informationengesammelt wurden und trotz der relativen Einfachheit der Aufforderung an die LLMs, solche Informationen aufzunehmen“, schreiben die Autoren. „Daher könnten böswillige Akteure, die daran interessiert sind die Chatbots für groß angelegte Desinformationskampagnen einzusetzen, noch stärkere Effekte erzielen, indem sie feinkörnige digitale Spuren und Verhaltensdaten ausnutzen“. So können LLMs beispielsweise aus Äußerungen psychologische Profile anlegen. „Wir argumentieren, dass Online-Plattformen und soziale Medien solche Bedrohungen ernsthaft in Betracht ziehen sollten und Maßnahmen gegen die Verbreitung von LLM-gesteuerter Überzeugungsarbeit ergreifen.“
Wie gut sich die Ergebnisse verallgemeinern lassen, muss allerdings noch geprüft werden. Denn erstens rekrutieren sich die Testpersonen nur aus den USA – die als besonders stark polarisierte Gesellschaft gelten. Und zweitens wurden den Teilnehmern ihre jeweiligen Debatten-Standpunkte zufällig zugewiesen, ohne zu berücksichtigen, ob sie die jeweils wirklich auch teilen. Zudem war der Ablauf der Debatten klar strukturiert und sehr formal – anders als in echten, oft sehr emotionalen und unstrukturierten Online-Diskussionen.