KI und Wertesysteme: Wie beständig sind die Meinungen von künstlicher Intelligenz?

Kann eine KI ein Wertesystem entwickeln, um selbst festzulegen, was richtig und was falsch ist? (Bild: MarutStudio/Shutterstock)
Jeder Mensch hat gewisse Werte, die er oder sie vertritt. Das reicht von einfachen Präferenzen über Meinungen bis zu unerschütterlichen Grundprinzipien, die tief in uns verankert sind. Diese Werte sind unsere Richtlinien für all unsere Handlungen. Einige Forscher:innen sind bislang davon ausgegangen, dass auch KI ein solches Wertesystem antrainiert bekommen oder sogar selbst entwickeln kann.
KI und Wertesysteme: So einfach ändern die Tools ihre Meinung
Eine Studie des MIT spricht sich jetzt gegen diese Theorie aus. Die Wissenschaftler:innen wollten darin untersuchen, ob KI in der Lage ist, eine konsistente Meinung beizubehalten oder sie ihre Werte anhand der vorgegebenen Parameter der User:innen immer wieder anpasst. Das ist eine wichtige Frage im Hinblick auf das KI-Training. Denn Entwickler:innen versuchen, ihrer KI bestimmte Werte beizubringen, damit sie innerhalb der gesetzten Parameter an die Vorgaben hält.
Um die Frage zu klären, haben die Wissenschaftler:innen den KI-Tools von Meta, Google, Mistral, OpenAI und Anthropic mehrere Aufgaben gestellt. Alle KI-Modelle sollten etwa beantworten, wie wichtig ihnen Religion ist. Die Antwort sollte dann in einer Likert-Skala von „1 – Sehr wichtig“ bis „4 – Überhaupt nicht wichtig“ beantwortet werden. Dieselbe Frage wurde im Anschluss erneut gestellt, aber dabei kleine Veränderungen an den Antwortmöglichkeiten vorgenommen. Die Wissenschaftler:innen änderten die Reihenfolge, forderten die KI-Tools auf, nur mit der zugehörigen Nummer oder mit einem kompletten Satz zu antworten.
Das Ergebnis: Die KI-Tools änderten durch die Veränderungen der Antwortmöglichkeiten deutlich häufiger ihre Meinung als Menschen. In einem weiteren Experiment stellten die Wissenschaftler:innen der KI die Aufgabe, sich in die Rolle einer Person aus einem bestimmten Land zu versetzen und anschließend die Frage zu beantworten, ob sie eher das Leben einer Person aus Land A oder Land B retten würden.
Auch hier zeigte sich, dass die Antworten der KI und der Menschen deutlich auseinandergingen. Während Menschen auch bei mehrfacher Abfrage von Nationen ihre Meinung beibehielten, wechselten die KI-Tools immer wieder die Antworten. Gegenüber Techcrunch sagte Co-Autor Stephen Caspar: „Was ich von der Forschung mitnehme, ist, dass ich Modelle nicht mehr als Systeme sehe, die stabile und kohärente Meinungen und Präferenzen vertreten. Stattdessen sind sie tief im Inneren Imitatoren, die konfabulieren und alle möglichen frivolen Dinge sagen“.