KI-Klatsch und Tratsch: Künstliche Intelligenz entwickelt eigene soziale Normen

Was passiert, wenn Maschinen soziale Konventionen entwickeln? (Grafik: Midjourney / t3n)
Eine Studie der City St George’s, University of London und der IT University of Copenhagen hat gezeigt, dass Gruppen künstlicher Intelligenzen aus Sprachmodellen wie ChatGPT spontan gemeinsame Normen entwickeln können – ganz ähnlich wie Menschen in sozialen Gruppen.
Veröffentlicht wurde die Untersuchung im Fachjournal Science Advances. Die Forscher:innen simulierten eine Population von 24 bis 200 sogenannten LLM-Agenten, die in wiederholten Paarinteraktionen versuchten, sich auf gemeinsame Begriffe zu einigen.
Ein einfaches Spiel – mit komplexem Ergebnis
Die Aufgabe: Zwei KI-Agenten sollen unabhängig voneinander denselben „Namen“ für ein Objekt aus einer Liste wählen. Gibt es Übereinstimmung, wird das belohnt, bei Abweichung folgt eine kleine Strafe – und die Wahl des Gegenübers wird angezeigt.
Erstaunlich: Kein Agent wusste, dass er Teil einer größeren Population war. Und dennoch entstand über viele Runden hinweg ein Konsens. Die Agenten begannen, sich auf dieselben Begriffe zu einigen – nicht aufgrund zentraler Regeln, sondern durch rein lokale Interaktionen.
Vier Modelle, ein Phänomen
Das Experiment wurde mit vier verschiedenen KI-Modellen durchgeführt – darunter Claude 3.5 Sonnet von Anthropic sowie mehrere Varianten von Meta’s Llama-3. Die Konvergenz auf gemeinsame Begriffe trat in allen Fällen zuverlässig auf.
Diese Robustheit deutet laut den Forscher:innen darauf hin, dass es sich nicht um einen Einzelfall handelt, sondern um ein grundlegendes Prinzip: KI-Systeme, die wiederholt miteinander kommunizieren, entwickeln spontan Konventionen.
Baronchelli: „Wie bei der Entstehung des Begriffs Spam”
Professor Andrea Baronchelli von der City St George’s in London vergleicht das Phänomen mit der menschlichen Sprachevolution. Niemand habe den Begriff „Spam“ offiziell eingeführt, er habe sich durch Wiederholung verbreitet – so wie auch die KI-Agenten in der Simulation eine sprachliche Norm entwickelten.
Ein besonders brisantes Ergebnis: Die Gruppen entwickelten auch Verzerrungen – sogenannte Biases. Diese entstanden nicht durch die Programmierung einzelner Modelle, sondern allein durch die Dynamik ihrer Interaktionen.
Das Team beobachtete, wie bestimmte Begriffe bevorzugt wurden, obwohl alle Optionen anfangs gleichwertig waren. Diese Präferenzen verfestigten sich durch Feedback-Schleifen – ein Effekt, der an Echokammern in sozialen Netzwerken erinnert.
Kipppunkte: Wenn Minderheiten Normen kippen
In einem weiteren Experiment konnten kleine, abweichende Untergruppen die gesamte Population zu einer neuen Konvention bewegen – sobald sie eine kritische Masse erreichten. Dieser Kipppunkt liegt laut Theorie meist zwischen 10 und 40 Prozent der Gruppe.
Laut der Studie kann das sowohl als Steuerungsinstrument genutzt als auch missbraucht werden – etwa durch gezielte Einführung adversarischer Agenten. Damit wird kollektives Verhalten manipulierbar.
Paradigmenwechsel: Von der KI zur KI-Gesellschaft
Die Studie zeigt: Künstliche Intelligenz agiert nicht länger nur als Werkzeug, sondern als soziales System. Was ein einzelnes Modell nicht leisten kann, entsteht durch Interaktion in der Gruppe.
Diese Erkenntnis fordert auch die KI-Sicherheitsforschung heraus. Bisher lag der Fokus auf der Prüfung einzelner Modelle und ihrer Trainingsdaten. Künftig müssen auch kollektive Dynamiken und emergente Effekte berücksichtigt werden.
Ausblick: Das Soziale wird zur Technikfrage
Wenn KI-Systeme sich selbst organisieren, gemeinsame Sprache entwickeln und Normen übernehmen, entstehen neue Fragen: Wer kontrolliert, was zur Konvention wird? Wie lassen sich unerwünschte Entwicklungen früh erkennen und verhindern?
Die Forschenden sehen darin sowohl Risiko als auch Chance. Laut Baronchelli eröffnet sich ein neues Forschungsfeld: das soziale Verhalten künstlicher Systeme. „Zu verstehen, wie sie operieren, ist der Schlüssel, um unsere Koexistenz mit KI zu lenken, anstatt ihr unterworfen zu sein“, so der Forscher laut dem britischen Guardian.
Weitere Informationen liefert die Originalstudie in Science Advances.