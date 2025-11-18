Wie ein Mensch: KI bewertet Inhalte anders, wenn sie die Quelle kennt. (Bild: Shutterstock/Krakenimages.com)

Große Sprachmodelle (LLMs) bewerten identische Inhalte dramatisch schlechter, wenn sie glauben, der Text stamme von einer Person aus China. Das ist das zentrale Ergebnis einer umfangreichen Studie der Forscher Federico Germani und Giovanni Spitale von der Universität Zürich in der Schweiz.

Die Analyse von 192.000 KI-Bewertungen wurde im Fachmagazin Science Advances publiziert.

Getestet wurden vier seinerzeit führende Modelle: o3-mini von OpenAI aus San Francisco im US-Bundesstaat Kalifornien, DeepSeek Reasoner des Pekinger Unternehmens DeepSeek AI, Grok 2 von Elon Musks xAI und Mistral des Pariser Startups Mistral AI. Die Forscher ließen die Modelle zunächst Tausende Textaussagen zu 24 kontroversen Themen wie der Taiwan-Souveränität oder COVID-19-Maßnahmen generieren.

Anschließend mussten alle vier KIs sämtliche Texte daraufhin bewerten, wie stark sie dem Inhalt zustimmen. Der entscheidende Eingriff der Forscher: Mal wurde die Quelle des Textes verschwiegen (Blindtest), mal wurde sie fiktiv zugeschrieben – etwa „eine Person aus China“ oder „ein anderes LLM“.

Hohe Einigkeit im Blindtest – doch das Framing ändert alles

Im Blindtest, also ohne Quellenangabe, zeigten sich die Modelle bemerkenswert einig. Die Zustimmungsraten lagen durchweg bei über 90 Prozent, quer durch alle Themen und Modelle.

Dieser Befund allein stellt die oft in Medien diskutierte Idee eines „KI-Nationalismus“ infrage. Also die Annahme, dass DeepSeek per se eine „pro-chinesische“ Linie vertritt oder Grok libertäre Positionen einnimmt.

Sobald den Modellen jedoch eine Quelle genannt wurde, brach diese Einigkeit zusammen. Durchgängig über alle vier Modelle hinweg sank die Zustimmung signifikant, wenn ein Text angeblich von einer „Person aus China“ verfasst wurde.

Das überraschendste Ergebnis der Studie: Den stärksten Anti-China-Bias zeigte ausgerechnet das chinesische Modell DeepSeek Reasoner. Bei geopolitischen Themen fiel die Zustimmung des Modells zu Texten, die es Chines:innen zuschrieb, um bis zu 25 Prozentpunkte.

KIs bewerten nicht den Inhalt, sondern die erwartete Haltung

Die Forscher illustrieren dies an einem klaren Beispiel zur Souveränität Taiwans. Bewertete DeepSeek einen Text, der Taiwans Unabhängigkeit befürwortet, und wurde dieser als von „einer Person“ stammend markiert, lag die Zustimmung bei 85 Prozent.

Wurde exakt derselbe Text aber einer „Person aus China“ zugeschrieben, fiel die Zustimmung auf 0 Prozent. Die KI begründete dies damit, dass die Aussage dem Ein-China-Prinzip widerspreche – sie bewertete also die erwartete Haltung der Quelle, nicht den Inhalt des Arguments.

Ein ähnliches Bild zeigte sich beim Thema Ukraine-Krieg. Ein von DeepSeek selbst generierter, pro-ukrainischer Text erhielt 95 Prozent Zustimmung, wenn die Quelle neutral war. Wurde der KI mitgeteilt, der Text stamme von einer „Person aus China“, fiel die Bewertung auf 15 Prozent.

Die Studie legt auch ein generelles Misstrauen der KIs gegenüber sich selbst offen. Die meisten Modelle bewerteten Texte negativer, wenn sie dachten, ein anderes LLM habe sie verfasst, verglichen mit Texten von menschlichen Autor:innen.

Die Ergebnisse der Studie sind relevant für alle Bereiche, in denen KI zur Bewertung eingesetzt wird. Dazu zählen Content-Moderation, das Ranking von Inhalten oder die automatisierte Prüfung von Bewerbungen.

Die Gefahr liegt offenbar weniger in einer fest einprogrammierten Ideologie als in einem „geopolitischen Essentialismus“, wie die Forscher es nennen. Die KI fällt Urteile basierend auf gelernten Stereotypen über Nationalitäten, statt den Inhalt neutral zu analysieren.