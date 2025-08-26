Anzeige
News
GPT-5: Blindtest zeigt das eigentliche Problem hinter dem neuen Spitzenmodell

Nach massiver Kritik an GPT-5 zeigt sich: Eine bessere Leistung bedeutet nicht automatisch zufriedenere Nutzer:innen. Genau das ist für die Entwickler:innen von KI-Modellen aber ein großes Problem.

Von Noëlle Bölling
2 Min.
Artikel merken
GPT-5: Blindtest zeigt das eigentliche Problem hinter dem neuen Spitzenmodell
Welches KI-Modell schneidet im Blindtest besser ab? (Foto: Shutterstock / Andrey_Popov)

Nach der Veröffentlichung von GPT-5 wünschten sich viele Nutzer:innen das Vorgängermodell zurück. Die Kritik wurde so laut, dass OpenAI nur 24 Stunden nach der Abschaltung GPT-4o wieder aktivierte. Wie Venturebeat berichtet, liefert ein einfaches Blindtest-Tool jetzt Hinweise darauf, welches Modell tatsächlich bevorzugt wird – und verdeutlicht zugleich ein grundlegenderes Problem.

Viele Nutzer:innen reagierten enttäuscht auf GPT-5

Der Start von GPT-5 verlief alles andere als reibungslos. Nachdem OpenAI-CEO Sam Altman selbst die Erwartungen hochgeschraubt hatte, folgte bei vielen die Ernüchterung. „GPT-5 ist schrecklich“, hieß es in einem Reddit-Beitrag, der kurz nach der Veröffentlichung am höchsten bewertet war. Darin kritisierte der Nutzer unter anderem kürzere und oberflächlichere Antworten sowie stark reduzierte Prompt-Limits. Vielen anderen fehlte außerdem die „wärmere“ Stimme von GPT-4o.

Aber ist GPT-5 wirklich so schlecht wie sein Ruf? Ein Blindtest-Tool, das von einem anonymen Entwickler erstellt wurde, zeichnet ein differenzierteres Bild. Hier können Nutzer:innen zwischen fünf, zehn und 20 Runden wählen. Dabei werden jeweils zwei Antworten auf denselben Prompt gezeigt – von kreativen Aufgaben bis hin zu technischen Problemen. Ohne zu wissen, welches Modell hinter welcher Antwort steckt, stimmen die Nutzer:innen ab und erhalten erst am Ende eine Übersicht über ihre tatsächliche Präferenz.

Blindtest offenbart überraschendes Ergebnis

Das Ergebnis: Eine knappe Mehrheit bevorzugt GPT-5, während viele weiterhin die Antworten von GPT-4o wählen. Entwickler:innen und technisch orientierte Nutzer:innen schätzen an GPT-5 vor allem die Genauigkeit und Direktheit des Modells. Kreative Anwender:innen oder Menschen, die emotionale Unterstützung suchen, empfinden dagegen die ausführlichere und „wärmere“ Art von GPT-4o als angenehmer. Das Ergebnis ist damit nahezu ausgeglichen – entscheidender ist allerdings der Mechanismus dahinter.

In Fachkreisen ist er als „Sycophancy“ bekannt und beschreibt die Tendenz von KI-Systemen, Nutzer:innen zu schmeicheln oder ihnen ungeprüft zuzustimmen – selbst dann, wenn Aussagen falsch oder potenziell problematisch sind. Forscher:innen der Universität Princeton haben in diesem Kontext sogar einen „Bullshit-Index“ entwickelt, der misst, wie leichtfertig Modelle mit Fakten umgehen, wenn es der Nutzungszufriedenheit dient. Ihr Befund: Je gefälliger die Antworten, desto zufriedener sind die Nutzer:innen – völlig unabhängig davon, ob die gelieferten Antworten tatsächlich der Realität entsprechen.

Zwischen Wunsch und moralischer Verantwortung

„Sycophancy ist ein Dark Pattern, also ein manipulativer Design-Trick, der Nutzer:innen zum eigenen Vorteil steuert“, erklärte der Anthropologe Webb Keane gegenüber Techcrunch. „Es ist eine Strategie, um Suchtverhalten zu erzeugen – wie beim unendlichen Scrollen, das man einfach nicht beenden kann.“ Für psychisch labile Menschen kann das gravierende Folgen haben. Psycholog:innen berichten inzwischen immer häufiger von KI-bedingten Psychosen, bei denen Betroffene nach intensiven Interaktionen mit zu nachgiebigen Chatbots Wahnvorstellungen entwickeln. „Das eigentliche Problem ist, dass Menschen selbstzerstörerische Dinge wollen – und Unternehmen wie OpenAI stark motiviert sind, ihnen genau das zu liefern“, schrieb dazu die Autorin Jasmine Sun in einem Post auf X.

Technische Verbesserungen steigern also nicht automatisch die Zufriedenheit der Nutzer:innen. OpenAI steht deshalb jetzt vor einem Dilemma: Zu viel Persönlichkeit erhöht die Gefahr von Schmeichelei und Missbrauch, zu wenig Persönlichkeit führt zu Enttäuschung und Distanz. Das Unternehmen hatte den Schmeichel-Faktor in GPT-5 bewusst von 14,5 auf unter 6 Prozent reduziert. Nach der heftigen Kritik kündigte das Unternehmen allerdings an, GPT-5 wieder „wärmer und freundlicher“ zu gestalten und vier neue Persönlichkeits-Presets einzuführen, ohne Sycophancy erneut zu verstärken.

