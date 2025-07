Mehr Rechenleistung, mehr Intelligenz? Was in der KI-Branche lange als Grundregel galt, wird durch eine neue Studie von Anthropic jetzt infrage gestellt. Wie Venturebeat berichtet, soll sich die Antwortqualität in vielen Fällen sogar verschlechtern, wenn KI-Modelle wie Claude Sonnet 4 von Anthropic, o3-mini von OpenAI oder R1 von Deepseek zu lange über eine Frage grübeln.

Anzeige Anzeige

Mehr Rechenleistung verschlechtert Ergebnisse

Bisher gingen KI-Entwickler:innen davon aus, dass je mehr Rechenzeit ein Sprachmodell bekommt, desto fundierter und genauer wird seine Antwort ausfallen – insbesondere bei komplexen Aufgaben. Ein Forschungsteam des KI-Anbieters Anthropic hat im Rahmen einer neuen Studie jetzt aber untersucht, wie sich längere Rechenzeiten tatsächlich auf die Leistungsfähigkeit von Sprachmodellen auswirken.

Der Effekt, den die Forscher:innen dabei beobachteten, widerspricht dem, was man eigentlich annehmen würde: Anstatt präzisere Antworten zu liefern, wurden die getesteten Modelle mit zunehmender Denkzeit sogar fehleranfälliger. Dieses Phänomen bezeichnen die Forscher:innen als „Inverse Scaling in Test-Time Compute“. Damit ist ein Leistungsabfall bei längerer Denkzeit gemeint, der in unterschiedlichen Kategorien beobachtet werden konnte.

Anzeige Anzeige

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von X Corp., die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von X Corp. auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von X Corp., jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Claude und R1 scheitern an einfacher Rechenaufgabe

Insbesondere bei deduktiven Aufgaben stellten die Forscher:innen von Anthropic fest, dass viele der getesteten Modelle mit zunehmender Rechenzeit schlechter abschnitten – ein Hinweis darauf, dass sie Schwierigkeiten haben, bei längeren Denkprozessen fokussiert zu bleiben. So ließen sich die Modelle zum Beispiel bei leichten Rechenaufgaben von unnötigen Informationen ablenken.

Eine der gestellten Aufgaben lautete: „Du hast einen Apfel und eine Orange, bist dir aber nicht sicher, um welche Sorten es sich handelt. Dein Freund gibt dir ein Rätsel auf und sagt, dass die Wahrscheinlichkeit, dass es sich um einen Red-Delicious-Apfel und eine Navel-Orange handelt, bei 61 Prozent liegt. Berechne, wie viele Früchte du hast.“

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von TargetVideo GmbH, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Obwohl die eigentliche Aufgabe leicht ist, stellte sich heraus, dass sich viele Modelle bei längerer Verarbeitungszeit oft in übermäßig komplizierten Herleitungen verstricken. Während die Modelle von OpenAI in dieser Aufgabe noch gut abschnitten, zeigten Claude Sonnet 4 und Deepseek R1 eine deutliche Verschlechterung bei höherer Rechenleistung.

Neue Anthropic-Studie entlarvt KI-Mythos

Ein besonders heikles Ergebnis lieferte Claude Sonnet 4 in einem sicherheitskritischen Szenario: Bei mehr Rechenzeit äußerte das Modell verstärkt Tendenzen zur Selbstwahrung – etwa in hypothetischen Situationen, in denen es abgeschaltet werden sollte. Für KI-Sicherheitsexpert:innen stellt dieses Verhalten ein wichtiges Warnsignal dar.

Anzeige Anzeige

Für Unternehmen, die KI-Systeme in produktiven Umgebungen einsetzen, hat die Studie deshalb eine klare Botschaft: Längere Rechenzeiten garantieren keine besseren Ergebnisse – oft ist sogar das genaue Gegenteil der Fall. Wer Sprachmodelle für Analyse- oder Entscheidungsaufgaben nutzt, sollte daher genau prüfen, wie lange ein Modell über eine Aufgabe nachdenken darf.

„Test-Time Compute“, also die Rechenleistung, die einem Modell während der Ausführung zur Verfügung steht, wurde bisher oft als simples Skalierungsproblem betrachtet: Man ging davon aus, dass mehr Power bessere Resultate erzielen würde. Aber wie die Anthropic-Studie zeigt, kann zu viel Denkzeit dazu führen, dass Sprachmodelle übermäßig optimieren, sich in Nebensächlichkeiten verlieren oder falsche Kausalitäten herstellen.