Claude 4: Was die neuen Sonnet- und Opus-Modelle von Anthropic können

Anthropic verspricht mit seinem neuen Claude Opus 4 das "beste Coding-Modell der Welt". (Bild: gguy/Shutterstock)
Erst im Februar 2025 hat Anthropic Claude Sonnet 3.7 vorgestellt. Jetzt steht schon der Nachfolger von Sonnet in den Startlöchern und wird von einer neuen Version von Claude Opus begleitet. Wie das Unternehmen in einem Blog-Beitrag erklärt, sollen Claude Sonnet 4 und Opus 4 zu den besten KI-Modellen im Coding-Bereich gehören. Opus 4 soll laut Anthropic sogar das beste Modell der Welt sein.
Claude Opus 4 und Sonnet 4: Was die KI-Modelle leisten
Im Vergleich zu Sonnet 3.7 soll Sonnet 4 deutlich bessere Leistungen in den Bereichen Coding und Reasoning zeigen. Anthropic verspricht zudem, dass die KI künftig noch genauer auf eure Prompts eingeht. Das schlägt sich auch in den SWE-Benchmark-Ergebnissen nieder. Sonnet 4 erreicht dort einen Genauigkeits-Score von 72,7 Prozent. Der Vorgänger, Sonnet 3.7, kommt laut Anthropic auf 62,3 Prozent. Und auch im Vergleich zur Konkurrenz soll sich Sonnet 4 gut schlagen. Gemini 2.5 Pro kommt auf 63,2 Prozent und OpenAIs Codex-1-Modell auf 72,1 Prozent.
Das „beste Coding-Modell der Welt“, Claude Opus 4, glänzt laut Anthropic primär bei komplexen Aufgaben und Prompts, die einen KI-Agenten-Workflow über mehrere Stunden hinweg erfordern. Im SWE-Benchmark kommt das Modell auf eine ähnliche Genauigkeit wie Sonnet 4, nämlich 72,5 Prozent. Die Performance macht Anthropic am Terminal-Benchmark fest, in dem Claude Opus 43,2 Prozent erreichen konnte. Andere Modelle wie Claude Sonnet 4 (35,5 Prozent), OpenAI o3 (30,2 Prozent) und Gemini 2.5 Pro (25,3 Prozent) liegen laut Anthropics Messungen deutlich dahinter.
Jared Kaplan, Anthropics Chief Science Officer, sagte dazu in einem Interview mit CNBC: „Je komplexer die Aufgabe ist, desto größer ist das Risiko, dass KI-Modelle vom eigentlichen Pfad abweichen. Wir haben uns sehr darauf fokussiert, dieses Problem zu adressieren, damit Nutzer eine große Menge Arbeit auf einmal an unsere Modelle delegieren können“.
Beide neuen Claude-Modelle sind zudem in der Lage, zu einem Reasoning-Modus zu wechseln und dabei auch das Internet nach tiefergreifenden Antworten für die Aufgabe zu durchsuchen. Zudem betont Anthropic, dass beide KI-Modelle mehrere Tools parallel benutzen und sogar eigenständig „Erinnerungsdateien“ für bestimmte Aufgaben anlegen können, wenn sie Zugriff auf lokale Dateien bekommen. Als Beispiel zeigt Anthropic, wie Claude Opus 4 Pokémon spielt. Die KI kann sich Notizen dazu machen, welche Bewegungsabläufe bisher gescheitert sind und welche funktioniert haben, um im Spiel schneller voranzukommen.
Anthropic betont, dass Claude Sonnet 4 zwar nicht in jedem Bereich so gut ist wie Opus 4, aber dafür einen „optimalen Mix auf Fertigkeiten und Praktikabilität“ liefert. Zudem steht Claude Sonnet 4 allen User:innen zur Verfügung – egal ob mit oder ohne Abo. Claude Opus 4 können hingegen nur Pro-, Max-, Team- und Enterprise-Abonnent:innen nutzen. Die API-Nutzung der Modelle ist über Anthropic, Amazon Bedrock oder Google Cloud Vortex möglich. Die Preise für die API-Nutzung haben sich im Vergleich zu den Vorgängern nicht verändert. Das etwas leistungsstärkere Opus 4 kostet 15 US-Dollar pro eine Million Input-Token und 75 Dollar für dieselbe Anzahl Output-Token. Bei Sonnet 4 belaufen sich die Preise für eine Million Token auf drei Dollar beim Input und 15 Dollar beim Output.