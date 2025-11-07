Benchmarks sind standardisierte Tests, die dazu dienen, die Leistungsfähigkeit, Effizienz und Zuverlässigkeit von KI-Modellen objektiv zu bewerten und sie miteinander vergleichbar zu machen. Unternehmen wie OpenAI, Anthropic und Deepseek nutzen sie gerne, um die Fortschrittlichkeit ihrer Modelle zu bewerben. Ein Forschungsteam des Oxford Internet Institute kommt in einer neuen Studie allerdings zu dem Schluss, dass es vielen der Tests an wissenschaftlicher Genauigkeit mangelt und die Leistungsfähigkeit von KI-Modellen regelmäßig überbewertet wird.

Selbst renommierte Benchmarks fallen durch

KI-Benchmarks überprüfen ganz unterschiedliche Fähigkeiten. So wird beispielsweise in einem Test mit dem Namen „Humanity’s Last Exam“ universelles Wissen aus Bereichen wie Kunst und Mathematik abgefragt, während „SWE-Bench Verified“ die Programmierfähigkeiten von KI-Modellen testet. Das Ziel von Benchmarks besteht eigentlich darin, eine standardisierte Grundlage zu schaffen, um die Leistungsfähigkeit zu überprüfen, vergleichbar zu machen und dadurch auch Fehlerquellen und Optimierungspotenziale zu identifizieren.

Laut der Oxford-Studie verfehlen zahlreiche Tests jedoch dieses Ziel – und dienen KI-Anbietern eher dazu, ihre neuesten Modelle anzupreisen. Das Problem: Zahlreiche Benchmarks definieren nicht genau genug, was sie überprüfen wollen. Außerdem würden zu selten zuverlässige statistische Methoden genutzt, um die Ergebnisse verschiedener Modelle zu vergleichen.

Insgesamt wurden von dem Forschungsteam 445 führende KI-Benchmarks untersucht. Adam Mahdi ist als Senior Research Fellow am Oxford Internet Institute tätig und hat die Studie als einer der Hauptautoren mitverantwortet. Er sagte gegenüber NBC News, dass die Benchmarks alarmierend irreführend sein können: „Wenn wir KI-Modelle auffordern, bestimmte Aufgaben auszuführen, messen wir oft völlig andere Konzepte als das, was wir eigentlich erfassen wollen.“

Sein Forschungskollege Andrew Bean fügte hinzu: „Aussagen wie ‚ein Modell erreicht die Intelligenz eines Doktors‘ muss man wirklich mit Vorsicht genießen.“ Er kritisiert, dass selbst seriöse Benchmarks einer genaueren Prüfung bedürfen und man ihnen nicht blind vertrauen sollte.

Benchmarks müssen aussagekräftiger werden

Die Studie kam zu dem Ergebnis, dass etwa die Hälfte der untersuchten Benchmarks die Konzepte und Fähigkeiten, die sie messen sollen, nicht klar definiert. Als Beispiel führen die Forscher:innen einen gängigen KI-Benchmark namens „Grade School Math 8K“ an, der die Leistung anhand einer Reihe grundlegender Mathematikfragen misst. Der Test wird gerne genutzt, um zu zeigen, dass KI-Modelle über starke Fähigkeiten im grundlegenden mathematischen Denken verfügen. Richtige Antworten ließen allerdings nicht den Schluss zu, dass das untersuchte Modell tatsächlich mathematisches Denken anwendet, so Mahdi.

Auch bei zu überprüfenden Faktoren wie Unbedenklichkeit oder logischem Denken würden oft willkürliche Begrifflichkeiten verwendet, nur um etwas testen zu können – allerdings ohne kritisch zu hinterfragen, wie aussagekräftig die Ergebnisse tatsächlich sind.

Das Forschungsteam gibt klare Empfehlungen und stellt eine Checkliste zur Verfügung, um die Kriterien zu systematisieren und die Transparenz von Benchmarks zu verbessern. Zu den vorgeschlagenen Verbesserungen gehören die Festlegung des Umfangs der zu bewertenden Maßnahme, die Erstellung einer Reihe von Aufgaben, die die zu messenden Gesamtfähigkeiten besser repräsentieren, sowie der Vergleich der Leistungsfähigkeit mittels statistischer Analyse.

Die Studie wurde unter anderem von Nikola Jurkovic gelobt, der als technischer Mitarbeiter am einflussreichen METR-KI-Forschungszentrum tätig ist. „Wir brauchen mehr Genauigkeit, wenn wir die Ergebnisse von KI-Benchmarks interpretieren wollen. Diese Checkliste ist ein Ausgangspunkt für Forscher:innen, um zu überprüfen, ob ihr Benchmark aussagekräftig ist“, so Jurkovic.