Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review Kommentar
Verpasse keine News mehr!

Benchmark-Krise: Wie können wir KI wirklich sinnvoll bewerten?

Es gibt unzählige Benchmarks, um festzustellen, wie gut große Sprachmodelle arbeiten. Das Problem: Bislang ist keiner gut genug. Es muss ein Wandel her, meint unsere Autorin.

Von MIT Technology Review Online
6 Min.
Artikel merken
Anzeige
Anzeige
Eine KI macht sich selbst zum Admin. (Foto: Anggalih Prasetya / Shutterstock)

Ist Deepseek wirklich besser als ChatGPT? Ist das Modell von Anthropic wirklich gut? Fragen wie diese lassen sich weitschweifig beantworten. Es geht aber auch diplomatisch: Beide sind auf unterschiedliche Weise gut. Allerdings ist „gut“ nicht genau definiert. Das ist auch in Ordnung. Es ist menschlich, etwas Neues und scheinbar Mächtiges verstehen zu wollen. Aber diese einfache Frage – ist dieses Modell gut oder schlecht? – bringt eigentlich nur ein viel komplizierteres technisches Problem auf den Punkt.

Anzeige
Anzeige

Bisher haben wir versucht, mit Benchmarks Antworten zu finden. Dabei erhalten Modelle einen festen Satz an Fragen, die sie beantworten müssen, und werden danach bewertet, wie viele sie korrekt beantworten. Aber genau wie bekannte Prüfungen für Menschen, etwa der US-Uni-Aufnahmetest SAT, spiegeln diese Benchmarks nicht immer tiefere Fähigkeiten wider. In letzter Zeit scheint es so, als würde jede Woche ein neues KI-Modell auf den Markt kommen – und jedes Mal, wenn die Firma dahinter es vorstellt, werden neue Ergebnisse präsentiert, die zeigen, dass es die Fähigkeiten seiner Vorgänger übertrifft. Auf dem Papier scheint also alles immer besser zu werden.

Speziell auf KI-Benchmarks trainieren

In der Praxis ist das jedoch nicht so einfach. Genauso wie das Pauken für den SAT zwar die Punktzahl verbessern kann, ohne das kritische Denken der Schüler:innen zu verbessern, können Modelle darauf trainiert werden, auf Benchmark-Ergebnisse zu optimieren. Dabei werden sie nicht tatsächlich intelligenter. Wie Andrej Karpathy, Veteran von OpenAI und Tesla AI, kürzlich formulierte, befinden wir uns also in einer Bewertungskrise – unsere Maßstäbe für KI spiegeln nicht mehr wider, was wir wirklich messen wollen.

Anzeige
Anzeige

Klassische KI-Benchmarks sind aus mehreren wichtigen Gründen überholt. Erstens hat die Branche gelernt, „auf den Benchmark hin zu trainieren“ und KI-Modelle so anzupassen, dass sie dabei gute Ergebnisse erzielen, anstatt sich wirklich zu verbessern. Zweitens bedeutet die weitverbreitete Datenkontaminierung, dass Modelle die Benchmark-Fragen oder sogar die Antworten möglicherweise bereits irgendwo in ihren Trainingsdaten gesehen haben. Und schließlich sind viele Benchmarks einfach ausgereizt. Bei beliebten Systemen wie SuperGLUE haben Modelle bereits eine Genauigkeit von 90 Prozent erreicht oder überschritten, sodass weitere Verbesserungen eher wie ein statistisches Rauschen als sinnvolle Verbesserungen wirken. An diesem Punkt sagen uns die Ergebnisse dann nichts mehr. Das gilt insbesondere für Bereiche wie Programmierung, logisches Denken und die Lösung komplexer MINT-Probleme, die eine hohe Qualifikation eines menschlichen Prüflings verlangen.

Programmieren: Womit KI noch Probleme hat

Allerdings gibt es weltweit immer mehr Teams, die versuchen, die Krise bei der KI-Bewertung zu bekämpfen. Ein Ergebnis ist ein neuer Benchmark namens LiveCodeBench Pro. Er greift Probleme aus sogenannten internationalen Algorithmus-Olympiaden auf – Wettbewerbe für hochbegabte Programmierer an Gymnasien und Universitäten, bei denen die Teilnehmer ohne externe Hilfsmittel anspruchsvolle Probleme lösen müssen. Die besten KI-Modelle schaffen derzeit nur etwa 53 Prozent der mittelschweren Probleme im ersten Durchgang und 0 Prozent der schwierigsten Probleme. Dabei handelt es sich um Aufgaben, bei denen menschliche Expert:innen regelmäßig hervorragende Leistungen erbringen.

Zihan Zheng, Student an der NYU und Nordamerikafinalist bei einem wichtigen Programmierwettbewerb, leitete das Projekt zur Entwicklung von LiveCodeBench Pro mit einem Team weiterer Sieger:innen bei Algorithmus-Olympiaden. Das Team hat sowohl den Benchmark als auch eine detaillierte Studie veröffentlicht, die zeigt, dass Spitzenmodelle wie GPT-4o mini und Googles Gemini 2.5 immerhin auf einem Niveau liegen, das mit den besten zehn Prozent der menschlichen Wettbewerber:innen vergleichbar ist. Zheng beobachtete dabei ein durchgängiges Muster: KI ist hervorragend darin, zu planen und die daraus folgenden Aufgaben durchzuführen, hat jedoch Schwierigkeiten mit nuancierten algorithmischen Überlegungen. „Das zeigt, dass KI noch weit davon entfernt ist, mit den besten menschlichen Programmierer:innen mithalten zu können.“

LiveCodeBench Pro könnte jedoch zumindest eine neue Obergrenze definieren. Aber wie sieht es mit der Untergrenze aus? Anfang Juni argumentierte eine Gruppe von Forscher:innen mehrerer Universitäten, dass die aktuell in Mode gekommenen LLM-Agenten in erster Linie anhand ihres Risikos bewertet werden sollten und nicht nur anhand ihrer Leistung. In realen, anwendungsorientierten Umgebungen – insbesondere mit solchen Agenten – sind Unzuverlässigkeit, Halluzinationen und andere Anfälligkeiten in der Praxis ruinös. Ein falscher Schritt kann katastrophale Folgen haben, wenn es um Geld oder Sicherheit der Nutzer geht.

Anzeige
Anzeige

Es gibt weitere Versuche, dieses Problem zu umgehen. Einige Benchmarks, wie ARC-AGI, halten jetzt einen Teil ihrer Datensätze geheim, um zu verhindern, dass KI-Modelle übermäßig für die Tests optimiert werden, ein Problem, das als „Überanpassung“ (Overfitting) bezeichnet wird. Yann LeCun von Meta hat selbst LiveBench entwickelt, einen dynamischen Benchmark, bei dem die Fragen alle sechs Monate geändert werden. Das Ziel ist es, Modelle nicht nur anhand ihres Wissens, sondern auch anhand ihrer Anpassungsfähigkeit zu bewerten.

Benchmark zwischen Theorie und Praxis

Xbench, ein chinesisches Benchmark-Projekt, das von der HongShan Capital Group (ehemals Sequoia China) entwickelt wurde, ist ein weiteres Beispiel für diese Bemühungen. Xbench wurde ursprünglich 2022 – unmittelbar nach der Einführung von ChatGPT – als internes Tool zur Bewertung von Modellen für mögliche Investments entwickelt. Im Laufe der Zeit erweiterte das Team das System und holte externe Mitarbeiter hinzu. Vergangene Woche wurden Teile der Fragen, die der Benchmark enthält, quelloffen veröffentlicht.

Xbench zeichnet sich durch sein zweigleisiges Design aus, das versucht, die bestehenden Lücken zwischen laborartigen Tests und der praktischen Anwendbarkeit zu schließen. Der erste Teil von Xbench bewertet die technischen Denkfähigkeiten eines Modells, indem er dessen STEM-Kenntnisse und seine Fähigkeit zur Internet-Recherche in chinesischer Sprache testet. Der zweite Teil zielt darauf ab, die praktische Nutzbarkeit zu bewerten – also wie gut ein Modell Aufgaben in Bereichen wie Personalbeschaffung und Marketing bewältigt.

Anzeige
Anzeige

In einer der Aufgaben muss das KI-System beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Batterieingenieur identifizieren, in einer anderen muss Marken mit relevanten Influencern aus einem Pool von mehr als 800 Kreativen zusammenbringen. Das Team hinter Xbench hat große Ambitionen: Es plant, die Testmöglichkeiten auf Bereiche wie Finanzen, Recht und Design auszuweiten und die Testreihe vierteljährlich zu aktualisieren, um zu vermeiden, dass die Fragen veralten.

Kurzum: Benchmarks sind in einer Sackgasse. Denn die Reasoning-Fähigkeit eines Modells, logische wissenschaftliche Schlussfolgerungen zu ziehen, lässt sich nicht unbedingt in eine unterhaltsame, informative und kreative Erfahrung umsetzen, die von den Systemen durch die Nutzer:innen zunehmend verlangt wird.

Die meisten Anfragen von Durchschnittsnutzer:innen sind wahrlich keine Raketenwissenschaft. Es gibt noch nicht viel Forschung darüber, wie man die Kreativität eines Modells effektiv bewerten kann. Interessant wäre es in der Tat, zu erfahren, welches Modell sich am besten für kreatives Schreiben oder auch Kunstprojekte eignet.

Anzeige
Anzeige

Wie ein anderer Bewertungsansatz aussehen könnte

Als Alternative zu Benchmarks haben sich auch Tests mit menschlichen Präferenzen etabliert. Eine immer beliebter werdende Plattform ist LMarena, auf der Nutzer:innen Fragen einreichen und die Antworten verschiedener Modelle miteinander vergleichen können – und dann diejenige auswählen, die ihnen am besten gefällt. Diese Methode hat jedoch auch ihre Schwächen. Nutzer:innen belohnen manchmal jene Antwort, die schmeichelhafter oder angenehmer klingt, auch wenn sie falsch ist. Das kann zu Modellen führen, die es den Nutzer:innen ständig recht machen wollen – und die Ergebnisse zugunsten von Anbiederung verzerren.

KI-Forscher beginnen zu erkennen – und glücklicherweise zuzugeben –, dass es beim Status quo der KI-Benchmarks nicht so bleiben kann. Auf der jüngsten CVPR-Konferenz kritisierte NYU-Professor Saining Xie anhand des Buches „Finite and Infinite Games“ des Historikers James Carse die hyperkompetitive Kultur der KI-Forschung. Ein unendliches Spiel, so Saining, ist offen – das Ziel ist es, weiterzuspielen. In der KI jedoch erzielt ein dominanter Akteur oft ein großartiges Ergebnis – was eine Welle von Folgearbeiten zu demselben engen Thema auslöst. Diese Kultur des Wettlaufs um Veröffentlichungen setzt Forscher:innen unter enormen Druck und belohnt Geschwindigkeit vor Tiefe, kurzfristige Erfolge vor langfristigen Erkenntnissen. „Wenn die [KI-]Wissenschaft sich dafür entscheidet, ein solches endliches Spiel zu spielen“, warnte er, „wird sie alles verlieren“.

Seine Formulierung ist sehr treffend – und vielleicht lässt sie sich auch auf Benchmarks übertragen: Gibt es also eine wirklich umfassende Bewertungsskala für die Qualität eines Modells? Nicht wirklich. Viele der Dimensionen – soziale, emotionale, interdisziplinäre – entziehen sich nach wie vor einer Bewertung. Aber die aktuelle Welle neuer Benchmarks deutet auf einen Wandel hin. Angesichts der rasanten Entwicklung dieses Bereichs ist aber auch ein wenig Skepsis angebracht.

Dieser Artikel stammt von Caiwei Chen. Sie ist China-Reporterin der US-amerikanischen Ausgabe von MIT Technology Review und schreibt über alles, was mit dem Reich der Mitte und dessen Platz in der Technikwelt zu tun hat.
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren