Humanity‘s Last Exam: Daran scheitern die besten KI-Modelle

Was kann KI wirklich? Der Test Humanity's Last Exam soll es messen. (Symbolbild: Alexander Supertramp/Shutterstock)
Humanity’s Last Exam – die letzte Prüfung der Menschheit – so haben die Tech-Forscher:innen ihren aufwendig erstellten Test samt wissenschaftlichem Paper genannt. Die Prüfung soll einen Meilenstein darstellen, an dem sich messen lässt, wie leistungsfähig künstliche Intelligenz derzeit tatsächlich ist.
Wie die New York Times berichtet, beißen sich die bekannten KI-Modelle von OpenAI bis Google daran aber bisher noch die Zähne aus.
Humanity’s Last Exam: Tausende Experten reichen Fragen ein
Entwickelt wurde Humanity’s Last Exam von den beiden Organisationen Scale AI und dem Center for AI Safety (CAIS), die beide in San Francisco sitzen und Datensets für KI-Training anbieten. Beim CAIS handelt es sich um eine Non-Profit-Organisation, die immer wieder an der Entwicklung von sogenannten Benchmarks, also Maßstäben für künstliche Intelligenz beteiligt ist.
Der Test wurde in einem aufwendigen Verfahren erstellt und soll so etwas wie einen repräsentativen Querschnitt durch das gesammelte Wissen der Menschheit darstellen. Er behandelt Fachbereiche der Naturwissenschaften, Mathematik, aber auch aus verschiedenen Geisteswissenschaften.
1.000 Expert:innen aus 50 Ländern wurden hierfür dazu aufgefordert, Fragen aus ihren jeweiligen Spezialgebieten einzusenden. Aus den so ermittelten 70.000 Fragen wurden 13.000 einem Review-Prozess durch menschliche Prüfer:innen unterzogen, wodurch schließlich 3.000 Testfragen herauskristallisiert wurden, die dann im finalen Test gelandet sind.
Testfragen, an der KI scheitert: Grabinschriften und Kolibrimuskeln
Die Fragen haben es in sich. Sie reichen von Textaufgaben bis hin zu Bilderkennung, bei der die KI Diagramme und Grafiken auswerten muss. Als Beispiel ist auf der Homepage des Tests unter anderem die Übersetzung einer römischen Grabinschrift aufgeführt.
Um diese zu entziffern, muss die KI nicht nur Latein können, sondern auch mit den gängigen Abkürzungen auf solchen Grabplatten vertraut sein. Ein weiteres Beispiel ist eine sehr spezielle Detailfrage zum Muskelaufbau von Kolibris.
KI-Modelle geben im Brustton der Überzeugung falsche Antworten
Offenbar übersteigen diese Fragen bisher noch das „Allgemeinwissen“ der meisten KI-Modelle. Getestet wurden unter anderem OpenAIs GPT-4o und o1, Googles Gemini 1.5 Pro und Anthropics Claude 3.5 Sonnet.
Sie alle konnten bei der Bearbeitung des Tests nur deutlich weniger als 10 Prozent der Fragen richtig beantworten. Am besten Schnitt von den genannten noch o1 ab, mit einer Quote von 9,1 Prozent. Gemini zum Beispiel lag bei nur knapp 6 Prozent der Fragen richtig.
Gemessen wurde zudem der Grad, mit dem die KI-Modelle falsche Antworten fabulierten, ohne zu zweifeln. Der lag bei allen über 80 Prozent, oftmals zeigten die künstlichen Intelligenzen sogar in über 90 Prozent der Fälle wenig bis keine Unsicherheit bei falschen Antworten.
KI wird dazulernen. Aber versteht sie auch?
Die Forschenden gehen allerdings davon aus, dass sich die Ergebnisse bis Ende des Jahres deutlich verbessert haben werden. Allerdings muss das nicht zwingend einen Gesamtfortschritt der KI-Modelle bedeuten, sondern kann einfach dadurch eintreten, dass die richtigen Antworten ohne Verständnis auswendig gelernt wurden.
So ist es möglich, dass die KI zwar beim nächsten Mal die im Test genannte Grabplatte übersetzen kann, bei einer neuen Inschrift aber erneut scheitert, da das Prinzip der Abkürzungen nicht verstanden wurde.
Die Wissenschaftler:innen betonen außerdem, dass es sich bei Humanity’s Last Exam nicht Fragen handelt, die zur Lösung Kreativität benötigen. Dies müsse in einem gesonderten Test gemessen werden.
Sora – Das sind die besten Clips von OpenAIs Video-KI