Anzeige
Anzeige
News

Humanity‘s Last Exam: Daran scheitern die besten KI-Modelle

Wissenschaftler:innen haben einen Test entworfen, der als Maßstab für den Fortschritt künstlicher Intelligenz gelten soll. Bisher können die besten gängigen KI-Modelle nur weniger als 10 Prozent der Fragen richtig lösen.

Von Christian Weindl
2 Min.
Artikel merken
Anzeige
Anzeige

Was kann KI wirklich? Der Test Humanity's Last Exam soll es messen. (Symbolbild: Alexander Supertramp/Shutterstock)

Humanity’s Last Exam – die letzte Prüfung der Menschheit – so haben die Tech-Forscher:innen ihren aufwendig erstellten Test samt wissenschaftlichem Paper genannt. Die Prüfung soll einen Meilenstein darstellen, an dem sich messen lässt, wie leistungsfähig künstliche Intelligenz derzeit tatsächlich ist.

Anzeige
Anzeige

Wie die New York Times berichtet, beißen sich die bekannten KI-Modelle von OpenAI bis Google daran aber bisher noch die Zähne aus.

Humanity’s Last Exam: Tausende Experten reichen Fragen ein

Entwickelt wurde Humanity’s Last Exam von den beiden Organisationen Scale AI und dem Center for AI Safety (CAIS), die beide in San Francisco sitzen und Datensets für KI-Training anbieten. Beim CAIS handelt es sich um eine Non-Profit-Organisation, die immer wieder an der Entwicklung von sogenannten Benchmarks, also Maßstäben für künstliche Intelligenz beteiligt ist.

Anzeige
Anzeige

Der Test wurde in einem aufwendigen Verfahren erstellt und soll so etwas wie einen repräsentativen Querschnitt durch das gesammelte Wissen der Menschheit darstellen. Er behandelt Fachbereiche der Naturwissenschaften, Mathematik, aber auch aus verschiedenen Geisteswissenschaften.

1.000 Expert:innen aus 50 Ländern wurden hierfür dazu aufgefordert, Fragen aus ihren jeweiligen Spezialgebieten einzusenden. Aus den so ermittelten 70.000 Fragen wurden 13.000 einem Review-Prozess durch menschliche Prüfer:innen unterzogen, wodurch schließlich 3.000 Testfragen herauskristallisiert wurden, die dann im finalen Test gelandet sind.

Anzeige
Anzeige

Testfragen, an der KI scheitert: Grabinschriften und Kolibrimuskeln

Die Fragen haben es in sich. Sie reichen von Textaufgaben bis hin zu Bilderkennung, bei der die KI Diagramme und Grafiken auswerten muss. Als Beispiel ist auf der Homepage des Tests unter anderem die Übersetzung einer römischen Grabinschrift aufgeführt.

Um diese zu entziffern, muss die KI nicht nur Latein können, sondern auch mit den gängigen Abkürzungen auf solchen Grabplatten vertraut sein. Ein weiteres Beispiel ist eine sehr spezielle Detailfrage zum Muskelaufbau von Kolibris.

Anzeige
Anzeige

KI-Modelle geben im Brustton der Überzeugung falsche Antworten

Offenbar übersteigen diese Fragen bisher noch das „Allgemeinwissen“ der meisten KI-Modelle. Getestet wurden unter anderem OpenAIs GPT-4o und o1, Googles Gemini 1.5 Pro und Anthropics Claude 3.5 Sonnet.

Sie alle konnten bei der Bearbeitung des Tests nur deutlich weniger als 10 Prozent der Fragen richtig beantworten. Am besten Schnitt von den genannten noch o1 ab, mit einer Quote von 9,1 Prozent. Gemini zum Beispiel lag bei nur knapp 6 Prozent der Fragen richtig.

Gemessen wurde zudem der Grad, mit dem die KI-Modelle falsche Antworten fabulierten, ohne zu zweifeln. Der lag bei allen über 80 Prozent, oftmals zeigten die künstlichen Intelligenzen sogar in über 90 Prozent der Fälle wenig bis keine Unsicherheit bei falschen Antworten.

Anzeige
Anzeige

KI wird dazulernen. Aber versteht sie auch?

Die Forschenden gehen allerdings davon aus, dass sich die Ergebnisse bis Ende des Jahres deutlich verbessert haben werden. Allerdings muss das nicht zwingend einen Gesamtfortschritt der KI-Modelle bedeuten, sondern kann einfach dadurch eintreten, dass die richtigen Antworten ohne Verständnis auswendig gelernt wurden.

So ist es möglich, dass die KI zwar beim nächsten Mal die im Test genannte Grabplatte übersetzen kann, bei einer neuen Inschrift aber erneut scheitert, da das Prinzip der Abkürzungen nicht verstanden wurde.

Die Wissenschaftler:innen betonen außerdem, dass es sich bei Humanity’s Last Exam nicht Fragen handelt, die zur Lösung Kreativität benötigen. Dies müsse in einem gesonderten Test gemessen werden.

Anzeige
Anzeige

Sora – Das sind die besten Clips von OpenAIs Video-KI

Sora: Das sind die besten Clips von OpenAIs Video-KI Quelle:

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige