Genialer Dummkopf? Warum ihr euch auf KI nicht verlassen dürft

Das Phänomen, das selbst brandaktuelle KI-Modelle betrifft, wird als „Jagged AI“ (übersetzt etwa „holprige“ oder „kantige“ KI) bezeichnet. Gemeint ist das ungleichmäßige Fähigkeitsprofil Künstlicher Intelligenz, die oft sehr komplexe Aufgaben meistern, aber im nächsten Moment an total simplen scheitern kann.
Der Begriff wurde maßgeblich durch den KI-Experten Ethan Mollick, Professor an der Wharton School der University of Pennsylvania im gleichnamigen US-Bundesstaat, geprägt. Er beschreibt das Phänomen ausführlich auf seinem Blog One Useful Thing.
Dabei sei diese Diskrepanz kein Fehler im System, sondern eine inhärente Eigenschaft aktueller Modelle wie o3 von OpenAI oder Gemini 2.5 Pro von Google.
Beeindruckende Höhen, überraschende Tiefen
Einerseits können Modelle wie o3 dank neuer „agentischer“ Fähigkeiten komplexe, mehrstufige Aufgaben lösen: Sie nutzen eigenständig Tools wie Websuche oder führen Programmcode aus – neuerdings denken sie sogar in Bildern.
Mollick beschreibt etwa, wie o3 aus einem einzigen, vagen Prompt einen ganzen Businessplan samt Website-Mockup für einen Online-Käse-Shop erstellte – eine Leistung, die weit über die Fähigkeiten früherer Modelle hinausgeht. Der Wirtschaftsprofessor Tyler Cowen geht noch weiter: In einem viel beachteten Blog‑Post erklärt er, das neue o3 erfülle bereits alle Merkmale einer Allgemeinen KI (AGI) – jedenfalls sehe er das so.
Auf der anderen Seite produzieren dieselben Modelle aber auch „Halluzinationen“, also faktisch falsche Aussagen, oder scheitern an einfacher Mathematik und logischen Schlussfolgerungen. Die Natur dieser „Jagged Frontier“, wie Mollick sie nennt, fasst er prägnant zusammen: „Bei manchen Aufgaben ist KI unzuverlässig. Bei anderen ist sie übermenschlich.“ Deshalb könne maximal von einer „Jagged AGI“ die Rede sein – antwortet er auf Cowens Behauptung.
Warum die KI-Leistung so schwankt
Einen Hauptgrund für die schwankenden Leistungen sieht der Experte in den riesigen Text- und Bilddaten, mit denen KIs trainiert werden. Sie lernen, Muster zu erkennen und statistisch wahrscheinliche Fortsetzungen zu generieren, entwickeln aber kein echtes Weltverständnis oder „gesunden Menschenverstand“.
Aufgaben, die schlecht in den Trainingsdaten repräsentiert sind oder echte logische Schlussfolgerungen erfordern, fallen ihnen schwerer. Zudem sind die zugrundeliegenden Architekturen wie Transformer primär auf bestimmte Aufgaben wie Sprachverarbeitung optimiert.
Als Merksatz darf gelten: Die KI ist genial, wo ihr Trainingsatlas gestochen scharf ist – und ein Dummkopf, wo nur grobe Konturen vorliegen.
Mit anderen Worten: Je mehr Daten zu einem bestimmten Kontext vorliegen, desto besser ist die KI-Leistung. Wird die Datenbasis dünn, schwächelt die KI bis hin zum Versagen.
Die Schwierigkeit zuverlässiger Messung
Diese „Holprigkeit“ mache es auch extrem schwierig, die Intelligenz oder Kreativität der Systeme zu bewerten. Klassische Intelligenz-Tests stammen aus der Humanpsychologie und passen nicht.
Selbst der berühmte Turing‑Test wurde natürlich nicht für heutige Sprachmodelle konzipiert. Eine neue Studie (PDF) zeigt, dass ein KI‑System ihn zwar offiziell „bestehen“ kann – wir aber nicht mehr wissen, was dieser Erfolg bedeutet.
Auch Benchmarks für Kreativität oder Empathie können kippen, sobald sich die Prompt-Formulierung ändert, wie der Experte betont. Jede eindeutige Intelligenz‑Grenze sei derzeit als verschwommen zu bezeichnen.
Was das für Nutzer:innen bedeutet
Für Nutzer:innen bedeutet das vor allem: KI-Ergebnisse niemals blind übernehmen. Eine kritische Prüfung und menschliche Aufsicht bleiben unerlässlich.
Weil moderne KI zwar enorme Fortschritte mache, aber eben nicht durchgehend verlässlich sei, wird laut Mollick „menschliche Expertise benötigt, um herauszufinden, wo KI funktioniert und wo nicht“. Es gelte also, die Stärken gezielt zu nutzen und bei Aufgaben mit hohem Anspruch an Fakten oder Logik Vorsicht walten zu lassen.
Bisher benötigten bahnbrechende Technologien Jahre, um in Unternehmen und Gesellschaft Fuß zu fassen. Doch die neuen agentischen Fähigkeiten – selbstständige Zielzerlegung, Tool‑Nutzung, mehrschrittige Pläne – könnten die Einführung drastisch beschleunigen. Mollick hält beide Szenarien für möglich und rät daher dazu, die „holprige“ KI-Landschaft jetzt aktiv zu erkunden, um auf jede Entwicklung vorbereitet zu sein.
Auf jeden Fall sollten Nutzer:innen die neuen Modelle ausgiebig selbst testen. Gerade Gemini 2.5 Pro von Google sei kostenfrei zugänglich und erlaube eigene Experimente mit der „holprigen“ Leistungsfähigkeit.