OpenAI: Wie KI Fehler löst, ohne die Ursache zu verstehen – und warum das ein Problem ist

Viele Arbeitgeber:innen sehen KI als die Zukunft für ihr Unternehmen. Einige von ihnen überlegen schon, wie viele Mitarbeiter:innen sie in den nächsten Jahren durch KI ersetzen können. Allerdings könnte sich das mit dem aktuellen Stand der künstlichen Intelligenz als schwierig erweisen, wie OpenAI jetzt in einer Studie zeigt.
KI löst Fehler, versteht sie aber nicht
In dem Test haben die Verantwortlichen OpenAIs GPT-4o sowie o1 und Anthropics Claude 3.5 Sonnet herangezogen. Sie wollten herausfinden, wie gut die KI-Modelle Aufgaben von Freelance-Software-Ingenieur:innen absolvieren können – und sie damit womöglich ablösen können. Als Grundlage diente ein Datensatz von rund 1.500 Freelancer-Aufgaben der Seite Upwork. Auf dieser können Selbstständige Aufgaben von Auftraggeber:innen übernehmen und sich so etwas dazuverdienen.
Insgesamt beliefen sich die möglichen Bezahlungen für die Jobs auf eine Million US-Dollar. Dabei gliederten die OpenAI-Forscher:innen die Aufgaben in individuelle Herausforderungen wie das Auffinden und Lösen von Bugs sowie in Management-Aufgaben. Bei letzteren sollte die KI eine administrative Rolle übernehmen und Wege vorschlagen, um bestimmte Probleme zu lösen.
Beim Test stellte sich heraus, dass die KI-Modelle selten Probleme damit hatten, die Management-Aufgaben zu lösen. Durch Reasoning waren sie in der Lage, nachvollziehbare Lösungsansätze darzustellen. Bei den individuellen Coding-Aufgaben entstand ein ganz anderes Bild. So konnte Claude 3.5 Sonnet nur 26,2 Prozent der Aufgaben komplett lösen. Das entspricht rund 200.000 Dollar von der Upwork-Bezahlung. OpenAIs Modelle o1 und GPT-4o schnitten noch schlechter als Anthropics KI ab.
Als Erklärung halten die Forscher:innen fest: „KI-Agenten können die Quelle eines Fehlers schnell finden, indem sie Schlüsselwörter in einem Repository suchen oder die relevanten Dateien finden – oftmals schneller als Menschen. Allerdings verstehen sie nicht, dass diese Fehler mehrere Komponenten oder Dateien umspannen können.“
Laut den Forscher:innen führt das dazu, dass die grundlegenden Probleme unentdeckt bleiben. Zudem waren die getesteten KI-Modelle nur selten in der Lage, die gefundenen Fehler zu reproduzieren und damit zu testen, wie sie überhaupt entstanden sind. Künftig wollen die Forscher:innen weitere KI-Modelle mit ihrem neuen Datensatz testen und diesen zu einem Benchmark für Coding-Aufgaben machen.