Gravierende Schwächen: Wie schlecht sind GPT-4o und Claude im Programmieren?

Ohne Mensch geht nichts: Derzeit lassen die Programmier-Skills der fortschrittlichsten KI-Modelle noch zu Wünschen übrig. (Foto: Roman Samborskyi/Shutterstock)
Laut OpenAI-CEO Sam Altman sollen KI-Chatbots bis Ende des Jahres menschliche Entwickler:innen übertreffen können. Derzeit scheint dieses hochgesteckte Ziel aber immer noch in sehr weiter Ferne zu liegen. Ausgerechnet eine Studie, die von OpenAI selbst durchgeführt wurde, wirft Zweifel an Altmans Prognose auf. Laut der Untersuchung übertrifft einerseits Anthropics Claude den Konkurrenten GPT-4o beim Programmieren, aber richtig gut ist aber keines der beiden Modelle.
OpenAI-Studie: KI-Modelle nehmen realitätsgetreue Programmierjobs an
Gemessen haben die Forschenden das Können der KI-Modelle anhand einer neuen Benchmark namens SWE-Lancer. Sie basiert auf realen Softwareentwicklungsaufgaben, die auf der Freelance-Programmierer-Plattform Upwork gepostet wurden.
Im Test sollten OpenAIs o1 Reasoning Model, GPT-4o und Anthropics Claude 3.5 Sonnet gegeneinander antreten und durch Erledigung der „Jobs“ möglichst viel fiktives Geld verdienen. Geprüft wurden die Large-Language-Modelle (LLM) besonders mit individuellen Aufgaben wie Bugfixes und Management-Aufgaben, die eher einen größeren Überblick erforderten. Die Modelle erhielten außerdem keinen Internetzugang, um nicht einfach Best Practices von irgendwelchen Webseiten kopieren zu können.
Insgesamt nahmen die LLM Aufgaben im Wert von mehreren Hunderttausend US-Dollar an. Wirklich lösen konnten sie aber nur die wenigsten.
Programmieren mit KI: schnell, aber oft falsch
Zwar konnten die Modelle bestimmte Programmieraufgaben schneller als Menschen ausführen, doch in den meisten Fällen waren ihre Antworten fehlerhaft oder lösten das Problem nicht nachhaltig.
Besonders problematisch war das Verständnis für komplexere Bugs: Die KI erkannte diese oft nicht oder bot nur oberflächliche Fixes an, die langfristig nicht funktionierten.
Ein weiteres Problem war der Kontext. Während menschliche Entwickler sich in den Code einarbeiten und Verknüpfungen verstehen, lieferten die KI-Modelle oft ungenaue oder nicht nachvollziehbare Antworten.
Claude 3.5 Sonnet schneidet besser ab – aber nicht gut genug
Von den getesteten KI-Modellen schnitt Claude 3.5 Sonnet am besten ab und „verdiente“ im virtuellen Testlauf mehr als GPT-4o und o1. Dennoch war die Fehlerquote hoch, und keine der KIs konnte die Qualität menschlicher Softwareentwickler erreichen.
Die Forschenden betonen, dass selbst für einfache Aufgaben eine höhere Zuverlässigkeit erforderlich wäre, um KI in der Praxis bedenkenlos einsetzen zu können.
KI als Ersatz für Entwickler? Noch nicht.
Seit KI Einzug in den Alltag gehalten hat, wird das Ende des Programmierer:innen-Berufs von allen Seiten in steter Regelmäßigkeit prophezeit. Die OpenAI-Studie zeigt jedoch deutlich, dass die Technologie noch weit von einer echten Automatisierung komplexer Softwareentwicklung entfernt ist. Bis KI-Modelle in der Lage sind, Software nicht nur zu schreiben, sondern auch nachhaltig zu verbessern, dürfte noch einige Zeit vergehen.
KI kann beim Programmieren also unterstützen, aber menschliche Entwickler:innen noch nicht ersetzen. Die aktuelle Technologie ist zwar leistungsfähig, aber unzuverlässig, wenn es um tiefere Code-Verständnisprozesse geht. Wer also befürchtet, seinen Entwicklerjob an KI zu verlieren, muss sich erst mal noch nicht allzu viele Sorgen machen. Ohnehin dürfte sich der Beruf eher verändern, als ganz verschwinden.