Gravierende Schwächen: Wie schlecht sind GPT-4o und Claude im Programmieren?

News

Gravierende Schwächen: Wie schlecht sind GPT-4o und Claude im Programmieren?

KI-Systeme wie GPT-4o oder Claude 3.5 Sonnet können eine Menge – außer Programmieren. Das räumt jetzt ein Forschungsteam von OpenAI selbst ein. Auch die fortschrittlichsten Modelle scheitern an einfachen Herausforderungen.

Von Christian Weindl

24.02.2025, 19:00 Uhr • 2 Min.

Gravierende Schwächen: Wie schlecht sind GPT-4o und Claude im Programmieren? — Ohne Mensch geht nichts: Derzeit lassen die Programmier-Skills der fortschrittlichsten KI-Modelle noch zu Wünschen übrig. (Foto: Roman Samborskyi/Shutterstock)

Laut OpenAI-CEO Sam Altman sollen KI-Chatbots bis Ende des Jahres menschliche Entwickler:innen übertreffen können. Derzeit scheint dieses hochgesteckte Ziel aber immer noch in sehr weiter Ferne zu liegen. Ausgerechnet eine Studie, die von OpenAI selbst durchgeführt wurde, wirft Zweifel an Altmans Prognose auf. Laut der Untersuchung übertrifft einerseits Anthropics Claude den Konkurrenten GPT-4o beim Programmieren, aber richtig gut ist aber keines der beiden Modelle.

OpenAI-Studie: KI-Modelle nehmen realitätsgetreue Programmierjobs an

Gemessen haben die Forschenden das Können der KI-Modelle anhand einer neuen Benchmark namens SWE-Lancer. Sie basiert auf realen Softwareentwicklungsaufgaben, die auf der Freelance-Programmierer-Plattform Upwork gepostet wurden.

Empfehlungen der Redaktion

News

Coding in der KI-Ära: Warum Programmierkenntnisse weiterhin entscheidend sind

News

Anthropic lässt euch jetzt eigene KI-Agenten für Claude bauen

News

Startup stellt KI-Klon von Alan Turing ein – und erntet Kritik

Im Test sollten OpenAIs o1 Reasoning Model, GPT-4o und Anthropics Claude 3.5 Sonnet gegeneinander antreten und durch Erledigung der „Jobs“ möglichst viel fiktives Geld verdienen. Geprüft wurden die Large-Language-Modelle (LLM) besonders mit individuellen Aufgaben wie Bugfixes und Management-Aufgaben, die eher einen größeren Überblick erforderten. Die Modelle erhielten außerdem keinen Internetzugang, um nicht einfach Best Practices von irgendwelchen Webseiten kopieren zu können.

Insgesamt nahmen die LLM Aufgaben im Wert von mehreren Hunderttausend US-Dollar an. Wirklich lösen konnten sie aber nur die wenigsten.

Programmieren mit KI: schnell, aber oft falsch

Zwar konnten die Modelle bestimmte Programmieraufgaben schneller als Menschen ausführen, doch in den meisten Fällen waren ihre Antworten fehlerhaft oder lösten das Problem nicht nachhaltig.

Besonders problematisch war das Verständnis für komplexere Bugs: Die KI erkannte diese oft nicht oder bot nur oberflächliche Fixes an, die langfristig nicht funktionierten.

Ein weiteres Problem war der Kontext. Während menschliche Entwickler sich in den Code einarbeiten und Verknüpfungen verstehen, lieferten die KI-Modelle oft ungenaue oder nicht nachvollziehbare Antworten.

Claude 3.5 Sonnet schneidet besser ab – aber nicht gut genug

Von den getesteten KI-Modellen schnitt Claude 3.5 Sonnet am besten ab und „verdiente“ im virtuellen Testlauf mehr als GPT-4o und o1. Dennoch war die Fehlerquote hoch, und keine der KIs konnte die Qualität menschlicher Softwareentwickler erreichen.

Die Forschenden betonen, dass selbst für einfache Aufgaben eine höhere Zuverlässigkeit erforderlich wäre, um KI in der Praxis bedenkenlos einsetzen zu können.

KI als Ersatz für Entwickler? Noch nicht.

Seit KI Einzug in den Alltag gehalten hat, wird das Ende des Programmierer:innen-Berufs von allen Seiten in steter Regelmäßigkeit prophezeit. Die OpenAI-Studie zeigt jedoch deutlich, dass die Technologie noch weit von einer echten Automatisierung komplexer Softwareentwicklung entfernt ist. Bis KI-Modelle in der Lage sind, Software nicht nur zu schreiben, sondern auch nachhaltig zu verbessern, dürfte noch einige Zeit vergehen.

KI kann beim Programmieren also unterstützen, aber menschliche Entwickler:innen noch nicht ersetzen. Die aktuelle Technologie ist zwar leistungsfähig, aber unzuverlässig, wenn es um tiefere Code-Verständnisprozesse geht. Wer also befürchtet, seinen Entwicklerjob an KI zu verlieren, muss sich erst mal noch nicht allzu viele Sorgen machen. Ohnehin dürfte sich der Beruf eher verändern, als ganz verschwinden.

Mehr zu diesem Thema

MIT Technology Review Studie Künstliche Intelligenz Open AI

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

Themen

Magazine

Skills

Gravierende Schwächen: Wie schlecht sind GPT-4o und Claude im Programmieren?

OpenAI-Studie: KI-Modelle nehmen realitätsgetreue Programmierjobs an

Programmieren mit KI: schnell, aber oft falsch

Claude 3.5 Sonnet schneidet besser ab – aber nicht gut genug

KI als Ersatz für Entwickler? Noch nicht.