Anzeige
Anzeige
News
Verpasse keine News mehr!

Gravierende Schwächen: Wie schlecht sind GPT-4o und Claude im Programmieren?

KI-Systeme wie GPT-4o oder Claude 3.5 Sonnet können eine Menge – außer Programmieren. Das räumt jetzt ein Forschungsteam von OpenAI selbst ein. Auch die fortschrittlichsten Modelle scheitern an einfachen Herausforderungen.

Von Christian Weindl
2 Min.
Artikel merken
Anzeige
Anzeige

Ohne Mensch geht nichts: Derzeit lassen die Programmier-Skills der fortschrittlichsten KI-Modelle noch zu Wünschen übrig. (Foto: Roman Samborskyi/Shutterstock)

Laut OpenAI-CEO Sam Altman sollen KI-Chatbots bis Ende des Jahres menschliche Entwickler:innen übertreffen können. Derzeit scheint dieses hochgesteckte Ziel aber immer noch in sehr weiter Ferne zu liegen. Ausgerechnet eine Studie, die von OpenAI selbst durchgeführt wurde, wirft Zweifel an Altmans Prognose auf. Laut der Untersuchung übertrifft einerseits Anthropics Claude den Konkurrenten GPT-4o beim Programmieren, aber richtig gut ist aber keines der beiden Modelle.

Anzeige
Anzeige

OpenAI-Studie: KI-Modelle nehmen realitätsgetreue Programmierjobs an

Gemessen haben die Forschenden das Können der KI-Modelle anhand einer neuen Benchmark namens SWE-Lancer. Sie basiert auf realen Softwareentwicklungsaufgaben, die auf der Freelance-Programmierer-Plattform Upwork gepostet wurden.

Im Test sollten OpenAIs o1 Reasoning Model, GPT-4o und Anthropics Claude 3.5 Sonnet gegeneinander antreten und durch Erledigung der „Jobs“ möglichst viel fiktives Geld verdienen. Geprüft wurden die Large-Language-Modelle (LLM) besonders mit individuellen Aufgaben wie Bugfixes und Management-Aufgaben, die eher einen größeren Überblick erforderten.  Die Modelle erhielten außerdem keinen Internetzugang, um nicht einfach Best Practices von irgendwelchen Webseiten kopieren zu können.

Anzeige
Anzeige

Insgesamt nahmen die LLM Aufgaben im Wert von mehreren Hunderttausend US-Dollar an. Wirklich lösen konnten sie aber nur die wenigsten.

Programmieren mit KI: schnell, aber oft falsch

Zwar konnten die Modelle bestimmte Programmieraufgaben schneller als Menschen ausführen, doch in den meisten Fällen waren ihre Antworten fehlerhaft oder lösten das Problem nicht nachhaltig.

Anzeige
Anzeige

Besonders problematisch war das Verständnis für komplexere Bugs: Die KI erkannte diese oft nicht oder bot nur oberflächliche Fixes an, die langfristig nicht funktionierten.

Ein weiteres Problem war der Kontext. Während menschliche Entwickler sich in den Code einarbeiten und Verknüpfungen verstehen, lieferten die KI-Modelle oft ungenaue oder nicht nachvollziehbare Antworten.

Anzeige
Anzeige

Claude 3.5 Sonnet schneidet besser ab – aber nicht gut genug

Von den getesteten KI-Modellen schnitt Claude 3.5 Sonnet am besten ab und „verdiente“ im virtuellen Testlauf mehr als GPT-4o und o1. Dennoch war die Fehlerquote hoch, und keine der KIs konnte die Qualität menschlicher Softwareentwickler erreichen.

Die Forschenden betonen, dass selbst für einfache Aufgaben eine höhere Zuverlässigkeit erforderlich wäre, um KI in der Praxis bedenkenlos einsetzen zu können.

KI als Ersatz für Entwickler? Noch nicht.

Seit KI Einzug in den Alltag gehalten hat, wird das Ende des Programmierer:innen-Berufs von allen Seiten in steter Regelmäßigkeit prophezeit. Die OpenAI-Studie zeigt jedoch deutlich, dass die Technologie noch weit von einer echten Automatisierung komplexer Softwareentwicklung entfernt ist. Bis KI-Modelle in der Lage sind, Software nicht nur zu schreiben, sondern auch nachhaltig zu verbessern, dürfte noch einige Zeit vergehen.

Anzeige
Anzeige

KI kann beim Programmieren also unterstützen, aber menschliche Entwickler:innen noch nicht ersetzen. Die aktuelle Technologie ist zwar leistungsfähig, aber unzuverlässig, wenn es um tiefere Code-Verständnisprozesse geht. Wer also befürchtet, seinen Entwicklerjob an KI zu verlieren, muss sich erst mal noch nicht allzu viele Sorgen machen. Ohnehin dürfte sich der Beruf eher verändern, als ganz verschwinden.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige