Qualitätsmängel: Forscher warnen vor ChatGPT-Einsatz beim Programmieren

News

Qualitätsmängel: Forscher warnen vor ChatGPT-Einsatz beim Programmieren

Viele Programmierer:innen greifen bei der Softwareentwicklung zu KI-Chatbots wie ChatGPT. Das sollten sie aber eher bleiben lassen, wie jetzt eine Studie nahelegt. Demnach strotzen die ChatGPT-Antworten nur so vor Fehlern.

Von Jörn Brien

26.05.2024, 21:42 Uhr • 2 Min.

ChatGPT KI Programmieren — Programmierer:innen sollten sich nicht allzu sehr auf ChatGPT und Co verlassen. (Bild: Virrage Images/Shutterstock)

Code schreiben, ergänzen oder korrigieren – beim Programmieren wird offenbar gern auf KI-Chatbots wie ChatGPT zurückgegriffen. Das deutete sich schon im Frühjahr 2023 an, als die bei Programmierer:innen beliebte Frage-und-Antwort-Plattform Stack Overflow einen massiven Trafficeinbruch hinnehmen musste.

Programmierfragen: ChatGPT macht viele Fehler

Jetzt haben Forscher:innen der Purdue University im Rahmen der Konferenz CHI 2024 eine Studie veröffentlicht, die nahelegt, dass Programmier:innen sich lieber nicht auf ChatGPT und Co verlassen sollten. Demnach enthielten etwas mehr als die Hälfte der ChatGPT-Antworten Fehler.

Empfehlungen der Redaktion

News

Programmieren lernen: Hier bringt euch ein KI-Tutor Python bei

Fundstück

KI vs Mensch: Alphacode erzielt beim Programmieren vergleichbare Leistungen

Ratgeber

Unternehmensinterne Chatbots: Für wen sich eine eigene KI lohnt

Bei ihrer Analyse haben die Forscher:innen auf Stack Overflow zurückgegriffen und über 500 dort gestellte Fragen genauer unter die Lupe genommen. So verglichen sie Antworten von OpenAIs Chatbot mit jenen von menschlichen Programmierer:innen, die auf der Plattform akzeptiert worden waren.

Kontext von Fragen nicht richtig erkannt

Herauskam, dass 52 Prozent der Antworten von ChatGPT falsche Informationen enthielten, darunter konzeptionelle und sachliche sowie Codefehler und terminologische Mängel. Der KI-Chatbot hat offenbar Schwierigkeiten damit, den Kontext von Programmierfragen genau zu erfassen, wie Golem schreibt.

Wie zu vermuten, tat sich ChatGPT übrigens leichter mit älteren und schon häufiger gestellten Fragen. Bei diesen waren die Antworten im Schnitt weniger fehlerbehaftet. Hintergrund ist, dass es dazu in den Trainingsdaten mehr Informationen geben dürfte.

Höfliche Antworten überzeugen Programmierer

Überraschender ist der Grund dafür, dass mit 35 Prozent mehr als jede:r dritte Teilnehmer:in an der Studie trotz der vielen Ungenauigkeiten die ChatGPT-Antworten bevorzugte. Dies lag zum einen an den umfassenden und gut formulierten Antworten des KI-Chatbots. Zum anderen wurde auch die höfliche Art der Beantwortung von Fragen als Grund genannt.

Problematisch ist derweil, dass die Programmier:innen in 39 Prozent der Fälle Fehlinformationen in den ChatGPT-Antworten übersahen. Das könnte im schlimmsten Fall zu fehlerhafter Software mit entsprechenden Risiken führen.

Googles neue KI-Suche geht nach hinten los Quelle:

Die Forscher:innen mahnten dann auch, dass ChatGPT-Nutzer:innen die Antworten genau auf ihre Korrektheit überprüfen sollten, bevor sie sie in Real-World-Szenarien einsetzten. Darüber hinaus forderten die Studienautor:innen, dass weiter daran geforscht werden müsse, von KI-Tools generierte Fehler zu erkennen und diese möglichst auszubessern.

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Studie Künstliche Intelligenz Chatbot ChatGPT

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Kommentare (4)

Kommentieren

Kommentare einblenden

Flo

27.05.2024, 14:34 Uhr

Im Grunde richtig, aber!
In den seltensten Fällen findet man im Forum direkt eine Antwort. Man muss die Lösung für sein Problem adaptieren. Hier liegt der Unterschied, der Chatbot bietet eine Lösung, wenn auch halbgar, auf mein konkretes Problem. Ich denke die programmier Anwender sind sich der Grenzen sehr viel mehr bewusst. Als es in vielen anderen Bereichen der Fall ist.

28.05.2024, 10:46 Uhr

Sehe ich genauso.

Die Arroganz in stackoverflow und die peniblen Regeln sind einfach nur nervig.

Lieber eine halbgare Antwort von ChatGPT, mit der ich arbeiten kann, als ein arroganter Downvote von stackoverflow.

Übrigens gibt es auch falsche Antworten bei stackoverflow – und zwar nicht zu knapp

Chris

27.05.2024, 19:49 Uhr

Erwähnenswert wäre es gewesen, welches Modell verwendet worden ist. Dann überrascht das auch nicht. Das GPT3.5 ab und zu Unsinn antwortet, war bekannt. Mich hätte aber diese Studie interessiert, wenn man GPT4 Turbo oder GPT4o verwendet hätte. Da sieht es nämlich anders aus.

Tim Wessels

29.05.2024, 20:52 Uhr

Mal wieder so eine Berichterstattung über eine Studie, wo beim unbedarften Leser ein völlig falscher Eindruck entsteht.
1. Die untersucht nicht den „Einsatz beim Programmieren“, sondern Antworten auf Frage zu Programmierthemen.
2. Die Studie verwendet GPT 3.5. Zum Programmieren nimmt man Github Copilot (OpenAI Codex), vielleicht noch GPT-4 oder GPT-4o, um bestimmte Fragen zu klären (nicht zum Erzeugen von Code), aber niemals GPT 3.5 beim Programmieren. GPT 3.5 ist in allem schlecht. Es ist alt. Für keine ersthafte Anwendung sollte man das benutzen. Wir brauchen nicht 100 Studien, die in jedem Bereich immer nochmal feststellen, dass 3.5 schlecht ist. Ich verstehe nicht, warum man nicht GPT-4 untersucht hat. Dann hätte die Studie tatsächlich eine Aussage, mit der man etwas anfangen kann.
-> Studie und Artikel sagen absolut nichts darüber aus, ob man ChatGPT beim Programmieren verwenden sollte.