Qualitätsmängel: Forscher warnen vor ChatGPT-Einsatz beim Programmieren
Code schreiben, ergänzen oder korrigieren – beim Programmieren wird offenbar gern auf KI-Chatbots wie ChatGPT zurückgegriffen. Das deutete sich schon im Frühjahr 2023 an, als die bei Programmierer:innen beliebte Frage-und-Antwort-Plattform Stack Overflow einen massiven Trafficeinbruch hinnehmen musste.
Programmierfragen: ChatGPT macht viele Fehler
Jetzt haben Forscher:innen der Purdue University im Rahmen der Konferenz CHI 2024 eine Studie veröffentlicht, die nahelegt, dass Programmier:innen sich lieber nicht auf ChatGPT und Co verlassen sollten. Demnach enthielten etwas mehr als die Hälfte der ChatGPT-Antworten Fehler.
Bei ihrer Analyse haben die Forscher:innen auf Stack Overflow zurückgegriffen und über 500 dort gestellte Fragen genauer unter die Lupe genommen. So verglichen sie Antworten von OpenAIs Chatbot mit jenen von menschlichen Programmierer:innen, die auf der Plattform akzeptiert worden waren.
Kontext von Fragen nicht richtig erkannt
Herauskam, dass 52 Prozent der Antworten von ChatGPT falsche Informationen enthielten, darunter konzeptionelle und sachliche sowie Codefehler und terminologische Mängel. Der KI-Chatbot hat offenbar Schwierigkeiten damit, den Kontext von Programmierfragen genau zu erfassen, wie Golem schreibt.
Wie zu vermuten, tat sich ChatGPT übrigens leichter mit älteren und schon häufiger gestellten Fragen. Bei diesen waren die Antworten im Schnitt weniger fehlerbehaftet. Hintergrund ist, dass es dazu in den Trainingsdaten mehr Informationen geben dürfte.
Höfliche Antworten überzeugen Programmierer
Überraschender ist der Grund dafür, dass mit 35 Prozent mehr als jede:r dritte Teilnehmer:in an der Studie trotz der vielen Ungenauigkeiten die ChatGPT-Antworten bevorzugte. Dies lag zum einen an den umfassenden und gut formulierten Antworten des KI-Chatbots. Zum anderen wurde auch die höfliche Art der Beantwortung von Fragen als Grund genannt.
Problematisch ist derweil, dass die Programmier:innen in 39 Prozent der Fälle Fehlinformationen in den ChatGPT-Antworten übersahen. Das könnte im schlimmsten Fall zu fehlerhafter Software mit entsprechenden Risiken führen.
Die Forscher:innen mahnten dann auch, dass ChatGPT-Nutzer:innen die Antworten genau auf ihre Korrektheit überprüfen sollten, bevor sie sie in Real-World-Szenarien einsetzten. Darüber hinaus forderten die Studienautor:innen, dass weiter daran geforscht werden müsse, von KI-Tools generierte Fehler zu erkennen und diese möglichst auszubessern.
Im Grunde richtig, aber!
In den seltensten Fällen findet man im Forum direkt eine Antwort. Man muss die Lösung für sein Problem adaptieren. Hier liegt der Unterschied, der Chatbot bietet eine Lösung, wenn auch halbgar, auf mein konkretes Problem. Ich denke die programmier Anwender sind sich der Grenzen sehr viel mehr bewusst. Als es in vielen anderen Bereichen der Fall ist.
Sehe ich genauso.
Die Arroganz in stackoverflow und die peniblen Regeln sind einfach nur nervig.
Lieber eine halbgare Antwort von ChatGPT, mit der ich arbeiten kann, als ein arroganter Downvote von stackoverflow.
Übrigens gibt es auch falsche Antworten bei stackoverflow – und zwar nicht zu knapp
Erwähnenswert wäre es gewesen, welches Modell verwendet worden ist. Dann überrascht das auch nicht. Das GPT3.5 ab und zu Unsinn antwortet, war bekannt. Mich hätte aber diese Studie interessiert, wenn man GPT4 Turbo oder GPT4o verwendet hätte. Da sieht es nämlich anders aus.
Mal wieder so eine Berichterstattung über eine Studie, wo beim unbedarften Leser ein völlig falscher Eindruck entsteht.
1. Die untersucht nicht den „Einsatz beim Programmieren“, sondern Antworten auf Frage zu Programmierthemen.
2. Die Studie verwendet GPT 3.5. Zum Programmieren nimmt man Github Copilot (OpenAI Codex), vielleicht noch GPT-4 oder GPT-4o, um bestimmte Fragen zu klären (nicht zum Erzeugen von Code), aber niemals GPT 3.5 beim Programmieren. GPT 3.5 ist in allem schlecht. Es ist alt. Für keine ersthafte Anwendung sollte man das benutzen. Wir brauchen nicht 100 Studien, die in jedem Bereich immer nochmal feststellen, dass 3.5 schlecht ist. Ich verstehe nicht, warum man nicht GPT-4 untersucht hat. Dann hätte die Studie tatsächlich eine Aussage, mit der man etwas anfangen kann.
-> Studie und Artikel sagen absolut nichts darüber aus, ob man ChatGPT beim Programmieren verwenden sollte.