Laut Github soll der Einsatz von KI-Werkzeugen in der Software-Entwicklung Produktivitätssteigerungen von bis zu 55 Prozent ermöglichen. Salesforce-Chef Marc Benioff wiederum kündigte im Februar 2025 sogar an, sein Unternehmen werde in diesem Jahr keine neuen Software-Entwickler:innen mehr einstellen und begründete das mit der dank KI gestiegenen Produktivität.

Eine aktuelle Untersuchung kommt derweil zu einem ganz anderen Ergebnis. Bei einer Anfang 2025 durchgeführten Versuchsreihe soll der Einsatz von KI durch erfahrene Open-Source-Entwickler:innen am Ende sogar die Produktivität verringert haben.

Ebenfalls interessant: Die Entwickler:Innen selbst sahen das anders. Sie gaben im Rahmen der Versuchsreihe überwiegend an, sie seien durch die KI schneller als sonst an ihr Ziel gekommen.

Das wirft die Frage auf, wie sich die Unterschiede zwischen der gemessenen und der selbsteingeschätzten Produktivität erklären lassen. Und wie das alles zu den Versprechungen der KI-Firmen passt.

Studie untersucht KI-Einsatz von erfahrenen Entwickler:innen

Durchgeführt wurde der Versuch von METR, einer gemeinnützigen KI-Forschungseinrichtung, die vor allem für die KI-Benchmark RE-Bench bekannt ist. RE-Bench erfasst, wie gut sich KI-Modelle in Forschung und Entwicklung schlagen.

Für die Produktivitätsstudie wurden insgesamt 16 erfahrene Entwickler:innen ausgewählt, die es im Schnitt auf eine Million Codezeilen in großen Open-Source-Projekten und mehr als 22.000-Github-Stars brachten. Im Versuch wurde ihnen dann zufällig aus einer vorher getroffenen Auswahl echte Bugs oder Feature-Requests zugewiesen. Ob sie für die Lösung KI benutzen durften oder nicht, wurde ebenfalls zufällig ausgewählt.

Im Schnitt brauchten die Entwickler:innen etwa zwei Stunden für ihre Tasks. Dabei wurden ihre Bildschirme aufgezeichnet. Zusätzlich mussten die Teilnehmer:innen im Anschluss noch einmal selbst einschätzen, wie lange sie für ihre Aufgabe benötigt hatten.

Wahrnehmung vs. Realität

Am Ende brauchte die Gruppe mit Zugriff auf KI um 19 Prozent länger als die Vergleichsgruppe. Sie selbst glaubten indes, sie seien dank der Unterstützung um 20 Prozent schneller gewesen.

Die METR-Forscher:innen identifizierten 5 Hauptgründe für den Produktivitätsabfall: Zum einen würde die zusätzliche Kommunikation mit der KI Zeit kosten. Zumal der dialogbasierte Austausch auch ablenkend wirken könne, und am Ende auch die kognitive Belastung der Entwickler:innen erhöhe. Ebenfalls zeitaufwendig seien die Überprüfung und die Korrektur des KI-generierten Codes. Hinzu käme, dass die Lösungswege der KI bisweilen weniger effizient seien.

Die Wissenschaftler:innen sehen in den Ergebnissen auch einen Beleg dafür, dass zumindest erfahrene Entwickler:innen sowieso schon sehr effizient arbeiten würden. Während KI-Modelle zwar in Testsituationen immer besser abschneiden, sich aber nach wie vor schwer mit den deutlich komplexeren Problemen echter Software-Projekte tun.

Was bedeutet das?

Das Team von METR weist in einem Blogbeitrag explizit darauf hin, dass ihre Untersuchung kein Beweis dafür sei, dass KI in allen Fällen zu einer Senkung der Produktivität von Entwickler:innen führen würde. Erst recht ließe sich aus den Ergebnissen keine Ableitungen für Einsatzfelder außerhalb der Software-Entwicklung ziehen.

Außerdem ließe sich nicht ausschließen, dass eine Optimierung der KI-gestützten Entwicklungswerkzeuge – im Versuch kam überwiegend Cursor mit KI-Modellen von Anthropic zum Einsatz – noch eine merkliche Beschleunigung bringen könnte.

Der Versuch sollte aber dennoch denjenigen zu denken geben, die sämtliche Produktivitätsversprechungen der Branche für Bahre Münze zu nehmen. Am Ende führt kein Weg an eigenen Versuchen vorbei, um wirklich einschätzen zu können, wie gut sich einzelne Aufgaben in einer Organisation mit KI lösen lassen.