Ist der „erste KI-Software-Ingenieur“ Devin nur ein Hochstapler?

In der "echten" Welt kann sich der gehypte KI-IT-Profi Devin wohl nicht behaupten. (Symbolbild: Shutterstock / DC Studio)
In der IT-Branche sorgt Devin aktuell für Aufsehen – allerdings nicht im positiven Sinne: Drei Datenwissenschaftler kamen zu dem Ergebnis, dass er nicht besonders viel von seinem Handwerk versteht.
Ein Hype mit wenig Substanz?
Vorgestellt wurde Devin im März 2024 von Cognition AI. Ab Dezember war er für alle Interessierten buchbar – zu Preisen ab 500 US-Dollar pro Monat.
Laut seinen Entwicklern sollte Devin Mittagessen über DoorDash bestellen, Apps von Grund auf erstellen und Fehler eigenständig beheben können. Doch die Realität scheint Devin nun als Hochstapler zu entlarven.
Erste Tests zeigen Devins Schwächen
Bereits frühe Testberichte zeigten Devins Schwächen auf: Ein von Cognition AI veröffentlichtes Werbevideo, das Devins Fähigkeit demonstrieren sollte, eigenständig Projekte auf der Freelancer-Plattform Upwork abzuschließen, wurde kurze Zeit später von dem Entwickler Carl Brown auf YouTube komplett auseinandergenommen. Dass Browns Kanal den Namen „Internet of Bugs“ trägt, ist dabei kein Zufall:
Ein weiterer Kritiker meldete schwerwiegende Sicherheitsprobleme in Devins System. Jetzt haben drei Datenwissenschaftler, die mit dem KI-Forschungslabor Answer.AI verbunden sind, Devin auf die Probe gestellt – mit ernüchternden Ergebnissen.
20 Aufgaben, 3 Erfolge – die Bilanz ist ernüchternd
Von 20 zugewiesenen Aufgaben erledigte Devin lediglich drei erfolgreich. Er glänzte zunächst mit kleineren Erfolgen, wie dem Export von Daten aus einer Notion-Datenbank in Google Sheets oder der Erstellung eines Planeten-Trackers.
Doch je komplexer die Aufgaben wurden, desto deutlicher zeigte sich Devins Schwachstelle: technische Sackgassen, überkomplizierte Lösungen und eine Tendenz, sich an unmöglichen Aufgaben festzubeißen.
Ein besonders absurdes Beispiel: Devin versuchte, mehrere Anwendungen auf der Plattform Railway bereitzustellen, ohne zu verstehen, dass dies technisch gar nicht möglich ist. Stattdessen verbrachte der Bot mehr als einen Tag damit, nicht existierende Funktionen zu „halluzinieren“.
Die Tester fällen ein hartes Urteil
Die Tester, Hamel Husain, Isaac Flath und Johno Whitaker, bezeichneten Devins Leistungen als frustrierend. „Wenn Devin funktionierte, war die Benutzererfahrung beeindruckend – aber das war selten der Fall“, schreiben sie. „Noch schlimmer: Es war unmöglich vorherzusagen, welche Aufgaben er tatsächlich meistern würde. Selbst vermeintlich einfache Aufgaben scheiterten auf überraschend komplexe Weise.“
Wenn Devin ein Vorgeschmack auf die Zukunft autonomer KI-Entwickler sein soll, steht uns noch ein langer Weg bevor…
Cognition AI hat sich bislang nicht zu den Testergebnissen geäußert.
Sora – Das sind die besten Clips von OpenAIs Video-KI