ChatGPT wird laut Studie immer schlechter
Einer Umfrage zufolge, die vor rund einem halben Jahr durchgeführt wurde, kennt jeder Vierte in Deutschland bereits ChatGPT oder nutzt die KI sogar. Inzwischen dürften es vermutlich sogar schon mehr Menschen sein, die mit der KI arbeiten. Kurz mal einen Aufsatz für die Uni von der KI schreiben lassen, eine Bewerbung für den neuen Job formulieren oder ein Kund:innenanschreiben verfassen – die Möglichkeiten, für die der Chatbot in Betracht kommt, sind vielfältig.
Doch: Wenn du in letzter Zeit auch mit ChatGPT gearbeitet hast und mit der Leistung der KI nicht ganz zufrieden warst, dann kannst du dir nun sicher sein, dass du dir das nicht eingebildet hast.
ChatGPT wird nicht besser, sondern schlechter
Wie Forscher:innen von den Universitäten Stanford und Berkeley in einem neuen Paper enthüllt haben, hat sich ChatGPT im Laufe der Zeit nämlich nicht verbessert. Im Gegensatz: Tatsächlich zeigt die neue Studie, dass das aktuelle Modell GPT-4 bei den getesteten Aufgaben mit der Zeit immer schlechter abgeschnitten hat.
In ihrer Forschungsarbeit haben die Wissenschaftler:innen insbesondere die Veränderung in der Art der Antworten von ChatGPT analysiert und festgestellt, dass die Leistung der zugrundeliegenden KI-Modelle GPT-3.5 und GPT-4 tatsächlich „stark variiert“.
Sie entwickelten strenge Benchmark-Tests, um die Kompetenz von ChatGPT in Mathematik, Codierung und visuellen Denkaufgaben zu bewerten. Das erschreckende Ergebnis: Tatsächlich zeigt das aktuelle Modell GPT-4 sogar einen Leistungsrückgang.
ChatGPT ist ein Mathe-Genie? Von wegen!
Ein Beispiel: Bei einer mathematischen Challenge zur Bestimmung von Primzahlen konnte ChatGPT im März 488 von 500 Fragen korrekt lösen, was einer Genauigkeit von 97,6 Prozent entspricht. Im Juni hingegen konnte ChatGPT nur 12 Fragen richtig beantworten, was einem Genauigkeitsniveau von nur 2,4 Prozent entspricht. Der Rückgang war besonders stark in den Software-Codierungsfähigkeiten des Chatbots zu verzeichnen.
„Bei GPT-4 sank der Anteil der generierten Codes, die direkt ausführbar waren, von 52 Prozent im März auf 10 Prozent im Juni“, so die Studie-. Diese Ergebnisse wurden unter Verwendung der reinen Version der Modelle erzielt. Das heißt: Es wurden keine Code-Interpreter-Plugins verwendet.
Zudem wollten die Forschenden von ChatGPT wissen, ob 17.077 eine Primzahl ist. Obwohl die Antwort darauf „Ja“ lautet, verzeichnete ChatGPT einen extremen Rückgang der Genauigkeit um 95,2 Prozent. Die Trefferquote bei der gleichen Frage bei der kostenlosen Version von ChatGPT, GPT-3.5, stieg dagegen von 7,4 auf 86,8 Prozent.
Wie erklärt sich der Leistungsabfall von ChatGPT?
Forscher:innen vermuten, dass es sich um eine Nebenwirkung von Optimierungen handeln könnte, die von OpenAI, dem Ersteller des Modells, vorgenommen wurden. Eine mögliche Ursache sind Änderungen, die eingeführt wurden, um zu verhindern, dass ChatGPT gefährliche Fragen beantwortet.
Diese Sicherheitsmaßnahmen könnten jedoch die Nützlichkeit von ChatGPT für andere Aufgaben beeinträchtigen. Die Wissenschaftler:innen stellten außerdem fest, dass das Modell jetzt dazu neigt, ausführliche und indirekte Antworten zu geben, anstelle von klaren Antworten.
Expert:innen haben ihre eigene Theorie
„GPT-4 wird im Laufe der Zeit schlechter, nicht besser“, schrieb der KI-Experte Santiago Valderrama auf Twitter. Valderrama brachte auch die Möglichkeit ins Spiel, dass eine „günstigere und schnellere“ Mischung von Modellen die ursprüngliche ChatGPT-Architektur ersetzt haben könnte.
„Gerüchte besagen, dass sie mehrere kleinere und spezialisierte GPT-4-Modelle verwenden, die ähnlich wie ein großes Modell funktionieren, aber günstiger in der Ausführung sind“, spekulierte er. Dies könnte, so seine Annahme, die Antwortzeiten für Benutzer:innen beschleunigen, jedoch die Kompetenz verringern.“
Ein weiterer Experte, Dr. Jim Fan, teilte ebenfalls seine Erkenntnisse in einem Twitter-Thread. „Leider geht mehr Sicherheit in der Regel auf Kosten der Nützlichkeit“, schrieb er.
Weiter heißt es: „Meine Vermutung (keine Beweise, nur Spekulation) ist, dass OpenAI den Großteil seiner Anstrengungen darauf verwendet hat, das Modell von März bis Juni einzuschränken und keine Zeit hatte, die anderen relevanten Fähigkeiten vollständig wiederherzustellen.“
Und was sagt OpenAI dazu?
Peter Welinder, Manager bei OpenAI, twitterte auf die Vorwürfe, ChatGPT würde immer schlechter werden: „Nein, wir haben GPT-4 nicht dümmer gemacht. Ganz im Gegenteil: Wir machen jede neue Version schlauer als die vorherige.“