Anzeige
Anzeige
News

GPT-4 und Co.: Je größer das KI-Modell, desto mehr Unsinn erzählt es, zeigt eine Studie

Sprach-KIs wie ChatGPT sollen auf alles eine Antwort geben können. Dafür werden sie mit immer mehr Daten gefüttert. Forscher haben allerdings ein Problem festgestellt: Neben immer besseren Antworten geben Chatbots auch immer seltener keine Antwort, wenn sie etwas nicht wissen. Bedeutet: Sie erzählen vermehrt Blödsinn.

3 Min.
Artikel merken
Anzeige
Anzeige

Lieber Blödsinn erzählen als keine Antwort geben können. So verhält es sich laut dieser neuen Studie bei den Sprach-KIs, wenn man sie mit immer mehr Daten füttert. (Bild: Shutterstock/QubixStudio)

Größere Sprach-KIs geben immer öfter schlechte Antworten. Diesen Schluss legt eine Studie zur Genauigkeit von großen Sprachmodellen nahe. Forscher nahmen dafür drei große LLM unter die Lupe: GPT von OpenAI, Llama von Meta und Bloom, ein Open-Source-Modell, das die akademische Gruppe BigScience entwickelte.

Anzeige
Anzeige

Groß bedeutet nicht automatisch gut

José Hernández-Orallo vom Valencian Research Institute for Artificial Intelligence in Spanien und seine Kollegen analysierten für ihre Studie die eingangs erwähnten Sprach-KI auf Fehler in ihren Antworten. Außerdem präsentieren sie menschlichen Probanden falsche Antworten, um zu sehen, wie gut wir Menschen darin sind, falsche Antworten zu erkennen.

Dafür untersuchten sie zunächst eine frühe Version des jeweiligen Sprachmodells. Das alte Modell wurde anschließend mit einer aktuelleren, verbesserten Version verglichen. Der Unterschied: Die neuen Versionen waren in der Zwischenzeit mit deutlich mehr Daten gefüttert worden, um ihre Antworten zu verfeinern.

Anzeige
Anzeige

Die Wissenschaftler fanden heraus, dass die verbesserten KI-Modelle erwartungsgemäß genauere Antworten geben. Das führen die Forscher auf das menschliche Feedback zurück, das bei der Verfeinerung von KI-Antwortmöglichkeiten hilft. Es bleibt allerdings ein großes Aber: Die genaueren Antworten gelten nur für die Fälle, in denen KI die gestellte Frage wirklich beantworten konnte.

Hernández-Orallo und sein Team stellte laut Nature ebenfalls fest, dass die Zuverlässigkeit gleichermaßen abnimmt. Die Forscher schreiben dazu: „Unter den ungenauen Antworten hat der Anteil falscher Antworten zugenommen.“

Anzeige
Anzeige

Das passiert, weil die Modelle seltener antworten, dass sie etwas nicht wissen, oder das Thema wechseln. „Heutzutage beantworten sie fast alles. Und das bedeutet mehr richtige, aber auch mehr falsche Antworten“, erklärt Hernández-Orallo.

„Die Tendenz der Chatbots, Meinungen zu äußern, die über ihr eigenes Wissen hinausgehen, hat zugenommen. Das sieht für mich nach dem aus, was wir als Bullshitting bezeichnen würden“, sagt Mike Hicks gegenüber Nature. Er ist Wissenschafts- und Technologiephilosoph an der Universität Glasgow, Großbritannien. „Das Ergebnis ist, dass normale Nutzer die Fähigkeiten von Chatbots wahrscheinlich überschätzen, und das ist gefährlich“, betont Hernández-Orallo im Bericht.

Anzeige
Anzeige

Test beweist: Falsche Antworten steigen anteilig um 60 Prozent und mehr

Die Wissenschaftler löcherten die Modelle mit Tausenden Aufforderungen. Es wurden zum Beispiel Fragen zu Arithmetik, Anagrammen, Geografie und Naturwissenschaften gestellt. Außerdem wurde die Fähigkeit der Bots zur Abwandlung von Informationen getestet, also etwa das Einordnen einer Liste in alphabetischer Reihenfolge.

Das Ergebnis verblüfft: Die verbesserten KIs wichen schwierigeren Fragen seltener aus, sondern versuchten sie zu beantworten. GPT-4 wird hier als Beispiel aufgeführt. Nature schreibt: „Der Anteil der falschen Antworten derer, die entweder falsch waren oder vermieden wurden, stieg mit zunehmender Größe der Modelle und erreichte bei mehreren verbesserten Modellen mehr als 60 Prozent.“

Das bedeutet nicht, dass größere Chatbots grundsätzlich 60 Prozent schlechte Antworten geben. Dabei handelt es sich um den Anteil von falschen Antworten auf Fragen, die die KI nicht beantworten kann. Wo ältere KI-Versionen also noch eher „Weiß ich nicht“ schreiben oder der Frage ausweichen, erfindet die KI mit größerem Lerndaten-Pool falsche Angaben.

Anzeige
Anzeige

Die Wissenschaftler prüften im weiteren Verlauf der Studie mit Freiwilligen, ob diese die Antworten als richtig, falsch oder vermeidend einstuften: In etwa zehn Prozent bis 40 Prozent der Fälle stuften die Probanden sowohl bei leichten als auch bei schwierigen Fragen falsche Antworten als richtig ein. Das Resümee des Wissenschaftlers klingt deshalb ziemlich vernichtend. „Menschen sind nicht in der Lage, diese Modelle zu überwachen“, sagt Hernández-Orallo.

Googles neue KI-Suche geht nach hinten los Quelle: (Bild: Koshiro K/Shutterstock)
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige