Völliger Unfug statt hilfreicher Antwort: Darum liegt Googles KI-Suche so oft daneben

MIT Technology Review Feature

Völliger Unfug statt hilfreicher Antwort: Darum liegt Googles KI-Suche so oft daneben

Google baut seine Suchmaschine mit künstlicher Intelligenz um. Die ersten Wochen waren ernüchternd. Warum ist das so?

Von MIT Technology Review Online

07.06.2024, 09:45 Uhr • 6 Min.

Völliger Unfug statt hilfreicher Antwort: Darum liegt Googles KI-Suche so oft daneben — Die Google-Suche gilt als zumeist hilfreich. Doch was, wenn die integrierte KI Quatsch erzählt?

Leider sind KI-Systeme von Natur aus unzuverlässig. Schon wenige Tage nach der Veröffentlichung der sogenannten AI Overviews in Googles US-Suchmaschine teilten Nutzer Beispiele für Antworten auf ihre Anfragen, die bestenfalls seltsam waren, schlimmstenfalls gefährlich. So schlugen die KI-generierten Textübersichten vor, Kleber auf die Pizza zu geben, um den Käse festzuhalten, oder mindestens einen kleinen Stein pro Tag zu essen. Der ehemalige US-Präsident Andrew Johnson sollte wiederum 1947 und 2012 Universitätsabschlüsse erworben haben, obwohl er 1875 gestorben ist.

Am Donnerstag gab dann Liz Reid, Leiterin von Googles Suchabteilung, öffentlich bekannt, dass das Unternehmen technische Verbesserungen am System vorgenommen habe, um die Wahrscheinlichkeit fehlerhafter Antworten zu verringern. Außerdem werde die Aufnahme von satirischen, humoristischen und nutzergenerierten Inhalten – also solchen, die nicht aus „seriösen“ Quellen stammen – in die Antworten eingeschränkt, da solche Inhalte „zu irreführenden Ratschlägen“ führen könnten.

Aber warum liefert AI Overviews überhaupt solche unzuverlässigen, potenziell gefährlichen Informationen? Und was, wenn überhaupt, kann getan werden, um das Problem zu lösen?

Wie funktionieren die AI Overviews?

Um zu verstehen, warum solche KI-gestützten Suchmaschinen Fehler machen, müssen wir uns zunächst ansehen, wie sie aufgebaut wurden. Wir wissen, dass AI Overviews ein neues generatives KI-Modell aus Googles Familie großer Sprachmodelle (LLMs) verwendet, das für die Google-Suche angepasst wurde. Dieses Modell wurde in das zentrale Web-Ranking-System von Google integriert und so konzipiert, dass es relevante Ergebnisse aus dem riesigen Index der Websites herauszieht, den Google vorhält.

Die meisten LLMs sagen einfach das nächste Wort (oder genauer: Token) in einer Sequenz voraus, was sie zwar sprachkompetent erscheinen lässt, aber auch anfällig dafür macht, Dinge zu erfinden – das nennt man Halluzinieren. Sie können sich nicht auf Grundwahrheiten stützen, sondern wählen jedes nächste Wort nur auf der Grundlage einer statistischen Berechnung aus. Das führt zu Fehlern. Wahrscheinlich umgeht das Gemini-Modell in AI Overviews dieses Problem, indem es eine KI-Technik namens Retrieval-Augmented Generation (RAG) einsetzt. Diese soll es einem LLM ermöglichen, bestimmte Quellen außerhalb der Datenbereiche, anhand derer es trainiert worden ist, zu überprüfen. Dazu gehörten bestimmte Websites, sagt Chirag Shah, Professor an der University of Washington, der sich auf die Forschung an Suchmaschinen spezialisiert hat.

Sobald ein Benutzer seine Anfrage eingibt, wird diese mit den Dokumenten verglichen, die zu den Informationsquellen des Systems gehören – und es wird eine Antwort generiert. Da das System in der Lage ist, die ursprüngliche Anfrage mit bestimmten Teilen von Websites abzugleichen, kann es angeben, woher es seine Antwort hat. Das ist etwas, das normale LLMs nicht können.

Ein großer Vorteil von RAG ist, dass die Antworten, die ein solches System auf die Anfragen eines Benutzers generiert, aktueller, sachlich genauer und relevanter sein sollten als die eines typischen Modells. Denn dieses generiert seine Antwort lediglich auf der Grundlage seiner Trainingsdaten. Deshalb sagt ChatGPT etwa, es besitze nur Daten bis zu einem gewissen Zeitpunkt, den sogenannten Knowledge-Cut-off. RAG wird häufig eingesetzt, um zu verhindern, dass LLMs halluzinieren. (Ein Google-Sprecher wollte nicht bestätigen, ob AI Overviews RAG verwendet.)

Warum liefert Google trotzdem schlechte Antworten?

RAG ist bei Weitem nicht narrensicher. Damit ein LLM, das die Technik verwendet, eine gute Antwort gibt, muss es sowohl die Informationen korrekt abrufen als auch die Antwort korrekt erzeugen. Eine schlechte Antwort entsteht, wenn einer oder beiden Teile dieses Prozesses fehlschlägt.

Im Fall der Empfehlung von AI Overviews für ein Pizzarezept, das Klebstoff enthält – ausgehend von einem scherzhaften Beitrag auf Reddit – ist es wahrscheinlich, dass der Beitrag für die ursprüngliche Anfrage des Benutzers relevant erschien. Der wollte wissen, wie man es schafft, dass Käse auf der Pizza bleibt. Doch dann ging etwas beim Abrufprozess schief, meint Shah. „Nur weil es relevant ist, heißt das nicht, dass es auch richtig ist, und der Generierungsanteil des Prozesses stellt das nicht infrage“, sagt er.

Empfehlungen der Redaktion

MIT Technology Review News

Gehirne als Computer: Wie ein Schweizer Startup Organoide als biologische Rechner nutzen will

MIT Technology Review Analyse

Brauchen Nachhilfe: Darum tun sich KI-Modelle wie ChatGPT mit Mathematik und Logik schwer

MIT Technology Review Interview

8 KI-Experten befragt: Woran erkennt man eigentlich eine Allgemeine Künstliche Intelligenz?

Ähnlich verhält es sich, wenn ein RAG-System auf widersprüchliche Informationen stößt, zum Beispiel auf ein Handbuch mit Richtlinien und eine aktualisierte Version desselben Handbuchs – und nicht in der Lage ist, herauszufinden, aus welcher Version es seine Antwort ableiten soll. Stattdessen kann es Informationen aus beiden Versionen kombinieren, was zu einer möglicherweise irreführenden Antwort führt.

„Das große Sprachmodell generiert flüssige Sprache auf der Grundlage der bereitgestellten Quellen, aber flüssige Sprache ist nicht dasselbe wie korrekte Sprache“, sagt auch Suzan Verberne, Professorin an der Universität Leiden, die sich auf die Verarbeitung natürlicher Sprache spezialisiert hat. Je spezifischer ein Thema ist, desto höher ist die Wahrscheinlichkeit von Fehlinformationen in der Ausgabe eines großen Sprachmodells. „Das ist ein Problem im medizinischen Bereich, aber auch im Bildungswesen und in der Wissenschaft.“

Laut der Google-Sprecherin liegt es in vielen Fällen, in denen die KI-Übersicht falsche Antworten liefert, daran, dass es im Internet nicht viele qualitativ hochwertige Informationen gibt, die für die Anfrage angezeigt werden konnten. Alternativ schien es so zu sein, dass die jeweilige Anfrage am ehesten mit satirischen Websites oder scherzhaften Beiträgen übereinstimmte.

Google betont, dass die überwiegende Mehrheit des AI-Overviews-Outputs qualitativ hochwertige Informationen liefere und dass viele der Beispiele für schlechte Antworten auf „ungewöhnliche Anfragen“ zurückzuführen seien. Das Unternehmen fügte hinzu, dass KI-Übersichten, die „potenziell schädliche, obszöne oder anderweitig inakzeptable“ Inhalte enthalten, bei weniger als einer von sieben Millionen eindeutigen Anfragen auftauchten. Google entferne regelmäßig AI Overviews für bestimmte Suchanfragen „im Einklang mit seinen Inhaltsrichtlinien“.

Es geht nicht nur um schlechte Trainingsdaten

Obwohl der Fehler mit dem Kleber für die Käsepizza ein gutes Beispiel für einen Fall ist, in dem eine KI-Übersicht auf eine unzuverlässige Quelle verweist, kann das System auch Fehlinformationen aus sachlich korrekten Quellen generieren. Melanie Mitchell, eine Forscherin für künstliche Intelligenz am Santa Fe Institute in New Mexico, googelte beispielsweise, wie viele muslimische Präsidenten die USA gehabt haben. Googles AI-Overviews-Funktion antwortete: „Die Vereinigten Staaten hatten einen muslimischen Präsidenten, Barack Hussein Obama.“

Barack Obama ist zwar kein Muslim, weshalb die Antwort von AI Overviews falsch ist, aber die Informationen stammen aus einem Kapitel eines wissenschaftlichen Buches mit dem Titel „Barack Hussein Obama: Amerikas erster muslimischer Präsident?“. Es beschäftigt sich mit Obamas (tatsächlicher) Herkunft. Das KI-System hat also den Inhalt missinterpretiert, sagt Mitchell.

„Die KI hat hier einige Probleme: Zum einen muss sie eine gute Quelle finden, die keinen Humor enthält, zum anderen muss sie die Aussage der Quelle richtig interpretieren“, so Mitchell. „Das ist etwas, was KI-Systeme nur schwer können, und die Leute sollten wissen, dass sie auch dann Fehler machen können, wenn sie eine gute Quelle finden.“

Kann das Problem doch behoben werden?

Letztlich wissen wir alle, dass KI-Systeme unzuverlässig sind. Solange sie Text Wort für Wort mithilfe von Wahrscheinlichkeiten generieren, besteht immer die Gefahr von Halluzinationen. Auch wenn Googles KI-Übersichten mit der Optimierung hinter den Kulissen wahrscheinlich immer besser werden, können wir nie sicher sein, dass sie zu 100 Prozent stimmen.

Google will daher bei bestimmten Anfragen Hinweise hinzufügen, die angeben, dass AI Overviews möglicherweise „nicht hilfreich“ sind. Im Bereich Gesundheit will man hier besonders vorsichtig sein. Das Unternehmen könnte zudem einen Schritt in den Suchprozess einbauen, der eine risikoreiche Anfrage kennzeichnet und das System veranlasst, in diesen Fällen einfach keine Antwort zu generieren, sagt Expertin Verberne. Google beabsichtigt laut eigenen Angaben nicht, KI-Übersichten für „explizite oder gefährliche Themen“ oder „für Abfragen, die auf gefährliche Situationen hinweisen“ anzuzeigen.

Techniken wie das Verstärkungslernen aus menschlichem Feedback (RLHF), das Rückmeldungen von Nutzern in das Training eines LLMs einbezieht, können ebenfalls dazu beitragen, die Qualität der Antworten zu verbessern. Ebenso können LLMs speziell für die Aufgabe trainiert werden, zu erkennen, wenn eine Frage nicht beantwortet werden kann. Es könnte zudem nützlich sein, sie anzuweisen, die Qualität eines abgerufenen Dokuments sorgfältig zu bewerten, bevor sie eine Antwort generieren, sagt Verberne. Das Modell korrekt zu instruieren „hilft enorm viel“.

Momentan behilft sich Google mit einem einfachen Trick: Die AI Overviews werden mit dem Hinweis versehen, generative KI sei „experimentell“. Verbernes Kollege Shah findet nicht, dass das reicht. Ein Betahinweis und die Betonung, dass die Funktion nicht in der Lage sei, vollständig zuverlässige Antworten zu liefern, sei nötig. Er möchte auch, dass die Funktion „völlig optional“ ist und Nutzern der Google-Kernsuchmaschine nicht aufgezwungen wird.

Dieser Artikel stammt von Rhiannon Williams. Sie ist Redakteurin bei der US-amerikanischen Ausgabe von MIT Technology Review und deckt dort den Themenbereich News ab.

Mehr zu diesem Thema

MIT Technology Review Google Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren