Studie zeigt: Chatbots liegen bei der Websuche oft falsch, zeigen sich dabei aber sehr selbstsicher

Wenn es nach den Anbietern von KI-Tools geht, sollen sie im Alltag der Nutzer:innen eine immer größere Rolle spielen. Vor allem Chatbots wie ChatGPT, Copilot oder Gemini werden sowohl im Berufs- als auch im Privatleben immer häufiger eingesetzt. Eine neue Studie der Columbia Journalism Review schürt jetzt allerdings die Zweifel an ihrer Zuverlässigkeit: Von acht getesteten KI-Modellen mit Suchfunktion lieferten mehr als 60 Prozent der Anfragen falsche Antworten.
Chatbots tun sich schwer, Wissenslücken zuzugeben
Die Fehler, die in der Studie aufgedeckt wurden, sind vielfältig: Mal gaben die Chatbots falsche Antworten, in anderen Fällen erfanden sie Links oder sogar ganze Artikelabschnitte. Besonders problematisch ist dabei, dass viele Modelle ihr Unwissen nicht eingestehen. Anstatt zuzugeben, dass ihnen Informationen fehlen oder sie bestimmte Websites nicht aufrufen können, werden häufig erfundene Antworten geliefert.
Dieses Problem wird noch dadurch verstärkt, dass viele Menschen Chatbots zunehmend als Alternative zu klassischen Suchmaschinen nutzen oder sie direkt als eigene Suchmaschinen an den Start gehen. Laut einer Umfrage der Columbia Journalism Review ist das in den USA schon bei einem Viertel der Nutzer:innen der Fall. Dadurch könnten sich Fehlinformationen schneller verbreiten als je zuvor.
Hohe Fehlerquoten bei KI-Chatbots
Um die Genauigkeit der Modelle zu testen, wurden acht Chatbots beauftragt, für 200 News von 20 Verlagen den ursprünglichen Artikel, die Publikation und die URL zu ermitteln. Perplexity Pro schnitt dabei am besten ab und lieferte die meisten korrekten Antworten. Die kostenlose Version von Perplexity erreichte den zweiten Platz, dicht gefolgt von ChatGPT.
Insgesamt identifizierte der beliebteste Chatbot von OpenAI 134 Artikel falsch. Nur 15 von 200 Antworten wurden als unsicher markiert – und keine einzige Anfrage wurde aufgrund mangelnder Informationen abgelehnt. Besonders schlecht schnitten Grok und Gemini ab: Während Gemini immerhin selten völlig falsche Antworten mit großem Selbstbewusstsein abgab, erreichte Grok 3 eine Fehlerquote von 94 Prozent.
Chatbots greifen unerlaubt auf Seiten zu
Ein weiteres brisantes Thema der Studie ist der Zugriff von Chatbots auf Internetseiten. Fünf der getesteten KI-Modelle (ChatGPT, Perplexity, Perplexity Pro, Copilot und Gemini) haben ihre Crawler öffentlich benannt, sodass Publisher sie blockieren können. Die drei anderen Modelle (Deepseek, Grok 2 und Grok 3) verwenden dagegen undokumentierte Crawler. Dadurch bleibt unklar, wie genau sie an ihre Informationen gelangen.
Man könnte erwarten, dass Chatbots nur Informationen von Websites abrufen, zu denen sie Zugang haben, und Anfragen zu gesperrten Seiten ablehnen. Die Praxis zeigt allerdings ein anderes Bild: Einige Chatbots beantworteten Anfragen trotz Zugangsmöglichkeit falsch oder lehnten sie ab. Gleichzeitig konnten einige Chatbots Inhalte von Verlagen korrekt wiedergeben, obwohl deren Crawler eigentlich gesperrt waren. Besonders auffällig war Perplexity Pro, der fast ein Drittel der geschützten Artikelausschnitte aus Quellen identifizierte, auf die er eigentlich keinen Zugriff haben sollte.
Der potenzielle Schaden ist hoch
Insgesamt stellt die Studie der Qualität und Transparenz der Suchfunktion von KI-Chatbots kein gutes Zeugnis aus. Die Probleme sind gravierend: Neben falschen oder erfundenen Antworten bleibt auch die Informationsbeschaffung der Modelle undurchsichtig. Verlage haben nur begrenzte Möglichkeiten, die Verwendung ihrer Inhalte zu kontrollieren. Diese mangelnde Transparenz birgt Risiken sowohl für Nachrichtenproduzenten als auch für Verbraucher:innen und könnte langfristig das Vertrauen in KI-basierte Informationsquellen weiter untergraben.
Googles neue KI-Suche geht nach hinten los