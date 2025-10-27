Anzeige
News
KI-Suche statt Google? Forscher zeigen, in welchen Bereichen die Chatbots noch hinterherhinken

Kann Künstliche Intelligenz mit der Google-Suche mithalten? Dieser Frage sind Forscher:innen nachgegangen und haben dabei festgestellt, dass es noch einige gravierende Unterschiede zwischen den Tools gibt.

Von Marvin Fuhrmann
3 Min.
Google-Suche gegen KI: Welche Suchergebnisse sind besser? (Bild: Shutterstock/subh_naskar)

Immer mehr KI-Unternehmen wollen Googles Suchmaschine Konkurrenz machen. So haben etwa ChatGPT, Perplexity und Co. eigene KI-gestützte Tools für die Suche im Web veröffentlicht. Mittlerweile ist sogar Google selbst mit einem eigenen KI-Modus an den Start gegangen, der User:innen die Recherchearbeit in der bekannten Suchmaschine abnehmen soll. Zwar liefern die Tools allesamt Antworten in Sekunden, doch sind sie dadurch gleich besser als die Google-Suche?

Google-Suche gegen KI-Tools: So unterschiedlich fallen die Ergebnisse aus

In ihrem Paper „Characterizing Web Search in The Age of Generative AI“ sind Forscher:innen genau dieser Frage nachgegangen. In einem Experiment haben die Verantwortlichen die „alte“ Google-Suche gegen vier neue KI-Tools antreten lassen: Googles KI-Übersichten, Gemini 2.5 Flash sowie GPT 4o Search und GPT 4o mit Such-Tool. Für den Test wurden 4.606 Suchanfragen aus verschiedensten Bereichen und Datensets zusammengetragen. So stammen beispielsweise 1.000 Anfragen aus einem Datenset mit echten Bing-Suchen und 1.700 aus einem Datenset mit echten Fragen von User:innen an ChatGPT.

Die Suchanfragen reichen dabei von allgemeinen Themengebieten über Politik, Wissenschaft bis zu Shopping-Anfragen. So wurden die KI-Tools und die normale Google-Suche mit Anfragen wie „Wie höre ich mit Prokrastinieren auf?“, „Wie beeinflusst die globale Wirtschaft Karrieren und Berufe?“ oder „Welches Unternehmen ist führend im Bereich Robotik?“ gefüttert. Obwohl die Fragen immer gleich geblieben sind, unterschieden sich die Antworten zwischen den Systemen gravierend.

Zunächst haben die Forscher:innen dabei einen Blick auf die Quellenauswahl geworfen. Viele KI-Tools verlassen sich auf unbekanntere Webseiten, um sie als Quelle zu verlinken. So stammten bei der AI-Overview von Google 53 Prozent der verlinkten Webseiten nicht aus den Top 10 der herkömmlichen Suche. Zudem gibt es starke Unterschiede bei der Anzahl der zitierten Webseiten. GPT gab im Schnitt nur 0,4 Webseiten pro Anfrage an. Auch GPT-Search lag mit 4,1 Seiten im Schnitt noch im unteren Bereich. Nur Gemini und Googles AI-Overview gaben im Schnitt mehr als acht Quellen an. Generell konnten die Forscher:innen feststellen, dass die Anzahl der Links stieg, wenn die KI-Antwort länger ausfiel. Dann können sich die Modelle wohl nicht mehr ausschließlich auf ihr internes Wissen verlassen.

KI-Tools werden durch die Zeit unberechenbar

Besonders gravierend sind die Unterschiede, wenn der Faktor Zeit ins Spiel kommt. Zeitkritische Anfragen können KI-Systeme nicht so gut beantworten wie die Standard-Websuche. So suchten die Verantwortlichen in allen Systemen nach „Ricky Hatton Todesursache“. Die GPT-Modelle konnten keine aktuellen Meldungen finden und gaben an, dass der ehemalige Boxweltmeister noch am Leben wäre. Er verstarb im September 2025. Und auch Gemini konnte in nur 66 Prozent der Fälle mit aktuellem Bezug eine passende Antwort liefern.

Der zweite Zeittest fand zwei Monate später statt. Die KI-Systeme und die Websuche wurden erneut mit denselben Anfragen konfrontiert. Dadurch wollten die Forscher:innen herausfinden, wie konsistent die Antworten der Tools ausfallen. Während die normale Suche bei 45 Prozent der Anfragen auf dieselben Quellen zurückgriff, waren es bei Gemini 40 Prozent. Weit abgeschlagen dahinter: Google AI-Overview mit lediglich 18 Prozent konsistenten Quellen.

Was die Forscher:innen für KI-Suchen fordern

Abschließend halten die Forscher:innen fest: „Unsere Arbeit zeigt, dass es neue Evaluationsmethoden benötigt, die Quellendiversität, konzepetuelle Themenabdeckung und Verhaltensweisen in generativen Suchsystemen abdecken. […] Zudem unterstreichen die Erkenntnisse, wie wichtig es ist, ein zeitliches Bewusstsein und eine dynamische Informationsbeschaffung in die generativen Suchen zu integrieren“.

Dennoch betonen die Forscher:innen, dass ihre Arbeit noch Limitierungen aufweist und weitere Untersuchungen notwendig sind. So haben sie etwa nicht untersucht, wie sich die Suchergebnisse verändern, wenn die Anfragen in einer längeren Konversation mit den Chatbots stattfinden. Zudem fanden die Anfragen ausschließlich in englischer Sprache in den USA und in Deutschland statt. Abschließend haben sich die Verantwortlichen für den Vergleich nur auf die ersten zehn Ergebnisse der Standard-Google-Suche verlassen, da weitere Seiten nur selten von User:innen aufgerufen werden.

