
Perplexity: Der KI-Chatbot des Startups ist auf die Suche im Internet fokussiert. (Foto: Shutterstock / gguy)
Obwohl der Markt für KI-Chatbots immer unübersichtlicher wird, unterscheidet sich die Leistung vieler Top-Modelle in gängigen Tests nur noch um einstellige Prozentpunkte. Ob also ein KI-Benchmark wie Livebench Deepseek R1, OpenAIs o3-mini oder Google Flash 2.0 die Reasoning-Krone aufsetzt, ist für Otto Normalnutzer:innen kaum relevant.
Der vielleicht wichtigere Faktor ist die finanzielle Frage. Die fortschrittlichsten Modi der OpenAI-Modelle verstecken sich hinter einer 200-US-Dollar-Paywall, und auch bei Google werden 22 Euro im Monat für den Zugang zu besserer Leistung fällig.
Dafür haben Nutzer:innen bei Google seit Dezember und bei OpenAI seit Februar Zugriff auf eine Deep-Research-Funktion, die mehrere Suchdurchläufe mit Reasoning-Workflows kombiniert und daraus einen Überblicksartikel generiert.
Auch Perplexity AI kann jetzt Deep Research
Auch das 2022 gegründete KI-Startup Perplexity AI, das laut Crunchbase insgesamt über 600 Millionen Dollar Finanzierung eingesammelt hat und mit etwa neun Milliarden Dollar bewertet wird, kann jetzt Deep Research. Im Vergleich zur Konkurrenz ist der Dienst allerdings kostenlos.
Dafür ist die Anzahl der Anfragen für User:innen ohne Abo auf fünf pro Tag beschränkt. Das dürfte für den normalen Einsatz mehr als genug sein. Aber liefert die Gratis-Rechercheassistenz auch gute Ergebnisse?
KI und kulturelle Bereicherung: So haben wir getestet
Um die Fähigkeiten des neuen Suchmodus zu testen, haben wir Perplexity AIs Chatbot mit zwei deutschen Prompts gefüttert. Als Erstes haben wir nachgefragt, was die KI-Suche zum Thema Nutzung von künstlicher Intelligenz in der öffentlichen Verwaltung findet. Als Zweites haben wir uns eine Recherche dazu anfertigen lassen, wie man die Migrationsdebatte in Deutschland unaufgeregt und ohne Populismus darstellen könnte.
Um zu verstehen, wie genau Perplexity Deep Research die gestellten Aufgaben bearbeitet, haben wir bei Perplexity AI selbst nachgehakt. Pressesprecherin Sara Platnick erklärt t3n per Mail, dass das Tool „Suche, Reasoning und Analyse“ kombiniere, um „tiefgreifende Reports“ zu erstellen. Diese Arbeitsschritte stellt der KI-Chatbot auch halbwegs transparent dar. Im Stil von Deepseek R1 lässt uns das Tool daran teilhaben, wie es den Prompt gemäß seiner Reasoning-Vorgaben in kleinere Teile zerlegt und Suchaufträge mit vier bis fünf Schlüsselbegriffen ausführt.
Je mehr Suchaufträge ausgeführt werden, desto höher klettert die Zahl an verwendeten Quellen, die Perplexity Deep Research prominent als Zähler darstellt. Einziges Problem: Bei unserem Prompt zur Verwendung von KI in der öffentlichen Verwaltung führt der Chatbot 38 Quellen an. Effektiv sind es aber nur 16, weil doppelt genutzte Quellen bei jedem Durchlauf neu gezählt werden.
Quellengewichtung? Fehlanzeige
Was Perplexity Deep Research nicht offenlegt, ist die Gewichtung der verwendeten Quellen. Faktenbasierte Reports sollten darüber aufklären, ob eine Nachricht über ein Interview mit einer Politikerin, bei unserem Beispiel ein Tagesthemen-Beitrag mit Innenministerin Nancy Faeser zur Migrationsdebatte, mehr oder weniger Gewicht hat als eine wissenschaftliche Erhebung. Das fehlt bei Perplexity Deep Research.
Außerdem wird nicht klar, nach welchen Kriterien Perplexity Deep Research die zu zitierenden Quellen aus den Suchergebnissen auswählt und wie neutral die Auswahl ist. Bei unserem Testprompt zur KI in der Verwaltung wurden beispielsweise sowohl eine Studie des Fraunhofer-Instituts als auch eine Zusammenfassung von der Bundesdruckerei sowie mehrere Content-Marketing-Stücke von Firmen mit Eigeninteresse an KI-Integration gleichwertig nebeneinander präsentiert.
Überblickartikel mit ausgedünnten Quellen und falschen Zitaten
Warum welche Quelle wie genutzt wird, dürfte nur Expert:innen interessieren. Viel wichtiger für den täglichen Gebrauch sind die daraus entstehenden Überblickartikel. Damit will Perplexity Deep Research nach etwa fünf Minuten Recherche eine hieb- und stichfeste Zusammenfassung der Rechercheanfrage liefern. In der Praxis hat uns keiner der beiden Texte vollends überzeugt.
Das Ergebnis zu KI in der öffentlichen Verwaltung bietet zwar einen oberflächlichen Überblick über die Herausforderungen und Chancen der KI-Integration in die Verwaltungsapparate von Kommunen, Ländern und Bund. Aber dieser ist weder deep noch besonders gut recherchiert. Oft zitiert Perplexity Deep Research einfach direkt von den genutzten Quellen, ohne sie miteinander in Zusammenhang zu bringen.
Ohnehin benutzt das Tool bei der Zitation in seinem Überblickstext entweder nur die ersten sieben Quellen, die es zu dem Thema gefunden hat, oder kennzeichnet nicht, wenn es Ergebnisse zusammenführt und -fasst.
Das führt unweigerlich zu einem großen Durcheinander. Beispielsweise wenn eine Studie der Public-Sector-Expert:innen von Habbel plötzlich dem Innovators Club, einem Verbund aus 100 Bürgermeister:innen und Landrät:innen, zugeschrieben wird, weil dieser über die Studie berichtet.
Perplexity Deep Research produziert erfundene Zahlen zu sensiblen Themen
Ähnlich mau fällt der Überblicksartikel zur Migrationsdebatte in Deutschland aus. Auch hier gibt es einen groben Überblick, der als Einstieg in das Thema dienen, aber keine ausführliche eigene Recherche und Quellenprüfung ersetzen kann. Ein anschauliches Beispiel dafür findet sich im schon erwähnten Tagesthemen-Text zu einem Interview mit Nancy Faeser.
Hier scheitert der stochastische Papagei an diversen Prozentzahlen. So gibt das Tool an, dass der Beitrag belegt, dass 62 Prozent der Delikte von Ausländer:innen Bagatelldelikte seien. Obwohl das Tool klug klingende Begriffe wie disaggregiert ausgibt, wird nicht weiter darauf eingegangen, wer überhaupt in die Kategorie Ausländer:innen fällt und woher diese Zahl stammt.
Auf Nachfrage gibt Perplexity Deep Research zu, dass der Kontext aus einem Bericht der Süddeutschen Zeitung stammt, der sich nicht in der Quellenliste findet. Das Problem: Der Text ist von 2016, obwohl das Tool 2017 als Publikationsjahr angibt, und statt 62 Prozent kommt die Auswertung auf etwa zwei Drittel. Andere Zahlen wiederum sind überprüfbar korrekt wiedergegeben, etwa die Gesamtzahl verübter Straftaten durch Ausländer:innen.
Wie im ersten Überblicksartikel scheitert das Tool auch hier daran, Quellen korrekt zu benennen. Aus dem real existierenden Sachverständigenrat für Integration und Migration macht Perplexity Deep Research den Sachverständigenrat deutscher Stiftungen. Ein dazugehöriges Umfrageergebnis, nämlich dass 68 Prozent der Deutschen Migration als kulturelle Bereicherung wahrnehmen, ist ebenfalls erfunden. Oder genauer: aus zwei verschiedenen Erhebungen des Sachverständigenrats aus verschiedenen Jahren synthetisiert, was das Ganze nicht besser macht.
Auch Deep Research kommt nicht ohne händische Überprüfung aus
Wer gehofft hat, sich mit Perplexity Deep Research auch kostenlos auf akribische Analysen stützen zu können, wird enttäuscht. Denn der KI-Chatbot scheitert genau wie die Konkurrenz überprüfbar an korrekter Wahrscheinlichkeitsberechtigung. Vermutlich auch, weil Marketingzwänge den Tools verbieten, Fehler einzugestehen.
Außerdem zu beachten: Perplexity AI steht durch vermeintlich unlautere Geschäftstaktiken seit Monaten in der Kritik. Publikationen wie Wired, Forbes, News Corp und New York Times werfen dem Startup vor, ihre Artikel ohne korrekte Zuschreibung genutzt und in Teilen falsch zitiert zu haben. Laut einer Antwort von Geschäftsführer Aravind Srinivas an Wired, die Business Insider zitiert, hätte das Medium „ein tiefes und grundlegendes Missverständnis darüber, wie Perplexity und das Internet funktionieren“.
Wenn man diese Bedenken außen vor lässt, bietet Perplexity Deep Research einen ersten Einstieg in komplexe Themen. In seiner jetzigen Form ist es aber weder zitierfähig noch uneingeschränkt benutzbar. Und das kann selbst die Gratis-Nutzung nicht aufwiegen.