Nie wieder Rechenfehler? KI prüft Paper auf Irrtürmer – warum das nicht reicht

Schon einen Fehler gefunden, KI? Zwei Open-Source-Projekte gehen wissenschaftliche Arbeiten auf der Suche nach Irrtümern durch. Das soll das Peer Review durch Menschen erleichtern. (Grafik: Midjourney / t3n)
Die Idee klingt bestechend einfach: Künstliche Intelligenz soll inhaltliche Fehler in wissenschaftlichen Veröffentlichungen finden – möglichst noch während der Begutachtungsphase. Zwei vielversprechende Projekte haben bereits erste Erfolge vorzuweisen, berichtet das Wissenschaftsjournal Nature.
Das „Black Spatula Project“ ist ein Open-Source-Projekt, das bisher etwa 500 Artikel auf Fehler analysiert hat. Der Name des Projektes geht auf einen Fachartikel zurück, laut dem schwarze Kochutensilien aus Kunststoff Besorgnis erregende Mengen an krebserregenden Flammschutzmitteln enthalten sollten. Die Forschungsarbeit erregte großes Aufsehen – allerdings enthielt sie einen simplen Rechenfehler. Der wurde zwar recht schnell entdeckt und ist mittlerweile korrigiert, führte aber zunächst zu zahlreichen altruistischen Medienberichten.
Das zweite Projekt heißt YesNoError. Laut Nature hat das KI-Tool in zwei Monaten seit dem Start bereits mehr als 37.000 Artikel analysiert. Auf seiner Website werden die Artikel aufgeführt, in denen Fehler gefunden wurden – die meisten müssen allerdings noch von Menschen überprüft werden.
KI-Tools für Wissenschafts-Paper: Wie das funktioniert
Die Idee ist in beiden Fällen ähnlich: Sowohl das Black Spatula Project als auch YesNoError verwenden Large Language Models (LLMs), um verschiedene Fehler in den Aufsätzen zu erkennen, falsch zitierte Fakten, Fehler in Berechnungen, Fehler in der Methodik aber auch Fehler in den Verweisen auf wissenschaftliche Quellen.
Eigentlich ist dafür ja das Peer Review da, die Prüfung wissenschaftlicher Artikel durch Fachleute vor der Veröffentlichung. Dieser Prozess ist aber schon länger in der Kritik, weil er ziemlich langsam, manchmal interessengeleitet ist – und auch nicht alle Fehler findet.
Black Spatula ist noch kein fertiges Werkzeug. Die Gruppe um das Projekt testet im Moment noch, welche Vorgehensweise zu den besten Ergebnissen führt. Dafür sammeln die Forschenden frei zugängliche Paper, die erwiesenermaßen Fehler enthalten, Prompts für verschiedene große Sprachmodelle und die entsprechenden Ausgaben der Sprachmodelle.
Solch ein Prompt kann sehr ausführlich sein, wie etwa: „Bitte überprüfe die Mathematik, alle Gleichungen und Ableitungen, alle Berechnungen, alle Zahlen, alle zusammenfassenden Statistiken im Text, in den Tabellen und Abbildungen dieser Arbeit sorgfältig und identifiziere alle potenziellen Fehler. Bitte berücksichtige Mehrdeutigkeiten in der Sprache und angemessene Interpretationen im Kontext des Fachgebiets der Arbeit. Bitte berücksichtige die Standard-Berichtspraktiken in diesem Bereich, geringfügige Abweichungen aufgrund von Rundungs- oder Mittelungsentscheidungen sowie verschiedene Optionen für die Ergebnisberichterstattung (absolute Unterschiede, relative Unterschiede)…“ und so geht es noch zehn Zeilen weiter. Manchmal sind die Prompts aber auch sehr kurz, wie „In dieser wissenschaftlichen Arbeit befindet sich vermutlich ein mathematischer Fehler. Kannst Du ihn finden?“.
Die Forschenden testen die Prompts mit Modellen wie OpenAIs o1 oder Claude 3.5 von Antrophic. Die Kosten für die Analyse jedes einzelnen Papiers liegen zwischen 15 Cent und einigen US-Dollar, je nach Länge des Papiers und der verwendeten Abfragesequenz. Die Rate der Fehlalarme liegt laut dem Nature-Bericht für das Black Spatula Project bei rund zehn Prozent.
YesNoError hat nach eigenen Angaben Agenten, die mit OpenAIs o1 arbeiten und mithilfe von synthetischen Daten darauf trainiert sind, jeweils bestimmte Fehlerarten – zum Beispiel Rechenfehler – zu finden. Das proprietäre Tool setzt dann mehrere dieser Agenten parallel auf das zu prüfende Paper an und fasst mithilfe des Sprachmodells die Ergebnisse der einzelnen Agenten zu einem konsistenten Gesamtergebnis zusammen.
Flaschenhals Überprüfung
Um sicher zu sein, dass es sich tatsächlich um Fehler handelt, müssen die von den KI-Tools gefundenen Fehler von Menschen geprüft werden – möglichst natürlich von Expert:innen auf dem betreffenden Gebiet. Diese zu finden, sei der größte Engpass des Projekts, sagte Steve Newman, Gründer Black Spatula Project gegenüber Nature.
YesNoError plant, dieses Problem mithilfe finanzieller Anreize zu lösen. Das Projekt arbeitet mit ResearchHub zusammen, einer Online-Plattform, die gegründet wurde, um die digitale Veröffentlichung und Zusammenarbeit von Forschenden zu beschleunigen. 2024 führte die Plattform eine eigene Kryptowährung ein, um Engagement in der Zusammenarbeit – die Prüfung eines Aufsatzes, das Schreiben von Code etc. – zu belohnen. YesNoError will diesen Mechanismus auch zur Überprüfung der Ergebnisse seines Tools nutzen.
Absehbare Probleme solcher KI-Tools
Expert:innen machten gegenüber Nature allerdings auch auf neue Probleme aufmerksam, die solche Tools verursachen würden. So könnten die Systeme natürlich nicht zwischen schwerwiegenden Problemen und simplen Vertippern unterscheiden. Das könne dazu führen, dass „dies eine enorme Menge an Arbeit ohne offensichtlichen Nutzen verursachen“ würde.
Zum anderen besteht die durchaus berechtigte Befürchtung, dass diese Tools bevorzugt auf Paper angesetzt werden könnten, die sich mit politisch umstrittenen Themen wie etwa Klimaforschung beschäftigen. Dass diese Befürchtungen nicht unrealistisch sind, zeigt das Beispiel Plagiatsjagd, die zunehmend im politischen Kampf genutzt wird.