ChatGPT oder Mensch: Weder Gutachter noch Software erkennen den Unterschied
Die Wissenschaftswelt ist schon seit Monaten in Aufruhr. Grund: die besonderen Fähigkeiten von KI-Chatbots wie ChatGPT beim Schreiben von wissenschaftlichen Texten.
KI-Erkennung: Gutachter und Software scheitern
Eine aktuelle Studie aus Hannover zeigt jetzt, dass nicht nur Lehrer:innen oder Dozent:innen auf KI-geschriebene Texte hereinfallen. Auch Gutachter:innen und spezielle Plagiatssoftware tun sich schwer, die ChatGPT-Artikel von menschlichen zu unterscheiden.
Gemeinsam mit Forscher:innen europäischer Institutionen haben Tiermediziner:innen der Klinik für Kleintiere der Stiftung Tierärztliche Hochschule Hannover untersucht, inwieweit sich unterscheiden lässt, ob eine wissenschaftliche Veröffentlichung von ChatGPT oder von einem Menschen verfasst wurde.
Konkret ging es um das Verfassen von wissenschaftlichen Arbeiten für das Fach veterinärmedizinische Neurologie. Das Ergebnis der im Fachmagazin Frontiers in Veterinary Science veröffentlichten Studie („ChatGPT and Scientific Papers in Veterinary Neurology; Is the Genie Out of the Bottle?“) sei niederschmetternd gewesen, wie die Hannoversche Allgemeine Zeitung schreibt.
Mensch oder KI? Fachartikel im Vergleich
Für die Studie ließ das Forschungsteam jeweils ChatGPT und Wissenschaftler:innen Abstracts und Einleitungen mit Referenzen in drei Fachbereichen erstellen. Anschließend wurden die Texte analysiert und mit gängigen KI- und Plagiatserkennungssoftwares überprüft.
„Die Ergebnisse waren sehr aufschlussreich für uns“, erklärte Jasmin Nessler, wissenschaftliche Mitarbeiterin in der Klinik für Kleintiere. „Erfahrene Neurolog:innen, die mit den Feinheiten des wissenschaftlichen Schreibens vertraut sind, hatten zunehmend Schwierigkeiten, zwischen von ChatGPT generierten und von Menschenhand verfassten Abstracts zu unterscheiden, insbesondere bei abnehmender Fachkenntnis.“
ChatGPT-Texte: Software erkennt sie kaum
Entsprechend stellte sich heraus, dass Gutachter:innen, die über geringere Kenntnisse im jeweiligen Fachgebiet verfügten, sich leichter täuschen ließen. Aber auch die Software tat sich schwer. In drei von vier Fällen konnten die Plagiatsprogramme nicht zwischen menschlichen und von ChatGPT verfassten Arbeiten unterscheiden.
Für die wissenschaftliche Community seien die Auswirkungen tiefgreifend, erklärte Holger Volk, Leiter der Klinik für Kleintiere, in einer Mitteilung. Erforderlich sei jetzt eine „Neubewertung herkömmlicher Bewertungskriterien“.