Studie: ChatGPT und andere KI-Modelle schlagen echte Studenten
Ein Team rund um den biomedizinischen Informatiker Dr. William Hersh von der US-amerikanischen Oregon Health & Science University (OHSU) hat sechs generative, sprachbasierte KI-Modelle, darunter auch ChatGPT von OpenAI, auf eine Online-Version eines gängigen Einführungskurses in biomedizinischer und Gesundheitsinformatik angesetzt. Die Forscher:innen wollten wissen, wie die KI im Vergleich zu echten Student:innen abschneidet.
KI schneidet besser ab als der Mensch
Das beunruhigende Ergebnis: Die KI löste die Aufgaben besser als drei Viertel der menschlichen Student:innen. Für seine Studie hatte das Team die Ergebnisse der Wissensbewertung von 139 Hochschüler:innen herangezogen, die im Vorjahr den Einführungskurs in biomedizinischer und gesundheitsbezogener Informatik absolviert hatten.
Dann schickten die Forscher:innen die Tests durch insgesamt sechs KI-Sprachmodelle. Nicht alle Modelle schnitten gleich gut ab. Dennoch lagen die Ergebnisse je nach KI-Modell bei Werten im oberen 50. bis 75. Perzentil. Bei den besten KI-Ergebnissen lagen also nur 25 Prozent der echten Ergebnisse höher. Verwendet wurden Multiple-Choice-Fragen sowie Fragen aus einer Abschlussprüfung, die mit kurzen schriftlichen Antworten versehen werden mussten.
„Die Ergebnisse dieser Studie werfen wichtige Fragen für die Zukunft der Bewertung von Studierenden in den meisten, wenn nicht sogar allen akademischen Disziplinen auf“, schreiben die Autoren in ihrer jüngst in der Zeitschrift npj Digital Medicine veröffentlichten Studie.
Lernen Studierende überhaupt noch?
Das beinhalte die Frage nach Betrug bei Prüfungen, erklärt Hersh. Aber das eigentliche Problem sei viel größer: „Woher wissen wir, dass unsere Studierenden tatsächlich lernen und das Wissen und die Fähigkeiten erwerben, die sie für ihre zukünftige berufliche Tätigkeit benötigen?“
Immerhin hat er ein vorerst noch probates Gegenmittel zur Hand. „Ich aktualisiere den Kurs jedes Jahr“, sagt Hersh. „In jedem wissenschaftlichen Bereich gibt es ständig neue Fortschritte und große Sprachmodelle sind nicht unbedingt auf dem neuesten Stand. Das bedeutet nur, dass wir uns neuere oder differenziertere Tests ausdenken müssen, bei denen man die Antwort nicht aus ChatGPT herausbekommt.“