Whisper im Krankenhaus: KI-Tool macht aus harmlosen Patientengesprächen Gewaltfantasien
Auch in manchen Krankenhäusern kommen mittlerweile KI-basierte Transkriptionstools zum Einsatz, die Gespräche zwischen Ärzten und Patienten aufzeichnen sollen. Die Grundlage dafür ist oft das quelloffene KI-Modell Whisper von OpenAI. Das wird auch von Unternehmen wie Nabla eingesetzt, die es Krankenhäusern als fertige Transkriptionslösung anbieten.
Mit dem Tool von Nabla wurden bereits rund sieben Millionen medizinische Unterhaltungen aufgenommen und es wird in rund 30.000 Kliniken verwendet, schreibt ABC News. Das Problem dabei ist allerdings, dass das Tool nicht immer wie gewünscht transkribiert, sondern manchmal auch Sätze erfindet, die so nie gesagt wurden.
Laut einer Studie von Wissenschaftlern der Cornell University enthalten rund ein Prozent der Transkriptionen mitunter gewaltbezogene, unsinnige oder anderweitig unangemessene Sätze, die so nie gesagt wurden.
Manchmal unisinnig, manchmal aber auch gefährlich
Dabei erfindet die KI teils neue Medikamente wie „hyperaktivierte Antibiotika“ oder schreibt Sätze wie „Danke fürs Zuschauen!“ in das Transkript, die aus einem Youtube-Video stammen könnten. Mögliche Erklärung: Laut einem Bericht hat OpenAI Datensätze von Youtube in als Trainingsdaten verwendet.
Einige Beispiele für solche Halluzinationen hat die Forscherin Allison Koenecke von der Cornell University auf X in einem Thread geteilt.
Die Forscher vermuten, dass diese Halluzinationen entstehen, wenn es eine Pause im Gespräch gibt oder die KI Hintergrundgeräusche erkennt, die sie nicht einordnen kann. Das Forscherteam fand heraus, dass in Aufnahmen, die von Menschen mit Sprachstörungen stammen, besonders viele Halluzinationen auftreten, was darauf hindeutet, dass die KI Schwierigkeiten hat, Stille oder undeutliche Sprache zu interpretieren.
So reagiert OpenAI
OpenAI hat sich derweil gegenüber The Verge mit einem Statement zu Wort gemeldet. Dort sagt Pressesprecherin Taya Christianson: „Wir nehmen das Problem ernst und arbeiten kontinuierlich an Verbesserungen, einschließlich der Reduzierung von Halluzinationen.”
Weiter habe OpenAI für die Nutzung von Whisper auf der API-Plattform Richtlinien festgelegt, die den Einsatz in entscheidungskritischen Kontexten untersagen. In der sogenannten Model Card für die Open-Source-Version spricht das Unternehmen zudem Empfehlungen gegen die Nutzung in risikoreichen Bereichen – wie einem Krankenhaus – aus.
Ich hab schon viel mit Whisper gearbeitet und Halluzinationen kommen insbesondere immer dann vor, wenn kein Gesprochenes im Audioschnipsel vorkommt.
Das heißt, man darf nicht alles an Whisper weitergeben, sondern man muss vorselektieren. Offenbar ist das hier im Tool von Nabla entweder nicht passiert, oder sollte nochmal überarbeitet werden. Die Schwächen von Whisper sind lange bekannt.
Grundsätzlich gilt bei jeder KI-Lösung: Die Ergebnisse müssen ohnehin durch eine fachkundige Person geprüft werden. KI ist nicht autonom, sondern dient der Assistenz. Zumindest da, wo es auf Richtigkeit ankommt.