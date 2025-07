Was passiert, wenn Patient:innen einer medizinischen KI mitteilen, dass es ihnen „vielleicht nicht so gut geht“ und dabei auch noch Tippfehler machen? Wie Futurism berichtet, hat eine aktuelle Studie des MIT herausgefunden, dass schon kleine Nachlässigkeiten wie diese dazu führen können, dass KI-Chatbots potenziell erkrankten Menschen davon abraten, ärztliche Hilfe in Anspruch zu nehmen.

Anzeige Anzeige

Kleine Fehler mit großen, realen Folgen

Im Rahmen einer Studie des Massachusetts Institute of Technology (MIT) wurden vier verschiedene KI-Modelle untersucht, darunter war zum Beispiel GPT-4 von OpenAI, aber auch das speziell für den medizinischen Kontext entwickelte Palmyra-Med. Die Forscher:innen simulierten Tausende Patient:innenfälle und griffen dabei auf eine Kombination von medizinischen Datenbanken, Reddit-Posts und KI-generierten Beschwerden zurück.

Bevor sie die KI-Modelle damit fütterten, fügten sie den Fällen noch einige Fehler oder Unsicherheiten hinzu, die die Systeme möglicherweise irritieren könnten. Dazu gehörte beispielsweise die Verwendung von Ausrufezeichen oder geschlechtsneutraler Sprache. Manche Anfragen wurden komplett in Kleinbuchstaben formuliert oder enthielten vage Formulierungen, die auf Unsicherheiten hindeuten könnten. Die klinischen Daten blieben dabei unverändert.

Anzeige Anzeige

Die Ergebnisse der MIT-Studie werfen ernsthafte Bedenken hinsichtlich des Einsatzes von KI im medizinischen Kontext auf. Selbst kleine Abweichungen von der standardmäßigen Schreibweise veränderten die Antworten der Modelle deutlich: Insgesamt waren sie angesichts der eingebauten Fehler oder Unsicherheiten zwischen sieben und neun Prozent eher dazu geneigt, Patient:innen zu empfehlen, die beschriebenen Symptome lieber selbst zu behandeln, anstatt medizinisches Fachpersonal aufzusuchen.

Der Grund für diese fehlerhafte Einschätzung könnte laut den Studienautor:innen in den Trainingsdaten liegen. Abinitha Gourabathina ist als Forscherin am MIT Department of Electrical Engineering and Computer Science tätig und hat als Hauptautorin an der Studie mitgewirkt. Gegenüber New Scientist, wo die Ergebnisse erstmals veröffentlicht wurden, erklärte sie, dass KI-Modelle oft anhand von medizinischen Prüfungsfragen trainiert und getestet werden. Diese seien vom tatsächlichen Einsatzbereich aber oft weit entfernt, sodass sie schnell durch Grammatikfehler oder umgangssprachliche Formulierungen verwirrt würden.

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von TargetVideo GmbH, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Frauen sind noch häufiger betroffen

Besonders besorgniserregend ist, dass die KI-Modelle noch häufiger Frauen davon abrieten, mit ihren Beschwerden eine ärztliche Praxis aufzusuchen. Auch diese falsche Beratung ließe sich laut den Forscher:innen auf die Trainingsdaten zurückführen. In der realen medizinischen Versorgung neigen Ärzt:innen nämlich auch dazu, von Frauen geäußerte Symptome eher als „emotional“ oder „hysterisch“ abzutun. Diese Diskriminierung könnte sich in den Trainingsdaten medizinischer KI-Modelle widerspiegeln und von diesen reproduziert oder sogar verstärkt werden.

Die Peer-Review der Studie steht noch aus. Trotzdem sind die Ergebnisse laut Co-Autorin Marzyeh Ghassemi ein starker Hinweis darauf, dass KI-Modelle unbedingt eingehend überprüft werden müssen, bevor sie im medizinischen Bereich eingesetzt werden. Die Realität sieht allerdings anders aus: Schon jetzt stehen zahlreiche Gesundheits-Apps in den unterschiedlichsten Bereichen zur Verfügung. Und auch KI-Tools wie ChatGPT werden von vielen Menschen täglich genutzt, um medizinische Symptome abzuklären.