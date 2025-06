Große Sprachmodelle versprechen enorme Vorteile für die Medizin – zumindest theoretisch. In der Praxis unterlaufen ihnen immer noch gravierende Fehler: Sie halluzinieren Diagnosen oder zeigen sich voreingenommen. Wenn es um die Gesundheit geht, kann das fatale Folgen haben. Wie ZM Online berichtet, hat ein internationales Forschungsteam jetzt untersucht, wie Ärzt:innen und KI zusammenarbeiten können, um die bestmöglichen und zugleich sichersten Diagnosen zu stellen.

Wie gut schlagen sich LLMs im Vergleich zu Ärzt:innen?

Die Studie entstand unter der Leitung des Max-Planck-Instituts für Bildungsforschung in Berlin und wurde gemeinsam mit dem Human Diagnosis Project aus San Francisco sowie dem Institute for Cognitive Sciences and Technologies des italienischen Nationalen Forschungsrats in Rom durchgeführt.

Grundlage waren über 2.100 sogenannte Vignetten, also realitätsnahe Fallbeispiele, wie sie in der medizinischen Ausbildung genutzt werden. Die Diagnosen medizinischer Fachkräfte wurden mit denen von fünf führenden KI-Modellen verglichen: GPT-4 von OpenAI, Claude 3 Opus von Anthropic, Gemini Pro 1.0 von Google, Llama 2 70B von Meta und Mistral Large.

Im Kern der Untersuchung standen verschiedene Diagnoseteams: Einzelpersonen, ärztliche Gruppen, einzelne KI-Systeme, KI-Kollektive sowie hybride Teams aus Mensch und Maschine. Insgesamt analysierten die Forschenden über 40.000 Diagnosen, die nach internationalen medizinischen Standards kategorisiert und bewertet wurden.

Ein hybrides System liefert die besten Ergebnisse

Das Ergebnis: Wenn mehrere KI-Modelle gemeinsam eingesetzt wurden, stieg die Qualität der Diagnosen deutlich. Diese KI-basierten Kollektive übertrafen im Schnitt 85 Prozent der beteiligten Ärzt:innen. Es gab aber auch zahlreiche Fälle, in denen Menschen besser abschnitten. Spannenderweise konnten Ärzt:innen oft dann die richtige Diagnose benennen, wenn die KI versagte. Die wichtigste Erkenntnis der Studie besteht allerdings darin, dass die Kombination aus menschlicher und künstlicher Intelligenz die besten Resultate lieferte. Hybrid-Teams, die Diagnosen von Ärzt:innen und KI-Modellen zusammenführen, übertrafen alle anderen Varianten – inklusive rein menschlicher oder rein KI-basierter Gruppen.

Sogar weniger leistungsstarke Modelle verbesserten die Ergebnisse ärztlicher Teams messbar – und umgekehrt steigerten Menschen die Diagnosequalität von KI-Systemen. Der Grund: Mensch und Maschine machen unterschiedliche Arten von Fehlern. LLMs formulieren oft überzeugend klingende, aber falsche Antworten, während Ärzt:innen kontextbezogener denken und ihre Erfahrung einbringen. „Es geht nicht darum, den Menschen durch Maschinen zu ersetzen“, sagt Co-Autor Stefan Herzog. „Vielmehr sollten wir künstliche Intelligenz als ergänzendes Werkzeug begreifen, das in der kollektiven Entscheidungsfindung sein volles Potenzial entfaltet.“

Viel Potenzial – und viele offene Fragen

Laut den Studienautor:innen gehören Fehldiagnosen zu den größten Herausforderungen in der medizinischen Versorgung – allein in den USA sollen sie jährlich zu rund 795.000 Todesfällen oder dauerhaften Schäden führen. Die Kombination von menschlicher Expertise und KI könnte ein Schlüssel zur Lösung sein. Aber auch die Grenzen der Studie sind klar: Die Fallvignetten simulieren zwar realistische Szenarien, bilden aber nicht die volle Komplexität des Klinikalltags ab.

Ob und wie sich die Ergebnisse in die medizinische Praxis übertragen lassen, müssen weitere Studien klären. Die aktuelle Untersuchung konzentrierte sich ausschließlich auf Diagnosen – nicht auf die anschließende Behandlung. Auch ist eine korrekte Diagnose noch keine Garantie für eine optimale Therapie. Zudem bleibt offen, wie gut KI-gestützte Systeme in der Praxis angenommen werden – von medizinischem Personal wie von Patient:innen. Die potenziellen Risiken durch Vorurteile, Diskriminierung oder fehlende Transparenz bedürfen in jedem Fall weiterer Forschung.

