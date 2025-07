So schreibt etwa der Guardian: „Microsoft gab bekannt, dass es ein System entwickelt, das wie ein echter Arzt Schritt für Schritt Maßnahmen ergreift – beispielsweise spezifische Fragen stellt und diagnostische Tests anfordert –, um zu einer endgültigen Diagnose zu gelangen. So kann ein Patient mit Symptomen wie Husten und Fieber Blutuntersuchungen und eine Röntgenaufnahme des Brustkorbs benötigen, bevor der Arzt die Diagnose einer Lungenentzündung stellt.“

Anzeige Anzeige

Wie Microsoft im eigenen Blog schreibt, verwendeten die Entwickler:innen in diesem Fall kein spezialisiertes großes KI-Modell, sondern eine Gruppe von KI-Agenten, die zusammenarbeiten und Schritt für Schritt eine Diagnose erarbeiten. Dabei war die KI um einiges erfolgreicher als menschliche Ärzte.

Wie Microsofts System funktioniert

Um die Wirksamkeit seiner neuen Methode zu demonstrieren, nutzte Microsoft komplexe Fallstudien aus der Fachzeitschrift New England Journal of Medicine (NEJM). Das Team um Mustafa Suleyman wandelte 304 dieser komplexen Fallstudien in Schritt-für-Schritt-Fallstudien um – mithilfe von großen Sprachmodellen. Dieser Datensatz diente als Test für die KI und eine Vergleichsgruppe menschlicher Ärzte. Die Mediziner:innen beziehungsweise die KI bekamen zum Start eine kurze Zusammenfassung des Falls und mussten durch weitere Fragen Schritt für Schritt weitere Details abfragen – solange bis sie zu einer Diagnose kamen. Ein vorgeschalteter Chatbot – die Gatekeeper-KI – gab nur die Details preis, nach denen explizit gefragt wurde.

Anzeige Anzeige

Als KI verwendete Microsoft ein System aus mehreren Agenten, das eine Gruppe von Ärzt:innen simuliert, die eine Diagnose erstellt. Dabei haben die Agenten verteilte Rollen: Ein Agent stellt eine Hypothese auf, ein Zweiter schlägt darauf aufbauend weitere medizinische Tests vor, während der „Kritiker“ Fehler in der Argumentation sucht, der „Stewardship Agent“ die Kosten der Diagnose im Blick behält und der „Checklist Agent“ die wesentlichen Punkte zusammenfasst.

Alle Agenten beruhen jeweils auf einem technisch fortgeschrittenen, großen Sprachmodell. Die besten Resultate erzielte das Agentensystem mit GPT o3 – dem aktuellen Reasoning-Modell von OpenAI. Damit diagnostizierten sie rund 85 Prozent der NEJM-Fallstudien korrekt – im Vergleich zu einer Erfolgsquote von zwei von zehn bei menschlichen Ärzt:innen.

Empfohlene redaktionelle Inhalte Hier findest du externe Inhalte von TargetVideo GmbH, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.

Inhalte anzeigen Hier findest du externe Inhalte von, die unser redaktionelles Angebot auf t3n.de ergänzen. Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden, dass wir dir jetzt und in Zukunft Inhalte vonauf unseren Seiten anzeigen dürfen. Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden. Hinweis zum Datenschutz Leider ist etwas schief gelaufen... An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.

Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Datenschutzeinstellungen verwalten An dieser Stelle findest du normalerweise externe Inhalte von, jedoch konnten wir deine Consent-Einstellungen nicht abrufen.Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.

Vor- und Nachteile der KI-Agenten

Das Agenten-System funktioniert, jedenfalls, wenn man nur die Veröffentlichung dazu ansieht, besser als einzelne große Sprachmodelle. Allerdings betont Microsoft nicht ohne Grund, dass die KI ein Forschungsprojekt ist und keine klinische Zulassung hat.

Denn die Agenten beruhen im Kern auf großen Sprachmodellen. Das Problem der Halluzinationen in großen Sprachmodellen ist jedoch immer noch nicht grundsätzlich gelöst – und das wird es ohne bessere Architektur der Modelle vermutlich auch nicht. Im Unterschied zu anderen Anwendungen kann eine halluzinierende KI in der Medizin aber zu fatalen Fehlern führen.

Anzeige Anzeige

Außerdem beansprucht diese Form der KI-Software sehr viel Rechenkapazität – und hat damit einen hohen Energieverbrauch. Denn sie lässt gleichzeitig mehrere Instanzen des großen Reasoning-Modells o3 laufen, um zu guten Ergebnissen zu kommen.

Der Test, ob die KI nicht nur mit einer relativ kleinen Zahl sehr gut dokumentierter Fälle zurechtkommt, sondern auch in der Welt der mitunter schlecht und lückenhaft dokumentierten Praxis bestehen kann, steht zudem noch aus. Als warnendes Beispiel könnte hier Watson von IBM dienen. Das Watson-System lieferte zwar in Studien ausgezeichnete Ergebnisse zur Krebserkennung, scheiterte aber im Klinik-Alltag an der schlechten Datenqualität.

Warum auch Microsoft auf Agenten setzt

Dass Microsoft jetzt massiv auf Agenten-Systeme setzt, dürfte auch mit der Person Mustafa Suleyman zusammenhängen. Suleyman gründete 2010 gemeinsam mit Demis Hassabis und Shane Legg das zwischenzeitlich von Alphabet geschluckte KI-Startup Deepmind, das unter anderem durch Alphago und Alphafold bekannt wurde. 2022 stieg Suleyman aus und gründete Inflection AI, das mit seinem Chatbot Pi ganz vorne in der Liga generativer KI mitspielen wollte. Mittlerweile ist er bei Microsoft. Als einer von ganz wenigen Hightech-Bros sprach er sich in seinem Buch „The Coming Wave“ für eine aktive staatliche Regulierung von KI-Agenten aus.

Anzeige Anzeige

Wer arbeitet noch an Medizin-KIs?

MAI-DxO ist nicht das einzige Beispiel eines agentischen KI-Systems in der Medizin. Weltweit arbeiten Forschungsgruppen an ähnlichen Multi-Agenten-Frameworks.

Ein MIT-Team stellte 2024 ein medizinisches Multi-Agenten-Framework namens MDAgents vor, bei dem die Anzahl und Zusammenarbeit der KI-Agenten dynamisch an die vermutete Fallkomplexität angepasst wird. In Benchmark-Tests erreichte MDAgents auf 7 von 10 medizinischen Aufgabenstellungen die beste Performance gegenüber Vergleichsmethoden, mit bis zu 6,5 Prozent höherer Genauigkeit als die jeweils besten Einzelmodelle

Und im März 2025 veröffentlichte ein Team von chinesischen Forschenden eine Studie zu ihrem System Namens MAC (Multi-Agent Conversation). Mehrere virtuelle Ara-Agenten auf Basis von GPT-4) diskutieren dabei iterativ einen Patientenfall unter Aufsicht eines Supervisor-Agenten, bis sie sich auf Diagnose und nächste Schritte einigen konnten. Das System ist auf die Erkennung seltener Krankheiten spezialisiert und kam im Erstgespräch auf eine Trefferquote von rund 34 Prozent.

Anzeige Anzeige

Wie geht Google vor?

Microsofts Hauptkonkurrent auf dem Gebiet medizinischer KI dürfte Google sein, das noch 2023 mit Med-PaLM 2 ein eigenes, multimodales medizinisches KI-Modell vorgestellt hatte, setzt mittlerweile voll auf seine Gemini-Familie.

Googles Medgemma vorgestellt im Mai 2025 zur Google I/O, basiert auf der aktuellen Gemma 3-Architektur. Das Modell enthält keine prinzipiell neuen technischen Ansätze, ist aber vergleichsweise klein und effizient und lässt sich auch auf lokalen Servern betreiben – im Unterschied zu den großen Modellen von OpenAI. Medgemma wurde speziell trainiert, um medizinische Texte und Bilder zu verstehen und ist Open Source, aber ebenfalls noch immer ein Forschungsprojekt.