Die neuen Arzthelfer: Künstliche Intelligenz erobert den Gesundheitsbereich
Am Anfang stand die Verzweiflung. Ein renommierter Mediziner wusste nicht weiter und klagte Martin Hirsch sein Leid. Ein kleiner Junge war in seine Klinik eingeliefert worden, doch der Arzt war machtlos. Der Neunjährige baute vor den Augen des Doktors immer stärker ab. „Man wusste einfach nicht, was dem Jungen fehlte. Das fraß den Mann damals regelrecht auf“, erinnert sich Hirsch.
Hirsch, selbst theoretischer Mediziner, merkte, wie dieser clevere Arzt sich festgerannt hatte. Immer wieder versuchte er herauszufinden, wieso der Junge so rapide abnahm – aber immer auf die gleiche Art und Weise. Was ihm fehlte war ein Kollege, der sich auskannte, aber anders auf die Dinge schaut. Einer, mit dem er seine Gedanken neu durchgehen konnte. Mit dem er um die Ecke denken konnte. Aber eine weitere Koryphäe hätte möglicherweise auch nur den üblichen Weg genommen.
Ein Problem, das nicht nur diesen Doktor betraf. Hirsch beschloss, eine dauerhafte Lösung zu finden. Er begann mit Kollegen einen „Arzt“ aus dem Nichts zu erschaffen. Sie programmierten ihn Zeile für Zeile. Damit ein solches Dilemma nicht mehr passieren würde.
Mehr als sieben Jahre später ist aus dieser irren Idee ein vielversprechendes Startup im Bereich der künstlichen Intelligenz (KI) geworden. Während die Software 2011 noch weit davon entfernt war, helfen zu können, und nur ein plötzlicher Geistesblitz des besagten Mediziners den Jungen retten konnte, könnte das im Hier und Jetzt anders sein. Die Chancen stehen gut, dass die von Hirsch und seinen Kollegen programmierte künstliche Intelligenz namens „Ada Health“ am Ende den entscheidenden Tipp bei einer Diagnose geben könnte.
„Vor drei Wochen hatte die Tochter einer guten Freundin starke Bauchschmerzen und hat die Ada-App um Rat gefragt“, sagt Hirsch. Nachdem das Mädchen eine Reihe von Fragen beantwortet habe, sagte Ada, dass es wahrscheinlich etwas mit den Nieren in Kombination mit Magen-Darm zu tun habe. Genau so war es auch: „Es war eine Luftansammlung im Magen, die auf die Nieren drückte, und der behandelnde Arzt war tatsächlich beeindruckt, wie gut die erste Diagnose von Ada war.“
Beeindruckt sind auch die Investoren. Erst im Oktober des vergangenen Jahres kamen 40 Millionen Euro in einer neuen Finanzierungsrunde für die App zusammen. Und das deutsche Startup ist nur eines von vielen Beispielen für die KI-Hoffnungen im Bereich Gesundheit.
Das kanadische Startup Cloud DX gewann zuletzt den renommierten X-Prize für eine KI-App, die das Husten von Nutzern aufnimmt und Anzeichen für Asthma, Tuberkulose oder eine Lungen-entzündung erkennt. Und die Firma Babylon Health, die an einer ähnlichen App wie Ada Health arbeitet, wird inzwischen vom britischen Gesundheitsversorger NHS gefördert, weil sie dabei helfen könnte, Kosten einzusparen.
Babylon Health soll einfache Diagnosen selbst stellen können und einschätzen, wie dringend ein Nutzer zum Arzt muss oder ob ein Magen-Darm-Tee erst einmal ausreicht. Dadurch sollen akute Fälle schneller zu den Fachärzten kommen, Lappalien mit Hausmitteln versorgt werden und das chronisch überforderte britische Gesundheitssystem entlastet werden. Zahlreiche Medien wie Wired oder die Financial Times schrieben bereits begeistert über Babylon Health, seit kurzem ist die App von den Gesundheitsbehörden zertifiziert.
Auch aus der klinischen Forschung werden immer wieder neue Erfolge für KI vermeldet. So zeigte zum Beispiel ein Algorithmus der University of Nottingham im vergangenen Jahr, dass er drohende Herzinfarkte besser vorhersagen konnte als die bisherige Standardmethode. Außerdem wird derzeit in China ein Bild-erkennungsalgorithmus in Kliniken getestet, der dabei helfen soll, Lungenkrebs vorzeitig zu identifizieren.
„In der Bilderkennung sind die Algorithmen am Weitesten entwickelt.“
„Speziell im Bereich von Bilderkennung sind Algorithmen am weitesten entwickelt, und wir werden dort bald mehr und mehr nützliche Erfindungen für unsere Gesundheit sehen“, sagt Ali Torkamani, Direktor des Scripps Translational Science Institute in Kalifornien. Er verweist darauf, dass mit Arterys erst vor kurzem ein Produkt mit künstlicher Intelligenz die Prüfung der amerikanischen Medizinzulassungsbehörde FDA bestand. Die KI in Arterys soll es ermöglichen, mit MRI-Bildern schneller Herzprobleme zu erkennen.
Torkamani glaubt, dass eine regelrechte Revolution in der Medizin bevorsteht. Zusammen mit einer immer billiger verfügbaren und genauer arbeitenden Genetik könne KI eine neue Form der Hochpräzisionsmedizin erlauben, die jedem Einzelnen maßgeschneiderte Behandlungen vorschlägt und dabei auch die Möglichkeit seltener Leiden in Betracht zieht, die Ärzte oft nicht erkennen.
Einen Schritt in genau diese Richtung will das deutsche Startup Ada Health bereits in den kommenden Jahren gehen. Derzeit bringt das Team dem Algorithmus 7.500 seltene Erkrankungen bei und will somit künftig lange Leidensgeschichten bei unklaren Symptomen vermeiden. „Es gibt so vieles, was der gemeine Hausarzt nicht erkennt, weil es schlichtweg zu viele Krankheiten gibt, um sie sich als Mensch alle zu merken. Genau diese komplexe Aufgabe ist perfekt für Ada“, sagt Hirsch. Statt von Arzt zu Arzt zu pilgern und jahrelang auf die richtige Diagnose warten zu müssen, sollen Patienten künftig schon nach zwei bis drei Arztbesuchen wissen, ob sie eine eben solch seltene Erkrankung haben oder nicht.
Skepsis gegenüber Doktor Watson
Schneller, besser, billiger – das klingt nach einem Dreiklang, an dem auch die deutschen Krankenkassen interessiert sind. Und so öffnen sie sich für appbasierte Anwendungen, wenn auch die wenigsten davon bisher wirklich KI enthalten. Die Techniker Krankenkasse übernimmt zum Beispiel inzwischen die Kosten für eine App gegen Tinnitus. Und gemeinsam mit der AOK macht Ada Health gerade eine erste Untersuchung zur Akzeptanz der App bei deutschen Patienten. Glaubt man den Machern, so scheint der Einzug von KI-basierten Produkten im Gesundheitssystem nur eine Frage der Zeit zu sein.
Außerhalb der Szene ist die Skepsis dagegen deutlich größer. Einer der prominentesten Kritiker ist Gerd Antes, seines Zeichens Gesundheitsstatistiker und Leiter des angesehenen deutschen Cochrane-Zentrum in Freiburg. „Was diese Gesundheits-Apps wirklich leisten können, ist nach wie vor höchst fraglich“, sagt er. „Die Studien zu vielen dieser Apps sind jedenfalls größtenteils völlig unzureichend und entsprechen nicht den medizinischen Standards.“ Ob die Apps wirklich gute Diagnosen stellen können, sei nicht klar. Schuld an dieser unzureichenden Kontrolle von Gesundheitsapps ist das deutsche Recht.
Denn während Medikamente, bevor sie auf den Markt dürfen, zahlreiche Studien durchlaufen, und das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) sie prüft, ist das bei Medizinprodukten wie Apps anders. „Da liegt im Grunde die volle Verantwortung beim Hersteller, und wir schreiten erst ein, wenn uns Probleme gemeldet werden“, erklärt Maik Pommer vom BfArM. Zwar stellt das BfArM auf seiner Website für App-Entwickler eine Orientierungshilfe bereit und berät interessierte Hersteller, vor allem wenn es darum geht, was sie tun müssen, damit Krankenkassen ihren Service erstatten können. Aber eingehende Prüfungen durch das BfArm passieren erst, wenn eine App, die als Medizinprodukt deklariert wird, als problematisch gemeldet wird. Oftmals sei aber noch nicht mal das der Fall, weil die App nicht als Medizinprodukt gemeldet sei, gibt Gerd Antes zu bedenken. „Die meisten Apps bewegen sich damit in einem rechtsfreien Raum”, sagt er.
Gerd Antes sieht diese aktuelle Praxis als problematisch an. Denn auf diese Weise werde nicht geprüft, wie zuverlässig KI-Apps tatsächlich Krankheiten erkennen und auch nicht, ob sie nicht häufig Gesunde fälschlich für krank erklären. Ähnlich sieht dies auch das International Bioethics Commitee der UN, das erst kürzlich feststellte, Apps seien von allen Medizinprodukten am schlechtesten reguliert. Doch wie genau könnte eine solche Regulierung insbesondere bei KI-nutzenden Apps aussehen? Wie soll man etwas kontrollieren und zertifizieren, das sich beständig verändert, das dazu lernt und vielleicht in drei Monaten basierend auf neuen Daten andere Diagnosen und Behandlungen vorschlägt als zum Zeitpunkt der Prüfung?
Die amerikanische Aufsichtsbehörde FDA versucht, genau das herauszufinden. Während in Deutschland beim BfArM erst vorsichtige Schritte gemacht werden, hat man sich bei der FDA bereits dazu entschlossen, 13 Ingenieure einzustellen, die sich mit Code und KI im Besonderen auskennen. Doch so wichtig der Schritt ist, so klein ist das Team im Vergleich zu den schätzungsweise rund 300.000 Apps auf dem Markt, die sich in irgendeiner Form mit Gesundheit auseinandersetzen. Die FDA will darum ihr Prüfungssystem im Fall von KI-Apps radikal umbauen. Anstatt jedes Produkt zu testen, sollen sich Firmen und Entwickler eine Art Profil erarbeiten. Denkbar wäre es dann, dass Programmierer und Unternehmen, die in der Vergangenheit mit guter Arbeit auf sich aufmerksam gemacht haben, eine neue App oder ein Update veröffentlichten können, ohne von der FDA geprüft werden zu müssen, weil sie eine Art Vertrauensbonus genießen.
Aber ist es wirklich eine gute Idee, einer Firma wegen ihres guten Rufs niedrigere Hürden aufzuerlegen? Der ewige Gigant der Tech-Szene IBM macht seit Jahren Werbung für seine künstliche Intelligenz Watson und wurde lange als Vorreiter gesehen. Zahlreiche Berichte legen aber inzwischen nahe, dass das Unternehmen zumindest in der Medizin weit davon entfernt ist, die Forschung zu revolutionieren, so wie es ursprünglich gedacht war. „Bisher muss man sagen, dass mit Watson vor allem Geld herausgeschmissen wurde“, sagt Gerd Antes und verweist auf zum Beispiel die Zusammenarbeit mit dem renommierten Anderson-Center, die mangels guter Ergebnisse vorerst gestoppt wurde. Und selbst in den Studien, in denen Watson tatsächlich auf den ersten Blick besser war als menschliche Ärzte, stellt sich heraus, dass die Ausgangslage deutlich komplizierter ist. In einem Testversuch mit einem New Yorker Team bekam sowohl Watson als auch ein Team aus Ärzten das voll ausgelesene Genom eines Patienten mit Hirntumor, der bereits verstorben war. Innerhalb von nur zehn Minuten schlug Watson basierend auf diesen Daten eine Therapie für den Patienten vor, die definitiv eine gute Behandlung für ihn gewesen wäre. Die Ärzte, die gegen Watson antraten, brauchten für das Erstellen ihres Behandlungsplans eine Woche. Ihr Vorschlag war jedoch, zumindest in Nuancen, besser. Zwar hatte Watson alle relevanten Mutationen in den Genen erkannt. Die Gruppe der Mediziner wusste aber zusätzlich, dass zwei dieser Mutationen interagieren und dass es eine spezielle medikamentöse Therapie für genau diese Fälle gibt. Was wäre also wichtiger gewesen: die schnellere oder die womöglich bestmögliche Lösung? Jedenfalls zeigt sich deutlich, welche Schwächen ein reiner KI-Ansatz hat und es deutet eine Menge darauf hin, dass es keine gute Idee ist, künstliche Intelligenzen einfach so auf medizinische Daten loszulassen. Die Forscher in Texas haben ihre Antwort auf diese Frage gefunden: Mangels guter Ergebnisse haben sie die Zusammenarbeit mit Watson vorerst gestoppt.
„Was diese Gesundheits-Apps wirklich leisten, ist nach wie vor sehr fraglich.“
Es deutet eine Menge darauf hin, dass es keine gute Idee ist, künstliche Intelligenzen einfach so auf medizinische Daten loszulassen. Schon 2015 konnte Microsofts Rich Caruana in einer inzwischen bekannt gewordenen Studie zeigen, zu welchen falschen Schlussfolgerungen KI ganz ohne Kontrollen kommen kann. In seinem Versuch fütterten Caruana und sein Team einen Algorithmus mit Patientendaten, um tödliche Lungenentzündungen besser vorherzusagen. Der beste Algorithmus lag schließlich in 86 Prozent der Fälle sogar richtig, ein tolles Ergebnis.
Aber es gab ein Problem. Eine der Regeln, die die KI aufstellte: Patienten mit Asthma hätten ein geringeres Risiko, an tödlichen Lungenentzündungen zu erkranken. Eine Erkenntnis, die jeglichem medizinischen Wissen widerspricht. Den Grund dafür fand Caruana nach einiger Suche in den Daten. Es stellte sich heraus, dass Asthma-Patienten tatsächlich seltener an Lungenentzündungen starben. Das stimmte aber auch nur, weil sie viel häufiger zum Arzt gingen als andere Patienten, sorgfältiger behandelt wurden und somit Lungenentzündungen frühzeitig erkannt wurden. Caruanas Fazit nach diesem Ergebnis war, dass Algorithmen, die potenziell über Leben und Tod entscheiden, nicht wie eine Blackbox funktionieren dürfen. Selbst wenn laut Statistik genau diese Algorithmen die besten Ergebnisse bringen.
Wichtig sei es, dass eine Entscheidung sich nicht aus einer abstrakten Zahlenmatrix ergibt oder durch ein undurchschaubares, viele Schichten tiefes neuronales Netzwerk. Stattdessen müssen die Programmierer in der KI klare Regeln hinterlegen, die Ärzte nachvollziehen können, damit eben solche logischen Fehlschlüsse wie im Fall der Lungenentzündungen sichtbar werden und menschliche Experten sie korrigieren können.
Kontrollierte Intelligenz
Hirsch von Ada Health plädiert ebenfalls dafür, dass KIs stets von menschlichen Ärzten kontrolliert werden – sowohl beim Lernen von Erkrankungen als auch bei der späteren Analyse von Symptomen. Nur so könne KI wirklich für eine bessere Medizin sorgen. Konkret bedeutet das, dass bei Ada Health ein Team aus Ärzten dem Algorithmus idealisierte Krankheitsbilder beibringt, die dann mit Daten unterfüttert werden. Der Algorithmus lernt also in diesem Sinne wirklich wie ein angehender Mediziner, wonach er schauen muss. Diese Methode steht im Kontrast zum sonstigen Vorgehen, bei dem man die KI einen Aktenberg fressen lässt und sie selbst gewichtet, welche Informationen aus der Akte wichtig sind. An und für sich ist die Methode zwar ebenfalls gut, hat aber ein Problem: Lernt ein Algorithmus zum Beispiel anhand eines Datensatzes, dass eine Krankheit immer mit roten Pusteln am Körper einhergeht, kann er schnell zum Trugschluss kommen, dass das Fehlen dieser Pusteln sofort bedeutet, dass es diese Krankheit nicht sein kann – selbst wenn alle anderen Symptome passen. Genau das will Hirsch bei Ada Health mit seiner Methodik verhindern.
Beim Stellen der Diagnose wiederum soll Ada dann auch vor allem dem menschlichen Kollegen helfen, Zeit zu sparen, und nicht selbst Diagnosen stellen. Indem das System schon einmal die wichtigsten Symptome mit einem Fragenkatalog abklopft, bekommt der Arzt einen ersten Entwurf einer Krankenakte pünktlich zum Termin. So kann er sich dann bei der eigentlichen Untersuchung auf Details konzentrieren. Oder im Zweifel genauer nachfragen, ob die Angaben des Patienten wirklich alle stimmen.
Das viel gelobte Startup Babylon Health musste erst vor kurzem eine Lektion lernen, die menschliche Ärzte auch in ihren ersten Berufsjahren ereilt: Dass es oft nicht so schlimm ist, wie der Patient behauptet. In einer ersten Testphase sollten Patienten in London North-West Babylon Health nutzen und bekamen nur dann einen Termin bei einem echten Doktor, wenn die App das für notwendig erachtete. Nur brauchten die Versuchspersonen wirklich einen Arztbesuch und wollten sich nicht von einer KI abwimmeln lassen. Sie beschrieben ihre Symptome deswegen besonders dramatisch und „erspielten“ sich regelrecht einen Termin beim richtigen Arzt. Die Folge: Sie sorgten mit ihrem Flunkern, anders als erhofft, für höhere Kosten statt für Einsparungen. Was genau diese Patienten angaben und was der menschliche Doc diagnostizierte, ist im Bericht zu diesem Testlauf nicht überliefert. Aber man kann sich nur zu gut vorstellen, wie eine vom Patienten beschriebene schwerwiegende Lungenentzündung gepaart mit Hirnhautentzündung am Ende nur eins war: Männergrippe.