Warum KI für korrekte Krebsdiagnosen noch viel lernen muss
Will man in den Körper schauen, um Krebs aufzuspüren, geht es vor allem um Mustererkennung. So setzen etwa Radiologen Röntgenstrahlen und Magnetresonanztomografie ein, um Tumore sichtbar zu machen. Pathologen wiederum suchen in Nieren-, Leber- und anderen Proben unter dem Mikroskop nach bestimmten Mustern. Sie zeigen, wie schwerwiegend eine Krebserkrankung bereits ist, ob bestimmte Behandlungen wirken könnten und wo sich der Krebs ausbreiten könnte.
Theoretisch sollte künstliche Intelligenz dabei eine große Hilfe sein. „Unsere Aufgabe ist die Mustererkennung“, sagt Andrew Norgan, Pathologe und medizinischer Leiter der digitalen Pathologieplattform der Mayo Clinic. „Wir sehen uns den Objektträger an und sammeln die Informationen, die sich als wichtig erwiesen haben.“
Auf der Suche nach dem richtigen KI-Modell zur Krebsuntersuchung
Visuelle Analysen beherrscht die KI inzwischen recht gut, seit die ersten Bilderkennungsmodelle vor fast 15 Jahren aufkamen. Sicher wird kein Modell perfekt sein. Aber man kann sich vorstellen, dass ein leistungsfähiger Algorithmus eines Tages etwas entdeckt, das ein menschlicher Pathologe übersehen hat. Und wenn nicht das, dann könnte zumindest der Prozess der Diagnosestellung durch KI beschleunigt werden. Es gibt viele neue Versuche, ein solches Modell zu entwickeln – mindestens sieben Versuche allein im letzten Jahr –, allerdings sind alle noch experimentell. Was ist erforderlich, damit sie gut genug sind, um in der realen Welt eingesetzt zu werden?
Anhaltspunkte für ein solches Modell bieten Ergebnisse, die das KI-Gesundheitsunternehmen Aignostics und die Mayo-Klinik Anfang Januar auf der Preprint-Plattform arXiv veröffentlicht haben. Die noch nicht von Expert:innen begutachtete Arbeit verrät trotzdem viel über die Herausforderungen, die mit der Einführung eines solchen Werkzeugs in realen klinischen Umgebungen verbunden sind.
Neue Krebs-KI schlägt alte Modelle 6 zu 3
Das Modell mit dem Namen Atlas wurde anhand von 1,2 Millionen Gewebeproben aus 490.000 Krebsfällen trainiert. Dabei wurde auch seine Genauigkeit im Vergleich zu sechs anderen führenden KI-Pathologiemodellen getestet. Diese Modelle konkurrieren bei gemeinsamen Tests wie der Klassifizierung von Brustkrebsbildern oder der Einstufung von Tumoren, bei denen die Vorhersagen des Modells mit den korrekten Antworten von menschlichen Patholog:innen verglichen werden.
Atlas schlug die konkurrierenden Modelle in sechs von neun Tests. Die höchste Punktzahl erreichte das Modell bei der Einstufung von Darmkrebsgewebe, wo es in 97,1 Prozent der Fälle zur gleichen Schlussfolgerung wie die menschlichen Pathologen kam. Bei einer anderen Aufgabe jedoch – der Klassifizierung von Tumoren aus Prostatakrebs-Biopsien – schlug Atlas die hohen Werte der anderen Modelle mit einem Ergebnis von nur 70,5 Prozent. Der Durchschnitt der neun Benchmarks zeigte, dass das Modell in 84,6 Prozent der Fälle die gleichen Antworten wie menschliche Expert:innen gab.
Der beste Weg, um herauszufinden, was mit Krebszellen im Gewebe passiert, ist, die Probe durch Patholog:innen untersuchen zu lassen. Daran werden dann KI-Modelle gemessen. Die besten Modelle nähern sich bei bestimmten Erkennungsaufgaben dem Menschen an, hinken aber bei vielen anderen Aufgaben hinterher. Wie gut muss also ein Modell sein, um klinisch nützlich zu sein?
90 Prozent der KIs sind schlechter als Pathologen
„Neunzig Prozent sind wahrscheinlich nicht gut genug. Sie müssen noch besser sein“, sagt Carlo Bifulco, Chief Medical Officer bei Providence Genomics und Miterfinder von Gigapath, einem der anderen KI-Pathologiemodelle, die in der Studie der Mayo Clinic untersucht wurden. Bifulco zufolge können KI-Modelle, die nicht perfekt abschneiden, kurzfristig dennoch nützlich sein und könnten Patholog:innen dabei helfen, ihre Arbeit zu beschleunigen und Diagnosen schneller zu stellen.
Warum KIs schlecht abschneiden: Problem Nummer 1
Das Problem Nummer eins dabei sind allerdings die Trainingsdaten. „Weniger als zehn Prozent der Pathologiepraxen in den USA sind digitalisiert“, sagt Norgan. Das bedeutet, dass Gewebeproben auf Objektträgern platziert und unter dem Mikroskop analysiert und dann in umfangreichen Sammlungen abgelegt werden, ohne jemals digital dokumentiert zu werden. Zwar sind die europäischen Praxen tendenziell stärker digitalisiert, und es gibt Bestrebungen, gemeinsame Datensätze von Gewebeproben zu erstellen, mit denen KI-Modelle trainiert werden können, aber es gibt immer noch nicht viel, mit dem man arbeiten kann.
Ohne vielfältige Datensätze haben KI-Modelle Schwierigkeiten, die große Bandbreite an Anomalien zu erkennen, die menschliche Patholog:innen zu interpretieren gelernt haben. Das gilt auch für seltene Krankheiten, sagt Maximilian Alber, Mitbegründer und Chief Technology Officer von Aignostics. Wenn man die öffentlich zugänglichen Datenbanken nach Gewebeproben von besonders seltenen Krankheiten durchsucht, „findet man 20 Proben in zehn Jahren“, sagt er.
Vor einigen Jahren sah die Mayo-Klinik voraus, dass dieser Mangel an Trainingsdaten ein Problem darstellen würde und beschloss, alle ihre eigenen Pathologiepraxen zu digitalisieren. Dabei zog sie auch die zwölf Millionen Objektträger mit ein, die sie über Jahrzehnte in ihren Archiven eingelagert hatte, wenn die Patient:innen der Verwendung für die Forschung zugestimmt hatten. Die Klinik beauftragte ein Unternehmen mit dem Bau eines Roboters, der damit begann, hochauflösende Fotos von den Geweben zu machen und bis zu einer Million Proben pro Monat durchzuarbeiten. Auf diese Weise konnte das Team die 1,2 Millionen qualitativ hochwertigen Proben sammeln, die zum Trainieren des Mayo-Modells verwendet wurden.
KI-Problem Nummer 2: Digitalisierte Gewebeproben sind zu groß
Beim KI-Einsatz zur Krebserkennung kommt allerdings Problem Nummer Zwei ins Spiel. Gewebeproben aus Biopsien sind winzig – oft nur ein paar Millimeter im Durchmesser –, werden aber so stark vergrößert, dass digitale Bilder von ihnen mehr als 14 Milliarden Pixel enthalten. Damit sind sie etwa 287.000 Mal größer als die Bilder, die zum Trainieren der bisher besten KI-Bilderkennungsmodelle verwendet wurden.
„Das bedeutet natürlich eine Menge Speicherkosten“, sagt Hoifung Poon, ein KI-Forscher bei Microsoft, der mit Bifulco an dem letztes Jahr im Fachjournal Nature vorgestellten Pathologiemodell Gigapath mitgearbeitet hat. Aber es erzwingt auch wichtige Entscheidungen darüber, welche Teile des Bildes zum Trainieren des KI-Modells verwendet werden und welche Zellen man dabei möglicherweise übersieht. Um Atlas zu erstellen, verwendete die Mayo-Klinik die sogenannte Kachelmethode, bei der viele Schnappschüsse derselben Probe erstellt und in das KI-Modell eingespeist werden. Die Auswahl dieser Kacheln ist sowohl eine Kunst als auch eine Wissenschaft, und es ist noch nicht klar, welche Methoden zu den besten Ergebnissen führen.
Die Frage der geeigneten Benchmarks ist das 3. KI-Problem
Drittens stellt sich die Frage, welche Benchmarks für ein KI-Modell zur Krebserkennung am wichtigsten sind, damit es gute Ergebnisse erzielt. Die Atlas-Forscher:innen testeten ihr Modell in der anspruchsvollen Domäne der molekularen Benchmarks, bei denen es darum geht, Anhaltspunkte aus Bildern von Gewebeproben zu finden, um zu erraten, was auf molekularer Ebene passiert. Ein Beispiel: Die körpereigenen Mismatch-Reparatur-Gene sind für Krebs besonders wichtig, weil sie Fehler bei der DNA-Replikation für die Zellteilung auffangen. Wenn diese Fehler nicht erkannt werden, können sie die Entwicklung und das Fortschreiten von Krebs fördern.
„Manche Pathologen sagen, dass sie aufgrund des Aussehens ein Gefühl dafür bekommen, wenn [in einer Probe das Ergebnis eines] Mismatch-Reparatur-Mangels vorliegt“, sagt Norgan. Pathologen verlassen sich dabei nicht allein auf ihr Bauchgefühl. Sie können molekulare Tests durchführen, um eine genauere Antwort zu erhalten. Was wäre, so Norgan, wenn wir stattdessen KI einsetzen könnten, um vorherzusagen, was auf molekularer Ebene passiert? Könnte das KI-Modell zugrunde liegende molekulare Veränderungen erkennen, die Menschen nicht sehen können?
„Wir brauchen andere Modelle, um wirklich dramatische Fortschritte zu erzielen“
Bisher noch nicht. Der Durchschnittswert von Atlas für die molekularen Tests lag bei 44,9 Prozent. Das ist die bisher beste Leistung der KI, zeigt aber auch, dass diese Art von Tests noch einen langen Weg vor sich hat. Bifulco zufolge stellt Atlas einen schrittweisen, aber echten Fortschritt dar. Allerdings „ist mein Gefühl leider, dass alle auf einem ähnlichen Niveau feststecken“, sagt er. „Wir brauchen andere Modelle, um wirklich dramatische Fortschritte zu erzielen, und wir brauchen größere Datensätze“.