Auch für KI gilt: Wer falsch trainiert, bleibt dumm
Computer können nur so schlau sein wie der, der vor ihnen sitzt. Es ist der absolute Klassiker unter den Klugscheißersprüchen. Und dank KI wird er gerade obsolet, denn Algorithmen können in Teilaufgaben „schlauer” sein als wir. Sie können Go und Schachpartien gegen die Weltbesten gewinnen, Krebs besser erkennen als Ärzte und unfallfrei durch den Verkehr fahren. Und doch gibt es einige Fallstricke in Sachen KI. Denn damit die Maschine lernt und clever wird, muss man vor allem beim Trainieren des Algorithmus gewisse Dinge vermeiden.
1. Unvollständige Datensätze nutzen
Es klingt banal, aber versehentlich einen unvollständigen Datensatz zu nutzen, kann große Auswirkungen haben. Die KI-basierte Fotofilter-App Faceapp machte 2017 Schlagzeilen mit ihrem Hotness-Filter, weil er grundsätzlich allen Fotografierten eine Bleichkur verschrieb. Speziell bei Barack Obama und anderen prominenten dunkelhäutigen Porträtierten sah das merkwürdig aus. Und trug den Entwicklern den Rassismusvorwurf ein. Der simple Grund für das Bleaching: Die KI war nur mit einem Datensatz kaukasischer Gesichter auf Schönheitsideale trainiert worden. Ein kompletter Datensatz mit allen Ethnien hätte wohl nicht solche Probleme verursacht.
2. Bias in den Daten außer Acht lassen
Selbst wenn Daten vollständig sind, kann beim Sammeln einiges schief gelaufen sein. Ein viel diskutiertes Beispiel dafür ist die Idee des Predictive Policing. Sie lautet: Big Data und KI sollen Polizeistreifen vor allem dort hinschicken, wo viele Straftaten passieren und so die Arbeit effizienter und vor allem vorurteilsfreier machen. In einer Studie stellte sich aber heraus, dass eine der eingesetzten Softwares namens Predpol genau das wohl nicht tut, sondern Vorurteile verstärkt. Der Grund dafür ist, dass die Entwickler eine einfache Logik nicht bedacht hatten. Wer viel sucht, findet auch mehr.
Predpol schickt nämlich dann mehr Streifen in ein Viertel, wenn Polizisten dort viele Leute festgenommen haben. Weil aber natürlich in gewissen Vierteln, die als Brennpunkte gelten, per se öfter patrouilliert wird, ist natürlich die Chance, dass von dort Straftaten gemeldet werden, ebenfalls höher. Was passiert, ist dann ein Feedback-Loop. Weil viele Polizisten von dort viele Straftaten melden, werden mehr Polizisten dort hingeschickt. Die wiederum nehmen dann noch mehr Straftaten wahr, sodass das System denkt, dass es noch weitere Einsatzkräfte hinschicken muss – und so geht es weiter und so fort. Ein einfacher Kniff, der hier helfen würde: Statt den absoluten Zahlen die Fälle pro gefahrene Streife als Messgröße für die KI nehmen.
3. Den Algorithmus zu genau an die Trainingsdaten passen
Jeder, der Fußball, Basketball und andere Sportarten schaut, kennt sinnlose Statistiken wie diese: „Seit er verheiratet ist, hat Thomas Müller stets in der Bundesliga getroffen, wenn er nach der 70. Minute eingewechselt wurde, der Trainer einen spanischen Namen hatte und das Oktoberfest länger als sechs Monate zurücklag.”
Und auch wenn das Beispiel frei erfunden ist – so oder so ähnlich dröhnt es immer wieder aus dem Fernseher oder dem Laptop. Und genau das ist im Grunde auch das Problem des Overfittings beim Machine Learning. Die Regeln und Bedingungen, die aufgestellt wurden, sind in diesem Beispiel so spezifisch für wenige Fälle, dass sie keinen Wert haben, um wirklich etwas vorauszusagen. Die etwas trockene, grafische Variante des Overfitting aus Vorträgen bezieht sich auf das Clustern. Anstatt mit einem eleganten Halbkreis (und damit einer einfachen Funktion) zwei Gruppen in einem Diagramm zu trennen, wird eine Zickzack-Linie gewählt. Die funktioniert dann zwar vielleicht bei den Trainingsdaten super, hat aber wohl kaum Allgemeingültigkeit für spätere Use-Cases.
Doch was kann man dagegen tun? Die Kernidee: Möglichst wenig Regeln bei dennoch guter Genauigkeit. Erreichen kann man das bei Entscheidungsbäumen/ Decision-Trees zum Beispiel, in dem man eine Mindestzahl an Fällen, auf die jede zusätzliche Regel zutrifft, festlegt. Also sowas wie: Seit er verheiratet ist, trifft Thomas Müller häufiger bei Spielen unter der Woche.
4. Die Skepsis verlieren
Menschen mit Asthma sterben seltener an Lungenentzündungen. Das ist eine tatsächliche Regel, die ein Machine-Learning-Algorithmus aus Daten einer Studie heraus filterte. Und diese Regel ist ein Beispiel dafür, wie man richtig und falsch zugleich liegen kann. Sie ist richtig basierend auf den Daten. Aber sie ist falsch, wenn sie dazu genutzt wird, das Risiko eines Patienten einzustufen und ihm entsprechend weniger Arztbesuche zu empfehlen.
Der Grund für das Ergebnis: Asthma-Patienten gehen wegen ihrer Erkrankung ohnehin häufiger zum Arzt. Darum werden Anzeichen für Lungenentzündungen früher erkannt. Ihnen aber zu sagen, dass ihr Risiko geringer ist, wäre falsch. Und das ist vielleicht auch ein guter Ratschlag für alle, die mit KI herumspielen. Ein gesundes Maß an Skepsis ist immer angebracht. Selbst wenn die Maschine vielleicht schlauer als man selbst zu sein scheint.