Anzeige
Anzeige
Ratgeber
Artikel merken

Auch für KI gilt: Wer falsch trainiert, bleibt dumm

KI kann großartige Dinge vollbringen: Fotos aufhübschen, Krankheiten erkennen und noch viel mehr. Doch immer wieder passieren Pannen, weil mit falschen Daten trainiert wird. Ein kleines How-Not-To.

Von Haluka Maier-Borst
3 Min. Lesezeit
Anzeige
Anzeige

Wie können KI richtig trainiert werden? (Bild: Shutterstock)

Computer können nur so schlau sein wie der, der vor ihnen sitzt. Es ist der absolute Klassiker unter den Klugscheißersprüchen. Und dank KI wird er gerade obsolet, denn Algorithmen können in Teilaufgaben „schlauer” sein als wir. Sie können Go und Schachpartien gegen die Weltbesten gewinnen, Krebs besser erkennen als Ärzte und unfallfrei durch den Verkehr fahren. Und doch gibt es einige Fallstricke in Sachen KI. Denn damit die Maschine lernt und clever wird, muss man vor allem beim Trainieren des Algorithmus gewisse Dinge vermeiden.

1. Unvollständige Datensätze nutzen

Anzeige
Anzeige

Es klingt banal, aber versehentlich einen unvollständigen Datensatz zu nutzen, kann große Auswirkungen haben. Die KI-basierte Fotofilter-App Faceapp machte 2017 Schlagzeilen mit ihrem Hotness-Filter, weil er grundsätzlich allen Fotografierten eine Bleichkur verschrieb. Speziell bei Barack Obama und anderen prominenten dunkelhäutigen Porträtierten sah das merkwürdig aus. Und trug den Entwicklern den Rassismusvorwurf ein. Der simple Grund für das Bleaching: Die KI war nur mit einem Datensatz kaukasischer Gesichter auf Schönheitsideale trainiert worden. Ein kompletter Datensatz mit allen Ethnien hätte wohl nicht solche Probleme verursacht.

2. Bias in den Daten außer Acht lassen

Selbst wenn Daten vollständig sind, kann beim Sammeln einiges schief gelaufen sein. Ein viel diskutiertes Beispiel dafür ist die Idee des Predictive Policing. Sie lautet: Big Data und KI sollen Polizeistreifen vor allem dort hinschicken, wo viele Straftaten passieren und so die Arbeit effizienter und vor allem vorurteilsfreier machen. In einer Studie stellte sich aber heraus, dass eine der eingesetzten Softwares namens Predpol genau das wohl nicht tut, sondern Vorurteile verstärkt. Der Grund dafür ist, dass die Entwickler eine einfache Logik nicht bedacht hatten. Wer viel sucht, findet auch mehr.
Predpol schickt nämlich dann mehr Streifen in ein Viertel, wenn Polizisten dort viele Leute festgenommen haben. Weil aber natürlich in gewissen Vierteln, die als Brennpunkte gelten, per se öfter patrouilliert wird, ist natürlich die Chance, dass von dort Straftaten gemeldet werden, ebenfalls höher. Was passiert, ist dann ein Feedback-Loop. Weil viele Polizisten von dort viele Straftaten melden, werden mehr Polizisten dort hingeschickt. Die wiederum nehmen dann noch mehr Straftaten wahr, sodass das System denkt, dass es noch weitere Einsatzkräfte hinschicken muss – und so geht es weiter und so fort. Ein einfacher Kniff, der hier helfen würde: Statt den absoluten Zahlen die Fälle pro gefahrene Streife als Messgröße für die KI nehmen.

Anzeige
Anzeige

3. Den Algorithmus zu genau an die Trainingsdaten passen

Jeder, der Fußball, Basketball und andere Sportarten schaut, kennt sinnlose Statistiken wie diese: „Seit er verheiratet ist, hat Thomas Müller stets in der Bundesliga getroffen, wenn er nach der 70. Minute eingewechselt wurde, der Trainer einen spanischen Namen hatte und das Oktoberfest länger als sechs Monate zurücklag.”

Anzeige
Anzeige

Und auch wenn das Beispiel frei erfunden ist – so oder so ähnlich dröhnt es immer wieder aus dem Fernseher oder dem Laptop. Und genau das ist im Grunde auch das Problem des Overfittings beim Machine Learning. Die Regeln und Bedingungen, die aufgestellt wurden, sind in diesem Beispiel so spezifisch für wenige Fälle, dass sie keinen Wert haben, um wirklich etwas vorauszusagen. Die etwas trockene, grafische Variante des Overfitting aus Vorträgen bezieht sich auf das Clustern. Anstatt mit einem eleganten Halbkreis (und damit einer einfachen Funktion) zwei Gruppen in einem Diagramm zu trennen, wird eine Zickzack-Linie gewählt. Die funktioniert dann zwar vielleicht bei den Trainingsdaten super, hat aber wohl kaum Allgemeingültigkeit für spätere Use-Cases.

Doch was kann man dagegen tun? Die Kernidee: Möglichst wenig Regeln bei dennoch guter Genauigkeit. Erreichen kann man das bei Entscheidungsbäumen/ Decision-Trees zum Beispiel, in dem man eine Mindestzahl an Fällen, auf die jede zusätzliche Regel zutrifft, festlegt. Also sowas wie: Seit er verheiratet ist, trifft Thomas Müller häufiger bei Spielen unter der Woche.

Anzeige
Anzeige

4. Die Skepsis verlieren

Menschen mit Asthma sterben seltener an Lungenentzündungen. Das ist eine tatsächliche Regel, die ein Machine-Learning-Algorithmus aus Daten einer Studie heraus filterte. Und diese Regel ist ein Beispiel dafür, wie man richtig und falsch zugleich liegen kann. Sie ist richtig basierend auf den Daten. Aber sie ist falsch, wenn sie dazu genutzt wird, das Risiko eines Patienten einzustufen und ihm entsprechend weniger Arztbesuche zu empfehlen.
Der Grund für das Ergebnis: Asthma-Patienten gehen wegen ihrer Erkrankung ohnehin häufiger zum Arzt. Darum werden Anzeichen für Lungenentzündungen früher erkannt. Ihnen aber zu sagen, dass ihr Risiko geringer ist, wäre falsch. Und das ist vielleicht auch ein guter Ratschlag für alle, die mit KI herumspielen. Ein gesundes Maß an Skepsis ist immer angebracht. Selbst wenn die Maschine vielleicht schlauer als man selbst zu sein scheint.

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige