Mit Kanonen auf Spatzen: Warum es nicht immer KI-Technologie sein muss
Viele von uns standen bestimmt schon einmal im Stau und haben über die Unsinnigkeit großer Offroad-Fahrzeuge im Stadtverkehr sinniert. Ist der Fahrer ein Förster, der sich nur in den Stop-and-go-Verkehr verirrt hat oder ein Mensch, der seinen Wagen als Statussymbol sieht? Egal, was man von der Debatte an sich halten mag, zeigt sie uns eines: Nicht immer ist größer oder mehr auch besser. Diese Erkenntnis ist auch im Bereich von künstlicher Intelligenz (KI) und Machine-Learning wichtig. Denn während uns KI in vielen Bereichen helfen kann, ist ein „zu viel“ nicht immer gut.
Jurassic Park und künstliche Intelligenz
Aber grade in der Datenwissenschaft wird oft und gerne mit Kanonen auf Spatzen geschossen. Das lässt sich nicht zuletzt auf die weit verbreiteten und beliebten Wettbewerbe in der Data-Science-Welt zurückführen.
Das wohl prominenteste Beispiel ist Kaggle, eine Community für Datenwissenschaftler, in der regelmäßig neue Data-Science-Denksportaufgaben gestellt werden. Abseits der Konzernzugehörigkeit (Kaggle gehört zu Google) sollte man vor allem beachten, welches Mindset den Teilnehmern auf solchen Plattformen antrainiert wird. Denn die Teilnehmer möchten natürlich gewinnen. Und dabei kommt schnell die Idee auf, möglichst viel Analytics Power in die Lösung der Aufgabe zu stecken. Ganz nach dem Motto: „Viel hilft viel!“
Treffen Datenwissenschaftler aus der theoretischen Welt aber auf praktische Business-Probleme, ist der Kulturschock oft groß. Denn in der Realität sind Ressourcen für große Datenherausforderungen oft rar – sei es nun die Datenbasis oder auch die nötige Rechenleistung.
Und eine noch viel wichtigere Frage steht plötzlich im Raum: Wie geht man verantwortungsvoll mit KI und Machine-Learning-Modellen um? Denn plötzlich geht es nicht mehr nur um den Sieg in einem Wettbewerb. In der Business-Welt werden reale Entscheidungen mit echten Datensätzen getroffen. Sind diese Daten verzerrt oder gibt das Modell diskriminierende Entscheidungen aus, ist nicht einfach nur das Siegertreppchen verfehlt. Im schlimmsten Fall nehmen durch die Modelle getroffenen Entscheidungen massiv negativen Einfluss auf das Leben von Menschen. Dessen müssen sich Datenwissenschaftler immer bewusst sein. Nicht, dass Ian Malcolm mit seinem ikonischen Satz aus „Jurassic Park“ auch in der Welt künstlicher Intelligenz Recht behält: „Ihre Wissenschaftler waren so sehr mit der Frage beschäftigt, ob sie es können oder nicht, dass sie nicht darüber nachgedacht haben, ob sie es überhaupt sollten.“
Explainable first, predictive second!
Die gute Nachricht: Eigentlich ist der ethische Einsatz von KI relativ simpel. Solange nur Modelle genutzt werden, die vollständig nachvollziehbar und interpretierbar sind, kann an jedem Punkt sichergestellt werden, dass die Ergebnisse ethisch einwandfrei sind.
Datenwissenschaftler dürfen hier nicht der Versuchung erliegen, höhere Analytics Power auf Kosten der Interpretierbarkeit des Modells zu implementieren. Dieses Konzept lässt sich mit „Explainability first, predictive power second“ beschreiben. Zu Umsetzung in der Praxis sind dafür drei Punkte wichtig:
- Datenwissenschaftler müssen in der Lage sein, das Modell zu interpretieren, anstatt es nur zu erklären. Das bedeutet, dass sie Algorithmen wählen müssen, die diese Transparenz und Interpretierbarkeit des Machine-Learning unterstützen.
- Datenwissenschaftler dürfen sich nicht auf die Vorhersagekraft der Modelle konzentrieren. Ihr Fokus muss darauf liegen, zu verstehen, was die Modelle antreibt, wie sie funktionieren und wie sie zu ihren Entscheidungen kommen. Erst auf dieser Basis sollte die Vorhersagekraft gemessen werden.
- Diese Modelle müssen dann ohne Verlust der Interpretierbarkeit so gestaltet und genutzt werden, dass sie die passende Performance für den Anwendungsfall erbringen.
Von essenzieller Bedeutung ist es also, die Grenze der Interpretierbarkeit nicht zu überschreiten. Denn die Probleme werden schnell enorm, wenn die Datenwissenschaftler ihre Modelle nicht mehr bis ins Detail verstehen. Wer nicht weiß, wie Entscheidungen im Modell getroffen werden, weiß nicht, wie gut die Vorhersagekraft des Modells tatsächlich ist.
Viel schwerer wiegt aber die ethische Dimension. Ohne detailliertes und umfangreiches Wissen über die eigenen Modelle und deren Entscheidungsfindung kann niemand genau sagen, ob sie verzerrt oder gar diskriminierend sind. Wie schon angesprochen geht es hier ganz schnell um mehr als nur den Sieg bei einem Wettbewerb. Hier geht es um die Lebenswirklichkeit von Menschen, auf die KI und Machine-Learning-Modelle gegebenenfalls Einfluss nehmen. Und je öfter das Wettbewerbs-Mindset in der Praxis angewendet wird und selbst kleinste Probleme mit massiver Analytics Power gelöst werden, desto schwieriger wird es, die Modelle auch weiterhin umfassend zu verstehen.
Was es also braucht, ist angemessene KI an den passenden Stellen. Angemessen bedeutet hierbei, dass die KI robust, erklärbar, ethisch und überprüfbar sein muss. Diese Prinzipien dürfen in der realen Welt nie aufgegeben werden.