7 Regeln für den erfolgreichen Einsatz von Machine Learning

(Foto: ShotPrimeStudio/Shutterstock)
In den vergangenen zehn Jahren haben Daten enorm an Bedeutung gewonnen und werden gelegentlich sogar als das neue Öl bezeichnet. Immerhin scheint es kein Gebiet zu geben, das von der Datenanalyse nicht profitieren könnte: Maschinendaten lassen sich zur Verbesserung der Auslastung nutzen. Im Bereich der Medizin werden Massen von Computertomographiebildern für die bessere Krebserkennung analysiert. Das Potenzial für neue Geschäftsmodelle und die Verbesserung bestehender Prozesse ist so hoch wie nie zuvor. Zugleich ist es heute leichter denn je, Daten kostengünstig und unkompliziert zu sammeln, zu speichern, zu analysieren und zu teilen. Data-Lakes sind deshalb bei Unternehmen derzeit sehr beliebt.
Die Frage ist jedoch, ob die Vorteile der Daten in der Praxis tatsächlich optimal genutzt werden. Viel Information, aber wenig Erkenntnis – wer vor diesem Problem steht oder es einfach nicht schafft, intelligente Anwendungen auf Basis eines Data-Lakes zu entwickeln, sollte folgende sieben Regeln beherzigen:
1. Handle geschäfts- und kundenorientiert!
Beschäftige dich mit der Frage, was die größten Herausforderungen für das Unternehmen sind. Starte mit einer einzigen geschäftlichen Herausforderung und arbeite dich rückwärts zur Lösung vor. Nimm dabei die Werkzeuge kritisch unter die Lupe:
Zu viele Unternehmen versuchen, mit Algorithmen für selbstfahrende Autos oder die Genomsequenzierung ihren Sales-Funnel zu optimieren. Es geht besser. Schließlich gibt es für jede Geschäftsherausforderung Modelle und vorkonfigurierte Lösungen, die einer solchen Aufgabe gewachsen sind und einen höheren Wert zu niedrigeren Kosten erzielen.
2. Arbeite mit kurzen Iterations-Zyklen!
Das Ziel muss es sein, das ML-System schnell und einfach zum Laufen zu bringen. Mit jeweils kleinen Iterationen durch Tests, Proofs of Concept und Pilots kann das Team ML-Workloads schneller und in höherer Qualität in die Produktion bringen. Plane, einen serienreifen Prototyp in drei Wochen und eine voll funktionsfähige Version in weniger als 90 Tagen zu produzieren. Selbst wenn das System nicht die jeweils modernsten Modelle verwendet, wird das Team durch die schnelle Iteration viel mehr lernen als bei einem zu langen Entwicklungszyklus. ML-Transformationen erfolgen durch den Aufbau von Wissen und Erfahrung – und durch kleine, schnelle und einfache Schritte, nicht durch mehrjährige Planungsphasen. Häufige Re-Designs sind dabei unvermeidlich. Hab keine Angst vor Fehlern in kurzen Abständen. Es kommt darauf an, schnell aus ihnen zu lernen.
3. Entscheide weise zwischen einem zentralisierten oder dezentralisierten Ansatz!
ML-Anwendungen erfordern wie jede andere Software Wartung, Updates und Support. Ein zentralisiertes Team kann auf niedriger Ebene effektiv sein, aber in einer späteren Phase könnte die Innovation darunter leiden. Stell dir ein großes Team vor, das an mehreren innovativen Projekten arbeitet. Es ist unvermeidlich, dass irgendwann ein wesentlicher Teil der Teamarbeit aus operativen Tätigkeiten besteht. Das könnte ein guter Zeitpunkt sein, dem Team eine neue Heimat zu geben: innerhalb der Abteilung, für die es ohnehin arbeitet. Es wird dem ML-Team langfristig helfen, im Namen seines internen Kunden weitere Innovationen voranzutreiben.
4. Achte auf die größten Hindernisse für Datenwissenschaftler und Entwickler
- „Schmutzige“ Daten, zum Beispiel Datensätze, die unstrukturiert sind, fehlende Attribute haben oder gemischte Datentypen im gleichen Abschnitt
- Mangel an Fachwissen
- Mangel an Management oder finanzieller Unterstützung, da ML-Projekte Fokus und Finanzierung erfordern
- Mangel an klaren Fragen, die zu beantworten sind. Unternehmen sind auf der Suche nach Verbesserungen, aber es fehlen Spezifikationen und klare Ziele, um diese zu erreichen
- Daten, die nicht verfügbar oder schwer zugänglich sind
Wenn du entsprechend planst, wirst du feststellen, dass die meisten dieser Hindernisse leicht zu überwinden sind. Fehlendes Fachwissen? Beginne mit der Einstellung von Talenten, bevor die ganze Firma nach Experten verlangt, anstatt die Daten auf Talente warten zu lassen. Sind Daten nicht verfügbar? Starte mit der Datenerfassung vor dem Projektstart. Sind Daten nicht zugänglich? Beginne keinen Workshop, ohne vorher relevante Datenmuster anzufragen. Ist das Problem die fehlende Verwaltung oder die finanzielle Unterstützung? Hole dir den Buy-in im Voraus. Identifiziere diejenigen Kollegen, die von künstlicher Intelligenz begeistert sind und dich bei der Genehmigung von Budgets und Neueinstellungen, der Datenverfügbarmachung und der Verbindung zu anderen Stakeholdern unterstützen können.
5. Überwinde die Trennung zwischen Data-Science und Devops!
„Unsere Doktoranden entwickeln ML-Modelle und schreiben Spezifikationen. Die Entwickler implementieren es dann in C++.“ Wenn dir das bekannt vorkommt, ändere so schnell wie möglich die Arbeitsweise im Team. Die Trennung von Wissenschaft und Produktion kann die Entwicklungs- und Innovationszyklen eines Unternehmens erheblich verlängern und damit zu Qualitätsproblemen und fehlender Verantwortung für ein Projekt führen. Es gibt heute eine breite Palette von Werkzeugen, die es Datenwissenschaftlern ermöglicht, einen Schritt in Richtung Engineering zu machen – und umgekehrt.
6. Achte auf das Verhältnis von Datenwissenschaftlern zu Programmierern!
In den meisten Fällen hängt es von der Reife des Unternehmens ab. Wenn die Daten nicht zugänglich oder über Jahre nicht gepflegt worden sind, braucht das Unternehmen wahrscheinlich mehr Engineering und weniger Wissenschaft. Wenn allerdings bereits eine etablierte Datenpipeline, ein Data-Warehouse und ein Data-Lake vorhanden sind, kommt die Firma wahrscheinlich mit mehr Wissenschaft und weniger Engineering aus. Möglicherweise hat das Unternehmen allerdings auch spezifische Anforderungen, die sich auf die benötigten Fähigkeiten auswirken. Als Faustregel gilt, dass für jeden Datenwissenschaftler in der Bauphase zwei bis drei Ingenieure vorgesehen sind und im Verhältnis eins zu eins, wenn ein System bereits im Einsatz ist.
7. Nutze klare KPI (Key-Performance-Indicators), an denen der Erfolg des Projekts gemessen werden kann
Stelle dir ein Programm vor, das zu besseren Kundenbewertungen führen soll. Das Zwischenziel „Verbesserung der Benutzerfreundlichkeit“ erscheint auf den ersten Blick plausibel, aber um den Erfolg effizient zu messen, ist es noch zu unklar. Die verschiedenen Interessenvertreter könnten später lange darüber streiten, ob das Ziel tatsächlich erreicht wurde oder nicht. Das würde zu Ressourcenverschwendung und einer ineffizienten Entwicklung führen. Konkreter wären folgende Fragen: „Lässt sich Verbesserung der Benutzerfreundlichkeit an der auf der Plattform verbrachten Zeit messen, an der Anzahl der angesehenen Videos oder an der Anzahl der neuen Kategorien, die der Benutzer erkundet hat?“ Klare Ziele und KPI helfen dir, besser zu planen und Ergebnisse zu erreichen.
Machine-Learning-Initiativen können äußerst fruchtbare Resultate liefern. Allerdings erzeugen Aspekte wie eine mangelnde Fokussierung, begrenzte Ressourcen und falsch gesetzte Erwartungen leicht Frustrationen. Mit einem ML-Discovery-Workshop, in dem alle Beteiligten sowohl geschäftliche als auch technische Punkte, Ideen, Herausforderungen und Pläne diskutieren, lässt sich das vermeiden. Auf einer Liste werden dabei die größten Herausforderungen, entsprechende Lösungen und ihre Machbarkeit, der geschätzte Aufwand und die fehlenden Fähigkeiten und Werkzeuge festgehalten. Anschließend wird ein Projektplan mit Zeiten und Verantwortlichkeiten erstellt. Allerdings gerät selbst der bestdurchdachte Prozess ohne richtigen Fokus ins Stocken. In diesem Sinne hilft die Beachtung der oben genannten Punkte, das Potenzial von Machine Learning auszuschöpfen.