Vorausschauende Wartung von IT-Infrastrukturen durch künstliche Intelligenz
In der Industrie ist Predictive Maintenance bereits zu einem neuen Paradigma herangewachsen. Denn die vorausschauende Wartung hat das Zeug, Wartungskosten zu senken und Wartungszyklen zu optimieren. Sie basiert auf der Erfassung von Betriebsdaten und deren Analyse. So erzeugt eine Maschine mit mechanischen Bauteilen Schwingungen, Geräusche, Widerstände, Energielastprofile und viele weitere Daten, die einen individuellen Rückschluss auf den Zustand der Maschine ermöglichen. Der optimale Moment der Wartung kann so besser bestimmt werden – idealerweise, kurz bevor ein Bauteil kaputt geht.
Im Bereich der Maintenance von IT-Rechenzentren findet der Datenanalyse-/Vorhersage-Ansatz bisher kaum Verwendung. Ein datenbasierter und vorausschauender Betrieb ist um ein Vielfaches komplexer und häufig teurer als ein rein reaktiver Betrieb. Denn Daten müssen präventiv erfasst, gespeichert, berechnet und analysiert werden. IT-Spezialisten, die das können, sind knapp und teuer. Dennoch: Erste Ansätze mit selbstlernenden Algorithmen sind vielsprechend und lohnen sich langfristig.
Viele Vorfälle deuten sich vorher an
Aus den Daten, die die Infrastruktur-Bestandteile eines Rechenzentrums im Betrieb quasi nebenbei liefern, lässt sich einiges herauslesen: In dem Moment, in dem beispielsweise ein Onlineshop nicht mehr erreichbar ist, tritt der Schaden für den Betreiber ein. Sehr wahrscheinlich gab es aber schon vor diesem Website-Ausfall deutliche technische Anzeichen dafür. Wären die rechtzeitig erkannt worden, wäre der Ausfall vermeidbar gewesen.
Den meisten Vorfällen gehen erkennbare Anomalien im Rechenzentrumsbetrieb voraus. Vor dem Website-Crash war möglicherweise ein ungewöhnlicher Traffic-Peak bereits erkennbar, die CPU arbeitete an der ihrer Performance-Grenze, die Zugriffe auf die Datenbank nahmen stark zu. Ebenso hinterlassen etwa Hacker bereits vor dem Angriff Spuren, wie etwa eine hohe Zahl an Login-Versuchen oder andere ungewöhnliche Aktivitäten im Netzwerk.
An solche Daten zu kommen, ist vergleichsweise einfach. Die meisten Hardware-Devices einer typischen IT-Infrastruktur bringen die notwendigen Sensoren gleich mit. So lassen sich zahlreiche Zustands- und Funktionsdaten wie beispielsweise die Temperatur der Devices, Latenzzeiten, die Anzahl der Schreib- und Lesezugriffe, Logfiles und ähnliches erfassen. Die viel schwierigere Frage ist, wie die Daten in die richtigen Zusammenhänge gebracht werden können. Hinter einer erhöhten Zugriffsrate könnte ja sowohl ein Hacker als auch ein Ansturm auf Saisonware aufgrund einer Werbeschalte stecken.
Ein System wird intelligent, wenn es lernt
Das System muss zunächst lernen, was es als Anomalie in einem neutralen Sinne zu verstehen hat. Dem Algorithmus ein Konstrukt aus definierten Situationen überzustülpen, ist wenig zielführend. Denn es lässt sich kaum eingrenzen, welche Veränderung eines Wertes welche Bedeutung hat. Stets spielen mehrere Messdaten eine Rolle, die sich in wechselnder Abhängigkeit voneinander befinden.
Das heißt konkret, dem Algorithmus muss es beigebracht werden: Dazu definiert man eine überschaubare Zahl an Features, also Werte mit ihren möglichen Ausprägungen, die für den Betrieb (im genannten Beispiel für den Betrieb der Website) von Bedeutung sind. Je mehr Features beobachtet werden, umso genauer wird die Analyse. Gleichzeitig wird das System aber umso komplexer. Im laufenden Betrieb werden nun alle Ereignisse für den Algorithmus markiert, die in irgendeiner Weise besonders sind: gewünschte, saisonale Lastspitzen etwa oder unangenehme Performance-Engpässe. Mit der Zeit kann das System Situationen interpretieren und liefert die Basis für ein intelligentes Warnsystem.
Predictive Maintenance im Rechenzentrum
Wichtige oberste Stufe eines solchen Warnsystems bleibt der sofortige, reaktive Alarm, wenn ein Wert so stark heraussticht, dass sofort eingegriffen werden muss. Bricht etwa der Datenstrom einer Festplatte abrupt ab, ist diese möglicherweise kaputt. Die zweite Stufe basiert auf der künstlichen Intelligenz des lernenden Algorithmus. Anhand der definierten Features, ihrer Wertentwicklungen und der gelernten Zusammenhänge kann das System nun vorausschauend arbeiten. Deuten die erfassten Werte unter den definierten Bedingungen auf eine unerwünschte Anomalie hin, wird der IT-Administrator informiert. Der Vorteil: Er kann nun eingreifen und den Vorfall abwenden oder die anstehende Wartung günstig planen.
In einer dritten Stufe lässt sich solch ein intelligentes System zu einem Infrastruktur-Optimierungs-System entwickeln. So können beispielsweise Ressourcen sukzessive skaliert werden. So wird echtes Live-Scaling möglich, selbst ohne Eingreifen des Nutzers. Ebenso sind automatisierte Infrastruktur-Anpassungen denkbar: Läuft ein Device dauerhaft unter Höchstlast, kann es durch ein weiteres zugeschaltetes Device entlastet werden. Und zwar bevor es zu Performance-Einbußen kommt. Dabei könnte der Algorithmus selbstständig entscheiden, welche die praktikabelste, kostengünstigste oder schlicht dringend notwendige Maßnahme ist.
Wer braucht das?
Die Größe des möglichen Schadens entscheidet darüber, wie viel Aufwand in die Bereitstellung des IT-Betriebs gesteckt wird. Die Website von Agenturen oder eines mittelständischen Industrieunternehmens mit einem KI-System zu untermauern, ist sicherlich überdimensioniert. Aber: Wenn sich beispielsweise Schaden durch einen Ransomware-Angriff verhindern lässt, weil die hohe Lese- und Schreibrate auffiel, kann sich der KI-Aufwand schnell rechnen.
Schöne Schleichwerbung, aber inhaltlich Bullshit. Denn wenn „die erfassten Werte unter den definierten Bedingungen auf eine unerwünschte Anomalie“ hindeuten, ist das eine einfache Überwachungsfunktion – und keine KI.
Interessantes Thema, wird bestimmt in der näheren Zukunft eine große Rolle spielen. Wie schon angemerkt, aber wohl eher nicht für kleinere Unternehmen relevant.