Vertex AI auf Google Cloud: Onlinevorhersagen für Datentrends mit Machine-Learning-Modell
Es gibt viele Möglichkeiten, eigene Machine-Learning-Modelle für Daten-Forecasts zu erstellen. Das geht mit IBM Watson Studio, Microsoft Azure, der AWS Cloud oder der Google Cloud. Nur ist es für die meisten Menschen nicht realistisch, da neben starken Programmierkenntnissen ein geballtes statistisches Verständnis und vor allem auch operative technologiespezifische Erfahrung notwendig ist. Das gilt für den Import der Datensätze, für das Aufsetzen, Trainieren und Bereitstellen des Modells sowie vor allem für die Interpretation der Ergebnisse.
Doch es gibt Abhilfe: Schon 2018 startete die Google Cloud die Anwendung AutoML, die für den einfachen Gebrauch automatisierte Machine-Learning-Modelle bereitstellt – und das ohne oder nur mit geringer Steuerung durch Programmiercodes von unserer Seite. 2021 wurde die Vertex AI auf der Google Cloud gelauncht, in der die Anwendung AutoML eingegliedert ist. Bei der Vertex AI handelt es sich um eine umfassende Plattform für ganzheitliche Machine-Learning-Anwendungen. Hier werden Datensets hochgeladen, automatisch als Modell trainiert und anschließend als Endpunkt ausgegeben. Mit der Funktion der Onlinevorhersagen können wir aus einem trainierten Modell Vorhersagewerte abrufen, um darauf aufbauend mögliche Datenentwicklungen in einer Zeitachse abzubilden.
Wofür eignen sich Onlinevorhersagen?
Überall dort, wo wir aus bestehenden Daten in einer Zeitachse Vorhersagewerte kalkulieren wollen, kann die Vertex AI uns weiterhelfen. Das gilt zum Beispiel für die Online-Marketing-Branche, wo wir Online-Verkäufe oder Traffic-Entwicklungen auf Websites prognostizieren können. Generell lässt sich das aber für jeden Bereich anwenden, in dem Bestandsdaten in einer Zeitachse vorhergesagt werden sollen.
Wie funktionieren die Onlinevorhersagen?
Das System für Vorhersagen basiert auf dem Trainieren von tabellarischen Daten – hochgeladen als CSV-Datei oder abgerufen von einer Bigquery-Datenbank. Die Tabelleneinträge benötigen immer eine Zeitachsen-Angabe sowie eine Nummerierung als eigene Spalte für die Zuordnung. Außerdem sei noch gesagt: Die gesamte Funktion für Onlinevorhersagen befindet sich im sogenannten Vorschau-Modus, was bedeutet, dass dies mit einer Beta-Version vergleichbar ist.
Schritt 1 – Konto in der Google Cloud erstellen und Vertex AI aktivieren
Im ersten Schritt muss ein Konto in der Google Cloud erstellt und die Vertex AI aktiviert werden. Das geht am besten direkt in der Produktseite der Vertex AI. Google bietet für alle neuen Anmeldungen einen kostenlosen Zugriff mit Testzeitraum von 90 Tagen und 300 Euro Startguthaben für die Nutzung des Cloud-Computings. Nachdem der Testzugriff steht und Vertex AI aktiviert ist, können wir mit dem Datenimport fortfahren.
Schritt 2 – Datenset als CSV vorbereiten
Nun benötigen wir tabellarische Daten für die Onlinevorhersage. Wir können an der Stelle entweder eine einfache, kommagetrennte CSV-Datei hochladen oder in der Google Cloud einen Bigquery-Arbeitsbereich anlegen, um dort eine CSV-Datei hochzuladen. Wichtig ist hier, dass die CSV-Datei bestimmte Spaltenvorgaben erfüllen muss:
a) Zeitstempel: Es muss eine eigene Spalte als Zeitachsendimension vorliegen („Zeitstempel“). Der Name der Spalte kann ein beliebiger Text sein. Die Zeitangaben hingegen müssen numerisch sein und in einem der akzeptierten Formate vorbereitet werden. Die akzeptierten Formate für Zeitangaben sind in der Dokumentation im Abschnitt „Zeitstempel“ gelistet. Für Tagesdaten könnte entsprechend das Format für den 26. Januar 2022 so lauten: 2022-01-26.
b) Ziel-Spalte: Es muss eine sogenannte Ziel-Spalte vorliegen. Diese beschreibt den Messwert, für den wir eine Onlinevorhersage errechnen wollen. Die Daten in der Ziel-Spalte müssen immer numerisch sein. Eine Ziel-Spalte wäre also zum Beispiel: Klicks auf einer Website pro Tag, mit 1.000 numerischen Zeileneinträgen, die nach der Spalte folgen.
c) Achsenkennzeichnung: Es muss immer eine sogenannte Achsenkennzeichnung als Spalte vorliegen. Das kann eine einfache Nummerierung sein und muss entsprechend numerisch vorliegen.
Schritt 3 – Datenset importieren
In der Konsole der Vertex AI können wir in der linken Menüleiste unter Datasets eine CSV-Datei hochladen. Im Hauptfenster muss dafür der Reiter „Tabellarisch“ angeklickt werden und für die Onlinevorhersage anschließend das Feld „Regression/Klassifizierung“ ausgewählt werden. Achtung: Die Onlinevorhersage funktioniert nur für ein Modell der Regression/Klassifizierung, nicht jedoch für ein Modell des Typs Vorhersage.
Für das Hochladen von CSV-Dateien ist ein eigener Cloud-Storage erforderlich, der auf der Produktseite der Google Cloud aktiviert werden muss. Die Kosten hierfür werden vom kostenlosen Startguthaben von 300 Euro abgezogen. Anschließend lässt sich dann die CSV-Datei hochladen.
Schritt 4 – Modell automatisch trainieren
Nun geht es ans Training: Die Vertex AI analysiert für die Onlinevorhersage automatisch den Datensatz und erstellt daraus ein Machine-Learning-Modell. Dazu müssen wir rechts auf den blauen Button „Modell trainieren“ klicken. Anschließend öffnet sich ein Fenster, in das wir einige Trainingsdaten eingeben müssen. Wählt hier als Ziel Regression und als Trainingsmethode AutoML.
Jetzt ist es noch wichtig, die Ziel-Spalte aus unserer hochgeladenen CSV-Datei als Target Column festzulegen, damit Vorhersagewerte für sie ermittelt werden können. Wenn wir also eine Vorhersage für Website-Klicks haben wollen, so wählen wir entsprechend Klicks, da das die Ziel-Daten sind, die wir untersuchen wollen.
Bei den Trainingsoptionen sollten die Spaltenbeschaffenheiten eigentlich automatisch erkannt werden. Zur Sicherheit können wir den Spalten aber noch die exakten Bedeutungen zuweisen: Unter dem Tabellenpunkt Transformation weisen wir für das Datum den Typ „Zeitstempel“ zu und für die Achsenkennzeichnung weisen wir „Numerisch“ zu.
Fast fertig: Es fehlt nur noch ein Trainingsbudget. Hier weisen wir eine Knotenstunde zu und starten das Modell mit dem blauen Button links zum Starten des Kurses.
Schritt 5 – Modell bereitstellen
Nun heißt es: Warten, bis das Lernen des Modells abgeschlossen ist. Eine E-Mail der Vertex AI benachrichtigt uns darüber, wenn der Lernprozess abgeschlossen ist. Anschließend liegt das Modell in der Konsole der Vertex AI in der linken Menüleiste unter dem Punkt „Modelle“. Damit wir Onlinevorhersagen tätigen können, muss das Modell noch platziert und bereitgestellt werden. Dazu wählt ihr euer Modell aus, klickt auf eure aktuelle Version und wählt anschließend oben den Reiter „Bereitstellen und testen“ aus. Klickt nun auf den blauen Button unten „Auf Endpunkt bereitstellen“ und tragt hier noch einige abgefragte Daten ein.
Die meisten erforderlichen Daten könnt ihr selbst festlegen – vieles ist schon vorkonfiguriert oder als Best Practice empfohlen. Nur eine Sache ist hier sehr wichtig: und zwar wieder einmal die Ziel-Spalte aus Schritt 2 und Schritt 4. Tippe die genaue Bezeichnung der Zielspalte im Fenster der Monitoringziele erneut ein. Die Ziel-Spalte gibt die Metrik an, die untersucht werden soll: In unserem Beispiel sind es also die Website-Klicks. Für den Speicherort könnt ihr direkt euren Cloud-Storage auswählen oder einen neuen Ordner im Cloud-Storage erstellen.
Schritt 6 – Onlinevorhersage
Es dauert nun wieder eine Weile, bis das System das Deployment, also die Bereitstellung eures Modells, auf der Vertex AI finalisiert hat und ihr eine E-Mail über das Ergebnis ins Postfach bekommt. In der Vertex-AI-Konsole steht dann unter „Modelle“ die Funktion für Onlinevorhersagen bereit. Dazu wieder auf das Modell klicken, dann auf die Version klicken und herunterscrollen. Das Tool zum Testen des Modells ermöglicht euch, direkt abfragen für Vorhersagewerte in der Zukunft abzurufen, und zwar ohne Programmieraufwand, denn im Normalfall lässt sich der Datenabruf nur darüber steuern.
Damit ein Wert vorhergesagt werden kann, muss der numerische Achsenwert mit der Zeitangabe des in der Zukunft liegenden Ereignisses eingegeben werden. Daraus erhalten wir den Vorhersagewert für diesen Zeitpunkt. Vom Erstellen bis zum Bereitstellen dürfte die Google Cloud gut 50 Euro an Budget verbrauchen, und mit jedem Tag der Verfügbarkeit als bereitgestelltes Modell werden noch ein paar Euro fällig. Das bedeutet: Wenn das Modell nicht mehr gebraucht wird – gleich abstellen.
Fazit: Eigene Machine-Learning-Modelle für Vorhersagen
Machine-Learning-Modelle lassen sich mittlerweile auch ohne Programmierkenntnisse aufsetzen und für realitätsnahe Daten-Vorhersagen nutzen. Das kann generell für alle Branchen sinnvoll sein, da dadurch auf bestimmte Szenarien reagiert werden kann, bevor sie erst eintreten. Das gilt besonders für den Online-Marketing-Bereich. Wenn wir genau sehen, welcher Schwellenwert einer Website-Performance über- oder unterschritten wird, können wir Positivtrends noch stärker ausbauen und Negativtrends entgegenwirken, bevor sie eintreten.
Allerdings sollte auch gesagt sein: Meistens liefern uns die Forecasts lediglich die Bestätigung für Tendenzen, die sowieso schon absehbar sind. Wenn ein Datensatz sowieso im Großen und Ganzen eine Abwärtsentwicklung zeigt, diese im Forecast wiedergegeben wird und dann schlussendlich eintritt, ist das keine Überraschung. Die Vorhersagen helfen aber, eine solche Entwicklung mit belastbaren Zahlen für Schwellenwerte mit konkretem Datum zu prognostizieren, was sie wesentlich glaubwürdiger macht, und dadurch eher ein Anreiz besteht, wirklich etwas zu unternehmen.
Sehr interessant! Vielen Dank für den Artikel!
Wäre es möglich ein Beispiel Ihrer CSV Datei zu sehen?
Wenn ich Ihren Angaben folge, werden in meinem Fall nur eine Zeile erkannt.
Besten Dank!
Hallo, vielen Dank für das freundliche Feedback! In diesem Beispiel sah die Tabelle folgendermaßen aus:
Spalte 1: Datum
Zeilen-Beispiel: 2018-10-24
Zeilen-Beispiel: 2018-10-25
Zeilen-Beispiel: 2018-10-26
Spalte 2: Klicks
Zeilen-Beispiel: 321
Zeilen-Beispiel: 299
Zeilen-Beispiel: 287
Spalte 3: Achsenkennzeichnung
Zeilen-Beispiel: 1
Zeilen-Beispiel: 2
Zeilen-Beispiel: 3
Das kann zum Beispiel bei Google Sheets erstellt, und dann als CSV exportiert werden.
Es kann sein, dass oben im Schritt 4, im dritten Screenshot, die Zuweisungen für die Transformation manuell erfolgen müsste (wenn es nicht automatisch klappt):
Spalte 1: Datum
Zuweisung als: Zeitstempel
Spalte 2: Klicks
Zuweisung als: Numerisch
Spalte 3: Achsenkennzeichnung
Zuweisung als: Numerisch