Data-Warehouse für Startups: Lösungen im Überblick

(Grafik: Shutterstock / cifoart)
In der PC-Ära gaben sich kleine Unternehmen mit Word, Excel und weiteren rudimentären Office-Tools zufrieden, um ihre täglichen Aufgaben zu bewältigen. Größere Unternehmen, die es sich leisten konnten, nutzten eine ganzheitliche ERP-Suite von SAP, IBM oder Oracle, die über verschiedene Module für jede Fachabteilung verfügte. Cloud-Computing hat das alles verändert. Heute entscheidet nicht mehr die Geschäftsleitung oder die IT-Abteilung darüber, welche Softwarelösungen im Unternehmen eingesetzt werden. Dank der einfachen, schnellen und kostengünstigen Implementierung, die Cloud-Dienste ermöglichen, liegt die Kaufentscheidung immer häufiger bei den Abteilungsleitern. Anstatt einer All-in-one-Plattform nutzen Firmen Lösungen von unterschiedlichen Anbietern, die sich jeweils auf ein spezifisches Problemgebiet fokussieren. Nach einer Untersuchung von Siftery, einem Portal auf dem Unternehmen die von ihnen verwendeten Anwendungen auflisten, kommen heute im Durchschnitt 37 verschiedene Software-Lösungen zum Einsatz – bei Großunternehmen sind es sogar knapp 90.
Bei all den Vorteilen, die dieser „Best-of-Breed“-Ansatz mit sich bringt, muss man einen entscheidenden Nachteil in Kauf nehmen: Datensilos. Da jedes Team mit seinen eigenen Lieblings-Tools arbeitet, bleiben wichtige Daten für die anderen Abteilungen oft unerreichbar. Das kann vor allem im Bereich Analytics schnell zum Problem werden. Denn Unternehmen, die ihre Kunden besser verstehen oder ihre Geschäftsprozesse optimieren wollen, müssen KPI (Key Performance Indicator) aus verschiedenen Abteilungen und Datenquellen zusammenbringen und zentral auswerten. Datenredundanz, -inkonsistenz und -inkompatibilität sind dabei unvermeidbar.
Abhilfe versprechen moderne ETL-Lösungen aus der Cloud. Sie versetzen Unternehmen in die Lage, Daten aus den unterschiedlichsten Quellen – seien es Besucherzahlen aus der Unternehmenswebsite, Kunden-Feedback aus dem Helpdesk-System oder User-Actions, die in einer eigenen Anwendung erfasst werden – zusammenzubringen. Die Daten werden aus der Quelle extrahiert, mithilfe diverser Tasks transformiert und anschließend in eine Datenbank, ein Data-Warehouse wie Google Bigquery, Amazon Redshift oder ein Data Lake, exportiert. Dort werden sie dann zur Analyse aufbereitet. Das Beste dabei: Diese ETL-Prozesse lassen sich vollständig automatisieren. Das spart Zeit und Ressourcen, da man all seine Daten nicht mehr manuell aus den verschiedenen Systemen exportieren und in das Data-Warehouse bringen muss. Auch Entwickler profitieren von ETL-Tools, da sie keine Datenintegrationen über die API der verschiedenen Lösungsanbieter selber implementieren müssen.
Im Folgenden stellen wir eine Reihe moderner ETL-Dienste aus der Cloud vor, die verschiedene Lösungsansätze verfolgen und einen einfachen Einstieg versprechen.
Xplenty: ETL für die Cloud-Ära

(Screenshot: Xplenty)
Xplenty ist eine umfangreiche ETL-Plattform, die in San Francisco entwickelt wurde und die Integration und Verarbeitung von Daten aus einer Vielzahl von Datenspeichern und SaaS-Anwendungen ermöglicht. Hierzu zählen lokale Server, private Cloud-Umgebungen und öffentliche Clouds sowie über 100 populäre Online-Services – von Analytics-Tools wie Mixpanel und Google Analytics über Productivity-Apps wie Slack, Asana oder Basecamp bis hin zu umfangreichen Business-Lösungen wie Salesforce. Mithilfe eines modernen User-Interfaces erstellen Anwender ihre Data-Pipelines einfach per Drag & Drop. Dabei lassen sich die Extraktions-, Transformations- und Ladeprozesse nach eigenen Anforderungen konfigurieren und vollständig automatisieren. So kann man das Programm zum Beispiel so einstellen, dass Daten aus Google Analytics täglich alle drei Stunden extrahiert, aufbereitet und nach Bigquery exportiert werden.
Segment: Customer-Success im Fokus

(Screenshot: Segment)
Bei Segment handelt es sich um eine weitere Datenintegrationsplattform, die ebenfalls in Kalifornien entwickelt wurde. Anders als Xplenty fokussiert sich das Startup, das bis dato rund 100 Millionen US-Dollar eingesammelt hat, auf Kundendaten. Namhafte Firmen wie Levis, Trivago und IBM greifen auf Segment zurück, um ein unternehmensweites, einheitliches Verständnis über ihre Kunden zu erreichen. So wird Segment als eine „Customer- Data-Infrastructure“-Plattform vermarktet, mit der Firmen sämtliche Kundeninformationen, egal wo sie entstehen und gespeichert werden, auf einen gemeinsamen Nenner bringen können. Dabei ermöglicht der Dienst die automatisierte Datenintegration mit über 200 Systemen. Entwickler können zudem die Segment-API in ihre Apps integrieren und sämtliche User-Actions und Logs erfassen. Was das Pricing angeht: Der Einsteigerplan kostet ab 120 Dollar im Monat und ist auf das Tracking von maximal 10.000 Benutzern im Monat begrenzt. Mit dem Free-Plan können Entwickler die Lösung mit bis zu maximal 1.000 User im Monat kostenlos nutzen.
Stitch: Neue Alternative mit viel Potenzial

(Screenshot: Stitch)
Stitch ist ein einfach zu bedienender, leistungsstarker ETL-Service, der gerade erst vor zwei Jahren gestartet wurde. Er soll Entwickler in die Lage versetzen, Daten für Analysten und andere Fachabteilungen in Minuten und nicht innerhalb von Wochen bereitstellen zu können. Als Datenquelle werden über 80 Online-Services unterstützt, darunter Productivity-Apps wie die Projektmanagementlösungen Jira und Trello und das Zeiterfassungs-Tool Harvest, die man bei anderen ETL-Anbietern vergeblich suchen würde. Praktisch: Anstatt die Daten in ein eigenes Data-Warehouse abzuspeichern, können sie direkt nach Business-Intelligence-Lösungen wie Chartio oder Klipfolio exportiert werden. Stitch wird ebenfalls im Freemium-Modell angeboten. Wer sich einen ersten Eindruck von den Möglichkeiten der Lösung machen will, kann sie kostenlos mit bis zu fünf Datenquellen nutzen, solange man die Grenze von fünf Millionen Data-Rows pro Monat nicht überschreitet. Unternehmen, die monatlich zwischen fünf und 250 Millionen Zeilen bearbeiten wollen, müssen zwischen 100 und 1.000 Dollar pro Monat auf den Tisch legen.
Panoply: ETL und Data-Warehouse in einem Tool

(Screenshot: Panoply)
Panoply beweist, dass innovative Softwarelösungen nicht unbedingt aus dem Silicon Valley stammen müssen. Der in Tel Aviv entwickelte Dienst präsentiert sich als ein Smart-Data-Warehouse, das ETL-Werkzeuge und ein Data-Warehouse unter einen Hut bringt. Damit können Anwender also nicht nur unterschiedliche Datenquellen anbinden und Daten automatisiert extrahieren und transformieren, sondern diese Daten direkt in Panoply lagern. Aus den extrahierten Daten lassen sich Tabellen erstellen, die übersichtlich, frei konfigurierbar und sofort einsatzbereit sind. Anwender, die sich für Panoply entscheiden, müssen also die Daten nicht nach Redshift, Bigquery oder ein anderes Data-Warehouse exportieren. Um die Daten auszuwerten, lassen sich populäre BI-Tools wie etwa Bime oder Tableau Software integrieren.
Die monatlichen Preise bewegen sich zwischen knapp 250 Dollar (Starter-Plan mit 25 Millionen Rows und 12,5 Gigabyte Speicherplatz) und 750 Dollar im Monat (Business-Plan mit 200 Millionen Zeilen, 100 Gigabyte Speicherplatz).
Fazit
Die erfolgreichsten Unternehmen haben ein klares, detailliertes Verständnis über ihre Kunden und passen es kontinuierlich an, wenn sich das Kundenverhalten ändert. Es ist jedoch leichter gesagt als getan, dieses Verständnis zu erreichen und es in jeder Fachabteilung verfügbar zu machen. Wer die gesamte Customer-Journey verstehen will, muss eine Infrastruktur aufbauen, um Kundendaten von jedem Kanal zu sammeln, in ein Data-Warehouse zu laden und dann mit einem Business-Intelligence-Tool zu analysieren. Moderne ETL-Lösungen aus der Cloud, mit denen sich diese komplexen Prozesse automatisieren und beschleunigen lassen, gewinnen immer mehr an Bedeutung. Wie wir in diesem Beitrag gezeigt haben, können davon inzwischen nicht nur große Unternehmen profitieren.