Ratgeber

Extract, Transform, Load: ETL-Lösungen auf einen Blick

(Abbildung: Shutterstock / hanss)

Extract, Transform, Load: ETL-Lösungen ermöglichen es Unternehmen, Daten aus ­unterschiedlichen Anwendungen zu extrahieren und an zentraler Stelle zusammen­zuführen. Inzwischen kommen immer mehr Lösungen auch für Startups und KMU infrage. Wir stellen sie vor.

Wie viele Nutzer besuchen unsere Website jeden Monat? Wie viele Signups haben wir täglich? Welche Features werden am ­häufigsten verwendet? Solche Fragen kann man schnell mit passenden Tools wie Google Analytics oder Mixpanel beziehungs­weise mit einfachen Datenbankabfragen beantworten. Doch früher oder später reichen solche einfachen Metriken nicht mehr aus. Wenn das Unternehmen wächst oder es immer schwieriger wird, Kunden zu gewinnen und ans Unternehmen zu binden, tauchen komplexere Fragen auf, die sich nicht so leicht beantworten lassen: Wie hoch ist die Kundenzufriedenheit von Nutzern aus den USA, die über laufende ­Adwords-Kampagnen gewonnen wurden? Welches Kundensegment hat die höchste Kunden­bindungsrate? Welchen Einfluss hat der Kundensupport auf unsere Churn-Rate? Wer Antworten auf solche Fragen sucht, muss Metriken aus verschiedenen Fachabteilungen und Systemen zusammenbringen und zentral auswerten.

In der Praxis ist das allerdings alles andere als einfach. Laut einer aktuellen Auswertung von Siftery, einem Portal, in dem Unternehmen ihre verwendeten Apps auflisten, kommen im Durchschnitt pro Firma 37 verschiedene Softwarelösungen zum Einsatz – bei Großunternehmen sind es sogar rund 90. Bei all den Vorteilen, die dieser „Best of Breed“-Ansatz mit sich bringt – kosten­günstige Lösungen, einfache und schnelle Implementierung und mehr – müssen Unternehmen einen entscheidenden Nachteil in Kauf nehmen: Datensilos. Wenn jede Fachabteilung mit ihren eigenen Lieblingstools arbeitet, bleiben wichtigen Daten für die anderen Teams oft unzugänglich.

Dies wird zum Problem, wenn man abteilungsübergreifende Analysen über Kunden, Produkte, Vertrieb oder Marketing anstellen und kritische Metriken wie Neukundengewinnung oder Retention optimieren möchte. Die Rohdaten müssen zunächst aus ihren Silos befreit und an einem zentralen Ort konsolidiert werden. Datenredundanz, Inkonsistenzen und Kompatibilitätsprobleme sind dabei unvermeidbar. Im nächsten Schritt muss sichergestellt werden, dass die nötigen Daten in regelmäßigen Zeitabständen aktualisiert werden, denn die Analyse von ­historischen Metriken ist selten genügend. Diese Herausforderungen lassen sich mithilfe sogenannter ETL-Systeme (Extract, Transform, Load) deutlich einfacher meistern.

So funktionieren ETL-Systeme

ETL-Systeme versetzen Unternehmen in die Lage, Daten aus den unterschiedlichsten Quellen unter einen Hut zu bringen. Seien es Besucher­zahlen von der Unternehmenswebsite aus ­Google ­Analytics, Kundenfeedback aus dem Help-Desk-System oder Benutzeraktionen, Logs und Events, die in der eigenen Anwendung mit Tools wie ­Mixpanel oder Kissmetrics erfasst wurden. Nachdem solche Daten aus ihren Silos befreit wurden (Extract), lassen sie sich mithilfe diverser Tools im ETL-System bearbeiten ­(Transform), um sie in ein einheitliches Format zu bringen, beziehungsweise um Datenredundanzen zu beseitigen. Anschließend werden die extrahierten Daten in der Regel in ein Data-Warehouse wie Google Bigquery oder Amazon Redshift beziehungsweise in einen Data Lake exportiert (Load), wo sie dann zur zentralen Analyse aufbereitet werden können. Einige Lösungen bieten zudem die Möglichkeit, Daten nach relationalen Datenbank­systemen wie MySQL oder in einfachen Dateien (CSV, JSON, etc.) zu exportieren, die sich lokal oder in einem Cloud-Storage-System speichern lassen.

Mehr als 70 Anwendungen lassen sich per integriertem Konnektor an die ETL-Lösung Fivetran anbinden. Zudem können Anwender eigene benutzerdefinierte Konnektoren in Serverless-Umgebungen erstellen. (Abbildung: Fivetran)

Mehr als 70 Anwendungen lassen sich per integriertem Konnektor an die ETL-Lösung Fivetran anbinden. Zudem können Anwender eigene benutzerdefinierte Konnektoren in Serverless-Umgebungen erstellen. (Abbildung: Fivetran)

Mithilfe von ETL-Tools lassen sich diese Prozesse ­vollständig automatisieren. Das spart Zeit und Ressourcen gegenüber dem manuellen Export in das Data-Warehouse. Auch Entwickler ­profitieren vom Einsatz der Tools, da sie keine Datenintegrationen über die API der ­verschiedenen Lösungsanbieter und Cronjobs für die ­regelmäßige Datenabfrage mehr selbst implementieren ­müssen. Sobald die Daten erst einmal im Data-Warehouse gespeichert sind und die kontinuierliche Aktualisierung sichergestellt ist, können Unternehmen auf ­Business-Intelligence-Lösungen wie Google Data Studio oder Klipfolio zurückgreifen, um ­Dashboards und Berichte zu erstellen, die dann für Planung, ­Monitoring und weitere Analysen in den einzelnen Abteilungen genutzt werden können.

Moderne ETL-Lösungen für Einsteiger

Wer denkt, ETL-Systeme seien nur für große Unternehmen relevant, täuscht sich: Inzwischen gibt es eine ganze Reihe moderner Cloud­lösungen, die kleine und mittlere Firmen adressieren.

Stitch

Ein gutes Beispiel ist Stitch, ein moderner ETL-Dienst, der im Jahr 2016 gestartet worden ist und einen einfachen Einstieg in die Welt der automatisierten Datenintegration verspricht. Er will Unternehmen in die Lage versetzen, Daten für Fachabteilungen und Analysten innerhalb von Tagen, statt Wochen bereitstellen zu können. Als Datenquelle werden mehr als 80 Online-­Dienste unterstützt, darunter Marketingtools wie Google Analytics, ­Marketo und Mixpanel sowie Productivity-Apps wie die Projektmanagementlösungen Jira und Trello und das Zeiterfassungstool Harvest.

Mithilfe eines modernen User-Interfaces erstellen Anwender ihre Data-Pipelines per Drag & Drop. Die Extraktions-, Transformations- und Ladeprozesse lassen sich dabei nach eigenen Anforderungen konfigurieren und vollständig automatisieren. So kann man das ­System beispielsweise so einstellen, dass Daten aus Google Analytics alle drei Stunden extrahiert, aufbereitet und nach Bigquery exportiert werden.

Statt die Daten in ein Data-Warehouse zu laden, können Unternehmen sie auch direkt an Business-Intelligence-Lösungen wie ­Chartio oder Klipfolio anbinden. Ein weiterer Vorteil für Einsteiger besteht im Freemium-Modell des Anbieters: Wer sich einen ersten Eindruck von den Möglichkeiten des Systems machen möchte, kann es kostenlos mit bis zu fünf Datenquellen nutzen, solange die Grenze von fünf Millionen Data-Rows pro Monat nicht überschritten wird. Unternehmen, die monatlich zwischen fünf und 250 Millionen Zeilen bearbeiten wollen, müssen zwischen 100 und 1.000 US-Dollar pro Monat auf den Tisch legen.

Alooma

Alooma mit Stammsitz in Redwood City, Kalifornien, wird zwar als „Enterprise Data Pipeline Platform“ vermarktet. Mit ihrem ­flexiblen Preismodell, das ab 20 Dollar pro eine Million Rows im Monat startet, kommt die Lösung aber nicht nur für große Unternehmen infrage. Anwender können beliebige Daten aus Datenbanken und zahlreichen Cloudanwendungen extrahieren, ebenso wie aus XML-, JSON- und CSV-Dateien, die in Cloud-­Storage-Systemen wie Box und Google Drive gespeichert sind. Auch die Anbindung von On-Premise-­Servern ist über FTP möglich. Hinzu kommen API und SDK (Software Development Kits) für populäre Programmiersprachen wie Java und Python und mobile Systeme (iOS und Android), die Kunden nutzen können, um Daten direkt aus ihren Anwendungen nach Alooma zu senden. Mit Alooma Live steht zudem ein interessantes Feature zur Verfügung, das man nicht bei jedem ETL-Tool findet: Das Echtzeit-­Visualisierungstool ermöglicht es Datenwissenschaftlern und Entwicklern, Datenströme live überwachen und kontrollieren zu können.

Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Ein Kommentar
Alexander Reschke

Vielen Dank für den informativen Artikel! Je größer die Vielfalt an Daten aus unterschiedlichen Quellen wird, desto mehr steigt der Bedarf nach modernen Datenintegrationslösungen, um diese noch sinnvoll nutzen zu können. Deshalb ist es gut, diesen Überblick zu haben.
Ich möchte auch noch Data Virtuality Pipes in den Ring werfen, da es die einzige ETL-Lösung ist, die in Deutschland entwickelt wird und mit Kunden von Blinkist bis Audi viele Usecases im deutschen Markt abdeckt.
Disclaimer: Ich arbeite bei Data Virtuality.

Antworten

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!

Hey du! Schön, dass du hier bist. 😊

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team bestehend aus 65 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Danke für deine Unterstützung.

Digitales High Five,
Stephan Dörner (Chefredakteur t3n.de) & das gesamte t3n-Team

Anleitung zur Deaktivierung