Anzeige
Anzeige
Ratgeber
Artikel merken

Extract, Transform, Load: ETL-Lösungen auf einen Blick

Extract, Transform, Load: ETL-Lösungen ermöglichen es Unternehmen, Daten aus ­unterschiedlichen Anwendungen zu extrahieren und an zentraler Stelle zusammen­zuführen. Inzwischen kommen immer mehr Lösungen auch für Startups und KMU infrage. Wir stellen sie vor.

Von Diego Wyllie
7 Min. Lesezeit
Anzeige
Anzeige

(Abbildung: Shutterstock / hanss)

Wie viele Nutzer besuchen unsere Website jeden Monat? Wie viele Signups haben wir täglich? Welche Features werden am ­häufigsten verwendet? Solche Fragen kann man schnell mit passenden Tools wie Google Analytics oder Mixpanel beziehungs­weise mit einfachen Datenbankabfragen beantworten. Doch früher oder später reichen solche einfachen Metriken nicht mehr aus. Wenn das Unternehmen wächst oder es immer schwieriger wird, Kunden zu gewinnen und ans Unternehmen zu binden, tauchen komplexere Fragen auf, die sich nicht so leicht beantworten lassen: Wie hoch ist die Kundenzufriedenheit von Nutzern aus den USA, die über laufende ­Adwords-Kampagnen gewonnen wurden? Welches Kundensegment hat die höchste Kunden­bindungsrate? Welchen Einfluss hat der Kundensupport auf unsere Churn-Rate? Wer Antworten auf solche Fragen sucht, muss Metriken aus verschiedenen Fachabteilungen und Systemen zusammenbringen und zentral auswerten.

Anzeige
Anzeige

In der Praxis ist das allerdings alles andere als einfach. Laut einer aktuellen Auswertung von Siftery, einem Portal, in dem Unternehmen ihre verwendeten Apps auflisten, kommen im Durchschnitt pro Firma 37 verschiedene Softwarelösungen zum Einsatz – bei Großunternehmen sind es sogar rund 90. Bei all den Vorteilen, die dieser „Best of Breed“-Ansatz mit sich bringt – kosten­günstige Lösungen, einfache und schnelle Implementierung und mehr – müssen Unternehmen einen entscheidenden Nachteil in Kauf nehmen: Datensilos. Wenn jede Fachabteilung mit ihren eigenen Lieblingstools arbeitet, bleiben wichtigen Daten für die anderen Teams oft unzugänglich.

Dies wird zum Problem, wenn man abteilungsübergreifende Analysen über Kunden, Produkte, Vertrieb oder Marketing anstellen und kritische Metriken wie Neukundengewinnung oder Retention optimieren möchte. Die Rohdaten müssen zunächst aus ihren Silos befreit und an einem zentralen Ort konsolidiert werden. Datenredundanz, Inkonsistenzen und Kompatibilitätsprobleme sind dabei unvermeidbar. Im nächsten Schritt muss sichergestellt werden, dass die nötigen Daten in regelmäßigen Zeitabständen aktualisiert werden, denn die Analyse von ­historischen Metriken ist selten genügend. Diese Herausforderungen lassen sich mithilfe sogenannter ETL-Systeme (Extract, Transform, Load) deutlich einfacher meistern.

Anzeige
Anzeige

So funktionieren ETL-Systeme

ETL-Systeme versetzen Unternehmen in die Lage, Daten aus den unterschiedlichsten Quellen unter einen Hut zu bringen. Seien es Besucher­zahlen von der Unternehmenswebsite aus ­Google ­Analytics, Kundenfeedback aus dem Help-Desk-System oder Benutzeraktionen, Logs und Events, die in der eigenen Anwendung mit Tools wie ­Mixpanel oder Kissmetrics erfasst wurden. Nachdem solche Daten aus ihren Silos befreit wurden (Extract), lassen sie sich mithilfe diverser Tools im ETL-System bearbeiten ­(Transform), um sie in ein einheitliches Format zu bringen, beziehungsweise um Datenredundanzen zu beseitigen. Anschließend werden die extrahierten Daten in der Regel in ein Data-Warehouse wie Google Bigquery oder Amazon Redshift beziehungsweise in einen Data Lake exportiert (Load), wo sie dann zur zentralen Analyse aufbereitet werden können. Einige Lösungen bieten zudem die Möglichkeit, Daten nach relationalen Datenbank­systemen wie MySQL oder in einfachen Dateien (CSV, JSON, etc.) zu exportieren, die sich lokal oder in einem Cloud-Storage-System speichern lassen.

Anzeige
Anzeige
Mehr als 70 Anwendungen lassen sich per integriertem Konnektor an die ETL-Lösung Fivetran anbinden. Zudem können Anwender eigene benutzerdefinierte Konnektoren in Serverless-Umgebungen erstellen. (Abbildung: Fivetran)

Mehr als 70 Anwendungen lassen sich per integriertem Konnektor an die ETL-Lösung Fivetran anbinden. Zudem können Anwender eigene benutzerdefinierte Konnektoren in Serverless-Umgebungen erstellen. (Abbildung: Fivetran)

Mithilfe von ETL-Tools lassen sich diese Prozesse ­vollständig automatisieren. Das spart Zeit und Ressourcen gegenüber dem manuellen Export in das Data-Warehouse. Auch Entwickler ­profitieren vom Einsatz der Tools, da sie keine Datenintegrationen über die API der ­verschiedenen Lösungsanbieter und Cronjobs für die ­regelmäßige Datenabfrage mehr selbst implementieren ­müssen. Sobald die Daten erst einmal im Data-Warehouse gespeichert sind und die kontinuierliche Aktualisierung sichergestellt ist, können Unternehmen auf ­Business-Intelligence-Lösungen wie Google Data Studio oder Klipfolio zurückgreifen, um ­Dashboards und Berichte zu erstellen, die dann für Planung, ­Monitoring und weitere Analysen in den einzelnen Abteilungen genutzt werden können.

Moderne ETL-Lösungen für Einsteiger

Wer denkt, ETL-Systeme seien nur für große Unternehmen relevant, täuscht sich: Inzwischen gibt es eine ganze Reihe moderner Cloud­lösungen, die kleine und mittlere Firmen adressieren.

Anzeige
Anzeige

Stitch

Ein gutes Beispiel ist Stitch, ein moderner ETL-Dienst, der im Jahr 2016 gestartet worden ist und einen einfachen Einstieg in die Welt der automatisierten Datenintegration verspricht. Er will Unternehmen in die Lage versetzen, Daten für Fachabteilungen und Analysten innerhalb von Tagen, statt Wochen bereitstellen zu können. Als Datenquelle werden mehr als 80 Online-­Dienste unterstützt, darunter Marketingtools wie Google Analytics, ­Marketo und Mixpanel sowie Productivity-Apps wie die Projektmanagementlösungen Jira und Trello und das Zeiterfassungstool Harvest.

Mithilfe eines modernen User-Interfaces erstellen Anwender ihre Data-Pipelines per Drag & Drop. Die Extraktions-, Transformations- und Ladeprozesse lassen sich dabei nach eigenen Anforderungen konfigurieren und vollständig automatisieren. So kann man das ­System beispielsweise so einstellen, dass Daten aus Google Analytics alle drei Stunden extrahiert, aufbereitet und nach Bigquery exportiert werden.

Statt die Daten in ein Data-Warehouse zu laden, können Unternehmen sie auch direkt an Business-Intelligence-Lösungen wie ­Chartio oder Klipfolio anbinden. Ein weiterer Vorteil für Einsteiger besteht im Freemium-Modell des Anbieters: Wer sich einen ersten Eindruck von den Möglichkeiten des Systems machen möchte, kann es kostenlos mit bis zu fünf Datenquellen nutzen, solange die Grenze von fünf Millionen Data-Rows pro Monat nicht überschritten wird. Unternehmen, die monatlich zwischen fünf und 250 Millionen Zeilen bearbeiten wollen, müssen zwischen 100 und 1.000 US-Dollar pro Monat auf den Tisch legen.

Anzeige
Anzeige

Alooma

Alooma mit Stammsitz in Redwood City, Kalifornien, wird zwar als „Enterprise Data Pipeline Platform“ vermarktet. Mit ihrem ­flexiblen Preismodell, das ab 20 Dollar pro eine Million Rows im Monat startet, kommt die Lösung aber nicht nur für große Unternehmen infrage. Anwender können beliebige Daten aus Datenbanken und zahlreichen Cloudanwendungen extrahieren, ebenso wie aus XML-, JSON- und CSV-Dateien, die in Cloud-­Storage-Systemen wie Box und Google Drive gespeichert sind. Auch die Anbindung von On-Premise-­Servern ist über FTP möglich. Hinzu kommen API und SDK (Software Development Kits) für populäre Programmiersprachen wie Java und Python und mobile Systeme (iOS und Android), die Kunden nutzen können, um Daten direkt aus ihren Anwendungen nach Alooma zu senden. Mit Alooma Live steht zudem ein interessantes Feature zur Verfügung, das man nicht bei jedem ETL-Tool findet: Das Echtzeit-­Visualisierungstool ermöglicht es Datenwissenschaftlern und Entwicklern, Datenströme live überwachen und kontrollieren zu können.

Fivetran

Fivetran stammt ebenfalls aus Kalifornien und ist 2013 aus dem renommierten Startup-Inkubator Y Combinator heraus gegründet worden. Inzwischen zählt das Unternehmen über 100 Mitarbeiter und kann namhafte Kunden wie den Payment-­Anbieter Square vorweisen. Neben nativen Konnektoren für über 70 Cloud­anwendungen können Anwender auch Daten aus eigenen Datenbanken extrahieren. Dabei werden so gut wie alle populären Datenbanksysteme unterstützt, von klassischen SQL-­Systemen wie MySQL, PostgreSQL und ­Microsofts SQL-Server über dokumenten­orientierte Systeme wie MongoDB bis hin zu modernen Clouddatenbanken wie Amazon ­Aurora und DynamoDB. Für jede angebundene Datenquelle generiert das System automatisch ein übersichtliches Entity-Relationship-­Diagramm (ERD), um sicherzustellen, dass die Daten leicht verständlich und problemlos abzufragen sind. Hinzu kommt die Möglichkeit, benutzer­definierte Konnektoren in einer Serverless Umgebung wie Amazon Lambda oder Google Cloud Functions zu erstellen. Die serverlosen Funktionen werden dann von Fivetran in benutzerdefinierten Zeitabständen abgerufen und die Daten in das Data-Warehouse geladen. Kunden haben die Auswahl zwischen Bigquery, ­Redshift, Azure SQL, ­Data-Warehouse und Snowflake.

Die All-in-One-Plattform Panoply bietet neben zahlreichen Integrationsmöglichkeiten ein ­eigenes Data-Warehouse und ermöglicht die direkte Anbindung an Business-Intelligence-Tools.

Die All-in-One-Plattform
Panoply bietet neben zahlreichen Integrationsmöglichkeiten ein ­eigenes Data-Warehouse und ermöglicht die direkte Anbindung an Business-Intelligence-Tools. (Screenshot: Panoply)

Panoply

Eine weitere Lösung, von der Startups und KMU profitieren können, ist Panoply. Der in Tel Aviv entwickelte Dienst präsentiert sich als Smart-Data-Warehouse, das ETL-Tools und eine Data-Warehouse-­Lösung auf einen gemeinsamen Nenner bringt. ­Damit können Anwender nicht nur unterschiedliche Daten­quellen anbinden und Daten automatisiert extrahieren sowie transformieren, sondern sie auch direkt in ­Panoply lagern. Aus den extrahierten Daten lassen sich Daten­tabellen erstellen, die frei konfigurierbar und sofort einsatzbereit sind. Anwender, die sich für Panoply entscheiden, müssen also die Daten nicht nach Redshift, Bigquery oder in ein anderes Data-Warehouse exportieren. Um die Daten auszuwerten, lassen sich populäre BI-Tools wie etwa Bime oder Tableau Software integrieren. Die monatlichen Preise beginnen ab 250 Dollar für 25 Millionen Rows und 12,5 Gigabyte Speicherplatz.

Anzeige
Anzeige

Mit Xplenty bietet sich eine weitere professionelle ­ETL-Lösung, die ebenfalls aus Tel Aviv stammt. Größere Unternehmen mit erhöhten Anforderungen rund um Sicherheit und Compliance sollten sich auch die Lösungen der Enterprise-Klasse wie Talend, Matillion, Nexla und Adeptia näher anschauen.

Alternative Datenintegrationslösungen

Neben diesen ETL-Systemen, die für ein breites Publikum konzipiert sind und die typischen Anwendungsfälle rund um ­Datenintegration und Analytics unterstützen, gibt es zahlreiche Alternativen, die eine Marktnische adressieren oder spezielle Use-Cases abbilden. So fokus­siert sich StarfishETL zum Beispiel auf die Integration und Migration von CRM-­Daten, während ­Dataloader.io sich dem Import und Export von Salesforce-Daten widmet. Mit dem günstigen Datenintegrationstool Skyvia kann man Daten aus vielen ­Cloud­anwendungen extrahieren, aber nur in einfachen Dateien (CSV, JSON, etc.) ausgeben. Die ­Cloudriesen Amazon und Google wiederum bieten mit Data-­Pipelines ­beziehungsweise Cloud-Dataflow ebenfalls kostengünstige Datenintegrationsdienste, mit denen Daten, die in der ­jeweiligen Cloud gespeichert sind, sich automatisiert nach Redshift beziehungsweise Bigquery exportieren lassen. Die praktischen ­Konnektoren für SaaS-Dienste von Drittanbietern sucht man hier jedoch vergeblich.

Segment fokussiert sich auf ­Kundendaten

Ebenfalls erwähnenswert ist Segment, das zwar keine ETL-­Lösung im engeren Sinne, aber dennoch eine attraktive Alternative für Einsteiger ist, die ihre Kunden besser verstehen möchten. Anders als die meisten ETL-Systeme fokussiert sich das in San Francisco gegründete Startup, das bis dato rund 100 ­Millionen Dollar eingesammelt hat, ausschließlich auf Kundendaten. Es vermarktet seine Lösung als „Customer Data Infrastructure“-Plattform, mit der Firmen sämtliche Kunden­informationen, egal wo sie entstehen und gespeichert werden, auf einen gemeinsamen Nenner bringen können. Firmen wie Levi’s, Trivago und IBM setzen Segment schon ein, um ein unternehmensweites, einheitliches Verständnis ihrer Kunden zu gewinnen. Mit Preisen, die bei 120 Dollar pro Monat anfangen, kommt Segment auch für kleinere Unternehmen in Frage. Der Dienst ermöglicht die automatisierte Datenintegration mit über 200 Systemen. Entwickler können zudem die nativen SDK von Segment in ihre Apps integrieren und sämtliche User Actions und Logs selbst erfassen.

Anzeige
Anzeige

Fazit

Ein klares, detailliertes Kundenverständnis, das auf Basis ­kontinuierlicher Analysen stetig an neue Gegebenheiten angepasst wird, verschafft Unternehmen entscheidende Vorteile im Markt. Um ein solches Kundenverständnis zu erreichen und es jeder Fachabteilung zugänglich zu machen, brauchen Unternehmen eine Infrastruktur, mit der Daten aus unterschiedlichen ­Kanälen gesammelt, an einem zentralen Ort gespeichert und analysiert werden können. ETL-Lösungen wie Stitch, Alooma oder auch Segment machen genau dies möglich – und versetzen neben etablierten Konzernen zunehmend auch ­Start­ups in die Lage, diese komplexen Prozesse vollständig zu automatisieren.

ETL-Lösungen in der Übersicht findet ihr hier.

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige