Data Lake: Tauchen im Datensee

Nutze ich meine Daten effektiv?
1. Gibt es eine umfassende Analyse darüber, welche Daten bereits im Unternehmen anfallen und wie diese für Entscheidungen genutzt werden könnten?
2. Gibt es eine Analyse darüber, welche Datenpunkte noch sinnvoll erfasst werden könnten – und welche Daten ausgetauscht werden?
3. Ist es sinnvoll, Daten auszuwerten, die aktuell noch nicht ausgewertet werden? Braucht das Unternehmen dazu Big-Data-Analysten und Machine-Learning-Experten?
(Foto: maciek905 Adobe Stock)
Die Grundidee für Data Lakes ist eigentlich ganz einfach: Starr strukturierte Datenbankformate wie klassische Data Warehouseses sind unternehmensweit durchgeplant und dementsprechend unflexibel. Verloren gehen dabei alle unstrukturierten Daten, die in einem Unternehmen so anfallen: E-Mails, Word-Dokumente oder Daten aus Systemen, die nicht ans Data Warehouse angebunden sind. Da liegt es nahe, alle Daten zentral in einem einzigen großen Repository zu speichern. Die Datenmengen, die dabei entstehen, sind so groß, vielfältig und unstrukturiert, dass Big-Data-Techniken eingesetzt werden müssen. So basieren Abfragen und Anwendungen von Data Lakes meist auf dem Hadoop-Framework oder Microsoft Azure.
Erfunden hat den Begriff James Dixon, CTO des Business-Intelligence-Software-Anbieters Pentaho. In einem Blogpost von 2011 vergleicht er den Data Mart aus einem klassischen Data-Warehouse-System mit einem Laden voller Wasserflaschen. Die Flaschen und ihr Inhalt sind gereinigt und einheitlich abgefüllt, können ohne großen Aufwand gelagert, transportiert oder aus dem Regal genommen und getrunken werden, aber niemand weiß, was im Abfüllprozess an interessanten Daten verloren gegangen ist. Der Data Lake hingegen steht für den See voller Wasser in seinem natürlichen Zustand. Dieser See wird aus einem stetigen Strom unstrukturierter Daten gefüllt, und wer sie auswerten möchte, kann ihn untersuchen, Proben nehmen oder darin tauchen.
So benutzt zum Beispiel Vestas, ein Hersteller von Windkraftanlagen, einen Data Lake, um die geografisch besten Standorte für das Aufstellen von Windrädern herauszufinden. Eingang in die Analyse finden Karten und Wetterdaten genauso wie Betriebsdaten aus bestehenden Anlagen. Die Ergebnisse werden Kunden und Vertriebsmitarbeitern zur Verfügung gestellt. Besonders beliebt sind Data Lakes überall dort, wo große Mengen an Sensordaten und ähnliches anfallen, klassischerweise beim Tracking von RFID-Tags oder Sammeln von Daten aus IOT-Devices.
Big Data für Unternehmensdaten
Im Grunde steckt hinter dem Wort „Data Lake“ also nur die Anwendung von Big Data auf Unternehmensdaten. Der Vorteil liegt scheinbar auf der Hand: Unverbundene Datensilos in den Unternehmen sollen der Vergangenheit angehören. Braucht ein Unternehmen andere Informationen als bisher, müssen nicht mehr alle Strukturen und Prozesse angepasst werden. Es genügt, neue Abfragen per Hadoop an das große Repository zu formulieren. Zu einem Data Lake gehört also eine Suchmaschine, die anders als bei den strukturierten Abfragen klassischer Data Warehouses eine freie Suche erlaubt. Natürlich gehen die Möglichkeiten aber über den Betrieb einer solchen internen Suchmaschine hinaus. Der Data Lake bietet auch die Möglichkeit, die enthaltenen Daten zu taggen, zu filtern und zu sortieren und mit eigener Software zu verbinden – etwa mit dem Framework Data Rush von Pervasive. Eine weitere Idee ist, den Zufluss von Daten in den Data Lake zu kontrollieren, etwa durch das Formulieren von Events, deren Eintreten dann in Echtzeit weitere Aktionen oder Reports triggert.
Allerdings stellt so ein Data Lake Unternehmen auch vor Probleme. So kritisierte der Informatiker David Needle, viele Firmen würden große „Datenfriedhöfe“ anlegen und seien dann unfähig, diese sinnvoll auszuwerten. Nur größere Firmen, die in der Lage sind, ein entsprechendes Team zu beschäftigen, das immer neue Abfragen und Anwendungen auf Basis des Data Lakes entwickelt, können die Flexibilität wirklich ausschöpfen. Die Unternehmensberatung Gartner warnt gar vor einem Data-Lake-Trugschluss: Die Daten seien zwar vorhanden und könnten großflächig verarbeitet werden, aber es ist sehr schwierig, Vollständigkeit und Qualität der Daten sicher zu stellen. Nach gängiger Definition nimmt ein Data Lake alles an Daten auf, was hineingekippt wird. Dabei sind aber Relevanz, Vollständigkeit und Integrität der Daten nicht per se gegeben. Für letzteres werden vollständig konträre Konzepte wie zum Beispiel Blockchains benutzt, die von einem hoch standardisierten Datenformat ausgehen und somit das Gegenteil eines Data Lakes sind.
Ein weiteres Problem bei Data Lake stellt der Datenschutz dar: Entsprechende Regelungen verhindern, dass alle möglichen Daten einfach im Data Lake gespeichert werden können. Kontext und Semantik von Daten können beim Einleiten in den See verloren gehen. Ein einfaches Beispiel: Für Analysen ist es oft wichtig, welches Datum ein bestimmter Datensatz hat. Das aber setzt schon wieder ein Mindestmaß an Strukturierung innerhalb des Datensees voraus und ist schwer sauber zu halten: Ein Eintrag mit dem Datum 29.01.2018 kann zum Beispiel Rohdaten enthalten, die aus ganz anderen Zeiträumen stammen. So kann aus einem „Data Lake“ leicht ein „Data Swamp“ werden, ein Datensumpf, der sich nicht mehr sinnvoll auswerten lässt.
Das heißt nicht, dass ein Data Lake nutzlos wäre. So können natürlich hoch strukturierte Daten dennoch Teil eines Data Lake sein und zugleich lassen sich interessante Schlüsse auch aus nicht vollständigen Daten ziehen, etwa wenn verschlüsselte Daten, die im „See“ herumschwimmen, zwar nicht direkt ausgewertet werden können, sehr wohl aber ihre Metadaten, wenn sie mit abgespeichert wurden. Ein Data Lake ist also in den meisten Fällen kein Ersatz für die bisherigen Strukturen im Unternehmen oder ein klassisches Data Warehouse. Es kann aber eine sinnvolle Ergänzung sein, insbesondere wenn im Unternehmen große Mengen unstrukturierter Daten anfallen, die sich verwenden lassen, etwa um neue Geschäftsmodelle zu entwickeln.
Bezogen auf den im Artikel erwähnten Datenschutz stehen viele Firmen durch die DSGVO/GDPR vor zwei großen Herausforderung, was ihre interne Datenhaltung angeht:
1.) Unternehmen wissen nicht genau, in welchen verschiedenen Systemen und Daten-Silos personenbezogene Daten zu finden sind. Data Lakes können hier einen großen Teil zur erfolgreichen Compliance beisteuern. Firmen setzen hierbei auf ein smartes, zentrales Archiv, in das sowohl unstrukturierte als auch unstrukturierte Informationen abgelegt werden.
2.) Es wird immer wichtiger die Bedeutung der abgelegten Informationen zu erkennen und in einen inhaltlichen Kontext zu bringen (auch um im zweiten Schritt compliant zu sein). Hier geht der Trend von Big Data zu Smart Data.