- Definition: Was ist Big Data?
- Die 5 V-Fragen: Was versteht man unter den 5 V von Big Data?
- Datenquellen: Woher stammen die Daten für Big Data?
- Speicherung: Wie wird Big Data gespeichert?
- Die Anwendungsgebiete von Big Data
- Die Herausforderungen von Big Data
- Interner Widerstand und falsche Kommunikation
- Veraltete Technologie und ausreichende Verarbeitung
- Zukunftsperspektive: Wie wird aus Big Data Smart Data?
- Big Data und der Datenschutz
Big Data, oder: Der heilige Gral der Industrie 4.0 – eine Definition
Daten sammeln ist im Grunde nichts wesentlich Neues. Notieren, Archivieren, Heranziehen – das ist alles schon da gewesen. Doch die zunehmende Digitalisierung der privaten und wirtschaftlichen Sektoren sowie die immer dichtere Vernetzung befördern den Begriff Massendaten in völlig neue Dimensionen. Heute spricht man von Big Data. Der Begriff findet sich seit 2013 im Oxford English Dictionary und steht sinnbildlich für jede Menge wirtschaftliches Nutzungspotenzial, zahlreiche Möglichkeiten – und noch mehr Herausforderungen.
Definition: Was ist Big Data?
Einmal kurz und knackig: Mit Big Data werden große, äußerst komplexe, teilweise nur wenig strukturierte und rasant wachsende Datenmengen bezeichnet. Doch auch die steigende Zahl digitaler Technologien zur Erfassung und Analyse und die damit einhergehende Digitalisierung fallen unter den Sammelbegriff.
Der Begriff Big Data ist dabei allerdings als eher biegsam zu verstehen: Im Laufe der Zeit und technischen Entwicklung unterliegt er einem konstanten Wandel. Durch immer neue Wege und Möglichkeiten, Daten zu generieren, wächst auch das Portfolio der anfallenden und auszuwertenden Daten in seiner Menge sowie Beschaffenheit.
Heute sind es vor allem Daten aus sozialen Netzwerken, die einen Großteil von Big Data ausmachen: Durch Geolocation, Social Apps und Co. entsteht eine Vielzahl an Informationen, die Unternehmen bei richtiger Verarbeitung für sich nutzen können. Laut der Bundesregierung nutzen bereits 40 Prozent der weltweiten Organisationen und Unternehmen die digitalen Datenbestände, um sich über Trendanalysen und Kund:innenprofile Wettbewerbsvorteile zu verschaffen.
Doch damit das gelingt, muss herkömmliche Verarbeitungssoftware fortwährend weiterentwickelt und um neue Tools erweitert werden. Hier sind leistungsstarke Systeme und Lösungen, wie zum Beispiel Machine Learning, aus der IT gefragt, um Ordnung in das schiere Chaos der Datenmasse zu bringen.
Die 5 V-Fragen: Was versteht man unter den 5 V von Big Data?
Um dem Begriff Big Data näher auf den Zahn zu fühlen, wirft man am besten einmal einen Blick auf die fünf Grundzüge, die sogenannten fünf V, von Big Data:
- Volume: Beschreibt den Umfang und die Masse der gesammelten Daten. Die große Zahl an Datenquellen erfordert effiziente Speicherlösungen wie Data-Lakes, Apache Hadoop oder Apache Spark.
- Variety: Bezeichnet das Spektrum und die Vielfalt der Datenquellen und -typen. Handelt es sich beispielsweise um rein numerische Datensätze aus Datenbanken oder unstrukturierte Daten aus Suchverläufen, sozialen Netzwerken, Videos oder Audioquellen? Die Art der generierten Daten ist entscheidend für die weiteren Verarbeitungsprozesse.
- Velocity: Hier geht es um die Geschwindigkeit, mit welcher Datensätze generiert, empfangen und verarbeitet werden. Während viele Daten meist schnell im Speicher festgehalten werden, erfordern einige internetfähige Produkte eine Bearbeitung in (nahezu) Echtzeit.
- Value: Nicht alle gesammelten Daten haben für ein Unternehmen die gleiche Relevanz. Bei der Auswertung sollte daher geprüft werden, welche Daten einen tatsächlichen Mehrwert mit sich bringen und Priorität erhalten.
- Validity oder Veracity: Auch die Datenqualität spielt eine wichtige Rolle. Ob eine Datenmenge aussagekräftig ist oder nicht, hängt wesentlich von ihrer Glaubwürdigkeit, Gültigkeit sowie Wahrhaftigkeit ab: Können Daten aus verschiedenen Quellen ausreichend miteinander verknüpft, in Relation gestellt, bereinigt und überprüft werden? Geben die vorliegenden Daten ein ausreichendes, umfassendes Bild der Realität wieder?
Im Zusammenhang mit Big-Data-Nutzung ist häufig auch von einem sechsten V die Rede: Virtue (Tugend). Denn beim Sammeln und der Auswertung von, oftmals auch persönlichen, personenbezogenen, Massendaten ist der Sprung zur Ethik nicht weit. Aus dem Umgang mit Big Data ergibt sich immer auch eine moralische Verantwortung: Wie können Daten genutzt werden, um einen Mehrwert für die gesamte Gesellschaft zu erzielen? Wie sollten sie genutzt werden, um Dritten keinen Schaden zuzufügen?
Datenquellen: Woher stammen die Daten für Big Data?
Die Quellen von Big Data sind vielfältig. Ob Smarthomes, Smartwatches, Smartphones – also ungefähr alles mit vorangestelltem „Smart“ – vernetzte Gadgets, Fahrzeuge und Plattformen: Der Datenstrom hat viele Zuflüsse.
Aufgrund ihrer Eigenschaft als Echtzeit-Datenlieferanten stellen, meist unstrukturierte, Mediendaten eine besonders wertvolle Datenquelle dar: Dabei lassen sich besonders aus dem Nutzer:innen-Verhalten bei Social Media wertvolle Erkenntnisse gewinnen. Doch auch (Online-)Publikationen, Audio- und Video-Veröffentlichungen oder Suchmaschinen-Traffic besitzen für Unternehmen einen hohen Nutzwert, um zum Beispiel Trend- und Interessenentwicklungen verfolgen zu können.
Durch die Analyse von Kundendaten lässt sich Aufschluss über die Präferenzen und Rahmenbedingungen einer Zielgruppe gewinnen. Dazu gehören demografische Daten, wie der Standort, das Geschlecht oder Alter des:der Kund:in, Kontakt- und Transaktionsdaten. Aber auch das Verhalten von Nutzenden im Internet dient als Quelle, um Angebote stärker für die ausgewählte Zielgruppe zu personalisieren.
Oft sind es auch Big-Data-Analysen aus APIs(Programmierschnittstellen), die Unternehmen einen wichtigen Aufschluss über die eigene Produktivität und Performance liefern. Eine Erklärung des Begriffs API und den ein oder anderen Schmunzler gibt es hier. Die Daten können beispielsweise aus der Kommunikation mit Kund:innen in Social Media oder internen Geschäftsprozessen stammen und helfen, die Effizienz innerhalb des Unternehmens zu beurteilen.
Unter den Big-Data-Quellen tummeln sich zu guter Letzt natürlich noch die Datenbanken. Im Normalfall verfügt jedes Unternehmen über eine Sammlung von Daten, seien es Kontaktdaten, Buchhaltungsdaten oder Daten aus dem E-Mail-Verkehr, die es über Plattformen oder Tools wie Hadoop sichert und bei Bedarf heranziehen kann.
Speicherung: Wie wird Big Data gespeichert?
Eines ist sicher: Die schiere Größe von Big Data verlangt Speichersystemen einiges ab. Mittlerweile haben sich vor allem Data-Lakes sowie Data-Warehouses auf Open-Source-Basis als Storage-Lösung etabliert.
Bei beiden handelt es sich im Kern um Speichersysteme für große Datenmengen aus unterschiedlichen Quellen – perfekt also für Big Data. Es gibt jedoch einen wesentlichen und sehr entscheidenden Unterschied: Während in Data-Warehouses lediglich strukturierte, in Form gebrachte Daten abgelegt werden, nehmen Data-Lakes Daten in ihrer unstrukturierten Rohform auf.
Die Daten im Warehouse sind somit bereits vorbereitet und liegen, je nach späterem Analyse-Zweck, säuberlich geordnet in ihren Daten-Regalen. Von dort aus können sie direkt für weitere Analysen herangezogen werden. Bei Data-Lakes fehlt diese Strukturierung.
Für den Lake spielt es keine Rolle, welche weiteren Schritte die Daten letztendlich durchlaufen sollen. Die Formatierung und Strukturierung der Daten erfolgt erst, wenn diese tatsächlich auch benötigt werden. Das macht diese Form der Datenspeicherung äußerst flexibel.
Das wirkt sich auch auf die erforderliche Rechenleistung sowie die Geschwindigkeit der Datensicherung aus. Da die Umformatierung der Rohdaten erst zu einem späterem Zeitpunkt stattfindet, können Daten im Data-Lake schnell abgelegt werden. Data-Warehouses formatieren bereits bei der Speicherung und sortieren schon hier Daten aus, die für die bezweckte Analyse nicht benötigt werden. Die Möglichkeiten zur weiteren Datennutzung werden beim Warehouse also schon während des Sicherungsvorgangs eingeschränkt.
Wo, wie beim Data-Lake, viele Daten zusammenkommen und in Korrelation gesetzt werden können, müssen die Maßnahmen zum Datenschutz und zur Datensicherheit umso stärker greifen. Data-Lakes erfordern daher eine noch größere Bandbreite an wirksamen Sicherheitskonzepten und eine strenge Nutzungskontrolle.
Die Anwendungsgebiete von Big Data
Mit all diesen Daten lässt sich jede Menge anstellen. Für Unternehmen besitzt Big Data einen ausgesprochen großen Mehrwert. Dabei machen weniger die Daten selbst den hohen Nutzen aus, als vielmehr die Erkenntnisse über Strukturen, Trends, Muster und Korrelationen, die zwischen den Zeilen – beziehungsweise Datensätzen – liegen.
Durch die Analyse von Big Data können sich Unternehmen Wettbewerbsvorteile verschaffen, die eigene Positionierung am Markt stärken und herausfinden, an welcher Stelle sie zukünftig vielleicht lieber kürzer treten wollen.
Wir haben einige der wichtigsten Anwendungsgebiete von Big Data zusammengestellt:
- Produkte und Marketing: Unternehmen nutzen den Einblick in die Tiefen der Datenwelt, um mehr über aktuelle Trends und Bewegungen auf dem Markt in Erfahrung zu bringen und Zielgruppen besser kennenzulernen. Damit lässt sich zum einen die Kundenbindung nachhaltig beeinflussen. Zum anderen gibt die Analyse von Big Data Spielraum zur Weiterentwicklung der eigenen Produktwelt und für effektivere Marketingstrategien. Schließlich lassen sich auch die Erfolge (und Misserfolge) konkurrierender Unternehmen in Datensätzen sammeln und für sich nutzen. Big Data bietet somit den optimalen Nährboden für dynamischen Wettbewerb und Innovationen.
- User-Experience: Doch was halten Kund:innen eigentlich von einem Unternehmen oder Produkt? Big Data beantwortet auch hier Fragezeichen. Daten-Analysen von Social-Media-Aktivitäten, Website-Besuchen und -Interaktionen, aber auch öffentlichen Meinungsäußerungen liefern Aufschluss über die Stellung eines Unternehmens und dessen Produktpalette. Möglichen Negativfaktoren kann so aktiv entgegengewirkt werden.
- Interne Effizienz: Wer durch Big Data mehr über die tatsächliche Effizienz etablierter Abläufe weiß, kann entsprechend reagieren und bei Bedarf neu justieren. Gibt es vielleicht Defizite in der Kundenabwicklung – die sich wiederum auf die öffentliche Wahrnehmung via Social Media auswirken könnten? An welchen Stellen können interne Prozesse verbessert werden? Defizite und Stolperfallen können entscheidende Faktoren sein – mehr noch als der Erfolg selbst – und sollten frühzeitig identifiziert werden können.
- Lug und Trug: Schwarze Schafe gibt es immer wieder: Die Kundin, die sich gewieft ein Produkt zum halben Preis erschleichen möchte, der Kunde, der beteuert, die Lieferung sei niemals eingetroffen, um den Kaufpreis erstattet zu bekommen. Stichwort Fraud: Mithilfe umfangreicher Big-Data-Analysen können Unregelmäßigkeiten zu Betrugsmustern in Beziehung gesetzt und nutzbar gemacht werden, um Täuschungsversuche ins Leere laufen zu lassen. Auch dem Risiko fehlerhafter Transaktionen kann so vorgebeugt werden.
- Instandhaltung und Verbesserung: Wahrscheinlich haben die meisten schon einmal einen Fehlerbericht weitergeleitet – und sich gefragt, wozu das Ganze überhaupt gut sein soll. Doch genau wie Nutzungsdaten stellen Fehlermeldungen für Unternehmen wichtige Informationsquellen dar. Gemeldete Programmabstürze und Hinweise auf technische Probleme können nach Möglichkeiten zur Produkt-Verbesserung analysiert werden, etwa durch nachträgliche Updates und Patches. Mangelt es an fehlenden Ersatzteilen oder liegt der Fehler der gemeldeten Defekte im verbauten Equipment, lässt sich in der Produktion entsprechend nachrüsten.
Die Herausforderungen von Big Data
Big Data ist groß. Diese Tatsache allein ist schon Herausforderung genug. Die schiere Größe der Massendaten stellt Unternehmen vor die Frage, wie mit den Datenmengen am besten umgegangen werden soll, von der langfristigen Speicherung ganz zu schweigen. Das Problem ist zwar nicht gänzlich neu – Daten werden schließlich seit geraumer Zeit erfasst und analysiert –, doch im digitalen Zeitalter beziehungsweise dem Zeitalter der Industrie 4.0 steigt die Zahl der verfügbaren Daten täglich und rasant.
Wer bei der Menge an Big Data nicht paralysiert den Überblick verliert und stattdessen Methoden etablieren kann, um sich die zahlreichen Datenquellen zunutze zu machen, gewinnt dabei entscheidende Vorsprünge auf dem Markt. Denn: Nur die Reaktionsschnellsten und Anpassungsfähigsten haben im Wettbewerb am Ende die Nase vorn.
Interner Widerstand und falsche Kommunikation
Da der Mensch aber nunmal ein Gewohnheitstier ist, lassen sich Veränderungen nicht immer so leicht und schnell etablieren, wie es die Marktlage erfordern würde. Widerstand aus den eigenen Reihen, egal, ob seitens der Mitarbeitenden oder der Führungsebene, wirft jedoch nicht selten auch dem ambitioniertesten Projekt einen beachtlichen Knüppel zwischen die Beine.
Denn Big Data drückt eben nicht allein die Sonnenseiten eines Unternehmens in Zahlen aus. Auch Schwachstellen werden aufgedeckt. Doch gerade hier sollte mit den richtigen Tools und Maßnahmen angesetzt werden, um Weiterentwicklung zu fördern.
An dieser Stelle ist auch die Geschäftsführung gefragt. Ein klarer Fahrplan und deutliche Kommunikation, zum Beispiel über Ziele und den effektiven Nutzen von Big Data, schaffen die nötige Transparenz, um interne Widerstände zu lösen und die Haltung gegenüber Data-Analytics zu öffnen.
Veraltete Technologie und ausreichende Verarbeitung
Um mit der schnell anwachsenden Menge an Daten Schritt halten zu können, ist es essenziell, die verwendeten Speicherungs- und Verarbeitungslösungen auf dem neuesten Stand zu halten und sich auch an neue technische Entwicklungen anzupassen. Denn: Die heute verwendete Datensoftware bietet vielleicht schon morgen nicht mehr genügend Möglichkeiten, um mit den einprasselnden Daten fertig zu werden.
Allzu voreilig sollte der Wechsel zu neueren Technologien allerdings nicht sein: Vielmehr sollten Umstellungen Schritt für Schritt und im Einklang mit tatsächlichen Geschäftsprozessen stattfinden. Ansonsten besteht die Gefahr, betriebsinterne Abläufe zu sabotieren und die Unternehmensperformance auszubremsen. Ein hoher Preis für effizientere Big-Data-Analysen.
Bevor jedoch tatsächlich ein Mehrwert aus Big Data geschöpft werden kann, müssen die einströmenden Daten vor allem korrekt und ausreichend bereinigt, analysiert und kuratiert werden, zum Beispiel von ein Data-Scientist. Eine schlecht durchgeführte Datenanalyse bringt einem Unternehmen zum einen keinen wirklichen Nutzen. Zum anderen entsteht darüber hinaus die Gefahr falscher Schlussfolgerungen und kontraproduktiver Folgemaßnahmen.
Zukunftsperspektive: Wie wird aus Big Data Smart Data?
Wie bereits erwähnt: Sammeln ist das eine, die Bearbeitung das andere. Ohne professionelle, effektive Verarbeitung bleibt der Nutzen von Big Data begrenzt.
Wirklich smart wird es erst, wenn der Sammeleifer auf Struktur und Ordnung sowie eine intelligente Auswertung trifft. Dann kann Big – beziehungsweise Smart – Data die Funktion eines nützlichen Tools einnehmen, um beispielsweise als Grundlage von Entscheidungsfindungen zu dienen oder in Echtzeit Antworten auf aufkommende Fragestellungen zu liefern.
Big Data und der Datenschutz
Die wirtschaftlichen Vorteile von Big Data liegen klar auf der Hand. Doch bei allem Nutzen stellt sich im Zusammenhang mit dem Sammeln von zu großen Teilen personenbezogener Daten immer auch die Frage nach dem Datenschutz.
Denn hierbei entstehen umfassende Profile der Nutzenden, die nicht nur ihre demografischen Merkmale, Interessen, Vorlieben und Abneigungen beinhalten, sondern auch Informationen zum Freundes- und Bekanntenkreis, zu medizinischen und psychischen Befunden, Finanzstatus, Bankdaten und vielem mehr. Sensible Daten also, mit denen, sollten sie in die falschen Hände geraten, einiges an Missbrauch getrieben werden kann. Dabei ist nicht nur von Hacker:innen und Betrüger:innen die Rede. Auch Unternehmen und Organisationen können Big Data zugunsten eigener (böswilliger) Interessen nutzen.
Immer wieder stellen sich auch die Fragen: Welche Daten dürfen überhaupt gesammelt werden? Und von wem? Wer hat letzten Endes Zugang zu den Datensätzen? Um Personenrechte auch in Zukunft schützen zu können, müssen die Datenschutzbestimmungen laufend aktualisiert werden. Denn der Fortschritt schläft nicht.
Die technischen Möglichkeiten und Quellen zum Sammeln und Verwerten von Big Data wachsen stetig – und schnell. Der Datenschutz muss hier mitziehen und reagieren, um Datenmissbrauch möglichst wenig Spielraum zu bieten. Auch für Unternehmen ist Cybersecurity wichtiger denn je.
Dass die internationalen Bestimmungen zum Datenschutz auseinanderdriften, wird dabei zum Problem. Denn während die EU beim Thema Datenschutz ordentlich anzieht, halten andere Länder die Zügel lascher in der Hand – im internationalen Datenaustausch sind Daten von Bürger:innen vermeintlich „sicherer“ Länder also keineswegs zwangsläufig immer geschützt. Trotz der Risiken auf internationalem Niveau existiert bislang noch kein Datenschutzgesetz, das global gültig ist.