Als Big Data werden in der Datenverarbeitung Datenmengen bezeichnet, die zu groß sind, um mittels herkömmlicher Methoden ausgewertet werden zu können. Meist liegen sie in unstrukturierter Form vor. Big Data spielt vor allem in Unternehmen, auch im Zusammenhang mit der Digitalisierung, eine seit Jahren steigende Rolle, da unter anderem durch die Sensoren des Internet of Things (IoT) und Industrie 4.0 immer mehr Daten anfallen, die durch moderne Massenspeicher-Systeme gespeichert und damit auch für Analysen ausgewertet werden können.
Big Data Analytics: Machine Learning hilft bei der Analyse
Der Begriff kann dabei jede Art von Daten umfassen, die in einem Unternehmen anfällt – von Aufzeichnungen des Videoüberwachungs-Systems über sämtliche elektronische Kommunikation bis zum elektronischen Zahlungsverkehr, den Sensordaten von Maschinen und Social-Media-Interaktionen. Nicht zum Bereich Big Data werden in der Regel beispielsweise in Tabellen erfasste, strukturierte Daten gezählt.
Bei der enormen Rechenkraft, die zur Analyse von Big Data notwendig ist, spielt Cloud-Computing eine wachsende Rolle. Meistens wird eine Machine-Learning-Software eingesetzt, die auf einer Unterform der künstlichen Intelligenz basiert, um die Daten zu verarbeiten. So werden aus den unstrukturierten Daten Erkenntnisse gewonnen werden, aus denen am Ende umsetzbare Handlungsempfehlungen abgeleitet werden. Die Daten können beispielsweise zur Optimierung von Kundenerlebnissen, Geschäftsprozessen, dem Aufspüren von Trends oder der frühzeitigen Wartung von Maschinen („Predictive Maintenance“) verwendet werden.
Für eine in Echtzeit anfallende, große Menge von Daten sind klassische relationale Datenbanken nicht geeignet. Stattdessen werden häufig In-Memory-Datenbanken wie SAP Hana oder Oracle Database In-Memory eingesetzt, bei denen die Daten im Arbeitsspeicher der Server verarbeitet werden, statt sie auf die Festplatte zu schreiben.
Das Open-Source-Software-Ökosystem rund um Big Data
Rund um Big Data hat sich ein Software-Ökosystem entwickelt, bei dem insbesondere Open-Source-Software eine große Rolle spielt. Namentlich sind hier Software-Frameworks wie Apache Hadoop, Spark und NoSQL-Datenbanken zu erwähnen.
Häufig spielt das von Google eingeführte Programmiermodell Map-Reduce eine tragende Rolle, das die parallele Berechnung mehrerer Petabyte von Daten auf verschiedenen Computer-Clustern erlaubt. Auch das in der Programmiersprache Java geschriebene Apache Hadoop ist ein Framework, das auf dem Map-Reduce-Algorithmus von Google basiert.
Aktuelle Neuigkeiten und spannende Artikel rund um das Thema Big Data findet ihr auf dieser Themenseite.