Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

Digitale Wirtschaft

Apache Hadoop: Verteilt mit großen Datenmengen arbeiten wie Yahoo oder Facebook

Apache Hadoop ist ein Java-basiertes Framework für die Arbeit mit sehr großen, verteilten Datenmengen im Petabyte-Bereich. Bekannte Nutzer von Hadoop sind z.B. Twitter, Facebook oder Yahoo. Wir stellen euch vor, was Hadoop alles kann und warum es so beliebt ist in der Big-Data-Szene.

Apache Hadoop

Big Data mit Hadoop

Mit Apache Hadoop ist es möglich rechenintensive Prozesse und Berechnungen auf Computercluster verteilt und parallel durchzuführen. Dabei ist für die verteilt gespeicherten Daten anders als bei relationalen Datenbanken keine besondere Struktur und kein Schema erforderlich. Ordnung kommt bei Hardoop quasi erst über den Entwicklercode in die Daten und man muss sich darüber vor der Speicherung noch keine Gedanken machen. Hadoop ist als Open-Source über die Apache Software Foundation verfügbar. Es wurde von dem Lucene-Erfinder Doug Cutting 2006 ins Leben gerufen und durch Yahoo gefördert. 2008 wurde es zu einem Top-Level-Projekt.

Apache Hadoop Startseite

Eine Liste aller aktuellen Hadoopnutzer ist im Hadoop-Wiki zu finden. Darunter sind viele bekannte Namen wie z.B. IBM, Last.fm, AOL, Ebay, Facebook, Yahoo, Twitter oder Linkedin zu finden. Facebook nutzt Hadoop nach eigenen Angaben für Kopien von Logdaten, Analysedaten und maschinelles Lernen. Wie Twitter Hadoop einsetzt, ist in der folgenden Slideshare-Präsentation von Kevin Weil zu sehen:

Yahoo betreibt mehr als 100.000 CPUs auf über 40.000 Computern mit Hadoop. Im Yahoo-Developer-Blog wird ausführlich beschrieben, welche Hadoop-Komponenten dafür im Einsatz sind.

Wie Hadoop funktioniert: MapReduce und HDFS

Hadoop basiert auf dem von Google entwickelten MapReduce-Algorithmus. Dieser Algorithmus sorgt dafür, dass große Datenmengen auf mehrere Server verteilt, parallel über nebenläufige Berechnungen abgearbeitet werden können. MapReduce wird auch in anderen Datenbanken wie Vertica oder MongoDB für genau diesen Zweck verwendet. Das Besondere an MapReduce beschreibt Edd Dumbill in einem Blogartikel zu Hadoop wie folgt:

The important innovation of MapReduce is the ability to take a query over a dataset, divide it, and run it in parallel over multiple nodes. Distributing the computation solves the issue of data too large to fit onto a single machine. Combine this technique with commodity Linux servers and you have a cost-effective alternative to massive computing arrays.

Mit MapReduce können also Berechnungen auf viele Server verteilt werden. Dafür muß jeder Server Zugriff auf die Daten haben. Hier kommt das sogenannte Hadoop Distributed File System (HDFS) ins Spiel. Ein großer Vorteil von HDFS ist, dass Daten nicht vorstrukturiert werden müssen, wie man es von relationalen Datenbanken kennt. MapReduce und HDFS sind robust und ausfallsicher, wie Edd schreibt:

Servers in a Hadoop cluster can fail and not abort the computation process. HDFS ensures data is replicated with redundancy across the cluster. On completion of a calculation, a node will write its results back into HDFS.

Hadoop und seine Freunde: Hive, Pig, Oozie und Co.

Nach und nach sind bei Hadoop immer mehr Komponenten dazu gekommen um den Funktionsumfang und die Benutzerfreundlichkeit zu verbessern. Inzwischen steht der Name Hadoop für ein umfangreiches Softwarepaket mit zahlreichen Erweiterungen was den Einstieg nicht immer leicht macht. In dem Blogartikel von Edd Dumbill bei O’Reilly Radar werden die Funktionen von Hadoop und seinen etwas seltsam benannten Komponenten wie z.B. Hive, Pig oder Oozie genauer erläutert. Pig ist z.B. eine Programmiersprache, die die Datenanalyse  erleichtert, Chukwa ermöglicht Echtzeitüberwachung in verteilten Systemen, Oozie hilft beim Workflow-Management oder Mahout erweitert Hadoop z.B. um Funktionalitäten für maschinelles Lernen.

Hier eine Übersicht zu allen Hadoop Komponenten:

Apache Hadoop Komponenten bei O'Reilly Radar zusammengefasst

Die Beliebtheit von Hadoop insbesondere bei Unternehmen, die mit riesigen Datenbeständen zu tun haben ist nicht weiter verwunderlich. Parallele Verarbeitung von Anfragen, verteilte und unkomplizierte Datenspeicherung, Robustheit, enormer Funktionsumfang, Skalierbarkeit und Open-Source-Verfügbarkeit sind überzeugende Argumente im Big-Data-Business.

Weiterführende Links:

What is Apache Hadoop? – O’Reilly Radar

Hadoop – Apache.org

Hadoop-Wiki – Apache.org

Bildnachweis für die Newsübersicht: aka Cloned Milkmen / flickr.com, Lizenz: CC-BY

Bitte beachte unsere Community-Richtlinien

Eine Reaktion
KaiNeuwerth

Sehr schöner und informativer Artikel! :)

Antworten

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.