Digitale Wirtschaft

Apache Hadoop: Verteilt mit großen Datenmengen arbeiten wie Yahoo oder Facebook

Apache Hadoop ist ein Java-basiertes Framework für die Arbeit mit sehr großen, verteilten Datenmengen im Petabyte-Bereich. Bekannte Nutzer von Hadoop sind z.B. Twitter, Facebook oder Yahoo. Wir stellen euch vor, was Hadoop alles kann und warum es so beliebt ist in der Big-Data-Szene.

Apache Hadoop

Big Data mit Hadoop

Mit Apache Hadoop ist es möglich rechenintensive Prozesse und Berechnungen auf Computercluster verteilt und parallel durchzuführen. Dabei ist für die verteilt gespeicherten Daten anders als bei relationalen Datenbanken keine besondere Struktur und kein Schema erforderlich. Ordnung kommt bei Hardoop quasi erst über den Entwicklercode in die Daten und man muss sich darüber vor der Speicherung noch keine Gedanken machen. Hadoop ist als Open-Source über die Apache Software Foundation verfügbar. Es wurde von dem Lucene-Erfinder Doug Cutting 2006 ins Leben gerufen und durch Yahoo gefördert. 2008 wurde es zu einem Top-Level-Projekt.

Apache Hadoop Startseite

Eine Liste aller aktuellen Hadoopnutzer ist im Hadoop-Wiki zu finden. Darunter sind viele bekannte Namen wie z.B. IBM, Last.fm, AOL, Ebay, Facebook, Yahoo, Twitter oder Linkedin zu finden. Facebook nutzt Hadoop nach eigenen Angaben für Kopien von Logdaten, Analysedaten und maschinelles Lernen. Wie Twitter Hadoop einsetzt, ist in der folgenden Slideshare-Präsentation von Kevin Weil zu sehen:

Yahoo betreibt mehr als 100.000 CPUs auf über 40.000 Computern mit Hadoop. Im Yahoo-Developer-Blog wird ausführlich beschrieben, welche Hadoop-Komponenten dafür im Einsatz sind.

Wie Hadoop funktioniert: MapReduce und HDFS

Hadoop basiert auf dem von Google entwickelten MapReduce-Algorithmus. Dieser Algorithmus sorgt dafür, dass große Datenmengen auf mehrere Server verteilt, parallel über nebenläufige Berechnungen abgearbeitet werden können. MapReduce wird auch in anderen Datenbanken wie Vertica oder MongoDB für genau diesen Zweck verwendet. Das Besondere an MapReduce beschreibt Edd Dumbill in einem Blogartikel zu Hadoop wie folgt:

The important innovation of MapReduce is the ability to take a query over a dataset, divide it, and run it in parallel over multiple nodes. Distributing the computation solves the issue of data too large to fit onto a single machine. Combine this technique with commodity Linux servers and you have a cost-effective alternative to massive computing arrays.

Mit MapReduce können also Berechnungen auf viele Server verteilt werden. Dafür muß jeder Server Zugriff auf die Daten haben. Hier kommt das sogenannte Hadoop Distributed File System (HDFS) ins Spiel. Ein großer Vorteil von HDFS ist, dass Daten nicht vorstrukturiert werden müssen, wie man es von relationalen Datenbanken kennt. MapReduce und HDFS sind robust und ausfallsicher, wie Edd schreibt:

Servers in a Hadoop cluster can fail and not abort the computation process. HDFS ensures data is replicated with redundancy across the cluster. On completion of a calculation, a node will write its results back into HDFS.

Hadoop und seine Freunde: Hive, Pig, Oozie und Co.

Nach und nach sind bei Hadoop immer mehr Komponenten dazu gekommen um den Funktionsumfang und die Benutzerfreundlichkeit zu verbessern. Inzwischen steht der Name Hadoop für ein umfangreiches Softwarepaket mit zahlreichen Erweiterungen was den Einstieg nicht immer leicht macht. In dem Blogartikel von Edd Dumbill bei O’Reilly Radar werden die Funktionen von Hadoop und seinen etwas seltsam benannten Komponenten wie z.B. Hive, Pig oder Oozie genauer erläutert. Pig ist z.B. eine Programmiersprache, die die Datenanalyse  erleichtert, Chukwa ermöglicht Echtzeitüberwachung in verteilten Systemen, Oozie hilft beim Workflow-Management oder Mahout erweitert Hadoop z.B. um Funktionalitäten für maschinelles Lernen.

Hier eine Übersicht zu allen Hadoop Komponenten:

Apache Hadoop Komponenten bei O'Reilly Radar zusammengefasst

Die Beliebtheit von Hadoop insbesondere bei Unternehmen, die mit riesigen Datenbeständen zu tun haben ist nicht weiter verwunderlich. Parallele Verarbeitung von Anfragen, verteilte und unkomplizierte Datenspeicherung, Robustheit, enormer Funktionsumfang, Skalierbarkeit und Open-Source-Verfügbarkeit sind überzeugende Argumente im Big-Data-Business.

Weiterführende Links:

What is Apache Hadoop? – O’Reilly Radar

Hadoop – Apache.org

Hadoop-Wiki – Apache.org

Bildnachweis für die Newsübersicht: aka Cloned Milkmen / flickr.com, Lizenz: CC-BY

Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

3 Kommentare
KaiNeuwerth
KaiNeuwerth

Sehr schöner und informativer Artikel! :)

Antworten

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.