Anzeige
Anzeige
Branded Content
Artikel merken

Wir zeigen euch Hadoop: Big Data für jeden

Mit unserer Artikel-Reihe „Big Data“ geben wir euch spannende Einblicke in das Thema hadoop. In diesem Artikel zeigen wir euch, was hinter dem gelben Elefanten steckt – Hadoop. Der Held aller, die mit Big Data arbeiten. Eine Einführung.

Von Mario Janschitz
2 Min. Lesezeit
Anzeige
Anzeige

Hadoop ist mehr als nur süß. (Screenshot: t3n)

Mit unserer Artikel-Reihe „Big Data“ geben wir euch in Kooperation mit „The unbelievable Machine“ aus Berlin spannende Einblicke in das Thema Hadoop.

Hadoop ist eine auf Java basierende Open-Source-Lösung, die ein skalierbares und zeitgleich verteiltes Verarbeiten von großen Datenmengen ermöglicht: verteilt deswegen, weil mehrere Rechner eines Netzwerks an den Daten arbeiten können. Dies setzt ein spezielles Dateisystem voraus – nämlich eines, das verteilte Bearbeitung ermöglicht. Im Hadoop-Kontext handelt es sich dabei um das „Hadoop Distributed File System“, kurz HDFS. Das verteilte Dateisystem hat den von Google vorgeschlagenen „MapReduce-Algorithmus“ implementiert und wurde darauf optimiert. Der Suchmaschinengigant hat diesen Algorithmus speziell für die Verarbeitung von großen Datenmengen, also für den Einsatz mit „Big Data“, entwickelt.

hadoop-2

Hadoop wird unter Aufsicht der Apache Software Foundation weiterentwickelt. (Grafik: Apache)

Anzeige
Anzeige

Das Besondere: Hadoop kann dadurch sehr leicht auf konventioneller Hardware betrieben werden, anstatt auf kostspielige SAN-Lösungen (Storage Attached Networks) zurückgreifen zu müssen. Denn: Hadoop kann auf Standardhardware betrieben werden.

Hadoop setzt auf Technologie von Google

Das Map-Reduce-Framework, das die Datenverarbeitung übernimmt, macht das möglich. Vereinfacht ausgedrückt ähnelt die Verarbeitung des Map-Reduce-Frameworks der Pipe von Unix-Systemen. Die Pipe (|), beziehungsweise das so genannte „Pipelining“. ermöglicht die Weitergabe von verarbeiteten Daten an ein nachfolgendes Programm, was direkt mit den manipulierten Daten weiterarbeiten kann, beziehungsweise diese als Eingangsdaten akzeptiert.

Anzeige
Anzeige

Konkret werden Daten mit dem Mapper erfasst, vorbereitet und dann an den Reducer weitergereicht, der aus der Ausgangs-Datenmenge die gewünschte Schnittmenge bildet. Aus dem Zusammenspiel von Mapper und Reducer wurde also eine modifizierte Teilmenge gebildet, was wiederum das Ausgangsmaterial für etwaige Graphen oder Diagramme sein kann.

Anzeige
Anzeige

Hadoop: Mehrere Rechner arbeiten parallell an der gleichen Datenmenge

„Hadoop kann und will kein relationales DBMS ersetzen.“

Wenn die zu analysierenden Daten allerdings mehrere Giga- oder Terabyte groß sind, kann der MapReducer-Prozess sehr viel Zeit in Anspruch nehmen. Genau hier spielt Hadoop die Karte des verteilten und parallelen Rechnens, denn jeder Rechner wertet nur eine kleine Teilmenge der Gesamtdaten aus und erst kurz vor dem Reducer-Prozess werden die Daten wieder zusammen geführt.

Noch konkreter beschrieben, übernehmen die Hadoop-Dienste „JobTracker“ und „TaskTracker“ die Implementierung des MapReduce-Algorithmus. Aufgrund dessen und der verteilten Datenstruktur in Kombination mit dem MapReduce-Framework ist Hadoop die ideale Lösung für diverse Big-Data-Probleme.

Anzeige
Anzeige

Hadoop vs MySQL

Dabei kann und will Hadoop kein relationales DBMS ersetzen. Dies ist auch nicht vorstellbar, denn Hadoop ist nicht in der Lage Ad-hoc-Anfragen – beispielsweise mit SQL – in Echtzeit auszuwerten, so wie es relationale Datenbanksysteme können. Anders gesagt: Es gibt einen Gund warum der „Kopf“ hinter dem MapReduce-Ansatz – nämlich Google selbst – der größte Betreiber einer SQL-Installation, nämlich der MySQL-Fork MariaDB, ist.

Fazit

Hadoop nutzt Ansätze, die bereits seit den 70igern bekannt sind. Dazu gehört das verteilte Rechnen oder auch das Weiterreichen von Daten an andere Programme zur Weiterverarbeitung. Der große Vorteil bei Hadoop liegt allerdings in der kosteneffektiven Umsetzung. Dank Java läuft Hadoop auf beinahe jeder Hardware und macht es somit möglich, dass jeder mit Big-Data arbeiten kann.

Setzt ihr Hadoop ein?

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
3 Kommentare
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Chris

*Hust* Klugscheiss: Google verwendet kein MySQL mehr, die nutzten Maria DB *Hust*

Antworten
Mario Janschitz

Oh Gott. Ich bin so 2013. Danke für den Hinweis :)

Antworten
Timo

An dieser Stelle muss man bemerken dass sich Hadoop nur lohnt wenn man wirklich riesige Datenmengen und ein grosses Cluster hat. Siehe:
Don’t use Hadoop – your data isn’t that big https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

Alternativ gibt es da Storm von Apache, was man sich auf jeden Fall auch anschauen sollte: https://storm.apache.org/

Antworten
Abbrechen

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige