IT-Strategien

Big Data auswerten mit Hadoop

Die neue Generation des freien Software-Frameworks schreibt Benutzerfreundlichkeit groß und erleichtert Unternehmen deutlich die Verarbeitung und produktive Nutzung von Big Data.

Big Data

© Michael D Brown / Shutterstock

Big Data

Von allen IT-Innovationen der jüngsten Zeit hat Hadoop sicher die größten Umwälzungen für Unternehmen mit sich gebracht. Die Lösung verspricht, die stetig wachsende Datenflut zu Gewinnen zu machen. Allein in meiner Branche - Medien und Telekommunikation - ermöglicht Hadoop eine ganze Reihe von Analysen, die in so unterschiedlichen Bereichen zum Einsatz kommen können wie Netzwerkplanung, Kundenservice, EDV-Sicherheit, Betrugserkennung und zielgerichtete Werbung.

Bisher ist es vielen normalen Unternehmen jedoch schwergefallen, dieses Datenpotenzial auch auszuschöpfen. Viele experimentierten zunächst mit einigen der 13 Funktionsmodule von Apache Hadoop, einer Konstellation von Technologien, für deren Beherrschung Hadoop-Nutzer der ersten Stunde - darunter eBay, Facebook und Yahoo - große Teams einsetzen und mehrere Jahre investieren mussten.

Die zweite Generation

Jürgen Urbanski

© Jürgen Urbanski

Der Autor: Jürgen Urbanski, CEO von TechAlpha

Die Hadoop-Technologie der ersten Generation (1.x-) ließ sich weder einfach einführen noch leicht handhaben. Neue Nutzer hatten Schwierigkeiten, die unterschiedlichen Komponenten eines Hadoop-Clusters zu konfigurieren. Scheinbar geringfügige und daher leicht übersehene Details wie Patchversionen erwiesen sich als extrem wichtig. Das Ergebnis war, dass das Angebot häufiger als erwartet den Dienst versagte und viele Probleme erst bei hoher Auslastung zutage traten. Nach wie vor fehlt es in Unternehmen an Kenntnissen, obwohl führende Anbieter wie Hortonworks gute Trainings durchführen.

Viele dieser Lücken werden zum Glück durch die zweite Generation von Hadoop-Tools geschlossen, die Hortonworks HDP 2.0 nennt und die beim jüngsten Hadoop Summit 2014 in Amsterdam lebhaft diskutiert wurden.

Eine der zentralen Erwartungen der Kunden ist, dass das System gut zu handhaben ist. Das trifft vor allem auf die geschäftskritischen Anwendungen zu, mit denen Service-Provider zu tun haben. Mit dem intuitiven Web-Interface Ambari hat Hadoop hier einen großen Schritt nach vorne gemacht. Über Ambari lassen sich Hadoop-Cluster sehr viel einfacher einrichten, verwalten und überwachen.

Ambari ermöglicht eine automatisierte Erstinstallation ebenso wie laufende Upgrades ohne Service-Unterbrechung, gekoppelt mit hoher Verfügbarkeit und der Wiederherstellung im Notfall - alles Faktoren, die für einen effizienten IT-Betrieb unverzichtbar sind.

Allzweckwaffe für Big Data

Darüber hinaus wächst das Ökosystem unabhängiger Softwarehändler, auf das der Vertrieb von Hadoop aufbaut. Dies ist aus zwei Gründen wichtig: Erstens hängt bei der Kaufentscheidung vieles davon ab, wie sich Hadoop in die bestehende IT-Umgebung integrieren lässt, die in den meisten Fällen Business-Intelligence-Lösungen und Data Warehouses traditioneller Anbieter umfasst. Zweitens werden dadurch Bedenken hinsichtlich der mangelnden Kenntnisse im eigenen Team ausgeräumt.

So verfügt etwa die Deutsche Telekom über etwa 600 IT-Mitarbeiter mit SQL-Kenntnissen. Zwar werden viele dieser Leute jetzt noch umfassenderes Wissen über und mit Hadoop erlangen, doch können dank der Integration auf Produktebene, wie sie zum Beispiel Microsoft und Teradata bieten, auch solche Mitarbeiter Anfragen über Hadoop stellen, die (noch) keine Hadoop-Spezialisten sind.

Auch die verbesserte Sicherheit und das optimierte Datenlebenszyklus-Management spielen eine große Rolle für Unternehmen, die eine Allzweckplattform für Big Data aufbauen möchten, mit der unterschiedliche Abteilungen, Anwendungen und Datenrichtlinien bedient werden können. Für die Sicherheit sorgt das Knox-System, das einen einzelnen, sicheren Zugang für den gesamten Apache-Hadoop-Cluster bietet. Falcon steuert das Framework für das Datenlebenszyklus-Management bei - und zwar über eine deklarative Programmiersprache (ähnlich XML), mit der sich Datenbewegungen steuern, Daten-Pipelines koordinieren und Richtlinien für den Lebenszyklus sowie für die Verarbeitung von Datensätzen festlegen lassen.

Datenparkplatz ade

Der vielleicht wichtigste Punkt ist jedoch, dass sich mit der zunehmenden Verbreitung von Hadoop in Unternehmen gezeigt hat, dass das System vielfältige Verarbeitungsmodelle - auch jenseits der Batchverarbeitung - unterstützen muss, um typischen Unternehmen ein breiteres Anwendungsspektrum bieten zu können. Die meisten Unternehmen möchten Daten im verteilten Datensystem von Hadoop (Hadoop Distributed File System, HDFS) speichern und bei gleichbleibendem Service-Level unterschiedliche, gleichzeitige Zugriffsmöglichkeiten haben.

Auch interessant

Zum Umfang von Hadoop 2.0 zählt daher auch das Ressourcenmanagement-Tool Yarn, das verschiedene Anwendungen voneinander trennt und neben der einfachen Stapelverarbeitung noch eine Vielzahl weiterer Anwendungsfälle unterstützt, darunter interaktive Verarbeitung, Online-Verarbeitung, Streaming und Graphenverarbeitung. So kann man ohne Übertreibung sagen, dass sich Hadoop vom preiswerten Datenparkplatz zu einer Plattform entwickelt hat, die schnelle und fundierte Entscheidungen unterstützt.

Ein Beispiel aus der Praxis

Ein gutes Fallbeispiel hierfür ist die für ihre schnurlosen Telefone bekannte Firma Gigaset, ehemals eine Geschäftseinheit des Siemens-Konzerns. Mit der intelligenten Lösung für vernetztes Wohnen "Gigaset Elements" schöpft das Unternehmen die Möglichkeiten moderner Big-Data-Technologien voll aus. Mithilfe von Hadoop erschließt sich Gigaset einen völlig neuen Markt, in dem zukünftig noch weitere Geschäftsmodelle möglich werden dürften.

Elements besteht aus einem Cluster von kleinen Sensoren, die sich schnell und problemlos in jedem Haus anbringen lassen - man befestigt sie einfach an Türen oder Fenstern. Die ebenso robusten wie kinderleicht zu bedienenden Elements-Sensoren überwachen das Heim und senden die Daten über eine Basisstation in die Hadoop-Cloud.

Das mag relativ simpel erscheinen, doch die verschiedenen Warnhinweise, Ereignisse und Pings, die Elements verschickt, summieren sich innerhalb kurzer Zeit auf zehn Millionen Nachrichten - pro Tag. Allein das Traffic-Volumen von Millionen von Türen, die unter dem wachsamen Auge von Elements geöffnet und geschlossen werden, entspricht etwa dem eines Denial-of- Service-Angriffs.

Dieses Meer an Rohdaten ist nur nach statistischer Relevanz sortiert. Wie sie zu interpretieren sind und welche Entscheidungen sie bewirken, ist dem einzelnen Kunden überlassen, der die visualisierten Daten auf seinem Smartphone oder Computer sieht. Kunden können zum Beispiel externe Dienstleister wie Rettungs- oder Sicherheitsdienste alarmieren.

Dieses neue, im wachsenden Internet der Dinge verwurzelte Echtzeit-Informationssystem für Verbraucher ist Lichtjahre entfernt vom traditionellen Endgeräte-Geschäft.

Ausblick

Soweit die Geschichte eines Unternehmens, das mit Hadoop einen Sprung nach vorne macht. Doch wann folgen andere diesem Beispiel? Meine Voraussage ist, dass bis 2015 mehr als die Hälfte der 2.000 weltweit größten Unternehmen Hadoop einsetzen und produktiv nutzen werden. Ich gehe auch davon aus, dass wir in fünf Jahren in vielen Branchen eine deutlich höhere Rentabilität sehen werden. Unternehmen, die voll auf Hadoop setzen, haben dabei die Nase vorn.

Mehr zum Thema

Aufziehen eines Online-Shops leicht gemacht.
E-Commerce

Für Computernutzer mit Web-Grundkenntnissen ist es möglich, auch mit geringen finanziellen Mitteln einen Online-Shop aufzuziehen.
image.jpg
Austerity Blogger

In Großbritannien beginnen Arbeitslose über ihr Leben zu schreiben und sich über das Web Tipps zu geben, wie man mit wenig Geld auskommt.…
Akamai GNet Screenshot
Interaktive Maps und Grafiken

Wir zeigen Ihnen 22 der kreativsten, witzigsten und informativsten Echtzeit-Visualisierungen des Internets.
Pimero Aufmacher mit Laptop
Outlook-Alternative

Wir haben die Outlook Alternative Pimero 2014 R2 Professional Edition im Test. Lesen Sie, wie das Programm abschneidet und was es leistet.
Darknet Hacker-Angriff auf Geschäftsleute
Darkhotel-Spionage

Die Spionagekampagne Darkhotel greift gezielt Führungskräfte auf Geschäftsreise an und spioniert sie über Hotel-Netzwerke aus.