User im Profil

Datenanalyse wird immer wichtiger

Rapid-I ist ein Anbieter der sich auf Lösungen und Dienstleistungen für Predictive Analytics, Data Mining und Text Mining spezialisiert hat.

Datenanalyse wird immer wichtiger

© GfK

Datenanalyse wird immer wichtiger

Die GfK-Gruppe gehört zu den führenden Marktforschungsunternehmen weltweit, ist in mehr als 100 Ländern aktiv und beschäftigt über 11500 Mitarbeiter. Die GfK bietet Services für alle wichtigen Konsumgüter-, Pharma-, Medien- und Dienstleistungsmärkte. Ihr Angebot ist dabei in zwei Sektoren aufgeteilt: Consumer Choices und Consumer Experiences. Consumer Choices liefert Daten, die Entscheidungen und Tätigkeiten der Verbraucher widerspiegeln. Bei Consumer Experiences geht es um Verhalten und Einstellungen der Verbraucher und wie Menschen die Welt wahrnehmen und erfahren.

Da das Internet im heutigen Geschäftsleben eine immer größere Rolle spielt, wird die Erfassung und Analyse von komplexen Online-Daten zunehmend wichtig. Online-Marktforschung im Sinne von Umfragen, die über das Internet durchgeführt werden, gibt es bereits seit den 1990er-Jahren.

Nun wird das Internet selbst befragt - Gegenstand sind die Kommunikationsspuren, die die User dort hinterlassen, etwa in Form von Äußerungen innerhalb eines Forums zu einer bestimmten Marke oder einem Unternehmen. Um einen Nutzen aus diesen unstrukturierten Informationen zu gewinnen, bedarf es einer Kategorisierung der Daten, beispielsweise mithilfe der sogenannten Sentimentanalyse, die die im Internet geäußerten Stimmungen und Meinungen einfängt.

Komplexe Auswertungen

Die GfK hat die steigende Bedeutung der Informationen im Internet erkannt und bietet in Deutschland im Bereich Digital Research die Auswertung derartiger Daten an. Dazu ist es notwendig, Textdaten aus dem Web oder aus Umfragen zu erfassen und auszuwerten. Unter Berücksichtigung verschiedenster Datenquellen müssen Seiten im Internet durchsucht (Crawling), Content muss extrahiert und analysiert werden.

Anhand dieser Datenanalyse sollen dann zuverlässige Aussagen zum Beispiel über die Einstellung der Internetnutzer gegenüber bestimmten Produkten möglich sein. Zur Bewältigung der wachsenden Menge an Texten aus Online-Quellen hat die GfK nach einer adäquaten Analysemöglichkeit gesucht. Bei der Wahl der passenden Analyselösung für die Auswertung von Webinhalten hatte die Digital-Research-Abteilung ganz klare Vorstellungen. Die Lösung sollte Machine-Based-Learning bieten, etwa in Form einer automatischen Kategorisierung von Texten.

Gesucht wurde eine generische Lösung mit hoher Anpassungsfähigkeit und Wiederverwendbarkeit, die in der Lage ist, die gefundenen Informationen wie User Generated Content (UGC) aussagekräftig auszuwerten. Darüber hinaus mussten die gewünschten Daten aus unstrukturierten Websites genau extrahiert und mit den notwendigen Metadaten (zum Beispiel Veröffentlichungsdatum) versehen werden.

Weitere wichtige Kriterien bei der Auswahl der Lösung war eine intuitive Handhabung, da Personengruppen mit unterschiedlichstem Wissensstand (IT-Spezialisten, Research Consultants oder Analysten) darauf zugreifen mussten. Zusätzlich wurde gefordert, dass die schnelle Berechnung auch großer Datenmengen auf "kleinen" Laptops möglich ist und ein unkomplizierter Austausch von Analyseprozessen zwischen den Mitarbeitern gewährleistet wird.

Essenziell war auch die Verarbeitung von typischen Datenformaten aus der Marktforschung (SPSS, MS Office, ASCII, txt) sowie die Integration mit SQL-Datenbanken. In diesem Zusammenhang war die Heterogenität der Quellen ein wichtiger Punkt, den die gesuchte Lösung adressieren musste, wobei die Verarbeitung von Texten aus dem Web die Herausforderung noch verschärft.

Automatisierte Prozesse

2007 entschied sich die GfK nach einer gründlichen Marktevaluierung für das Produktangebot GfK Ceres die Rapid-I-Lösung RapidMiner in der Enterprise Edition einzusetzen. Die Analyse von Daten aus Social-Media-Quellen spielte eine zunehmend wichtige Rolle. Hierzu hat die GfK mithilfe der RapidMiner-Lösung für GfK Ceres Analyseprozesse entwickelt, die eine generische Content Extraction aus nahezu beliebigen Online-Quellen erlauben.

Die Möglichkeit der Replikation und Wiederverwendbarkeit war ein ausschlaggebender Faktor bei der Entscheidung, die Lösung einzusetzen. So erzielt die GfK eine immense Reduzierung des Arbeitsaufwands mit dem generischen Content Extraction Model, welches aus nahezu beliebigen Internetquellen die relevanten Daten extrahiert.

Dieses ermöglicht insbesondere auch, Prozesse oder Prozessteile wieder zu verwenden und als Vorlage beziehungsweise Bibliothek abzuspeichern, sodass sie nicht für jede Crawling-Aktion neu geschrieben werden müssen. Auf diese Weise laufen Prozesse automatisiert ab, und man benötigt keine manuelle Nutzerinteraktion mehr.

Im Laufe der Zeit galt es jedoch, riesige Datenmassen auszuwerten, die RapidMiner allein nicht mehr bewältigen konnte. Seit 2011 setzt das Marktforschungsinstitut für GfK Ceres daher zusätzlich den leistungsstarken Analyseserver RapidAnalytics ein und profitiert neben der größeren Performance von einer besseren Integrierbarkeit und interaktiven Visualisierungen. Die zuvor für die Datenanalyse in Erwägung gezogenen Alternativprodukte wurden letztlich verworfen - aus Kostengründen beziehungsweise wegen Einschränkungen in der Funktionalität, fehlendem Support oder mangelnder Offenheit des Systems.

Einfache Installation

Bei der Einführung von RapidMiner gab es keine Testphase; die Entscheider konnten stattdessen über eine Schulung die Lösung gleich selbst testen. Das Analysetool ließ sich sehr schnell innerhalb weniger Minuten installieren, besonderes Know-how war dafür nicht notwendig. RapidAnalytics erforderte den eintägigen Einsatz eines IT-Spezialisten, der in diesem Zeitrahmen das Server-Setup und die Installation vorgenommen, User angelegt und das Remote-Repository in RapidMiner eingebunden hat.

Auf Anwenderseite war das Erlernen von regulären Ausdrücken (zur Erstellung von Filterkriterien für die Textanalyse) notwendig. Zudem war eine Konfiguration von RapidMiner erforderlich, um ins Web zu gehen. Eine besondere technologische Herausforderung stellt die Optimierung von Prozessen dar, die mehr RAM-Speicher benötigen, als vorhanden ist.

Um mehr Platz für Daten zu schaffen, verwendet die GfK Sample-Operatoren zur Unterteilung der Datenmenge in kleinere Zufallsstichproben, die dann schrittweise analysiert werden. Ein weiteres Thema war die Proxy-Unterstützung: Anfangs gab es keine für RapidMiner, daher hat man ein Tunneling durchgeführt; inzwischen wird Proxy vollends unterstützt.

Das Unternehmen GfK

GfK

Internationale Zusammenarbeit

Mit RapidMiner lassen sich für GfK Ceres Daten aus Webtexten sammeln. Mithilfe von Crawling-Prozessen werden Internetsites durchsucht und Content extrahiert (Werbung ausgesondert, von HTML-Struktur bereinigt), der dann im Data Warehouse gespeichert wird. Anschließend lässt sich anhand dieser Daten eine Sentimentanalyse durchführen. Durchsucht werden dabei deutsche ebenso wie internationale Websites. Produktiv genutzt wird RapidMiner bei der GfK in Deutschland, die Projekte sind jedoch international.

Das Tool kann ganz einfach als Programm - vergleichbar mit Word - vom stationären PC aus gestartet werden. Im Zusammenhang mit RapidAnalytics fungiert RapidMiner darüber hinaus als eine Art Benutzeroberfläche: Anwender greifen über RapidMiner auf RapidAnalytics zu, Analyseprozesse laufen dann rund um die Uhr im Hintergrund, sodass die Performance nicht beeinträchtigt wird und eine hohe Anzahl gleichzeitiger Nutzer bedient werden kann.

Der Einsatz von RapidAnalytics erlaubt durch eine Client-Server-Architektur den Einsatz deutlich stärkerer Hardware und mehr Arbeitsspeicher und verbessert die Zusammenarbeit. Da die Dateien im Repository auf dem Server abgelegt werden, können andere Nutzer an den Daten arbeiten, und man muss sie nicht umständlich per USB-Stick von einem Rechner zum anderen transferieren (wie dies bei der lokalen Version von RapidMiner noch der Fall war). Ansonsten könnte das hohe Datenvolumen kaum bewältigt werden.

Flexible Nutzbarkeit

RapidMiner punktet mit der einfachen Benutzeroberfläche, den vergleichsweise geringen Kosten und einem umfassenden Support. Dass es sich um eine Open-Source-Lösung handelt, war von Anfang an ein wichtiger Faktor. Denn so ist es möglich, dass auch temporäre Anwender wie Aushilfen oder externe Zulieferer das System kurzfristig ohne Lizenz nutzen können.

"Der Open-Source-Gedanke war wichtig bei der Entscheidung für eine leistungsstarke und gleichermaßen kosteneffiziente Datenanalyselösung für unser Angebot GfK Ceres", betont Thomas Eggebrecht, Senior-IT-Specialist bei der GfK Consumer Experiences, Abteilung Digital Reasearch. "Wir haben uns eine Reihe anderer Produkte auf dem Markt angeschaut, aber keines konnte die Anforderungen an eine flexible und teilweise kurzfristige Nutzung mit zuverlässigem Support so gut erfüllen."

Zu den Vorteilen der Lösung gehört auch ein hohes Maß an Flexibilität: Sie läuft dank Java auf allen Systemen, über XML-Dateien wird ein Austausch von Analyseprozessen zwischen den Mitarbeitern gewährleistet.

Es gibt einen einfachen Update-Mechanismus und Prozesse lassen sich per Script sowohl unter Linux als auch unter Windows ausführen. Mit ihrer Offenheit kann die Lösung zudem jederzeit um eigene Plugins oder Operatoren an der quelloffenen Java-API erweitert werden. Zudem unterstützt das Tool alle in der Marktforschung gängigen Dateiformate.

RapidAnalytics bietet ebenfalls die Möglichkeit, lange laufende Prozesse unbeaufsichtigt und Cronjob-gesteuert auf einem Server laufen lassen. Da über den Analyseserver eine quasi unbegrenzte Anzahl an Nutzern auf die Daten zugreifen kann, wird die Zusammenarbeit von mehreren Personen an einem Projekt erleichtert, der Datenaustausch erfolgt über ein Remote-Repository.

Der Einsatz der Rapid-I-Lösung stellt auch keine besonderen Anforderungen an die Hardware oder Software, da ein normaler handelsüblicher Linux-Server mit Java RE genutzt wird und daher komplizierte Installationsroutinen oder Root-Rechte nicht notwendig sind.

Fazit

"Mit den Rapid-I-Lösungen, die wir in GfK Ceres einsetzen, können wir unseren Kunden hochwertige, kontrollierbare und nachvollziehbare Methoden anbieten", erklärt Thomas Eggebrecht. "Dank der einfachen Handhabung, den geringen Anforderungen an Software und Hardware, der Integrationsfähigkeit und nicht zuletzt der Ermöglichung weltweiter Kollaboration sind wir bestens gerüstet, um mehr oder weniger jede Anfrage nach Analysen von Webinhalten schnell und kompetent zu bedienen."

Online Marktforschung Analyse

© Hersteller/Archiv

KonOnline- Marktforschung analysiert vor allem die Kommunikationsspuren der Internetnutzer.
Daten Webtexte GfK

© Hersteller/Archiv

Daten aus Webtexten werden von der GfK gesammelt, aufbereitet, analysiert und visualisiert.

Mehr zum Thema

Mac OS X Yosemite
Mac OS X Yosemite

Wer das neue Apple OS X 10.10 Yosemite nutzt, muss davon ausgehen, dass private Daten wie E-Mail-Adressen ungefragt in der iCloud landen können.
Office 2013 Logo
Office 16 Release

Der Release für Office 16 verschiebt sich angeblich. Microsoft will die Nachfolger für Office 2013 und Office 365 im zweiten Halbjahr 2015…
HP 300 Notebooks gibt es ab 299 Euro zu kaufen
Business-Notebooks

Hewlett Packard aktualisiert seine Produktpalette mit den Business-Notebooks der Serie HP 300. Bemerkenswert: Die günstigsten Notebooks kosten nur…
Ein-Klick-Sicherheitslösung zum Schutz Ihrer Privatspähre im Internet
F-Secure Freedome

F-Secure Freedome schützt im Internet Ihre Privatsphäre und bündelt dafür VPN, Anti-Tracking und Anti-Phishing in einem extrem einfach zu…
HP Officejet 4632 Aldi Angebot
Multifunktionsdrucker für 90 Euro

Der HP Officejet 4632 ist bei Aldi ab dem 27. November für 90 Euro im Angebot. Der Multifunktionsdrucker bietet drei Jahre Garantie.