Datenminen

Data-Mining-Methoden

25.2.2011 von Klaus Manhart

ca. 2:50 Min
Ratgeber
VG Wort Pixel
  1. Informationsschätze entdecken mit Data Mining
  2. Data-Mining-Methoden
  3. Klassifikationsverfahren
  4. Regressionsanalyse

Assoziationsanalyse

image.jpg
Assoziationsregel: Ein Beispiel mit Regel, Transaktionstabelle, Venn-Diagramm und Bewertungskriterien.
© PC Magazin

Data-Mining-Methoden entstammen im Wesentlichen der Statistik, dem maschinellen Lernen und der künstlichen Intelligenz. Die Methoden im Einzelnen sind als solche nicht neu, sondern wurden teilweise schon vor Jahrzehnten entwickelt. Allerdings waren sie bis vor einigen Jahren überwiegend in einem eher naturwissenschaftlich geprägten Umfeld im Einsatz. Haupteinsatzgebiet heute sind Wirtschaft und E-Business.

Ein häufig eingesetztes Data-Mining-Verfahren ist die Assoziationsanalyse mittels Regelinduktion. Durch maschinelles Lernen wird dabei versucht, aus den Daten Wenn-dann-Regeln zu generieren, die beschreiben, welche Gruppen von Objekten oder Eigenschaften häufig gemeinsam auftreten. "Wer in der IT-Branche tätig ist, verfügt häufig (zu über 70 Prozent) über ein Jahres-Bruttoeinkommen über 40 000 Euro" wäre eine solche Regel, die ein Data-Mining-Tool entdecken könnte.

Assoziationsregeln werden durch Support- und Konfidenzwerte bewertet. Der Supportwert ist die Maßzahl dafür, wie viele Datensätze im Verhältnis zu den Gesamtdaten diese Regel unterstützen - im Beispiel oben 70. Er gibt also Auskunft über die Stärke des Zusammenhangs. 100 Prozent wäre ein deterministischer, 10 Prozent ein schwacher Zusammenhang. Im ersten Fall gilt die Regel immer, im letzten Fall nur in 10 Prozent.

Der zweite wichtige Wert, der Konfidenzwert, sagt aus, wie viele Datensätze diese Regel unterstützen, im Verhältnis zu den Datensätzen, die nur die Prämisse der Regel supporten.

Betrachten wir die Regel: "Wenn ein Kunde Schuhe kauft, dann hat er in 10 Prozent der Fälle auch Socken gekauft." Der Wenn-Teil mit den Schuhen bildet den so genannten Regelkopf beziehungsweise die Prämisse, der Dann-Teil mit den Socken ist der Regelrumpf beziehungsweise die Konklusion.

Das Beispiel in der Grafik auf der nächsten Seite oben enthält einige Zahlen, die die Berechnung von Supportund Konfidenz illustrieren: Nach der Transaktionstabelle haben 200 000 Personen Schuhe und 50 000 Socken gekauft. Die Schnittmenge, also diejenigen, die Schuhe und Socken gekauft haben, bilden 20 000 Käufer.

Die Konfidenz einer Regel gibt Auskunft über die Stärke des Zusammenhangs zwischen Regelrumpf und Regelkopf und beträgt hier zehn Prozent. Sie wird berechnet, indem der Anteil der Transaktionen, die sowohl Schuhe als auch Socken enthalten, ins Verhältnis gesetzt wird zu allen Transaktionen, in denen Schuhe gekauft werden. Der gleichzeitige Kauf beider Produkte kommt bei zwei Prozent aller Transaktionen vor. Dieser Anteil stellt den Support der Regel dar.

Für die Assoziationsanalyse wird nun für beide Werte - Support und Konfidenz - ein Minimum definiert. Anschließend werden mittels dieser Minima alle Regeln erstellt, deren Konfidenz-bzw. Supportwerte darüber liegen. Hiermit lässt sich ein einfaches Assoziationsmodell erstellen. Dabei gilt: Je größer diese Werte, desto bedeutender ist die Regel.

Eine der häufigsten Anwendungen der Regelinduktion ist die Analyse von Warenkorbdaten. Hier wird speziell eine Menge an Warenkörben daraufhin untersucht, ob Zusammenhänge zwischen den gekauften Waren bestehen, beispielsweise: Welche Produkte haben Kunden bei einem Kauf gemeinsam erworben?

Warenkorbanalysen stellen die beste Möglichkeit bereit, das Kaufverhalten zu analysieren und Kundenbedürfnisse aufzuspüren. Hat man durch eine Warenkorbanalyse beispielsweise Gruppen von häufig zusammen verkauften Produkten herausgefunden, lässt sich das Sortiment optimieren und konsumgerecht platzieren.

Clusteranalyse

Ein anderes Data-Mining-Verfahren ist die Clusteranalyse. Die Clusteranalyse wird benützt, um einen Datenbestand zu segmentieren - also Gruppen von Datensätzen zu finden, die Ähnlichkeiten aufweisen. Die Ähnlichkeiten der Objekte innerhalb einer Kategorie sollen dabei möglichst groß, zwischen den Kategorien gering sein. Dabei können zur Clusterbildung auch mehrere Attribute gleichzeitig - etwa Alter, Größe und Gewicht - berücksichtigt werden.

Mit der Clusteranalyse lassen sich beispielsweise bestimmte Besuchergruppen identifizieren. Ein einfaches Exempel für eine in einer Kundendatenbank gefundene Gruppe könnte etwa folgendermaßen aussehen:

Gruppe-020: (N=103)
Bestellhäufigkeit = selten
durchschn-Bestellvol < 100
Alter > 45

Hier wurde eine ältere Kundengruppe mit schwacher Bestellfrequenz gefunden. Die Clusteranalyse ermöglicht es also beispielsweise, profitable und weniger profitable Kunden zu unterscheiden. Mit anderen Techniken wie neuronalen Netzen lassen sich die Analysen vertiefen und konkrete Eigenschaften finden, die diese Gruppen genauer voneinander unterscheiden. Diese Eigenschaften können zum Beispiel darüber Auskunft geben, was profitable von nicht profitablen Besuchern unterscheidet.

Mehr lesen

Chronologische Liste und Netflix-Links

Marvel-Filme- und -Serien: Das ist die richtige Reihenfolge

Neuerscheinungen in der Übersicht

Netflix: Neue Filme und Serien

Vorschau auf Film- und Serien-Highlights

Amazon Prime Video: Neuheiten

Weiter zur Startseite  

Mehr zum Thema

excel dropdown liste erstellen

Office

Excel Dropdown-Liste erstellen und formatieren

Möchten Sie in Excel Auswahlmöglichkeiten zur Verfügung stellen? Dann befolgen Sie unsere Anleitung für das Einrichten einer Excel Dropdown-Liste.

Wir zeigen, welche Spiele im Game Pass warten.

Spiele-Flatrate für Xbox Series, One, 360 und PC

Xbox Game Pass Spiele: Neue Spiele im Mai 2022

Regelmäßig bekommt der Game Pass neue Spiele. Welche neuen Games es für Xbox Series X/S, One, Xbox 360 und PC aktuell gibt, verrät dieser Artikel.

Grafikkarte optimal einstellen

GPUs mit Echtzeit-Raytracing

Nvidia & AMD: Wann kommen neue Grafikkarten?

Ende 2020 startete Nvidias RTX 3000. AMD folgte mit RX 6000. Wann kommen neue Grafikkarten? +++ Geforce GTX 1630 gegen AMDs Einsteiger-GPUs +++

Word Bilder frei bewegen

Office-Tipp

Word: Bilder frei bewegen - so geht's

In Word möchten Sie Bilder an beliebigen Stellen platzieren. Wir zeigen den Weg zu den versteckten Einstellungen, mit denen das möglich ist.

Gratis-Spiele-bei-Steam-und-Epic

Vollversionen geschenkt & zum Antesten

Gratis-Spiele bei Steam, Epic, Humble Bundle & mehr im…

In dieser Übersicht zeigen wir Ihnen jeden Monat die Spiele, die Sie kostenlos bei Steam, im Epic Games Store, im Humble Bundle und mehr erhalten.