Datenminen

Klassifikationsverfahren

Entscheidungsbaumanalyse

image.jpg

© PC Magazin

Kundenbestand segmentieren: Eine Entscheidungsbaumanalyse ordnet Kunden in verschieden lukrative Segmente ein.

Im Unterschied zur Clusteranalyse sind bei Klassifikationsverfahren die Gruppen bereits vorgegeben. Ziel ist es, die Daten automatisch in verschiedene Klassen einzusortieren - etwa Filialen in umsatzschwache und umsatzstarke Niederlassungen. Neue Objekte werden dabei durch einen geschickten Vergleich der Merkmale einer der vorgegebenen Gruppen zugeordnet.

Zur Klassifikation eignet sich besonders die Entscheidungsbaumanalyse. Entscheidungsbäume sind einfach zu handhaben und führen zu einer sehr übersichtlichen grafischen Darstellung. Um eine Entscheidungsbaumanalyse durchzuführen, ist ein Datenbestand notwendig, dessen Datenobjekte ein ausgezeichnetes, die Klassenzugehörigkeit angebendes Merkmal besitzen.

Diese Klassen mit den zugehörenden Elementen stellen die Trainingsdatenmenge dar. Auf Basis dieser Trainingsdatenmenge wird dann ein Klassifikationsmodell entwickelt. Dieses hilft später bei der Bestimmung der Klassenzugehörigkeit von neuen Elementen, also bei der Klassifikation.

Basis des Entscheidungsbaumverfahrens ist die sukzessive Aufspaltung der Trainingsmenge, sodass sich in den daraus resultierenden Teilmengen homogenere Gruppen bezüglich der Klassifikationsvariablen befinden. Die Knoten des Baums repräsentieren die Teilmengen des Datenbestands, die Kanten die Aufteilungsvorschrift.

Ausgezeichnete Knoten sind der Wurzelknoten, der keinen Vorgängerknoten besitzt, und der Endknoten, der keinen Nachfolgerknoten hat. Ein Beispiel sehen Sie in der Grafik links.

Der oberste Knoten ist der Wurzelknoten, der die gesamte Trainingsmenge repräsentiert. An den Kanten sind die Merkmalsausprägungen eingetragen, nach denen die Ausgangsmenge in ihre Teilmengen aufgespalten wird. Die untersten Knoten sind die Endknoten. Sie stellen diejenige Menge von Datensätzen dar, deren Homogenität hinreichend groß ist, sodass alle Elemente dieser Menge einer bestimmten Klasse zugeordnet werden können.

Neue Objekte einordnen

In dem Beispiel werden 10 000 Datensätze betrachtet, von denen 3000 einer Klasse X und 7000 einer Klasse Y angehören. Die erste Aufteilung des gesamten Datenbestandes geschieht durch die Überprüfung, ob das Attribut A die Bedingung K1 erfüllt oder nicht. Durch diese Aufteilung entsteht im Beispiel ein Knoten, der 3800 Datensätze der Klasse Y beinhaltet und nur 200 der Klasse X.

Neue Objekte können nun anhand des Baumes in eine Klasse eingeordnet werden. Dazu läuft der entsprechende Datensatz vom Wurzelknoten aus unter Beachtung der Aufteilungsregel an den Kanten entlang und wird jeweils in die entsprechenden Teilmengen einsortiert.

Die Prozedur stoppt, sobald ein Endknoten erreicht ist. Dessen Klassenzugehörigkeit wird dann auf das Objekt übertragen. Im Beispiel wird für einen neuen Datensatz, dessen Attribut die Bedingung K1 erfüllt, eine voraussichtliche Zugehörigkeit zur Klasse Y abgeleitet.

Die Güte eines Entscheidungsbaumes wird anhand der Fehlklassifikationsquote gemessen. Die Quote gibt den Anteil der fehlerhaft klassifizierten Datensätze zur Gesamtzahl der klassifizierten Datensätze an. Die Fehlklassifikationsquote darf nicht auf dem Trainingsdatenbestand ermittelt werden, sondern auf einer unabhängigen Testmenge.

Besonders häufig eingesetzt wird das Entscheidungsbaumverfahren in der Kreditwürdigkeitsprüfung. In diesem Praxisfeld wird ein Kunde anhand seiner angegebenen Kundendaten als kreditwürdig oder -unwürdig eingestuft. Dabei werden 50 Prozent der Datensätze als kreditwürdig und 50 Prozent als nicht kreditwürdig bezeichnet. Die Grafik unten zeigt ein Beispiel, wie eine Bank ihren Kundenstamm mit Hilfe der Entscheidungsbaumanalyse in verschieden lukrative Kundengruppen segmentieren könnte.

Mehr zum Thema

Amazon Blitzangebote
Technik-Deals

Die Highlights der Amazon Blitzangebote - heute u.a. mit TP-Link All-in-One WLAN-Router, Android-6-TV-Box, externe SSD und mehr.
Netflix Hauptmenü
Jahresübersicht

Unsere Release-Liste verrät alle bekannten Start-Termine zu neuen Netflix Serien und Originals für 2017 und 2018 in Deutschland.
Gear VR mit Steam
Gaming

Sie besitzen die Gear VR, ein kompatibles Samsung-Smartphone und einen Gaming-PC? Dann sparen Sie sich HTC Vive wie Rift und spielen Steam-Spiele in…
Gmail Phishing Attacke
Gefälschter Anhang

Eine aktuelle Phishing-Attacke zielt mit Fake-Anhängen auf Nutzer von Gmail. Wir erklären, wie der Angriff funktioniert und wie Sie sich schützen.
Fritzbox Benutzeroberfläche
SmartHome-Geräte

Per Fernzugriff können Sie unterwegs per Smartphone oder Laptop über das Internet auf das eigene NAS, PCs und weitere Geräte zugreifen. So geht's!