Datenminen

Klassifikationsverfahren

Entscheidungsbaumanalyse

image.jpg

© PC Magazin

Kundenbestand segmentieren: Eine Entscheidungsbaumanalyse ordnet Kunden in verschieden lukrative Segmente ein.

Im Unterschied zur Clusteranalyse sind bei Klassifikationsverfahren die Gruppen bereits vorgegeben. Ziel ist es, die Daten automatisch in verschiedene Klassen einzusortieren - etwa Filialen in umsatzschwache und umsatzstarke Niederlassungen. Neue Objekte werden dabei durch einen geschickten Vergleich der Merkmale einer der vorgegebenen Gruppen zugeordnet.

Zur Klassifikation eignet sich besonders die Entscheidungsbaumanalyse. Entscheidungsbäume sind einfach zu handhaben und führen zu einer sehr übersichtlichen grafischen Darstellung. Um eine Entscheidungsbaumanalyse durchzuführen, ist ein Datenbestand notwendig, dessen Datenobjekte ein ausgezeichnetes, die Klassenzugehörigkeit angebendes Merkmal besitzen.

Diese Klassen mit den zugehörenden Elementen stellen die Trainingsdatenmenge dar. Auf Basis dieser Trainingsdatenmenge wird dann ein Klassifikationsmodell entwickelt. Dieses hilft später bei der Bestimmung der Klassenzugehörigkeit von neuen Elementen, also bei der Klassifikation.

Basis des Entscheidungsbaumverfahrens ist die sukzessive Aufspaltung der Trainingsmenge, sodass sich in den daraus resultierenden Teilmengen homogenere Gruppen bezüglich der Klassifikationsvariablen befinden. Die Knoten des Baums repräsentieren die Teilmengen des Datenbestands, die Kanten die Aufteilungsvorschrift.

Ausgezeichnete Knoten sind der Wurzelknoten, der keinen Vorgängerknoten besitzt, und der Endknoten, der keinen Nachfolgerknoten hat. Ein Beispiel sehen Sie in der Grafik links.

Der oberste Knoten ist der Wurzelknoten, der die gesamte Trainingsmenge repräsentiert. An den Kanten sind die Merkmalsausprägungen eingetragen, nach denen die Ausgangsmenge in ihre Teilmengen aufgespalten wird. Die untersten Knoten sind die Endknoten. Sie stellen diejenige Menge von Datensätzen dar, deren Homogenität hinreichend groß ist, sodass alle Elemente dieser Menge einer bestimmten Klasse zugeordnet werden können.

Neue Objekte einordnen

In dem Beispiel werden 10 000 Datensätze betrachtet, von denen 3000 einer Klasse X und 7000 einer Klasse Y angehören. Die erste Aufteilung des gesamten Datenbestandes geschieht durch die Überprüfung, ob das Attribut A die Bedingung K1 erfüllt oder nicht. Durch diese Aufteilung entsteht im Beispiel ein Knoten, der 3800 Datensätze der Klasse Y beinhaltet und nur 200 der Klasse X.

Neue Objekte können nun anhand des Baumes in eine Klasse eingeordnet werden. Dazu läuft der entsprechende Datensatz vom Wurzelknoten aus unter Beachtung der Aufteilungsregel an den Kanten entlang und wird jeweils in die entsprechenden Teilmengen einsortiert.

Die Prozedur stoppt, sobald ein Endknoten erreicht ist. Dessen Klassenzugehörigkeit wird dann auf das Objekt übertragen. Im Beispiel wird für einen neuen Datensatz, dessen Attribut die Bedingung K1 erfüllt, eine voraussichtliche Zugehörigkeit zur Klasse Y abgeleitet.

Die Güte eines Entscheidungsbaumes wird anhand der Fehlklassifikationsquote gemessen. Die Quote gibt den Anteil der fehlerhaft klassifizierten Datensätze zur Gesamtzahl der klassifizierten Datensätze an. Die Fehlklassifikationsquote darf nicht auf dem Trainingsdatenbestand ermittelt werden, sondern auf einer unabhängigen Testmenge.

Besonders häufig eingesetzt wird das Entscheidungsbaumverfahren in der Kreditwürdigkeitsprüfung. In diesem Praxisfeld wird ein Kunde anhand seiner angegebenen Kundendaten als kreditwürdig oder -unwürdig eingestuft. Dabei werden 50 Prozent der Datensätze als kreditwürdig und 50 Prozent als nicht kreditwürdig bezeichnet. Die Grafik unten zeigt ein Beispiel, wie eine Bank ihren Kundenstamm mit Hilfe der Entscheidungsbaumanalyse in verschieden lukrative Kundengruppen segmentieren könnte.

Mehr zum Thema

Amazon Blitzangebote
Technik-Deals

Die Highlights der Amazon Blitzangebote - heute u.a. mit 4K-Fernseher, Festplatten-Dock, Logitech-Gaming-Zubehör, Medion-Laptop und mehr.
Downton Abbey Staffel 6
Vorschau auf Film- und Serien-Highlights

Amazon Prime Instant Video lockt im April 2017 mit neuen Folgen von "Homeland" und der finalen Staffel von "Downton Abbey"
Games with Gold mit Xbox live
Liste für Xbox One & Xbox 360

Games with Gold erfreut Xbox Live Gold Mitglieder jeden Monat mit Gratis-Spielen. Im April 2017 locken Ryse: Son of Rome, The Walking Dead und mehr.
Pokémon GO Entwicklungsitems
Sonnenstein, Metallmantel & Co.

Pokémon GO hat mit der 2. Generation auch die Entwicklungssteine eingeführt. Wir zeigen, wo sie zu finden sind und welche Pokémon Sie damit…
Chuwi Hi10 Plus im Test
Smartphones, Laptops und mehr stark reduziert

Der chinesische Importhändler Gearbest feiert im März dreijähriges Jubiläum. Vom 9. bis zum 24. warten Top-Angebote. Wir zeigen die besten Deals.