Datenminen

Klassifikationsverfahren

Entscheidungsbaumanalyse

image.jpg

© PC Magazin

Kundenbestand segmentieren: Eine Entscheidungsbaumanalyse ordnet Kunden in verschieden lukrative Segmente ein.

Im Unterschied zur Clusteranalyse sind bei Klassifikationsverfahren die Gruppen bereits vorgegeben. Ziel ist es, die Daten automatisch in verschiedene Klassen einzusortieren - etwa Filialen in umsatzschwache und umsatzstarke Niederlassungen. Neue Objekte werden dabei durch einen geschickten Vergleich der Merkmale einer der vorgegebenen Gruppen zugeordnet.

Zur Klassifikation eignet sich besonders die Entscheidungsbaumanalyse. Entscheidungsbäume sind einfach zu handhaben und führen zu einer sehr übersichtlichen grafischen Darstellung. Um eine Entscheidungsbaumanalyse durchzuführen, ist ein Datenbestand notwendig, dessen Datenobjekte ein ausgezeichnetes, die Klassenzugehörigkeit angebendes Merkmal besitzen.

Diese Klassen mit den zugehörenden Elementen stellen die Trainingsdatenmenge dar. Auf Basis dieser Trainingsdatenmenge wird dann ein Klassifikationsmodell entwickelt. Dieses hilft später bei der Bestimmung der Klassenzugehörigkeit von neuen Elementen, also bei der Klassifikation.

Basis des Entscheidungsbaumverfahrens ist die sukzessive Aufspaltung der Trainingsmenge, sodass sich in den daraus resultierenden Teilmengen homogenere Gruppen bezüglich der Klassifikationsvariablen befinden. Die Knoten des Baums repräsentieren die Teilmengen des Datenbestands, die Kanten die Aufteilungsvorschrift.

Ausgezeichnete Knoten sind der Wurzelknoten, der keinen Vorgängerknoten besitzt, und der Endknoten, der keinen Nachfolgerknoten hat. Ein Beispiel sehen Sie in der Grafik links.

Der oberste Knoten ist der Wurzelknoten, der die gesamte Trainingsmenge repräsentiert. An den Kanten sind die Merkmalsausprägungen eingetragen, nach denen die Ausgangsmenge in ihre Teilmengen aufgespalten wird. Die untersten Knoten sind die Endknoten. Sie stellen diejenige Menge von Datensätzen dar, deren Homogenität hinreichend groß ist, sodass alle Elemente dieser Menge einer bestimmten Klasse zugeordnet werden können.

Neue Objekte einordnen

In dem Beispiel werden 10 000 Datensätze betrachtet, von denen 3000 einer Klasse X und 7000 einer Klasse Y angehören. Die erste Aufteilung des gesamten Datenbestandes geschieht durch die Überprüfung, ob das Attribut A die Bedingung K1 erfüllt oder nicht. Durch diese Aufteilung entsteht im Beispiel ein Knoten, der 3800 Datensätze der Klasse Y beinhaltet und nur 200 der Klasse X.

Neue Objekte können nun anhand des Baumes in eine Klasse eingeordnet werden. Dazu läuft der entsprechende Datensatz vom Wurzelknoten aus unter Beachtung der Aufteilungsregel an den Kanten entlang und wird jeweils in die entsprechenden Teilmengen einsortiert.

Die Prozedur stoppt, sobald ein Endknoten erreicht ist. Dessen Klassenzugehörigkeit wird dann auf das Objekt übertragen. Im Beispiel wird für einen neuen Datensatz, dessen Attribut die Bedingung K1 erfüllt, eine voraussichtliche Zugehörigkeit zur Klasse Y abgeleitet.

Die Güte eines Entscheidungsbaumes wird anhand der Fehlklassifikationsquote gemessen. Die Quote gibt den Anteil der fehlerhaft klassifizierten Datensätze zur Gesamtzahl der klassifizierten Datensätze an. Die Fehlklassifikationsquote darf nicht auf dem Trainingsdatenbestand ermittelt werden, sondern auf einer unabhängigen Testmenge.

Besonders häufig eingesetzt wird das Entscheidungsbaumverfahren in der Kreditwürdigkeitsprüfung. In diesem Praxisfeld wird ein Kunde anhand seiner angegebenen Kundendaten als kreditwürdig oder -unwürdig eingestuft. Dabei werden 50 Prozent der Datensätze als kreditwürdig und 50 Prozent als nicht kreditwürdig bezeichnet. Die Grafik unten zeigt ein Beispiel, wie eine Bank ihren Kundenstamm mit Hilfe der Entscheidungsbaumanalyse in verschieden lukrative Kundengruppen segmentieren könnte.

Mehr zum Thema

Sehabstand zu Blidschirm video Test Download
Test und Downloads für das Heimkino

Was ist der optimale Abstand zum Display? Dafür müssen Sie einige Parameter bedenken. Machen Sie hier den Test für ideales Heimkino.
Pokemon GO Latias Raid Boss
Legendäres Pokémon besiegen und fangen

Mit Latias kehrt vorübergehend als Raid-Boss in Pokémon GO zurück. Unser Latias Raid-Guide nennt beste Konter, maximale WP-Wertem, Attacken und mehr.
lucifer staffel 5 news start
Netflix-Serie bei Amazon Prime Video

Wann kommt Lucifer Staffel 5 im Stream auf Netflix und Amazon Prime Video? Wir sammeln alle News zu Start, Handlung, Besetzung und Co.
Surface Laptop 3
Microsoft-Notebook

Wir zeigen Angebote zum Surface Laptop 3. Wir fassen Aktionen zusammen und verraten, wie gut die Preise für beliebte Konfigurationen sind.
outlander staffel 5
VOX, Netflix, RTL Passion, DVD und mehr

Am 16. Februar startet Staffel 5 in den USA. Doch wann und wo sind die folgen in Deutschland zu sehen? Die Infos zu VOX, Netflix, RTL Passion und Co.