Datenminen

Klassifikationsverfahren

25.2.2011 von Klaus Manhart

ca. 2:05 Min
Ratgeber
VG Wort Pixel
  1. Informationsschätze entdecken mit Data Mining
  2. Data-Mining-Methoden
  3. Klassifikationsverfahren
  4. Regressionsanalyse

Entscheidungsbaumanalyse

image.jpg
Kundenbestand segmentieren: Eine Entscheidungsbaumanalyse ordnet Kunden in verschieden lukrative Segmente ein.
© PC Magazin

Im Unterschied zur Clusteranalyse sind bei Klassifikationsverfahren die Gruppen bereits vorgegeben. Ziel ist es, die Daten automatisch in verschiedene Klassen einzusortieren - etwa Filialen in umsatzschwache und umsatzstarke Niederlassungen. Neue Objekte werden dabei durch einen geschickten Vergleich der Merkmale einer der vorgegebenen Gruppen zugeordnet.

Zur Klassifikation eignet sich besonders die Entscheidungsbaumanalyse. Entscheidungsbäume sind einfach zu handhaben und führen zu einer sehr übersichtlichen grafischen Darstellung. Um eine Entscheidungsbaumanalyse durchzuführen, ist ein Datenbestand notwendig, dessen Datenobjekte ein ausgezeichnetes, die Klassenzugehörigkeit angebendes Merkmal besitzen.

Diese Klassen mit den zugehörenden Elementen stellen die Trainingsdatenmenge dar. Auf Basis dieser Trainingsdatenmenge wird dann ein Klassifikationsmodell entwickelt. Dieses hilft später bei der Bestimmung der Klassenzugehörigkeit von neuen Elementen, also bei der Klassifikation.

Basis des Entscheidungsbaumverfahrens ist die sukzessive Aufspaltung der Trainingsmenge, sodass sich in den daraus resultierenden Teilmengen homogenere Gruppen bezüglich der Klassifikationsvariablen befinden. Die Knoten des Baums repräsentieren die Teilmengen des Datenbestands, die Kanten die Aufteilungsvorschrift.

Ausgezeichnete Knoten sind der Wurzelknoten, der keinen Vorgängerknoten besitzt, und der Endknoten, der keinen Nachfolgerknoten hat. Ein Beispiel sehen Sie in der Grafik links.

Der oberste Knoten ist der Wurzelknoten, der die gesamte Trainingsmenge repräsentiert. An den Kanten sind die Merkmalsausprägungen eingetragen, nach denen die Ausgangsmenge in ihre Teilmengen aufgespalten wird. Die untersten Knoten sind die Endknoten. Sie stellen diejenige Menge von Datensätzen dar, deren Homogenität hinreichend groß ist, sodass alle Elemente dieser Menge einer bestimmten Klasse zugeordnet werden können.

Neue Objekte einordnen

In dem Beispiel werden 10 000 Datensätze betrachtet, von denen 3000 einer Klasse X und 7000 einer Klasse Y angehören. Die erste Aufteilung des gesamten Datenbestandes geschieht durch die Überprüfung, ob das Attribut A die Bedingung K1 erfüllt oder nicht. Durch diese Aufteilung entsteht im Beispiel ein Knoten, der 3800 Datensätze der Klasse Y beinhaltet und nur 200 der Klasse X.

Neue Objekte können nun anhand des Baumes in eine Klasse eingeordnet werden. Dazu läuft der entsprechende Datensatz vom Wurzelknoten aus unter Beachtung der Aufteilungsregel an den Kanten entlang und wird jeweils in die entsprechenden Teilmengen einsortiert.

Die Prozedur stoppt, sobald ein Endknoten erreicht ist. Dessen Klassenzugehörigkeit wird dann auf das Objekt übertragen. Im Beispiel wird für einen neuen Datensatz, dessen Attribut die Bedingung K1 erfüllt, eine voraussichtliche Zugehörigkeit zur Klasse Y abgeleitet.

Die Güte eines Entscheidungsbaumes wird anhand der Fehlklassifikationsquote gemessen. Die Quote gibt den Anteil der fehlerhaft klassifizierten Datensätze zur Gesamtzahl der klassifizierten Datensätze an. Die Fehlklassifikationsquote darf nicht auf dem Trainingsdatenbestand ermittelt werden, sondern auf einer unabhängigen Testmenge.

Besonders häufig eingesetzt wird das Entscheidungsbaumverfahren in der Kreditwürdigkeitsprüfung. In diesem Praxisfeld wird ein Kunde anhand seiner angegebenen Kundendaten als kreditwürdig oder -unwürdig eingestuft. Dabei werden 50 Prozent der Datensätze als kreditwürdig und 50 Prozent als nicht kreditwürdig bezeichnet. Die Grafik unten zeigt ein Beispiel, wie eine Bank ihren Kundenstamm mit Hilfe der Entscheidungsbaumanalyse in verschieden lukrative Kundengruppen segmentieren könnte.

Mehr lesen

Chronologische Liste und Netflix-Links

Marvel-Filme- und -Serien: Das ist die richtige Reihenfolge

Neuerscheinungen in der Übersicht

Netflix: Neue Filme und Serien

Vorschau auf Film- und Serien-Highlights

Amazon Prime Video: Neuheiten

Weiter zur Startseite  

Mehr zum Thema

Pokémon GO Max WP

Übersicht der stärksten Pokémon

Pokémon GO: Maximale WP-Werte aller Pokémon (Liste)

Was sind die maximalen WP-Werte aller Pokémon in Pokémon GO? Welche sind die stärksten? Unsere übersichtliche Liste zu Wettkampfpunkten verrät es.

Pokemon GO Shiny Pokemon

Übersicht aller Shinies

Pokémon GO Shiny Liste: Wie man Shinies findet und erkennt

Unsere Shiny Übersicht für Pokémon GO listet alle aktuell erhältlichen Shinies im Spiel. Dazu erklären wir, wie man die Shinies findet und woran man…

Wir zeigen, welche Spiele im Game Pass warten.

Spiele-Flatrate für Xbox Series, One, 360 und PC

Xbox Game Pass Spiele: Neue Spiele ab Januar 2022

Regelmäßig bekommt der Game Pass neue Spiele. Welche neuen Games Besitzer von Xbox Series X/S, One, Xbox 360 und PC aktuell bekommen, verrät dieser…

PS5: Sony zeigt die Menüs

Sony-Konsole

PS5-Spiele: Liste aller bestätigten Playstation-5-Games

Die Playstation 5 erschien am 19. November 2020. Wir zeigen in einer übersichtlichen Liste, welche PS5-Spiele zur Verfügung stehen und stehen werden.

Wir zeigen aktuelle Notebook-Angebote.

Angebote bei Amazon, Saturn & Co.

Notebook-Angebote: Aktuelle Laptop-Schnäppchen für Gaming,…

Bei verschiedenen Online-Shops gibt es immer wieder Laptops stark reduziert. In unserer Übersicht finden Sie die besten Angebote für Multimedia-,…