Datenminen

Regressionsanalyse

25.2.2011 von Klaus Manhart

ca. 1:40 Min
Ratgeber
VG Wort Pixel
  1. Informationsschätze entdecken mit Data Mining
  2. Data-Mining-Methoden
  3. Klassifikationsverfahren
  4. Regressionsanalyse

Regressionsmodelle

image.jpg
Einige Fragestellungen und zugeordnete Data-Mining-Verfahren, mit denen sich diese beantworten lassen.
© PC Magazin

Die Zielsetzung der Regressionsanalyse ist ähnlich zur Klassifikation, in diesem Fall werden jedoch keine Klassen gebildet. Vielmehr werden Regressionsmodelle erstellt, um zum Beispiel Absatzprognosen oder Umsatzentwicklungen für das nächste Jahr zu berechnen. Dabei wird eine abhängige Variable - wie der Produktabsatz - mit Hilfe von mehreren unabhängigen Variablen "erklärt" - wie beispielsweise durch Produktpreis oder Kundeneinkommen.

Das Grundkonzept der Regressionsanalyse soll anhand eines einfachen Beispiels dargestellt werden. Mit einem Regressionsmodell soll analysiert werden, inwieweit das Gehalt eines leitenden Angestellten von der Anzahl seiner zu betreuenden Mitarbeiter und dem zu erwartenden Gewinn seines Projektes abhängt. Gehalt wäre dabei die abhängige Variable, die von den beiden unabhängigen Variablen Mitarbeiterzahl und Gewinn erklärt werden soll.

Zur Beschreibung des Zusammenhangs zwischen der abhängigen Variablen und den unabhängigen Variablen nutzt man im einfachsten Fall eine lineare Funktion. Bei diesem linearen Regressionsmodell wird angenommen, dass das interessierende Merkmal Gehalt durch eine lineare Kombination der anderen Merkmale erklärt werden kann. Die Gewichtung der Einflüsse der erklärenden Merkmale wird dabei aus den Daten geschätzt.

Ein lineares Regressionsmodell für das Beispiel wäre:

Gehalt = α * Mitarbeiter + β * Gewinn

Ziel der Regressionsanalyse ist nun die Bestimmung der unbekannten Parameter a und ß. Sie werden aus den vorliegenden Daten errechnet. Dabei wird die Methode der kleinsten Quadrate eingesetzt, die die Summe der quadratischen Fehlerabweichungen der Erfahrungswerte von der Regressionsgeraden minimiert. Je kleiner die Varianz der Fehlerabweichungen von der Regressionsgeraden ist, desto genauer ist die Prognose.

Das Ergebnis ist eine Regressionsgerade, die visuell betrachtet durch die Menge der Erfahrungswerte verläuft und bei der die Summe der quadratischen Abweichungen zwischen Gerade und Erfahrungswert minimal ist. Mithilfe der Gleichung lässt sich dann für jeden einzelnen Mitarbeiter prüfen, ob sein Gehalt unterhalb der Regressionsgerade liegt - und er somit unterbezahlt ist - oder oberhalb platziert ist.

Die Grafik unten zeigt zusammenfassend einige beispielhafte Fragestellungen und hier vorgestellte bzw. speziellere Data-Mining-Verfahren, mit denen sie beantwortet werden können.

Data-Mining-Werkzeuge

Einfache Data-Mining-Analysen können mit einigen Datenbank-Engines durchgeführt werden. In der Regel aber ist der Rückgriff auf Spezialwerkzeuge zu empfehlen. Diese sind allerdings nicht für Normalanwender geeignet, sondern erfordern speziell ausgebildete Experten.

Anbieter mit hohen Installationszahlen sind SAS, IBM und insbesondere SPSS, das mit Clementine einer der Marktführer bei Data-Mining-Tools war. Inzwischen hat IBM SPSS aufgekauft und Clementine in SPSS Modeler umbenannt.

Download: Tabelle

Mehr lesen

Chronologische Liste und Netflix-Links

Marvel-Filme- und -Serien: Das ist die richtige Reihenfolge

Neuerscheinungen in der Übersicht

Netflix: Neue Filme und Serien

Vorschau auf Film- und Serien-Highlights

Amazon Prime Video: Neuheiten

Weiter zur Startseite  

Mehr zum Thema

PS Plus: Monatliche Spiele im Februar: UFC 4, Tiny Tinas Sturm auf die Drachenfestung und Planet Coaster

PS5- und PS4-Spiele kostenlos

PS Plus: Gratis-Spiele im Februar 2022

Playstation Plus bringt Mitgliedern jeden Monat Gratis-Games für die PS5 und PS4. Wir verraten, welche Titel die neuen PS Plus Spiele sind.

Wir zeigen, welche Spiele im Game Pass warten.

Spiele-Flatrate für Xbox Series, One, 360 und PC

Xbox Game Pass Spiele: Neue Spiele ab Januar 2022

Regelmäßig bekommt der Game Pass neue Spiele. Welche neuen Games Besitzer von Xbox Series X/S, One, Xbox 360 und PC aktuell bekommen, verrät dieser…

Grafikkarte optimal einstellen

GPUs mit Echtzeit-Raytracing

Nvidia & AMD: Wann kommen neue Grafikkarten?

Ende 2020 startete Nvidias RTX 3000. AMD folgte mit RX 6000. Wann kommen neue Grafikkarten? +++ OVP-Foto einer RTX 3090 Ti und neue Einsteiger-Chips…

PS5: Sony zeigt die Menüs

Sony-Konsole

PS5-Spiele: Liste aller bestätigten Playstation-5-Games

Die Playstation 5 erschien am 19. November 2020. Wir zeigen in einer übersichtlichen Liste, welche PS5-Spiele zur Verfügung stehen und stehen werden.

Gratis-Spiele-bei-Steam-und-Epic

Vollversionen geschenkt & zum Antesten

Gratis-Spiele bei Steam, Epic, Humble Bundle & mehr im…

In dieser Übersicht zeigen wir Ihnen jeden Monat die Spiele, die Sie kostenlos bei Steam, im Epic Games Store, im Humble Bundle und mehr erhalten.