Statistische Methoden des Data Mining und deren Anwendung

Eisenberg, Hendrik

Statistische Methoden des Data Mining und deren Anwendung

Zusammenfassung

Inhaltsangabe:Zusammenfassung:
In dieser Arbeit stehen neben dem Begriff des Data Mining besonders die statistischen Methoden im Mittelpunkt. Interessenten sollen den kreativen Prozess des Data Mining näher kennen lernen und erfahren, welche Rolle dabei der Statistik zukommt.
Das Ziel der Arbeit ist, eine weiterreichende Darstellung des Prozesses des Data Mining mit statistischen Methoden zu erstellen, angefangen bei der Zielfindung, über die Modellbildung, bis hin zur Bewertung der Ergebnisse. Dabei orientiert sich die Vorgehensweise der systematischen Auswertung an der Methode des CRoss Industry Standard Process for Data Mining, mit der sich Data Mining Prozesse beschreiben lassen. Zum besseren Verständnis werden grundlegende Begriffe zum Data Mining sowie die bedeutsamsten Methoden und Verfahren zur statistischen Datenanalyse erläutert, welche bei den im Anschluss aufgezeigten Data Mining Problemen zur Anwendung kommen.
Die veranschaulichten Analyseprobleme entsprechen den Aufgaben der Data Mining Cups der Jahre 2001 und 2002. Dabei werden die zur Lösung angewendeten statistischen Methoden nachvollziehbar wiedergegeben und es wird auf die kritischen Erfolgsfaktoren eingegangen. Oftmals wirken sich schon einzelne Teilentscheidungen bei der Datenaufbereitung und bei den eingesetzten Klassifizierungsmethoden auf die Lösung der Data Mining Aufgabe aus. Daher stellte sich die Frage, wie solche Abweichungen von den aufgezeigten Methoden aussehen könnten. In dieser Arbeit werden im Einzelnen verschiedene Abwandlungen durchgeführt, am Ende zusammengefasst und diskutiert.

Inhaltsverzeichnis:Inhaltsverzeichnis:
Abbildungsverzeichnis6
Tabellenverzeichnis7
1.Einleitung9
1.1Problemstellung10
1.2Ziel der Arbeit11
1.3Themenabgrenzung12
2.Der Data Mining Prozess im CRISP-DM Referenzmodell14
2.1Das CRISP-DM Referenzmodell14
2.2Die Phasen des CRISP-DM Referenzmodells15
2.2.1business understanding (Anwendungsverstehen)15
2.2.2data understanding (Datenverstehen)16
2.2.3data preparation (Datenaufbereitung)16
2.2.4modeling (Modellerstellung)17
2.2.5evaluation (Bewertung der Ergebnisse)18
2.2.6deployment (Anwendung)19
3.Grundlegende Begriffe20
3.1Die Statistik im Data Mining Prozess20
3.2Segmentierung und Klassifikation22
3.2.1Begriff der Segmentierung22
3.2.2Begriff der Klassifikation22
3.3Standardisierung23
3.4Maße für die Ähnlichkeit von Objekten24
4.Methoden der statistischen […]

Leseprobe

Inhaltsverzeichnis

ID 7963

Eisenberg, Hendrik: Statistische Methoden des Data Mining und deren Anwendung

Hamburg: Diplomica GmbH, 2004

Zugl.: Fachhochschule Anhalt, Diplomarbeit, 2003

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,

insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von

Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der

Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,

bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik

Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich

vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des

Urheberrechtes.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in

diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,

dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei

zu betrachten wären und daher von jedermann benutzt werden dürften.

Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können

Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die

Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine

Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.

Diplomica GmbH

http://www.diplom.de, Hamburg 2004

Printed in Germany

Diplomarbeit Hendrik Eisenberg

INHALT

Abbildungsverzeichnis... 6

Tabellenverzeichnis ... 7

Einleitung ... 9

1.1 Problemstellung ... 10

1.2 Ziel der Arbeit... 11

1.3 Themenabgrenzung... 12

Der Data Mining Prozess im CRISP-DM Referenzmodell... 14

2.1 Das CRISP-DM Referenzmodell... 14

2.2 Die Phasen des CRISP-DM Referenzmodells ... 15

2.2.1 business

understanding

(Anwendungsverstehen) ... 15

2.2.2 data understanding (Datenverstehen)... 16

2.2.3 data preparation (Datenaufbereitung) ... 16

2.2.4 modeling

(Modellerstellung) ... 17

2.2.5 evaluation (Bewertung der Ergebnisse)... 18

2.2.6 deployment

(Anwendung) ... 19

Grundlegende Begriffe... 20

3.1 Die Statistik im Data Mining Prozess... 20

3.2 Segmentierung und Klassifikation... 22

3.2.1 Begriff der Segmentierung... 22

3.2.2 Begriff der Klassifikation ... 22

3.3 Standardisierung ... 23

3.4 Maße für die Ähnlichkeit von Objekten ... 24

Methoden der statistischen Datenanalyse ... 27

4.1 Faktorenanalyse ... 27

4.2 Clusteranalyse ... 32

4.3 Lineare und logistische Regression ... 38

4.4 Diskriminanzanalyse... 40

Diplomarbeit Hendrik Eisenberg

Gegebene Daten und Modelle... 44

5.1 Data Mining Cup 2002... 44

5.1.1 Szenario ... 44

5.1.2 Gegebene

Daten... 45

5.2 Modellbildung zum DMC 2002 Problem ... 46

5.2.1 Phase 1: business understanding... 47

5.2.2 Phase 2: data understanding... 47

5.2.3 Phase 3: data preparation ... 51

5.2.4 Phase 4: modeling... 61

5.2.5 Phase 5: evaluation ... 67

5.2.6 Phase 6: deployment ... 67

5.2.7 Andere Lösungsmethoden im Vergleich ... 68

5.3 Data Mining Cup 2001... 75

5.3.1 Szenario ... 75

5.3.2 Gegebene

Daten... 76

5.4 Modellbildung zum DMC 2001 Problem ... 77

5.4.1 Phase 2: data understanding... 78

5.4.2 Phase 3: data preparation ... 80

5.4.3 Phase 4: modeling... 83

5.4.4 Andere Lösungsmethoden im Vergleich ... 87

Fazit ... 94

Literatur ... 96

Anhang... 99

A1 Tabellen zum Data Mining Cup 2002 Problem... 100

A2 Tabellen zum Data Mining Cup 2001 Problem... 104

A3 Dateien auf der Begleit-CD ... 105

Ergänzung... 108

Diplomarbeit Hendrik Eisenberg

ABBILDUNGSVERZEICHNIS

Abbildung 1: Prozessphasen des CRISP-DM... 15

Abbildung 2: Vereinfachtes Modell der Clusteranalyse... 33

Abbildung 3: Hierarchisch-agglomerative Klassifikation - Dendrogramm ... 35

Abbildung 4: Einfache lineare Regression ... 39

Abbildung 5: Logistische Regression ... 40

Abbildung 6: Diskriminanzanalyse ... 41

Abbildung 7: Datensatzstruktur (DMC 2002) ... 46

Abbildung 8: Kritische Kündigerwahrscheinlichkeit (DMC 2002) ... 51

Abbildung 9: Screeplot zur Faktorenanalyse (DMC 2002) ... 55

Abbildung 10: Datensatzstruktur (DMC 2001) ... 77

Abbildung 11: Kritische Wahrscheinlichkeit für nicht aktive Kunden (DMC 2001)... 80

Diplomarbeit Hendrik Eisenberg

TABELLENVERZEICHNIS

Tabelle 1: Wertekombinationen binärer Daten... 25

Tabelle 2: Kundenwertmatrix (DMC 2002) ... 45

Tabelle 3: Ergebnis des Mann-Whitney-U Tests (1) (DMC 2002) ... 49

Tabelle 4: Ergebnis des Mann-Whitney-U Tests (2) (DMC 2002) ... 50

Tabelle 5: Faktorenanalyse Eigenwerte und Varianzen (DMC 2002)... 55

Tabelle 6: KMO- und Bartlett-Test (DMC 2002)... 57

Tabelle 7: Kreuztabelle nach Clusterzentrenanalyse (DMC 2002) ... 63

Tabelle 8: Test der Untersuchungsmethoden an Stichproben (DMC 2002)... 66

Tabelle 9: Andere Lösungsmethoden im Vergleich (DMC 2002) ... 75

Tabelle 10: Kostenmatrix (DMC 2001)... 76

Tabelle 11: Ergebnis des Mann-Whitney-U-Tests (1) (DMC 2001)... 79

Tabelle 12: Ergebnis des Mann-Whitney-U-Tests (2) (DMC 2001)... 79

Tabelle 13: Faktorenanalyse - Eigenwerte und Varianzen (DMC 2001) ... 82

Tabelle 14: Kreuztabelle nach Clusterzentrenanalyse (DMC 2001) ... 84

Tabelle 15: Test der Untersuchungsmethoden an Stichproben (DMC 2001)... 86

Tabelle 16: Korrelation zwischen den Merkmalen ID und akiv (DMC 2001)... 87

Tabelle 17: Andere Lösungsmethoden im Vergleich (DMC 2001) ... 93

ANHANG

Tabelle A. 1: Korrelationsmatrix der Faktorenanalyse (DMC 2002)... 100

Tabelle A. 2: Anti-Image-Korrelationsmatrix der Faktorenanalyse (DMC 2002) ... 101

Tabelle A. 3: Faktorladungsmatrix der Faktorenanalyse (DMC 2002) ... 102

Tabelle A. 4: Korrelationsmatrix (DMC 2002) ... 103

Tabelle A. 5: Ausschnitt der Korrelationsmatrix (DMC 2001) ... 104

Diplomarbeit Hendrik Eisenberg

Tabelle A. 6: Dateien auf der Begleit-CD zum Data Mining Cup 2002 Problem... 105

Tabelle A. 7: Dateien auf der Begleit-CD zum Data Mining Cup 2001 Problem... 106

Diplomarbeit Hendrik Eisenberg

EINLEITUNG

Das Thema dieser Arbeit lautet ,,Statistische Methoden des Data Mining und deren An-

wendung". Neben dem Begriff ,,Data Mining" stehen dabei die statistischen Methoden

zur Datenanalyse im Mittelpunkt. Insbesondere werden jene statistischen Methoden

hervorgehoben, die beim Data Mining Cup 2002 erfolgreich zum Einsatz kamen.

In fast allen Bereichen der Industrie und Wirtschaft werden unzählige Kunden- und

Verbraucherdaten erhoben und gesammelt. Die meisten davon ruhen heutzutage unbe-

arbeitet in riesigen Datenbanken. Definiert man Daten als aufgezeichnete Fakten, so

sind Informationen die Menge der Muster oder Erwartungen, die sich hinter diesen Da-

ten verbergen. Bisherige Programme halfen zu verstehen, was in der Vergangenheit ge-

schehen ist. So konnte zum Beispiel durch geeignete Abfragen und Reports der Verkauf

des letzten Monats oder das Kaufverhalten einzelner Produkte bestimmt werden

[5],[13].

Data Mining (Knowledge Discovery in Databases) ist ein Prozess, der versteckte

Muster und Beziehungen in großen Datenmengen aufdeckt. Durch interaktive Modell-

bildung und Nutzung von statistischen Methoden und Verfahren des maschinellen Ler-

nens werden aus ,,Bergen von Daten" wertvolle, brauchbare Informationen gewonnen,

die helfen können, Entscheidungen für die Zukunft zu treffen [6],[9],[13].

Der Prozess des Data Mining ersetzt aber nicht die Statistik, denn sie erweist sich als

eine gute Ergänzung zum Data Mining. Traditionelle statistische Methoden, wie z.B. die

Regression, werden neben Data Mining Verfahren genutzt und helfen dabei, die Stich-

haltigkeit der Data Mining Ergebnisse zu überprüfen [13].

Der Data Mining Cup

, ein jährlich, international ausgetragener Studentenwettbe-

werb, richtet sich an Studierende von Universitäten, Fachhochschulen und Berufsaka-

demien im In- und Ausland. Die Aufgabe wird von der Technischen Universität

Chemnitz und der prudsys AG gestellt und besteht in der Analyse anonymisierter Daten.

Die Teilnehmer sollen anhand einer Trainingsmenge ein Vorhersagemodell erstellen

1 abgekürzt im Text DMC

Diplomarbeit Hendrik Eisenberg

und dieses auf eine Klassifizierungsmenge anwenden. Dazu können sie das Software-

tool selbst wählen. Die besten Lösungen werden auf den jährlich stattfindenden Data

Mining Anwendertagen in Chemnitz prämiert [4],[20].

1.1

Problemstellung

Ziel von Data Mining ist es, bislang unbekannte und potentiell nützliche Informationen

aus Daten zu gewinnen. Computerprogramme sollen in Interaktion mit dem Menschen

dabei helfen, Regelmäßigkeiten und Muster zu entdecken, diese zu verallgemeinern und

auf zukünftige Daten anzuwenden.

Schon immer suchten Menschen nach Mustern. Jäger suchten nach Mustern im Ver-

halten des Wildes, Politiker suchen nach Mustern im Wählerverhalten und ein Wissen-

schaftler versucht, den Daten einen Sinn zu geben und die enthaltenen Muster zu

entdecken. Aus unternehmerischer Sicht gilt es, aus diesen Mustern im Verhalten Gele-

genheiten zu erkennen und diese gewinnbringend zu nutzen [5].

Die Literatur spricht weit verbreitet, wenn es um Data Mining geht, meist von einer

Wissensextraktion, d.h., es wird davon ausgegangen, dass in den riesigen Datenmengen

die Informationen schon bereitliegen und nur noch ans Licht gefördert werden müssen.

Es käme nur noch darauf an, ein Werkzeug anzuwenden.

Doch was ist Data Mining wirklich? Neben der Sichtweise der Wissensextraktion

kann Data Mining auch als kreativer Prozess der interaktiven Modellbildung angesehen

werden. Hier wird die Arbeitsteilung zwischen Mensch und Computer sehr gut sichtbar

und man kann erkennen, welche Rolle dabei dem Menschen zukommt. Eine Data Mi-

ning Methode ist nur so gut wie der Mensch, der mit ihr arbeiten kann.

Heutzutage werden die Werkzeuge immer mächtiger. Sie erlauben mehr und mehr

Einstellungen und das Erstellen stets komplexerer Modelle. Oft sind es aber die einfa-

cheren und auf die speziellen Eigenschaften des Datenmaterials zugeschnittenen Model-

le, die sich als die besten erweisen. Zudem können immer weniger Menschen gut genug

mit den Werkzeugen umgehen. Viele wissen nicht, was sie tun, aber sie tun es einfach.

Realistisch betrachtet, kann nur von Experten die genaue Kenntnis über benutzte Mo-

delle und deren Weiterentwicklung verlangt werden. Computer sollen die Menschen un-

Diplomarbeit Hendrik Eisenberg

terstützen, mit dem Benutzer kommunizieren, ihm Vorschläge unterbreiten und mit ihm

gemeinsam Modelle erstellen [6],[9].

Ein anderer Grund der vereinfachten Sichtweise der Wissensextraktion liegt im

Marketing. Ein Produkt verkauft sich viel besser, je einfacher die Botschaften sind. Dies

wird durch die Suggestion erreicht, wobei das Wissen sowieso schon in den Daten ent-

halten wäre. Außerdem würde das Konstruieren mathematischer Modelle über den Ho-

rizont fast eines jeden Kunden hinausgehen. Die Annahme einer Art Black Box, die

man ansetzt und einfach die gewünschten Informationen heraussaugt, ist einfacher zu

verstehen als das Erstellen komplexer Modelle.

Das Data Mining Problem beschränkt sich somit nicht darauf, in einer Datenmenge

etwas zu finden, sondern etwas darüber zu konstruieren [6].

1.2

Ziel der Arbeit

In der unendlichen Vielzahl möglicher Datentypen können unterschiedliche Strukturty-

pen auftreten. Letztendlich bedarf jede Struktur eines eigenen Lernverfahrens. Bekannte

Data Mining Verfahren sind, wobei die Vollständigkeit hier nicht angestrebt wird, Ent-

scheidungsbäume, Schlussfolgerungsnetze, Clusteranalyse, Neuronale Netze sowie ge-

netische und evolutionäre Algorithmen

. Weiterhin werden neben den klassischen

statistischen Verfahren, wie Regressionsanalyse, Diskriminanzanalyse oder Faktoren-

analyse, die Verfahren des maschinellen Lernens, z.B. das fallbasierte Schließen, dazu-

gezählt [27].

Ziel dieser Arbeit soll die weiterreichende Darstellung des Prozesses des Data Mi-

ning mit statistischen Methoden, angefangen bei der Zielfindung, über die Modellbil-

dung, bis zur Bewertung der Ergebnisse, sein. Dies erfordert eine strukturierte

2 Für Klassifikationsaufgaben existieren viele Data Mining Verfahren wie zum Beispiel Entscheidungs-

bäume, Bayes'sche Netze oder Fallbasiertes Schließen. Bei Warenkorbanalysen kommen häufig Assozia-

tionsregeln zum Einsatz (weitere Beispiele in [17]).

Diplomarbeit Hendrik Eisenberg

Vorgehensweise, die sich hauptsächlich an den allgemeinen Schritten des Data Mining

orientiert

business understanding (Anwendungsverstehen)

data understanding (Datenverstehen)

data preparation (Datenaufbereitung)

modeling (Modellerstellung)

evaluation (Bewertung der Ergebnisse)

deployment (Anwendung).

Zum besseren Verständnis des Prozesses des Data Mining mit statistischen Metho-

den werden im Kapitel 3 grundlegende Begriffe zum Data Mining sowie im Kapitel 4

die statistischen Methoden erläutert.

An Anwendungsbeispielen werden im Kapitel 5 die angewendeten statistischen Me-

thoden nachvollziehbar wiedergegeben und es wird auf die kritischen Erfolgsfaktoren

eingegangen.

1.3

Themenabgrenzung

Eine genaue Analyse, wie sich die Teilentscheidungen bei den Modellschritten der Data

Mining Aufgabe letztendlich auf das Ergebnis auswirkten, wird angestrebt, ist aber auf-

grund der Komplexität des Problems nur begrenzt möglich. Das Auswählen der zur

Verfügung stehenden Modelle wird begründet sowie nach anderen gesucht, wobei nicht

alle unendlichen Möglichkeiten berücksichtigt werden können. Als Leitfaden dienten

grundlegende statistische Begriffe und Modelle ebenso wie eine bildhafte Vorstellung

über geometrische Verhältnisse im Merkmalsraum.

Es werden nur die statistischen Methoden theoretisch und in der Anwendung behan-

delt (siehe Kapitel 4 und 5). Auf andere nicht statistische Verfahren im theoretischen

3 siehe Kapitel 2, Der Data Mining Prozess im CRISP-DM Referenzmodell, S.14

Diplomarbeit Hendrik Eisenberg

und praktischen Vergleich, z.B. Entscheidungsbäume oder Neuronale Netze, wird nicht

eingegangen.

Die Betrachtung der Wirtschaftlichkeit wird in diese Arbeit nicht einbezogen. So

bilden z.B. Kosten-Nutzen-Analysen oder Wirtschaftlichkeitsberechnungen weitere zu

untersuchende Schwerpunkte.

Diplomarbeit Hendrik Eisenberg

DER DATA MINING PROZESS IM CRISP-DM

REFERENZMODELL

Um die systematische Auswertung von Daten zum Erfolg zu führen, wird Data Mining

als Prozess verstanden, der sich in mehrere Schritte einteilen lässt, die von der Zieldefi-

nition bis zur Bewertung und dem Einsatz der Ergebnisse reichen.

Für die Formulierung von Modellen des KDD

-Prozesses gibt es verschiedene Vor-

schläge. Ein interessanter Vorschlag, der von mehreren großen Firmen unterstützt wird,

ist die Methode des CRoss Industry Standard Process for Data Mining

, mit der sich

Data Mining Prozesse beschreiben lassen (vgl. [18] und [11],[21],[22],[23],[27]).

CRISP-DM wurde im Rahmen eines EU-Projektes von 1996 bis 1999 entwickelt.

Die Partner DaimlerChrysler (Deutschland), NCR Systems Engineering Copenhagen

(USA, Dänemark), SPSS Inc. (USA) und der niederländische Versicherungskonzern

OHRA gründeten eine Special Interest Group und entwickelten gemeinsam diese her-

steller- und branchenübergreifende Methode

für Data Mining Projekte.

2.1

Das CRISP-DM Referenzmodell

Das Referenzmodell gliedert das gesamte Projekt in sechs Prozessphasen: business un-

derstanding, data understanding, data preparation, modeling, evaluation und deploy-

ment. Die Struktur dieses Modells zeigt die Abbildung 1, S.15.

Der Kreis deutet an, dass der Data Mining Prozess kein starres Ablaufmodell ist,

auch wenn die Phasen logisch aufeinander folgen. Oft geben spätere Phasen Erkenntnis-

se, die ein Zurückspringen auf vorhergehende Schritte nötig machen. Die Erfolge beim

Data Mining steigen stark an, wenn Data Mining als interaktiver Prozess verstanden

wird, d.h., der Benutzer prüft und bewertet Ergebnisse und nimmt gegebenenfalls Ände-

rungen und Anpassungen vor. Durch diese ständige Anpassung der Prozesse an das

Problem wird eine zielgeführte Durchführung des Projektes ermöglicht.

4 abgekürzt für Knowledge Discovery in Databases

5 abgekürzt im Text CRISP-DM

Diplomarbeit Hendrik Eisenberg

Ebenso ist das CRISP-DM als Prozessmodell softwareunabhängig, somit ist der Be-

nutzer bei der Projektumsetzung nicht an einen Hersteller gebunden.

Die sechs Prozessphasen dienen zur Orientierung, z.B. für den Ablauf des Projekts.

Abbildung 1: Prozessphasen des CRISP-DM

2.2

Die Phasen des CRISP-DM Referenzmodells

2.2.1

business understanding (Anwendungsverstehen)

Die erste Phase sammelt die Projektziele und -anforderungen aus Unternehmenssicht.

Insbesondere Kenngrößen, wie die derzeitige Geschäftssituation, das primäre Ge-

schäftsziel und die Erwartungen an das Projekt, müssen vollständig verstanden werden.

Diese fachlichen Aspekte werden dann in eine Data Mining Problemstellung umge-

formt. Den Kern stellt dabei die Definition des Data Mining Ziels dar, welche angibt,

wie bestimmte Ergebnisse später genutzt werden sollen.

Die Bestimmung von Größe und Inhalt einer Kontrollgruppe, an der das Gelingen

des Projektes gemessen werden soll, vervollständigt neben der Erstellung eines Projekt-

Diplomarbeit Hendrik Eisenberg

plans und dem Festlegen von Einschränkungen

die erste Phase des Data Mining Pro-

zesses.

2.2.2

data understanding (Datenverstehen)

Die data understanding Phase bezieht sich auf die Analyse der Datensituation. Zentraler

Aspekt ist dabei die Suche und Beurteilung von projektrelevanten Datenquellen. Neben

bestehenden Daten

können auch Datenquellen von Drittanbietern

in Betracht gezogen

werden. Bei der Nutzung verschiedener Datenquellen müssen diese aufeinander ange-

glichen werden. Zudem ist stets zu überprüfen, ob die gewünschten Informationen zur

Verfügung stehen, ob sie aktuell und zulässig sind.

Ein grundsätzliches Ziel der data understanding Phase ist weiterhin, sich mit den po-

tentiellen Daten vertraut zu machen, um ihre Stärken und Schwächen in Bezug auf das

zu realisierende Data Mining Projekt einzuschätzen. Es gilt also, erste Einsichten in die

Daten zu gewinnen und Probleme in der Qualität, wie z.B. Duplikate, Fehler oder fal-

sche Informationen in den Datenfeldern, zu erkennen. In Hypothesen oder Qualitätsre-

ports lassen sich auch Entdeckungen zu interessanten Teilmengen oder Rückschlüsse

auf Ziel- und Referenzgruppen formulieren.

2.2.3

data preparation (Datenaufbereitung)

Zunächst ist in dieser Phase zu entscheiden, welche Daten für die Analyse verwendet

werden. Danach werden diese für den weiteren Gebrauch vorbereitet. Die Daten wer-

den, wenn sie aus mehreren Quellen vorliegen, zusammengefügt. Weiterhin gilt es, die

Daten zu bereinigen, sodass weder fehlerhafte, unvollständige noch doppelte Datensätze

vorliegen. Anderenfalls ist zu entscheiden, wie mit diesen Daten umzugehen ist.

6 z.B. Personen, die bei einer Direktmailingaktion überhaupt nicht angeschrieben werden sollen, also von

vornherein ausgegrenzt werden

7 z.B. Kunden- oder Interessentendaten

8 z.B. data warehouse, amtliche Daten, Marktforschungsdaten, mikrogeografische Daten

Diplomarbeit Hendrik Eisenberg

Im nächsten Schritt werden die Daten inhaltlich aufbereitet, d.h., sie werden in ein

verwertbares Format übertragen bzw. aus ihnen werden aussagekräftige Variablen ge-

bildet, sodass eine kenntnisreiche Datengrundlage für die weitere Analyse zur Verfü-

gung steht. Zudem ist an dieser Stelle die Gelegenheit zur Sortierung des

Datenmaterials gegeben. Weiterhin besteht die Möglichkeit, die elektronischen Daten

mit nicht elektronischen Daten, z.B. durch Nachrichten der Presse, betriebseigene Gut-

achten, anzureichern.

2.2.4

modeling (Modellerstellung)

Den analytischen Kern des Data Mining Prozesses bildet die Modellerstellung, denn

hier werden die zum Einsatz kommenden Modellierungstechniken ausgewählt. Wichtig

dabei ist, dass das gegebene Datenformat und die Dateneigenschaften berücksichtigt

werden, damit die ausgewählten Methoden mit dem Datenmaterial zusammenpassen

Bei vielen Data Mining Aufgaben wird die Aufdeckung von Zusammenhängen auf

eine Klassifikationsaufgabe reduziert. Ziel des Einsatzes von Data Mining ist es, anhand

einer Menge von Objekten mit bekannter Klassenzugehörigkeit einen Klassifikator zu

erstellen, welcher in der Lage ist, eine weitere Menge von Objekten mit unbekannter

Klassenzugehörigkeit bestmöglich zu klassifizieren. Neben der unbekannten bzw. be-

kannten Klassenzugehörigkeit besitzen die Objekte weitere Merkmale zur Beschrei-

bung, um eine umfangreiche Datenanalyse zu ermöglichen.

Die Statistik dagegen scheint aufgrund der zu vermutenden systematischen Variati-

onen der Daten ungeeignet, um Klassifikationsaufgaben zu lösen. Vorausgesetzt werden

doch zufällige Zusammenhänge und eine homogene Grundgesamtheit. Dennoch existie-

ren statistische Modelle, die zufälligen und deterministischen Zusammenhängen nach-

gehen. Auch hier ist die Zahl der zur Verfügung stehenden Verfahren, welche meist

eine lineare Struktur haben und auf den gesamten Datenbestand angewandt werden,

groß, wobei an dieser Stelle auf die in Kapitel 4 vorgestellten, wichtigsten Methoden zu

9 Oftmals existieren mehrere Modellbildungstechniken für ein Data Mining Problem, sodass es nicht aus-

zuschließen ist, mehrere Modelle zu bilden.

Diplomarbeit Hendrik Eisenberg

den in Kapitel 5 gestellten Aufgaben des Data Mining Cups der Jahre 2002 und 2001

verwiesen wird.

Wenn ein Modell erstellt wird, müssen die Genauigkeit und Allgemeingültigkeit der

anzuwendenden Modellierungstechnik überprüft werden. Dazu werden aus Datensätzen,

die nicht der eigentlich zu klassifizierenden Datenmenge angehören, eine Trainings-

und eine Evaluierungsdatenmenge gebildet. Nun kann ein Data Mining Modell auf Ba-

sis der Trainingsdatenmenge erstellt werden. Mit Hilfe der Evaluierungsdatenmenge ist

es möglich, die Effizienz bzw. Leistungsfähigkeit des Modells zu bewerten

und die

Parametereinstellungen der Modellbildung so zu variieren, dass das beste Modell zur

Identifikation gefunden wird.

Das Ergebnis der Modellbildung ist eine Menge von Regeln und Segmenten, die die

Zielgruppe von einer Referenzgruppe anhand einer Reihe von Merkmalen unterscheidet.

Letztendlich werden die zu klassifizierenden Datensätze mit Hilfe des erstellten Modells

getrennt.

2.2.5

evaluation (Bewertung der Ergebnisse)

In dieser Phase werden die Lösungen nicht technisch bewertet. Einerseits wird die fach-

liche Angemessenheit der Data Mining Lösung in Frage gestellt. Abzuwägen ist zum

Beispiel, ob die Ergebnisse fachlich plausibel und die Regeln nicht widersprüchlich zur

Zielgruppe sind. Zudem ist zu kontrollieren, ob die getrennten Datensegmente die ge-

wünschte Quote repräsentieren. Andererseits bietet ein Rückblick auf die Arbeitsschritte

die Möglichkeit zu überprüfen, ob jeder einzelne Schritt so gut wie möglich durchge-

führt wurde bzw. ob dieser notwendig war.

Abschließend ist zu entscheiden, ob das Projekt erfolgreich genug ist, um mit der

nächsten Prozessphase fortzusetzen, oder ob weitere Schritte festzulegen sind, um zu-

friedenstellendere Ergebnisse zu erhalten.

10 Einige Softwaretools nutzen Lift- und Gain-Charts, um die Effizienz bzw. Leistungsfähigkeit zu beur-

teilen, z.B. der prudsys Discoverer, wie in [11] näher aufgezeigt.

Diplomarbeit Hendrik Eisenberg

2.2.6

deployment (Anwendung)

In der deployment Phase werden die gefundenen Modelle in die Entscheidungsprozesse

des Unternehmens bzw. der Organisation eingebettet. Es wird in einem Einsatzplan ent-

schieden, in welcher Art und Weise diese umgesetzt werden können. Dazu werden die

einzelnen Modelle und Ergebnisse zusammengetragen, mögliche Probleme diskutiert

und Alternativen vorgeschlagen.

Ein so genannter Final-Report, abhängig von Art und Umfang des Einsatzplans,

kann als Projektzusammenfassung oder als letztendliche Projektpräsentation des Data

Mining Ergebnisses dienen.

Diplomarbeit Hendrik Eisenberg

GRUNDLEGENDE BEGRIFFE

In dieser Arbeit werden im Zusammenhang mit dem Prozess des Data Mining und den

statistischen Methoden Begriffe, wie Standardisierung, Ähnlichkeit von Objekten, Klas-

sifikation oder Segmentierung, angewendet, die es zu erklären gilt.

3.1

Die Statistik im Data Mining Prozess

Die Motive, sich Kenntnisse auf dem Gebiet der Statistik anzueignen, sind meist sehr

unterschiedlich. Oft geht es in einer Ausbildung oder einem Studium darum, sich im

Rahmen einer Lehrveranstaltung Wissen anzueignen und dieses zu einer Prüfung wie-

derzugeben. Die Neugier und das Interesse an einem Werkzeug bilden ebenso wie nicht

vorhandene Vorurteile gegenüber einer Thematik bessere Voraussetzungen, um Fragen

aus den Bereichen der Psychologie, der Soziologie, der Wirtschaftswissenschaften usw.

nachzugehen.

Im Einklang mit [7],[9] lässt sich die Statistik als Wissenschaft vom sachgerechten

Umgang mit Massendaten definieren.

Die beschreibende Statistik (deskriptive Statistik) lässt sich dabei als Hilfsmittel zur

Beschreibung von Sachverhalten und zur Informationskomprimierung einsetzen. Die

Skalierung der auszuwertenden Merkmale

ist eine wichtige Eigenschaft des vorlie-

genden Datenmaterials und bei der Auswahl der verwendbaren Auswertungsmethoden

von großer Bedeutung. Dies betrifft das maschinelle Lernen genauso wie die statisti-

schen Verfahren. So kann es zum Beispiel notwendig sein, in der zweiten und dritten

Phase des CRISP-DM Standards das Datenformat umzukodieren, d.h., für die einzelnen

Methoden das richtige Skalenniveau zu wählen. Zudem ist auch denkbar, Ausreißer ab-

zuschneiden, damit diese später bei folgenden Untersuchungsmethoden nicht überbe-

wertet werden.

Anders kann die beschreibende Statistik auch bei der Visualisierung und Sichtung

der Daten zum Einsatz kommen. Durch Homogenitätstests, Abhängigkeitstests, grafi-

11 intervallskalierte, ordinalskalierte, nominalskalierte Merkmale

Diplomarbeit Hendrik Eisenberg

sche Auswertungen und andere deskriptive Verfahren können Besonderheiten des Da-

tenmaterials schnell erkannt werden. Dies betrifft an dieser Stelle nicht nur die Phasen

des Datenverstehens und der Datenaufbereitung, sondern auch die Modellbildung profi-

tiert mehr oder weniger von diesen Erkenntnissen.

Zu den Grundaufgaben der schließenden Statistik (Inferenzstatistik) gehört das Ü-

berprüfen von Hypothesen über Zusammenhänge in Daten. Die eigentliche Lernaufga-

be, das Generieren von Hypothesen aus Daten und die Erstellung von so genannten

Konzepten, erfolgt an einem bekannten Teil und wird auf das unbekannte Ganze hoch-

gerechnet. Solche Verfahren, wie z.B. die Diskriminanzanalyse oder die logistische

Regression, kommen, auf den Data Mining Standard bezogen, in der vierten Phase der

Modellbildung zur Anwendung.

Im praktischen Data Mining ist aber eine solche scharfe Trennung zwischen beiden

Gebieten nicht realistisch. Vielmehr existiert ein intensives Wechselverhältnis zwischen

statistischen Methoden und Resultaten des maschinellen Lernens. So können z.B. aus

entdeckten Auffälligkeiten oder Strukturen neue Hypothesen entstehen.

Von weiterer entscheidender Bedeutung, sowohl für die statistische Datenanalyse als

auch für Verfahren des maschinellen Lernens, ist die Rolle, die der Zufall bei der Ent-

stehung der Daten gespielt hat. Es stellt sich die Frage, ob und, wenn mit Ja beantwor-

tet, welche Regeln, Abhängigkeiten, Bestimmungen oder Zufälle bei der Bildung des

Datenmaterials zur Anwendung kamen. Diesen Sachverhalt zu prüfen, fällt ebenso in

das Aufgabengebiet der Statistik.

Weiterhin ist die Statistik in der fünften Phase des Data Mining Prozesses, der Aus-

wertung der Ergebnisse, von wichtiger Bedeutung. Die Homogenität der Trainings- und

Klassifizierungsmenge vorausgesetzt, lassen sich durch statistische Testverfahren und

die Angabe von Konfidenzintervallen die erstellten Modelle vergleichen. Anderweitig

kann die Auswertung des Gelernten, wie in [5] genannt, mit statistischen Schätzverfah-

ren, z.B. mit Methoden der Kreuzvalidierung, erfolgen.

Diplomarbeit Hendrik Eisenberg

3.2

Segmentierung und Klassifikation

In der Praxis sind zahlreiche Anwendungsmöglichkeiten zur thematisierten Klassifizie-

rung oder Segmentierung von Gruppen zu finden. So wird Data Mining, wie in [12] be-

handelt, im Krankenkassenumfeld oder, wie in [8] gezeigt, zur Klassifikation von

Texten angewendet. In [10] werden Lösungsmethoden von Lernverfahren zur Analyse

von Aminosäuresequenzen diskutiert. Es lassen sich weitere unzählige Anwendungsge-

biete aufführen, wobei auch die Auswahl der zur Verfügung stehenden Verfahren des

über- und unüberwachten Lernens aus dem Bereich der Künstlichen Intelligenz groß ist.

Weitere Fallbeispiele, insbesondere aus den Bereichen der Wirtschaft wie z.B. Waren-

korbanalysen oder Direktmarketingsituationen, sind ausführlich auf den Internetseiten

in [17] zu ergründen.

3.2.1

Begriff der Segmentierung

Das Ziel der Segmentierung ist es, eine Menge von Daten in verschiedene aussagekräf-

tige Untergruppen (Segmente, Cluster) zu trennen, sodass idealerweise alle Objekte ei-

ner Untergruppe die gleichen charakteristischen Eigenschaften aufzeigen. Die

Segmentierung kann in der Phase der Datenaufbereitung als auch in der Modellbildung

zur Anwendung kommen. Als Ergebnis werden entweder eine Auflistung der Objekte

der Gruppen, also eine Zuordnung der Objekte zu den einzelnen Gruppen, oder eine be-

griffliche Beschreibung dieser präsentiert.

Das Clustering bzw. in der Statistik die Varianten der Clusteranalyse sind u. a.

Techniken der Segmentierung, welche zu den Methoden des unüberwachten Lernens

gehören [15],[26].

3.2.2

Begriff der Klassifikation

Auf der Grundlage einer bekannten Klasseneinteilung gilt es, Klassifikationsregeln zu

finden, mit denen man neue, unbekannte Objekte diesen Klassen zuordnen kann. Oft-

mals werden neben der zugeordneten Klassenzugehörigkeit als Ergebnis auch die Wahr-

scheinlichkeiten ausgewiesen, mit welchen diese Zuordnung eintritt.

Diplomarbeit Hendrik Eisenberg

Zu diesem Verfahren des überwachten Lernens gehören z.B. neben den Entschei-

dungsbäumen auch die statistischen Verfahren der logistischen Regression und der Dis-

kriminanzanalyse [15],[26].

3.3

Standardisierung

Häufig tritt bei metrischen Merkmalen das Problem der meist stark unterschiedlichen

Streuung auf.

z.B. (1):

Haushalte nach Größe und Einkommen

Die Größe reicht von 1 bis 10 Personen, das Einkommen von 0 Euro bis zu meh-

reren Millionen.

Bei der Clusterbildung erhält ein Merkmal ein größeres Gewicht, je größer die Streuung

ist. Deshalb wird zur Vereinheitlichung meist eine Standardisierung durchgeführt. Dazu

werden alle Variablen, unabhängig von ihrer Dimension

und Streuung, auf ein ein-

heitliches Niveau angeglichen und es besteht nicht die Gefahr, dass Variablen systema-

tisch einen unterschiedlichen Einfluss auf die gemessene Ähnlichkeit zweier Objekte

ausüben. Auch für die Berechnungen der Faktorenanalyse werden die Werte zuvor stan-

dardisiert.

Z-Werte

Ein gebräuchliches Verfahren zur Standardisierung ist die Berechnung von so genann-

ten Z-Werten. Die Werte werden so transformiert, dass sie anschließend einen Mittel-

wert von 0 und eine Standardabweichung von 1 aufweisen. Dazu wird von jedem Wert

der Stichprobenmittelwert abgezogen und danach das Ergebnis durch die Standardab-

weichung der Stichprobe dividiert.

12 Variablen unterschiedlicher Dimensionen, z.B. Kilogramm, Dollar, Euro, Wachstumsraten

Diplomarbeit Hendrik Eisenberg

Die Standardisierung erfolgt nach der allgemeinen Form:

Merkmale

Objekte

,...,

;

,...,

mit

(Stichprobenmittelwert) und

)

(

(Standardab-

weichung). Dabei sei

die Merkmalsausprägung von Objekt

bei Merkmal .

Meist wird bei nominalen und ordinalen Merkmalen auf eine Streuungsvereinheitli-

chung verzichtet. Die Streuungsunterschiede sind in der Regel nicht so groß, dennoch

können Gewichtungseffekte auftreten [15].

Eine Verwendung von standardisierten Werten ist in vielen Fällen sehr hilfreich. Es

können aber auch andere Transformationen

angewendet und in manchen Fällen ge-

genüber den standardisierten Werten vorgezogen werden [1].

3.4

Maße für die Ähnlichkeit von Objekten

Die Klassenbildung der Clusteranalyse wird über die Ähnlichkeit der Objekte gesteuert.

Deshalb hängt das Ergebnis im Wesentlichen von der Art der Ähnlichkeitsmessung ab.

Die Clusterbildung ordnet dabei Objekte mit geringer Ähnlichkeit bzw. großer Unähn-

lichkeit unterschiedlichen Clustern zu. Daher wird ein Maß benötigt, das die Ähnlich-

keit von Objekten in Zahlen, Mengenbegriffen o. Ä. beschreibt.

Distanz- und Ähnlichkeitsmaße dienen dazu, dieses Maß der Ähnlichkeit von Ob-

jekten zu quantifizieren. Beide untersuchen, wie nahe die Werte zweier Fälle oder Vari-

ablen beieinander liegen. Große Werte eines Ähnlichkeitsmaßes und kleine Werte eines

Distanzmaßes verdeutlichen eine starke Ähnlichkeit zweier Objekte. Distanzmaße er-

13 Hierzu bietet SPSS mehrere Standardisierungsverfahren an, diese können in einer Dropdown-Liste

ausgewählt werden.

Diplomarbeit Hendrik Eisenberg

mitteln, genau genommen, nicht die Ähnlichkeit, sondern die Unähnlichkeit der unter-

suchten Objekte und werden häufig auch als Unähnlichkeitsmaße bezeichnet

Binäre Merkmale

Binäre Merkmale geben an, ob ein Tatbestand erfüllt ist oder nicht. Gekennzeichnet

wird dies durch die Ausprägungen

und A bzw. durch zwei eindeutig unterschiedli-

che Werte in der Variablen (z.B. 0 und 1). Für die Clusteranalyse ist es zwingend not-

wendig, dass in den einzubeziehenden Variablen gleiche Werte verwendet werden.

Üblicherweise werden die Ausprägungen, wie folgt, kodiert:

falls

Zur Messung der Distanz bzw. Ähnlichkeit zwischen zwei Objekten werden stets die

Wertepaare dieser betrachtet. Die folgende Tabelle 1 zeigt die vier möglichen unter-

schiedlichen Wertekombinationen [1],[15].

Tabelle 1: Wertekombinationen binärer Daten

Objekt j

Summe

1 0

1 a

a + b

Objekt i

0 c

c + d

Summe

a + c

b + d

Distanzmaße stellen grundsätzlich die Anzahl der Wertekombinationen mit unter-

schiedlichen Ausprägungen (0/1 und 1/0) in Relation zur Gesamtzahl der Wertepaare

dar. Ähnlichkeitsmaße vergleichen dagegen die Häufigkeit, mit der zwei gleiche Werte

(1/1 und 0/0) auftreten, mit der Anzahl aller Wertepaare.

Zum Teil mit Abweichungen von dieser allgemeinen Regel stehen zahlreiche Varia-

tionen für die Berechnung zur Verfügung. Folglich werden die gängigsten Maße zur Be-

rechnung genannt, aber auf deren Berechnung wird nicht eingegangen (vgl. [1]).

14 In SPSS stehen bei der Hierarchischen Clusteranalyse mehrere solcher Distanz- und Ähnlichkeitsmaße

zur Verfügung. Einige dieser Maße sind speziell für intervallskalierte Daten, andere für binäre Variablen

und wieder andere für Variablen, die Häufigkeiten enthalten, geeignet [1].

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2003
ISBN (eBook): 9783832479633
ISBN (Paperback): 9783838679631
DOI: 10.3239/9783832479633
Dateigröße: 1 MB
Sprache: Deutsch
Institution / Hochschule: Hochschule für angewandte Wissenschaften Anhalt in Köthen – Informatik
Erscheinungsdatum: 2004 (Mai)
Note: 1,3
Schlagworte: datenanalyse knowledge discovery regression modellierung modellbildung
Produktsicherheit: Diplom.de

Autor

Hendrik Eisenberg (Autor:in)

Statistische Methoden des Data Mining und deren Anwendung

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Details

Autor

Hendrik Eisenberg (Autor:in)