Lade Inhalt...

Statistische Methoden des Data Mining und deren Anwendung

©2003 Diplomarbeit 111 Seiten

Zusammenfassung

Inhaltsangabe:Zusammenfassung:
In dieser Arbeit stehen neben dem Begriff des „Data Mining“ besonders die statistischen Methoden im Mittelpunkt. Interessenten sollen den kreativen Prozess des Data Mining näher kennen lernen und erfahren, welche Rolle dabei der Statistik zukommt.
Das Ziel der Arbeit ist, eine weiterreichende Darstellung des Prozesses des Data Mining mit statistischen Methoden zu erstellen, angefangen bei der Zielfindung, über die Modellbildung, bis hin zur Bewertung der Ergebnisse. Dabei orientiert sich die Vorgehensweise der systematischen Auswertung an der Methode des CRoss Industry Standard Process for Data Mining, mit der sich Data Mining Prozesse beschreiben lassen. Zum besseren Verständnis werden grundlegende Begriffe zum Data Mining sowie die bedeutsamsten Methoden und Verfahren zur statistischen Datenanalyse erläutert, welche bei den im Anschluss aufgezeigten Data Mining Problemen zur Anwendung kommen.
Die veranschaulichten Analyseprobleme entsprechen den Aufgaben der Data Mining Cups der Jahre 2001 und 2002. Dabei werden die zur Lösung angewendeten statistischen Methoden nachvollziehbar wiedergegeben und es wird auf die kritischen Erfolgsfaktoren eingegangen. Oftmals wirken sich schon einzelne Teilentscheidungen bei der Datenaufbereitung und bei den eingesetzten Klassifizierungsmethoden auf die Lösung der Data Mining Aufgabe aus. Daher stellte sich die Frage, wie solche Abweichungen von den aufgezeigten Methoden aussehen könnten. In dieser Arbeit werden im Einzelnen verschiedene Abwandlungen durchgeführt, am Ende zusammengefasst und diskutiert.


Inhaltsverzeichnis:Inhaltsverzeichnis:
Abbildungsverzeichnis6
Tabellenverzeichnis7
1.Einleitung9
1.1Problemstellung10
1.2Ziel der Arbeit11
1.3Themenabgrenzung12
2.Der Data Mining Prozess im CRISP-DM Referenzmodell14
2.1Das CRISP-DM Referenzmodell14
2.2Die Phasen des CRISP-DM Referenzmodells15
2.2.1business understanding (Anwendungsverstehen)15
2.2.2data understanding (Datenverstehen)16
2.2.3data preparation (Datenaufbereitung)16
2.2.4modeling (Modellerstellung)17
2.2.5evaluation (Bewertung der Ergebnisse)18
2.2.6deployment (Anwendung)19
3.Grundlegende Begriffe20
3.1Die Statistik im Data Mining Prozess20
3.2Segmentierung und Klassifikation22
3.2.1Begriff der Segmentierung22
3.2.2Begriff der Klassifikation22
3.3Standardisierung23
3.4Maße für die Ähnlichkeit von Objekten24
4.Methoden der statistischen […]

Leseprobe

Inhaltsverzeichnis


ID 7963
Eisenberg, Hendrik: Statistische Methoden des Data Mining und deren Anwendung
Hamburg: Diplomica GmbH, 2004
Zugl.: Fachhochschule Anhalt, Diplomarbeit, 2003
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2004
Printed in Germany

Diplomarbeit ­ Hendrik Eisenberg
INHALT
Abbildungsverzeichnis... 6
Tabellenverzeichnis ... 7
1
Einleitung ... 9
1.1 Problemstellung ... 10
1.2 Ziel der Arbeit... 11
1.3 Themenabgrenzung... 12
2
Der Data Mining Prozess im CRISP-DM Referenzmodell... 14
2.1 Das CRISP-DM Referenzmodell... 14
2.2 Die Phasen des CRISP-DM Referenzmodells ... 15
2.2.1 business
understanding
(Anwendungsverstehen) ... 15
2.2.2 data understanding (Datenverstehen)... 16
2.2.3 data preparation (Datenaufbereitung) ... 16
2.2.4 modeling
(Modellerstellung) ... 17
2.2.5 evaluation (Bewertung der Ergebnisse)... 18
2.2.6 deployment
(Anwendung) ... 19
3
Grundlegende Begriffe... 20
3.1 Die Statistik im Data Mining Prozess... 20
3.2 Segmentierung und Klassifikation... 22
3.2.1 Begriff der Segmentierung... 22
3.2.2 Begriff der Klassifikation ... 22
3.3 Standardisierung ... 23
3.4 Maße für die Ähnlichkeit von Objekten ... 24
4
Methoden der statistischen Datenanalyse ... 27
4.1 Faktorenanalyse ... 27
4.2 Clusteranalyse ... 32
4.3 Lineare und logistische Regression ... 38
4.4 Diskriminanzanalyse... 40
4

Diplomarbeit ­ Hendrik Eisenberg
5
Gegebene Daten und Modelle... 44
5.1 Data Mining Cup 2002... 44
5.1.1 Szenario ... 44
5.1.2 Gegebene
Daten... 45
5.2 Modellbildung zum DMC 2002 Problem ... 46
5.2.1 Phase 1: business understanding... 47
5.2.2 Phase 2: data understanding... 47
5.2.3 Phase 3: data preparation ... 51
5.2.4 Phase 4: modeling... 61
5.2.5 Phase 5: evaluation ... 67
5.2.6 Phase 6: deployment ... 67
5.2.7 Andere Lösungsmethoden im Vergleich ... 68
5.3 Data Mining Cup 2001... 75
5.3.1 Szenario ... 75
5.3.2 Gegebene
Daten... 76
5.4 Modellbildung zum DMC 2001 Problem ... 77
5.4.1 Phase 2: data understanding... 78
5.4.2 Phase 3: data preparation ... 80
5.4.3 Phase 4: modeling... 83
5.4.4 Andere Lösungsmethoden im Vergleich ... 87
6
Fazit ... 94
Literatur ... 96
Anhang... 99
A1 Tabellen zum Data Mining Cup 2002 Problem... 100
A2 Tabellen zum Data Mining Cup 2001 Problem... 104
A3 Dateien auf der Begleit-CD ... 105
Ergänzung... 108
5

Diplomarbeit ­ Hendrik Eisenberg
ABBILDUNGSVERZEICHNIS
Abbildung 1: Prozessphasen des CRISP-DM... 15
Abbildung 2: Vereinfachtes Modell der Clusteranalyse... 33
Abbildung 3: Hierarchisch-agglomerative Klassifikation - Dendrogramm ... 35
Abbildung 4: Einfache lineare Regression ... 39
Abbildung 5: Logistische Regression ... 40
Abbildung 6: Diskriminanzanalyse ... 41
Abbildung 7: Datensatzstruktur (DMC 2002) ... 46
Abbildung 8: Kritische Kündigerwahrscheinlichkeit (DMC 2002) ... 51
Abbildung 9: Screeplot zur Faktorenanalyse (DMC 2002) ... 55
Abbildung 10: Datensatzstruktur (DMC 2001) ... 77
Abbildung 11: Kritische Wahrscheinlichkeit für nicht aktive Kunden (DMC 2001)... 80
6

Diplomarbeit ­ Hendrik Eisenberg
TABELLENVERZEICHNIS
Tabelle 1: Wertekombinationen binärer Daten... 25
Tabelle 2: Kundenwertmatrix (DMC 2002) ... 45
Tabelle 3: Ergebnis des Mann-Whitney-U Tests (1) (DMC 2002) ... 49
Tabelle 4: Ergebnis des Mann-Whitney-U Tests (2) (DMC 2002) ... 50
Tabelle 5: Faktorenanalyse ­ Eigenwerte und Varianzen (DMC 2002)... 55
Tabelle 6: KMO- und Bartlett-Test (DMC 2002)... 57
Tabelle 7: Kreuztabelle nach Clusterzentrenanalyse (DMC 2002) ... 63
Tabelle 8: Test der Untersuchungsmethoden an Stichproben (DMC 2002)... 66
Tabelle 9: Andere Lösungsmethoden im Vergleich (DMC 2002) ... 75
Tabelle 10: Kostenmatrix (DMC 2001)... 76
Tabelle 11: Ergebnis des Mann-Whitney-U-Tests (1) (DMC 2001)... 79
Tabelle 12: Ergebnis des Mann-Whitney-U-Tests (2) (DMC 2001)... 79
Tabelle 13: Faktorenanalyse - Eigenwerte und Varianzen (DMC 2001) ... 82
Tabelle 14: Kreuztabelle nach Clusterzentrenanalyse (DMC 2001) ... 84
Tabelle 15: Test der Untersuchungsmethoden an Stichproben (DMC 2001)... 86
Tabelle 16: Korrelation zwischen den Merkmalen ID und akiv (DMC 2001)... 87
Tabelle 17: Andere Lösungsmethoden im Vergleich (DMC 2001) ... 93
ANHANG
Tabelle A. 1: Korrelationsmatrix der Faktorenanalyse (DMC 2002)... 100
Tabelle A. 2: Anti-Image-Korrelationsmatrix der Faktorenanalyse (DMC 2002) ... 101
Tabelle A. 3: Faktorladungsmatrix der Faktorenanalyse (DMC 2002) ... 102
Tabelle A. 4: Korrelationsmatrix (DMC 2002) ... 103
Tabelle A. 5: Ausschnitt der Korrelationsmatrix (DMC 2001) ... 104
7

Diplomarbeit ­ Hendrik Eisenberg
Tabelle A. 6: Dateien auf der Begleit-CD zum Data Mining Cup 2002 Problem... 105
Tabelle A. 7: Dateien auf der Begleit-CD zum Data Mining Cup 2001 Problem... 106
8

Diplomarbeit ­ Hendrik Eisenberg
1
EINLEITUNG
Das Thema dieser Arbeit lautet ,,Statistische Methoden des Data Mining und deren An-
wendung". Neben dem Begriff ,,Data Mining" stehen dabei die statistischen Methoden
zur Datenanalyse im Mittelpunkt. Insbesondere werden jene statistischen Methoden
hervorgehoben, die beim Data Mining Cup 2002 erfolgreich zum Einsatz kamen.
In fast allen Bereichen der Industrie und Wirtschaft werden unzählige Kunden- und
Verbraucherdaten erhoben und gesammelt. Die meisten davon ruhen heutzutage unbe-
arbeitet in riesigen Datenbanken. Definiert man Daten als aufgezeichnete Fakten, so
sind Informationen die Menge der Muster oder Erwartungen, die sich hinter diesen Da-
ten verbergen. Bisherige Programme halfen zu verstehen, was in der Vergangenheit ge-
schehen ist. So konnte zum Beispiel durch geeignete Abfragen und Reports der Verkauf
des letzten Monats oder das Kaufverhalten einzelner Produkte bestimmt werden
[5],[13].
Data Mining (Knowledge Discovery in Databases) ist ein Prozess, der versteckte
Muster und Beziehungen in großen Datenmengen aufdeckt. Durch interaktive Modell-
bildung und Nutzung von statistischen Methoden und Verfahren des maschinellen Ler-
nens werden aus ,,Bergen von Daten" wertvolle, brauchbare Informationen gewonnen,
die helfen können, Entscheidungen für die Zukunft zu treffen [6],[9],[13].
Der Prozess des Data Mining ersetzt aber nicht die Statistik, denn sie erweist sich als
eine gute Ergänzung zum Data Mining. Traditionelle statistische Methoden, wie z.B. die
Regression, werden neben Data Mining Verfahren genutzt und helfen dabei, die Stich-
haltigkeit der Data Mining Ergebnisse zu überprüfen [13].
Der Data Mining Cup
1
, ein jährlich, international ausgetragener Studentenwettbe-
werb, richtet sich an Studierende von Universitäten, Fachhochschulen und Berufsaka-
demien im In- und Ausland. Die Aufgabe wird von der Technischen Universität
Chemnitz und der prudsys AG gestellt und besteht in der Analyse anonymisierter Daten.
Die Teilnehmer sollen anhand einer Trainingsmenge ein Vorhersagemodell erstellen
1 abgekürzt im Text DMC
9

Diplomarbeit ­ Hendrik Eisenberg
und dieses auf eine Klassifizierungsmenge anwenden. Dazu können sie das Software-
tool selbst wählen. Die besten Lösungen werden auf den jährlich stattfindenden Data
Mining Anwendertagen in Chemnitz prämiert [4],[20].
1.1
Problemstellung
Ziel von Data Mining ist es, bislang unbekannte und potentiell nützliche Informationen
aus Daten zu gewinnen. Computerprogramme sollen in Interaktion mit dem Menschen
dabei helfen, Regelmäßigkeiten und Muster zu entdecken, diese zu verallgemeinern und
auf zukünftige Daten anzuwenden.
Schon immer suchten Menschen nach Mustern. Jäger suchten nach Mustern im Ver-
halten des Wildes, Politiker suchen nach Mustern im Wählerverhalten und ein Wissen-
schaftler versucht, den Daten einen Sinn zu geben und die enthaltenen Muster zu
entdecken. Aus unternehmerischer Sicht gilt es, aus diesen Mustern im Verhalten Gele-
genheiten zu erkennen und diese gewinnbringend zu nutzen [5].
Die Literatur spricht weit verbreitet, wenn es um Data Mining geht, meist von einer
Wissensextraktion, d.h., es wird davon ausgegangen, dass in den riesigen Datenmengen
die Informationen schon bereitliegen und nur noch ans Licht gefördert werden müssen.
Es käme nur noch darauf an, ein Werkzeug anzuwenden.
Doch was ist Data Mining wirklich? Neben der Sichtweise der Wissensextraktion
kann Data Mining auch als kreativer Prozess der interaktiven Modellbildung angesehen
werden. Hier wird die Arbeitsteilung zwischen Mensch und Computer sehr gut sichtbar
und man kann erkennen, welche Rolle dabei dem Menschen zukommt. Eine Data Mi-
ning Methode ist nur so gut wie der Mensch, der mit ihr arbeiten kann.
Heutzutage werden die Werkzeuge immer mächtiger. Sie erlauben mehr und mehr
Einstellungen und das Erstellen stets komplexerer Modelle. Oft sind es aber die einfa-
cheren und auf die speziellen Eigenschaften des Datenmaterials zugeschnittenen Model-
le, die sich als die besten erweisen. Zudem können immer weniger Menschen gut genug
mit den Werkzeugen umgehen. Viele wissen nicht, was sie tun, aber sie tun es einfach.
Realistisch betrachtet, kann nur von Experten die genaue Kenntnis über benutzte Mo-
delle und deren Weiterentwicklung verlangt werden. Computer sollen die Menschen un-
10

Diplomarbeit ­ Hendrik Eisenberg
terstützen, mit dem Benutzer kommunizieren, ihm Vorschläge unterbreiten und mit ihm
gemeinsam Modelle erstellen [6],[9].
Ein anderer Grund der vereinfachten Sichtweise der Wissensextraktion liegt im
Marketing. Ein Produkt verkauft sich viel besser, je einfacher die Botschaften sind. Dies
wird durch die Suggestion erreicht, wobei das Wissen sowieso schon in den Daten ent-
halten wäre. Außerdem würde das Konstruieren mathematischer Modelle über den Ho-
rizont fast eines jeden Kunden hinausgehen. Die Annahme einer Art Black Box, die
man ansetzt und einfach die gewünschten Informationen heraussaugt, ist einfacher zu
verstehen als das Erstellen komplexer Modelle.
Das Data Mining Problem beschränkt sich somit nicht darauf, in einer Datenmenge
etwas zu finden, sondern etwas darüber zu konstruieren [6].
1.2
Ziel der Arbeit
In der unendlichen Vielzahl möglicher Datentypen können unterschiedliche Strukturty-
pen auftreten. Letztendlich bedarf jede Struktur eines eigenen Lernverfahrens. Bekannte
Data Mining Verfahren sind, wobei die Vollständigkeit hier nicht angestrebt wird, Ent-
scheidungsbäume, Schlussfolgerungsnetze, Clusteranalyse, Neuronale Netze sowie ge-
netische und evolutionäre Algorithmen
2
. Weiterhin werden neben den klassischen
statistischen Verfahren, wie Regressionsanalyse, Diskriminanzanalyse oder Faktoren-
analyse, die Verfahren des maschinellen Lernens, z.B. das fallbasierte Schließen, dazu-
gezählt [27].
Ziel dieser Arbeit soll die weiterreichende Darstellung des Prozesses des Data Mi-
ning mit statistischen Methoden, angefangen bei der Zielfindung, über die Modellbil-
dung, bis zur Bewertung der Ergebnisse, sein. Dies erfordert eine strukturierte
2 Für Klassifikationsaufgaben existieren viele Data Mining Verfahren wie zum Beispiel Entscheidungs-
bäume, Bayes'sche Netze oder Fallbasiertes Schließen. Bei Warenkorbanalysen kommen häufig Assozia-
tionsregeln zum Einsatz (weitere Beispiele in [17]).
11

Diplomarbeit ­ Hendrik Eisenberg
Vorgehensweise, die sich hauptsächlich an den allgemeinen Schritten des Data Mining
orientiert
3
:
·
business understanding (Anwendungsverstehen)
·
data understanding (Datenverstehen)
·
data preparation (Datenaufbereitung)
·
modeling (Modellerstellung)
·
evaluation (Bewertung der Ergebnisse)
·
deployment (Anwendung).
Zum besseren Verständnis des Prozesses des Data Mining mit statistischen Metho-
den werden im Kapitel 3 grundlegende Begriffe zum Data Mining sowie im Kapitel 4
die statistischen Methoden erläutert.
An Anwendungsbeispielen werden im Kapitel 5 die angewendeten statistischen Me-
thoden nachvollziehbar wiedergegeben und es wird auf die kritischen Erfolgsfaktoren
eingegangen.
1.3
Themenabgrenzung
Eine genaue Analyse, wie sich die Teilentscheidungen bei den Modellschritten der Data
Mining Aufgabe letztendlich auf das Ergebnis auswirkten, wird angestrebt, ist aber auf-
grund der Komplexität des Problems nur begrenzt möglich. Das Auswählen der zur
Verfügung stehenden Modelle wird begründet sowie nach anderen gesucht, wobei nicht
alle unendlichen Möglichkeiten berücksichtigt werden können. Als Leitfaden dienten
grundlegende statistische Begriffe und Modelle ebenso wie eine bildhafte Vorstellung
über geometrische Verhältnisse im Merkmalsraum.
Es werden nur die statistischen Methoden theoretisch und in der Anwendung behan-
delt (siehe Kapitel 4 und 5). Auf andere nicht statistische Verfahren im theoretischen
3 siehe Kapitel 2, Der Data Mining Prozess im CRISP-DM Referenzmodell, S.14
12

Diplomarbeit ­ Hendrik Eisenberg
und praktischen Vergleich, z.B. Entscheidungsbäume oder Neuronale Netze, wird nicht
eingegangen.
Die Betrachtung der Wirtschaftlichkeit wird in diese Arbeit nicht einbezogen. So
bilden z.B. Kosten-Nutzen-Analysen oder Wirtschaftlichkeitsberechnungen weitere zu
untersuchende Schwerpunkte.
13

Diplomarbeit ­ Hendrik Eisenberg
2
DER DATA MINING PROZESS IM CRISP-DM
REFERENZMODELL
Um die systematische Auswertung von Daten zum Erfolg zu führen, wird Data Mining
als Prozess verstanden, der sich in mehrere Schritte einteilen lässt, die von der Zieldefi-
nition bis zur Bewertung und dem Einsatz der Ergebnisse reichen.
Für die Formulierung von Modellen des KDD
4
-Prozesses gibt es verschiedene Vor-
schläge. Ein interessanter Vorschlag, der von mehreren großen Firmen unterstützt wird,
ist die Methode des CRoss Industry Standard Process for Data Mining
5
, mit der sich
Data Mining Prozesse beschreiben lassen (vgl. [18] und [11],[21],[22],[23],[27]).
CRISP-DM wurde im Rahmen eines EU-Projektes von 1996 bis 1999 entwickelt.
Die Partner DaimlerChrysler (Deutschland), NCR Systems Engineering Copenhagen
(USA, Dänemark), SPSS Inc. (USA) und der niederländische Versicherungskonzern
OHRA gründeten eine Special Interest Group und entwickelten gemeinsam diese her-
steller- und branchenübergreifende Methode
für Data Mining Projekte.
2.1
Das CRISP-DM Referenzmodell
Das Referenzmodell gliedert das gesamte Projekt in sechs Prozessphasen: business un-
derstanding, data understanding, data preparation, modeling, evaluation und deploy-
ment. Die Struktur dieses Modells zeigt die Abbildung 1, S.15.
Der Kreis deutet an, dass der Data Mining Prozess kein starres Ablaufmodell ist,
auch wenn die Phasen logisch aufeinander folgen. Oft geben spätere Phasen Erkenntnis-
se, die ein Zurückspringen auf vorhergehende Schritte nötig machen. Die Erfolge beim
Data Mining steigen stark an, wenn Data Mining als interaktiver Prozess verstanden
wird, d.h., der Benutzer prüft und bewertet Ergebnisse und nimmt gegebenenfalls Ände-
rungen und Anpassungen vor. Durch diese ständige Anpassung der Prozesse an das
Problem wird eine zielgeführte Durchführung des Projektes ermöglicht.
4 abgekürzt für Knowledge Discovery in Databases
5 abgekürzt im Text CRISP-DM
14

Diplomarbeit ­ Hendrik Eisenberg
Ebenso ist das CRISP-DM als Prozessmodell softwareunabhängig, somit ist der Be-
nutzer bei der Projektumsetzung nicht an einen Hersteller gebunden.
Die sechs Prozessphasen dienen zur Orientierung, z.B. für den Ablauf des Projekts.
Abbildung 1: Prozessphasen des CRISP-DM
2.2
Die Phasen des CRISP-DM Referenzmodells
2.2.1
business understanding (Anwendungsverstehen)
Die erste Phase sammelt die Projektziele und -anforderungen aus Unternehmenssicht.
Insbesondere Kenngrößen, wie die derzeitige Geschäftssituation, das primäre Ge-
schäftsziel und die Erwartungen an das Projekt, müssen vollständig verstanden werden.
Diese fachlichen Aspekte werden dann in eine Data Mining Problemstellung umge-
formt. Den Kern stellt dabei die Definition des Data Mining Ziels dar, welche angibt,
wie bestimmte Ergebnisse später genutzt werden sollen.
Die Bestimmung von Größe und Inhalt einer Kontrollgruppe, an der das Gelingen
des Projektes gemessen werden soll, vervollständigt neben der Erstellung eines Projekt-
15

Diplomarbeit ­ Hendrik Eisenberg
plans und dem Festlegen von Einschränkungen
6
die erste Phase des Data Mining Pro-
zesses.
2.2.2
data understanding (Datenverstehen)
Die data understanding Phase bezieht sich auf die Analyse der Datensituation. Zentraler
Aspekt ist dabei die Suche und Beurteilung von projektrelevanten Datenquellen. Neben
bestehenden Daten
7
können auch Datenquellen von Drittanbietern
8
in Betracht gezogen
werden. Bei der Nutzung verschiedener Datenquellen müssen diese aufeinander ange-
glichen werden. Zudem ist stets zu überprüfen, ob die gewünschten Informationen zur
Verfügung stehen, ob sie aktuell und zulässig sind.
Ein grundsätzliches Ziel der data understanding Phase ist weiterhin, sich mit den po-
tentiellen Daten vertraut zu machen, um ihre Stärken und Schwächen in Bezug auf das
zu realisierende Data Mining Projekt einzuschätzen. Es gilt also, erste Einsichten in die
Daten zu gewinnen und Probleme in der Qualität, wie z.B. Duplikate, Fehler oder fal-
sche Informationen in den Datenfeldern, zu erkennen. In Hypothesen oder Qualitätsre-
ports lassen sich auch Entdeckungen zu interessanten Teilmengen oder Rückschlüsse
auf Ziel- und Referenzgruppen formulieren.
2.2.3
data preparation (Datenaufbereitung)
Zunächst ist in dieser Phase zu entscheiden, welche Daten für die Analyse verwendet
werden. Danach werden diese für den weiteren Gebrauch vorbereitet. Die Daten wer-
den, wenn sie aus mehreren Quellen vorliegen, zusammengefügt. Weiterhin gilt es, die
Daten zu bereinigen, sodass weder fehlerhafte, unvollständige noch doppelte Datensätze
vorliegen. Anderenfalls ist zu entscheiden, wie mit diesen Daten umzugehen ist.
6 z.B. Personen, die bei einer Direktmailingaktion überhaupt nicht angeschrieben werden sollen, also von
vornherein ausgegrenzt werden
7 z.B. Kunden- oder Interessentendaten
8 z.B. data warehouse, amtliche Daten, Marktforschungsdaten, mikrogeografische Daten
16

Diplomarbeit ­ Hendrik Eisenberg
Im nächsten Schritt werden die Daten inhaltlich aufbereitet, d.h., sie werden in ein
verwertbares Format übertragen bzw. aus ihnen werden aussagekräftige Variablen ge-
bildet, sodass eine kenntnisreiche Datengrundlage für die weitere Analyse zur Verfü-
gung steht. Zudem ist an dieser Stelle die Gelegenheit zur Sortierung des
Datenmaterials gegeben. Weiterhin besteht die Möglichkeit, die elektronischen Daten
mit nicht elektronischen Daten, z.B. durch Nachrichten der Presse, betriebseigene Gut-
achten, anzureichern.
2.2.4
modeling (Modellerstellung)
Den analytischen Kern des Data Mining Prozesses bildet die Modellerstellung, denn
hier werden die zum Einsatz kommenden Modellierungstechniken ausgewählt. Wichtig
dabei ist, dass das gegebene Datenformat und die Dateneigenschaften berücksichtigt
werden, damit die ausgewählten Methoden mit dem Datenmaterial zusammenpassen
9
.
Bei vielen Data Mining Aufgaben wird die Aufdeckung von Zusammenhängen auf
eine Klassifikationsaufgabe reduziert. Ziel des Einsatzes von Data Mining ist es, anhand
einer Menge von Objekten mit bekannter Klassenzugehörigkeit einen Klassifikator zu
erstellen, welcher in der Lage ist, eine weitere Menge von Objekten mit unbekannter
Klassenzugehörigkeit bestmöglich zu klassifizieren. Neben der unbekannten bzw. be-
kannten Klassenzugehörigkeit besitzen die Objekte weitere Merkmale zur Beschrei-
bung, um eine umfangreiche Datenanalyse zu ermöglichen.
Die Statistik dagegen scheint aufgrund der zu vermutenden systematischen Variati-
onen der Daten ungeeignet, um Klassifikationsaufgaben zu lösen. Vorausgesetzt werden
doch zufällige Zusammenhänge und eine homogene Grundgesamtheit. Dennoch existie-
ren statistische Modelle, die zufälligen und deterministischen Zusammenhängen nach-
gehen. Auch hier ist die Zahl der zur Verfügung stehenden Verfahren, welche meist
eine lineare Struktur haben und auf den gesamten Datenbestand angewandt werden,
groß, wobei an dieser Stelle auf die in Kapitel 4 vorgestellten, wichtigsten Methoden zu
9 Oftmals existieren mehrere Modellbildungstechniken für ein Data Mining Problem, sodass es nicht aus-
zuschließen ist, mehrere Modelle zu bilden.
17

Diplomarbeit ­ Hendrik Eisenberg
den in Kapitel 5 gestellten Aufgaben des Data Mining Cups der Jahre 2002 und 2001
verwiesen wird.
Wenn ein Modell erstellt wird, müssen die Genauigkeit und Allgemeingültigkeit der
anzuwendenden Modellierungstechnik überprüft werden. Dazu werden aus Datensätzen,
die nicht der eigentlich zu klassifizierenden Datenmenge angehören, eine Trainings-
und eine Evaluierungsdatenmenge gebildet. Nun kann ein Data Mining Modell auf Ba-
sis der Trainingsdatenmenge erstellt werden. Mit Hilfe der Evaluierungsdatenmenge ist
es möglich, die Effizienz bzw. Leistungsfähigkeit des Modells zu bewerten
10
und die
Parametereinstellungen der Modellbildung so zu variieren, dass das beste Modell zur
Identifikation gefunden wird.
Das Ergebnis der Modellbildung ist eine Menge von Regeln und Segmenten, die die
Zielgruppe von einer Referenzgruppe anhand einer Reihe von Merkmalen unterscheidet.
Letztendlich werden die zu klassifizierenden Datensätze mit Hilfe des erstellten Modells
getrennt.
2.2.5
evaluation (Bewertung der Ergebnisse)
In dieser Phase werden die Lösungen nicht technisch bewertet. Einerseits wird die fach-
liche Angemessenheit der Data Mining Lösung in Frage gestellt. Abzuwägen ist zum
Beispiel, ob die Ergebnisse fachlich plausibel und die Regeln nicht widersprüchlich zur
Zielgruppe sind. Zudem ist zu kontrollieren, ob die getrennten Datensegmente die ge-
wünschte Quote repräsentieren. Andererseits bietet ein Rückblick auf die Arbeitsschritte
die Möglichkeit zu überprüfen, ob jeder einzelne Schritt so gut wie möglich durchge-
führt wurde bzw. ob dieser notwendig war.
Abschließend ist zu entscheiden, ob das Projekt erfolgreich genug ist, um mit der
nächsten Prozessphase fortzusetzen, oder ob weitere Schritte festzulegen sind, um zu-
friedenstellendere Ergebnisse zu erhalten.
10 Einige Softwaretools nutzen Lift- und Gain-Charts, um die Effizienz bzw. Leistungsfähigkeit zu beur-
teilen, z.B. der prudsys Discoverer, wie in [11] näher aufgezeigt.
18

Diplomarbeit ­ Hendrik Eisenberg
2.2.6
deployment (Anwendung)
In der deployment Phase werden die gefundenen Modelle in die Entscheidungsprozesse
des Unternehmens bzw. der Organisation eingebettet. Es wird in einem Einsatzplan ent-
schieden, in welcher Art und Weise diese umgesetzt werden können. Dazu werden die
einzelnen Modelle und Ergebnisse zusammengetragen, mögliche Probleme diskutiert
und Alternativen vorgeschlagen.
Ein so genannter Final-Report, abhängig von Art und Umfang des Einsatzplans,
kann als Projektzusammenfassung oder als letztendliche Projektpräsentation des Data
Mining Ergebnisses dienen.
19

Diplomarbeit ­ Hendrik Eisenberg
3
GRUNDLEGENDE BEGRIFFE
In dieser Arbeit werden im Zusammenhang mit dem Prozess des Data Mining und den
statistischen Methoden Begriffe, wie Standardisierung, Ähnlichkeit von Objekten, Klas-
sifikation oder Segmentierung, angewendet, die es zu erklären gilt.
3.1
Die Statistik im Data Mining Prozess
Die Motive, sich Kenntnisse auf dem Gebiet der Statistik anzueignen, sind meist sehr
unterschiedlich. Oft geht es in einer Ausbildung oder einem Studium darum, sich im
Rahmen einer Lehrveranstaltung Wissen anzueignen und dieses zu einer Prüfung wie-
derzugeben. Die Neugier und das Interesse an einem Werkzeug bilden ebenso wie nicht
vorhandene Vorurteile gegenüber einer Thematik bessere Voraussetzungen, um Fragen
aus den Bereichen der Psychologie, der Soziologie, der Wirtschaftswissenschaften usw.
nachzugehen.
Im Einklang mit [7],[9] lässt sich die Statistik als Wissenschaft vom sachgerechten
Umgang mit Massendaten definieren.
Die beschreibende Statistik (deskriptive Statistik) lässt sich dabei als Hilfsmittel zur
Beschreibung von Sachverhalten und zur Informationskomprimierung einsetzen. Die
Skalierung der auszuwertenden Merkmale
11
ist eine wichtige Eigenschaft des vorlie-
genden Datenmaterials und bei der Auswahl der verwendbaren Auswertungsmethoden
von großer Bedeutung. Dies betrifft das maschinelle Lernen genauso wie die statisti-
schen Verfahren. So kann es zum Beispiel notwendig sein, in der zweiten und dritten
Phase des CRISP-DM Standards das Datenformat umzukodieren, d.h., für die einzelnen
Methoden das richtige Skalenniveau zu wählen. Zudem ist auch denkbar, Ausreißer ab-
zuschneiden, damit diese später bei folgenden Untersuchungsmethoden nicht überbe-
wertet werden.
Anders kann die beschreibende Statistik auch bei der Visualisierung und Sichtung
der Daten zum Einsatz kommen. Durch Homogenitätstests, Abhängigkeitstests, grafi-
11 intervallskalierte, ordinalskalierte, nominalskalierte Merkmale
20

Diplomarbeit ­ Hendrik Eisenberg
sche Auswertungen und andere deskriptive Verfahren können Besonderheiten des Da-
tenmaterials schnell erkannt werden. Dies betrifft an dieser Stelle nicht nur die Phasen
des Datenverstehens und der Datenaufbereitung, sondern auch die Modellbildung profi-
tiert mehr oder weniger von diesen Erkenntnissen.
Zu den Grundaufgaben der schließenden Statistik (Inferenzstatistik) gehört das Ü-
berprüfen von Hypothesen über Zusammenhänge in Daten. Die eigentliche Lernaufga-
be, das Generieren von Hypothesen aus Daten und die Erstellung von so genannten
Konzepten, erfolgt an einem bekannten Teil und wird auf das unbekannte Ganze hoch-
gerechnet. Solche Verfahren, wie z.B. die Diskriminanzanalyse oder die logistische
Regression, kommen, auf den Data Mining Standard bezogen, in der vierten Phase der
Modellbildung zur Anwendung.
Im praktischen Data Mining ist aber eine solche scharfe Trennung zwischen beiden
Gebieten nicht realistisch. Vielmehr existiert ein intensives Wechselverhältnis zwischen
statistischen Methoden und Resultaten des maschinellen Lernens. So können z.B. aus
entdeckten Auffälligkeiten oder Strukturen neue Hypothesen entstehen.
Von weiterer entscheidender Bedeutung, sowohl für die statistische Datenanalyse als
auch für Verfahren des maschinellen Lernens, ist die Rolle, die der Zufall bei der Ent-
stehung der Daten gespielt hat. Es stellt sich die Frage, ob und, wenn mit Ja beantwor-
tet, welche Regeln, Abhängigkeiten, Bestimmungen oder Zufälle bei der Bildung des
Datenmaterials zur Anwendung kamen. Diesen Sachverhalt zu prüfen, fällt ebenso in
das Aufgabengebiet der Statistik.
Weiterhin ist die Statistik in der fünften Phase des Data Mining Prozesses, der Aus-
wertung der Ergebnisse, von wichtiger Bedeutung. Die Homogenität der Trainings- und
Klassifizierungsmenge vorausgesetzt, lassen sich durch statistische Testverfahren und
die Angabe von Konfidenzintervallen die erstellten Modelle vergleichen. Anderweitig
kann die Auswertung des Gelernten, wie in [5] genannt, mit statistischen Schätzverfah-
ren, z.B. mit Methoden der Kreuzvalidierung, erfolgen.
21

Diplomarbeit ­ Hendrik Eisenberg
3.2
Segmentierung und Klassifikation
In der Praxis sind zahlreiche Anwendungsmöglichkeiten zur thematisierten Klassifizie-
rung oder Segmentierung von Gruppen zu finden. So wird Data Mining, wie in [12] be-
handelt, im Krankenkassenumfeld oder, wie in [8] gezeigt, zur Klassifikation von
Texten angewendet. In [10] werden Lösungsmethoden von Lernverfahren zur Analyse
von Aminosäuresequenzen diskutiert. Es lassen sich weitere unzählige Anwendungsge-
biete aufführen, wobei auch die Auswahl der zur Verfügung stehenden Verfahren des
über- und unüberwachten Lernens aus dem Bereich der Künstlichen Intelligenz groß ist.
Weitere Fallbeispiele, insbesondere aus den Bereichen der Wirtschaft wie z.B. Waren-
korbanalysen oder Direktmarketingsituationen, sind ausführlich auf den Internetseiten
in [17] zu ergründen.
3.2.1
Begriff der Segmentierung
Das Ziel der Segmentierung ist es, eine Menge von Daten in verschiedene aussagekräf-
tige Untergruppen (Segmente, Cluster) zu trennen, sodass idealerweise alle Objekte ei-
ner Untergruppe die gleichen charakteristischen Eigenschaften aufzeigen. Die
Segmentierung kann in der Phase der Datenaufbereitung als auch in der Modellbildung
zur Anwendung kommen. Als Ergebnis werden entweder eine Auflistung der Objekte
der Gruppen, also eine Zuordnung der Objekte zu den einzelnen Gruppen, oder eine be-
griffliche Beschreibung dieser präsentiert.
Das Clustering bzw. in der Statistik die Varianten der Clusteranalyse sind u. a.
Techniken der Segmentierung, welche zu den Methoden des unüberwachten Lernens
gehören [15],[26].
3.2.2
Begriff der Klassifikation
Auf der Grundlage einer bekannten Klasseneinteilung gilt es, Klassifikationsregeln zu
finden, mit denen man neue, unbekannte Objekte diesen Klassen zuordnen kann. Oft-
mals werden neben der zugeordneten Klassenzugehörigkeit als Ergebnis auch die Wahr-
scheinlichkeiten ausgewiesen, mit welchen diese Zuordnung eintritt.
22

Diplomarbeit ­ Hendrik Eisenberg
Zu diesem Verfahren des überwachten Lernens gehören z.B. neben den Entschei-
dungsbäumen auch die statistischen Verfahren der logistischen Regression und der Dis-
kriminanzanalyse [15],[26].
3.3
Standardisierung
Häufig tritt bei metrischen Merkmalen das Problem der meist stark unterschiedlichen
Streuung auf.
z.B. (1):
Haushalte nach Größe und Einkommen
Die Größe reicht von 1 bis 10 Personen, das Einkommen von 0 Euro bis zu meh-
reren Millionen.
Bei der Clusterbildung erhält ein Merkmal ein größeres Gewicht, je größer die Streuung
ist. Deshalb wird zur Vereinheitlichung meist eine Standardisierung durchgeführt. Dazu
werden alle Variablen, unabhängig von ihrer Dimension
12
und Streuung, auf ein ein-
heitliches Niveau angeglichen und es besteht nicht die Gefahr, dass Variablen systema-
tisch einen unterschiedlichen Einfluss auf die gemessene Ähnlichkeit zweier Objekte
ausüben. Auch für die Berechnungen der Faktorenanalyse werden die Werte zuvor stan-
dardisiert.
Z-Werte
Ein gebräuchliches Verfahren zur Standardisierung ist die Berechnung von so genann-
ten Z-Werten. Die Werte werden so transformiert, dass sie anschließend einen Mittel-
wert von 0 und eine Standardabweichung von 1 aufweisen. Dazu wird von jedem Wert
der Stichprobenmittelwert abgezogen und danach das Ergebnis durch die Standardab-
weichung der Stichprobe dividiert.
12 Variablen unterschiedlicher Dimensionen, z.B. Kilogramm, Dollar, Euro, Wachstumsraten
23

Diplomarbeit ­ Hendrik Eisenberg
Die Standardisierung erfolgt nach der allgemeinen Form:
Merkmale
M
h
Objekte
N
i
s
x
x
z
h
h
hi
hi
,...,
2
,
1
;
,...,
2
,
1
=
=
-
=
mit
=
=
N
i
hi
h
x
N
x
1
1
(Stichprobenmittelwert) und
=
-
=
N
i
h
hi
h
x
x
N
s
1
2
)
(
1
(Standardab-
weichung). Dabei sei
die Merkmalsausprägung von Objekt
i
bei Merkmal .
hi
x
h
Meist wird bei nominalen und ordinalen Merkmalen auf eine Streuungsvereinheitli-
chung verzichtet. Die Streuungsunterschiede sind in der Regel nicht so groß, dennoch
können Gewichtungseffekte auftreten [15].
Eine Verwendung von standardisierten Werten ist in vielen Fällen sehr hilfreich. Es
können aber auch andere Transformationen
13
angewendet und in manchen Fällen ge-
genüber den standardisierten Werten vorgezogen werden [1].
3.4
Maße für die Ähnlichkeit von Objekten
Die Klassenbildung der Clusteranalyse wird über die Ähnlichkeit der Objekte gesteuert.
Deshalb hängt das Ergebnis im Wesentlichen von der Art der Ähnlichkeitsmessung ab.
Die Clusterbildung ordnet dabei Objekte mit geringer Ähnlichkeit bzw. großer Unähn-
lichkeit unterschiedlichen Clustern zu. Daher wird ein Maß benötigt, das die Ähnlich-
keit von Objekten in Zahlen, Mengenbegriffen o. Ä. beschreibt.
Distanz- und Ähnlichkeitsmaße dienen dazu, dieses Maß der Ähnlichkeit von Ob-
jekten zu quantifizieren. Beide untersuchen, wie nahe die Werte zweier Fälle oder Vari-
ablen beieinander liegen. Große Werte eines Ähnlichkeitsmaßes und kleine Werte eines
Distanzmaßes verdeutlichen eine starke Ähnlichkeit zweier Objekte. Distanzmaße er-
13 Hierzu bietet SPSS mehrere Standardisierungsverfahren an, diese können in einer Dropdown-Liste
ausgewählt werden.
24

Diplomarbeit ­ Hendrik Eisenberg
mitteln, genau genommen, nicht die Ähnlichkeit, sondern die Unähnlichkeit der unter-
suchten Objekte und werden häufig auch als Unähnlichkeitsmaße bezeichnet
14
.
Binäre Merkmale
Binäre Merkmale geben an, ob ein Tatbestand erfüllt ist oder nicht. Gekennzeichnet
wird dies durch die Ausprägungen
A
und A bzw. durch zwei eindeutig unterschiedli-
che Werte in der Variablen (z.B. 0 und 1). Für die Clusteranalyse ist es zwingend not-
wendig, dass in den einzubeziehenden Variablen gleiche Werte verwendet werden.
Üblicherweise werden die Ausprägungen, wie folgt, kodiert:
=
A
falls
A
falls
x
hi
,
0
,
1
Zur Messung der Distanz bzw. Ähnlichkeit zwischen zwei Objekten werden stets die
Wertepaare dieser betrachtet. Die folgende Tabelle 1 zeigt die vier möglichen unter-
schiedlichen Wertekombinationen [1],[15].
Tabelle 1: Wertekombinationen binärer Daten
Objekt j
Summe
x
hj
x
hi
1 0
1 a
b
a + b
Objekt i
0 c
d
c + d
Summe
a + c
b + d
Distanzmaße stellen grundsätzlich die Anzahl der Wertekombinationen mit unter-
schiedlichen Ausprägungen (0/1 und 1/0) in Relation zur Gesamtzahl der Wertepaare
dar. Ähnlichkeitsmaße vergleichen dagegen die Häufigkeit, mit der zwei gleiche Werte
(1/1 und 0/0) auftreten, mit der Anzahl aller Wertepaare.
Zum Teil mit Abweichungen von dieser allgemeinen Regel stehen zahlreiche Varia-
tionen für die Berechnung zur Verfügung. Folglich werden die gängigsten Maße zur Be-
rechnung genannt, aber auf deren Berechnung wird nicht eingegangen (vgl. [1]).
14 In SPSS stehen bei der Hierarchischen Clusteranalyse mehrere solcher Distanz- und Ähnlichkeitsmaße
zur Verfügung. Einige dieser Maße sind speziell für intervallskalierte Daten, andere für binäre Variablen
und wieder andere für Variablen, die Häufigkeiten enthalten, geeignet [1].
25

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2003
ISBN (eBook)
9783832479633
ISBN (Paperback)
9783838679631
DOI
10.3239/9783832479633
Dateigröße
1 MB
Sprache
Deutsch
Institution / Hochschule
Hochschule für angewandte Wissenschaften Anhalt in Köthen – Informatik
Erscheinungsdatum
2004 (Mai)
Note
1,3
Schlagworte
datenanalyse knowledge discovery regression modellierung modellbildung
Zurück

Titel: Statistische Methoden des Data Mining und deren Anwendung
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
111 Seiten
Cookie-Einstellungen