Data-Mining im Immobilien E-Business
Zusammenfassung
Im Zeitalter des Internets und der Globalisierung bekommt der Wettbewerbsfaktor Information als unterstützendes Instrument in Entscheidungssituationen einen immer größeren Stellenwert. Die Intensivierung globaler Handels- und Wirtschaftsbeziehungen stellen selbst kleine und mittlere Unternehmen vor komplexe Entscheidungssituationen, die eine umfangreiche und belastbare Datengrundlage erfordern. Mit der folgerichtigen Entwicklung von Anwendungen, die automatisch riesige Datenmengen sammeln und abspeichern, entwickelte sich gleichzeitig ein weiteres Problem: es kommt zur explosionsartigen Vermehrung von Daten. Eine manuelle Auswertung der immer unübersichtlicheren Datenbestände, mit traditionellen statistischen Methoden, herkömmlichen Datenbankabfragen oder Online Analytical Processing (OLAP) gelangt schnell an ihre Grenzen. Zeitmangel und natürliche Grenzen der menschlichen Kognition, lassen lediglich einen Teil der in den Daten vergrabenen und potentiell interessanten Zusammenhänge entdecken. Durch das wachsende Bedürfnis, das in den Daten schlummernde Informationspotential besser zu nutzen, entstand mit Data Mining eine neue Disziplin zur Datenanalyse. Data Mining - das sinnvolle Zusammenfassen großer Datenmengen und (halb-)automatische Auffinden neuer interessanter Zusammenhänge ist daher ein Thema das mehr und mehr an Bedeutung gewinnt.
In dieser Arbeit werden Konzepte erarbeitet, die zeigen, wie sich Data Mining zur Unterstützung von Marketing und Customer Relationship Management (CRM) im Immobilien E-Business praktisch nutzen lässt. Als Anwendungsbeispiel dient die Firma ImmoPortal-XY. Dazu werden die prinzipiellen Verfahren und Effekte des Data Mining erörtert und anschließend erarbeitet, wie sie sich im genannten praktischen Umfeld nutzbar machen lassen.
Bei der Identifikation von potentiellen Bereichen zur Verbesserung von Marketingaktivitäten und Kundenbeziehungen sollen die Bedürfnisse der Fachbereiche, die Besonderheiten des Marktes und die Ausgangssituation der benötigten Daten berücksichtigt werden. Im Rahmen eines Feldversuches soll ein Anwendungsfall praktisch untersucht werden. Dabei sollen auch Vorgehensmodelle oder best practices vorgestellt und angewandt werden. Die Ergebnisse dieser Datenanalysen müssen interpretiert und aufbereitet werden und sollen abschließend Aufschluss zum weiteren Einsatz von Data Mining bei ImmoPortal-XY bringen.
Die ersten Bemühungen, Entscheidungsträger durch […]
Leseprobe
Inhaltsverzeichnis
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
1.1 Motivation
1.2 Erörterung des Umfelds der Aufgabenstellung
1.3 Ziele und Kriterien für ImmoPortal-XY
1.4 Zielsetzung und Aufbau dieser Arbeit
1.5 Abgrenzung
2 Der Begriff Data Mining
2.1 Ansätze der Datenanalyse
2.1.1 Hypothesengetriebene Analyse
2.1.2 Hypothesenfreie/ Datengetriebene Analyse
2.1.3 Iterativ-inkrementelles Vorgehen bei der Datenanalyse
2.2 Definition Data Mining/ Knowledge Discovery in Databases
2.3 Rahmen und Abgrenzung zu verwandten Gebieten
2.3.1 Statistik
2.3.2 Explorative Datenanalyse
2.3.3 Data Warehouse
2.3.4 Online Analytical Processing (OLAP)
2.3.5 Business Intelligence (BI)
3 Knowledge Discovery in Databases (KDD)
3.1 Motivation für Data Mining-Prozessmodelle
3.2 Cross-Industry Standard Process for Data Mining (CRISP-DM)
3.2.1 Verstehen des Geschäftsablaufs (Business understanding)
3.2.2 Verstehen der Daten (Data understanding)
3.2.3 Datenvorverarbeitung (Data preparation)
3.2.4 Modellierung – (Data Mining)
3.2.5 Evaluierung (Evaluation)
3.2.6 Inbetriebnahme (Deployment)
4 Ansätze, Aufgaben und Methoden des Data Mining
4.1 Überwachtes und unüberwachtes Lernen
4.2 Data Mining-Aufgaben
4.2.1 Segmentierung
4.2.2 Klassifizierung
4.2.3 Prognose / Regression
4.2.4 Abhängigkeitsanalyse
4.3 Data Mining-Techniken
4.3.1 Überblick
4.3.2 Clusteranalyse
4.3.3 Entscheidungsbäume
4.3.4 Künstliche neuronale Netze (KNN)
4.3.5 Assoziationsanalysen
5 Fallbeispiel: Kündigerprävention
5.1 Verstehen des Geschäftsablaufs
5.1.1 Bestimmung der Geschäftsziele
5.1.2 Einschätzen der Situation
5.1.3 Bestimmung der Data Mining-Ziele
5.1.4 Zeitlicher Rahmen
5.2 Verstehen der Daten
5.2.1 Gesammelte Daten
5.2.2 Datenbeschreibung
5.2.3 Datenqualität
5.2.4 Datenexploration
5.3 Datenvorverarbeitung
5.3.1 Abgeleitete Daten
5.3.2 Datenauswahl
5.3.3 Datenbereinigung
5.3.4 Datenformatierung
5.4 Modellierung
5.4.1 Verwendete Data Mining-Technik
5.4.2 Testkriterien
5.4.3 Modellerstellung und -beurteilung
5.5 Evaluierung
5.5.1 Bewertung des Ergebnisses
5.5.2 Beurteilung des Prozesses
5.5.3 Weitere Schritte
5.6 Inbetriebnahme
6 Fazit und Ausblick
6.1 Projektbewertung
6.2 Weitere Anwendungsmöglichkeiten
Anhang A: Ergänzungen zu ImmoPortal-XY
A.1 Technisches Umfeld
Anhang B: Beschreibung der Merkmale
Anhang C: Datenexploration
C.1 Histogramme numerischer Merkmale
C.2 Histogramme nominaler Merkmale
C.3 Histogramme abgeleiteter Merkmale
Anhang D: Modellbewertung
D.1 Technische Parameter
D.2 Verwendete Dateien
Anhang E: Modellevaluierung
E.1 Kalkulationsbeispiel
Anhang F: Beiliegende CD
Literaturverzeichnis
Erklärung
Abbildungsverzeichnis
Abbildung 2-1: Datenanalysezyklus
Abbildung 2-2: Analyseszenario bei ImmoPortal-XY
Abbildung 2-3: Mehrdimensionale Darstellung und Kreuztabelle in OLAP
Abbildung 2-4: Integration von IT-Komponenten in BI-Lösung
Abbildung 3-1: Schematische Darstellung des CRISP-DM Prozessmodells
Abbildung 4-1: Mögliche Nutzersegmente bei ImmoPortal-XY
Abbildung 4-2: Verfahren der Clusteranalyse
Abbildung 4-3: Entscheidungsbaum zur Auswahl von Direktmailing-Empfängern
Abbildung 4-4: Vorwärts gerichtetes künstliches neuronales Netz
Abbildung 5-1: Stichprobenerhebung (Kündiger/ Nichtkündiger)
Abbildung 5-2: Zeitliche Erhebung der Kundenmerkmale
Abbildung 5-3: Histogramm zum Attribut „Anz_Objekte_Gesamt“
Abbildung 5-4: Wahrheitsmatrix zur Berechnung der Klassifikationsgüte
Abbildung 5-5: Erhebung der Validierungsdaten
Abbildung 5-6: Wahrheitsmatrix nach Anwendung der Validierungsdaten
Abbildung A-1: Dateninfrastruktur bei ImmoPortal-XY
Abbildung C-1: Histogramme numerischer Merkmale (Nichtkündiger=blau/unten; Kündiger=rot/oben)
Abbildung C-2: Histogramme nominaler Merkmale (Nichtkündiger=blau/unten; Kündiger=rot/oben)
Abbildung C-3: Histogramme abgeleiteter Merkmale (Nichtkündiger=blau/unten; Kündiger=rot/oben)
Abbildung D-1: Technische Parameter für C4.5-Entscheidungsbaumalgorithmus
Tabellenverzeichnis
Tabelle 1-1: Mengen-/Volumengerüst wichtiger Entitäten bei ImmoPortal-XY
Tabelle 3-1: Skalenniveaus und Attributstypen
Tabelle 4-1: Data Mining-Techniken und Aufgaben
Tabelle 5-1: Denormalisierte Analysetabelle zur Datenexploration (schematisch)
Tabelle 5-2: Abgeleitete Attribute aus erster Erhebung
Tabelle 5-3: Klassifikationsgüte der Modelle bei unterschiedlicher Attributsdarstellung
Tabelle 5-4: Klassifikationsgüte der Modelle bei unterschiedlichem Nichtkündigeranteil
Tabelle B-1: Potentielle Attribute zur Analyse Kündigerverhalten
Tabelle B-2: Deskriptive Statistik numerischer Attribute unterteilt nach Zielmerkmal
Tabelle B-3: Deskriptive Statistik nominaler Attribute unterteilt nach Zielmerkmal
Tabelle D-1: Zuordnung verwendete Trainingsdaten - Klassifikationsmodell
Tabelle E-1: Kostenmatrix zur Beurteilung der Klassifikationsgüte
Tabelle E-2: Kostenanalyse bei Anwendung des Klassifikationsmodell B3
Tabelle E-3: Kostenanalyse bei Anwendung des Klassifikationsmodell B5
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
1.1 Motivation
Im Zeitalter des Internets und der Globalisierung bekommt der Wettbewerbsfaktor Information als unterstützendes Instrument in Entscheidungssituationen einen immer größeren Stellenwert. Die Intensivierung globaler Handels- und Wirtschaftsbeziehungen stellen selbst kleine und mittlere Unternehmen vor komplexe Entscheidungssituationen, die eine umfangreiche und belastbare Datengrundlage erfordern.[1]Mit der folgerichtigen Entwicklung von Anwendungen, die automatisch riesige Datenmengen sammeln und abspeichern, entwickelte sich gleichzeitig ein weiteres Problem: es kommt zur explosionsartigen Vermehrung von Daten. Eine manuelle Auswertung der immer unübersichtlicheren Datenbestände, mit traditionellen statistischen Methoden, herkömmlichen Datenbankabfragen oder Online Analytical Processing (OLAP) gelangt schnell an ihre Grenzen. Zeitmangel und natürliche Grenzen der menschlichen Kognition, lassen lediglich einen Teil der in den Daten vergrabenen und potentiell interessanten Zusammenhänge entdecken.[2]Durch das wachsende Bedürfnis, das in den Daten schlummernde Informationspotential besser zu nutzen, entstand mit Data Mining eine neue Disziplin zur Datenanalyse. Data Mining – das sinnvolle Zusammenfassen großer Datenmengen und (halb-)automatische Auffinden neuer interessanter Zusammenhänge – ist daher ein Thema das mehr und mehr an Bedeutung gewinnt.
In dieser Arbeit werden Konzepte erarbeitet, die zeigen, wie sich Data Mining zur Unterstützung von Marketing und Customer Relationship Management (CRM) im Immobilien E-Business praktisch nutzen lässt. Als Anwendungsbeispiel dient die Firma ImmoPortal-XY[3]. Dazu werden die prinzipiellen Verfahren und Effekte des Data Mining erörtert und anschließend erarbeitet, wie sie sich im genannten praktischen Umfeld nutzbar machen lassen.
Bei der Identifikation von potentiellen Bereichen zur Verbesserung von Marketingaktivitäten und Kundenbeziehungen sollen die Bedürfnisse der Fachbereiche, die Besonderheiten des Marktes und die Ausgangssituation der benötigten Daten berücksichtigt werden. Im Rahmen eines Feldversuches soll ein Anwendungsfall praktisch untersucht werden. Dabei sollen auch Vorgehensmodelle oder best practices vorgestellt und angewandt werden. Die Ergebnisse dieser Datenanalysen müssen interpretiert und aufbereitet werden und sollen abschließend Aufschluss zum weiteren Einsatz von Data Mining bei ImmoPortal-XY bringen.
1.2 Erörterung des Umfelds der Aufgabenstellung
Die ersten Bemühungen, Entscheidungsträger durch Informationstechnologie in Entscheidungssituationen zu unterstützen, gibt es bereits seit den 60er Jahren.[4]Diese mehr oder weniger erfolgreichen Entwicklungen können unter dem Begriff Management Support Systeme (MSS) zusammengefasst werden. Seit dem letzten Jahrzehnt sind es die Technologien des Data Warehouse und OLAP, die zur Umsetzung genutzt werden. Alle genannten Technologien haben das Ziel, die im operativen Geschäft gesammelten Daten so aufzubereiten, dass sie in wertvolle Informationen und letztendlich Wissen transformiert werden können. Die Nutzung dieser Systeme geht einher mit einer ständig wachsenden Menge an Daten, sowie der Notwendigkeit einer immer schnelleren Analyse zur Erzielung und Erhaltung von Wettbewerbsvorteilen.[5]
Während die dauerhafte Speicherung bei immer preiswerteren und leistungsfähiger werdenden Speichermedien in vielen Unternehmen erfolgreich etabliert ist, steigt mit der Datenmenge jedoch die Komplexität der Analyseprozesse und damit das Risiko, dass nützliche Informationen in den Datenmassen verborgen bleiben. Vielleicht trifft es die Aussage von John Naisbitt genau auf den Punkt: „Wir ertrinken in Daten und dürsten nach Wissen".[6]
Antworten auf folgende Fragen lassen sich mit den traditionellen Verfahren beispielsweise kaum beantworten:
- Welchen meiner Kunden muss ich welches Angebot zu welchem Zeitpunkt über welchen Kommunikationskanal unterbreiten?
- Was charakterisiert einen treuen Kunden und wann wandert ein Kunde ab?
Eine neue Qualität bei der Datenanalyse versprechen die Verfahren und Techniken, die unter dem Begriff Data Mining zusammengefasst werden. Versteckte Beziehungen, Muster und Regeln, die vom Menschen allein in den großen Datenmengen nicht mehr entdeckt werden können, sollen mit Data Mining gefunden und herausgefiltert werden. Im Gegensatz zur klassischen Datenanalyse werden die Datenbestände weitestgehend hypothesenfrei (vgl. Abschnitt 2.1) mit Hilfe von (halb-)automatischen Verfahren aus der Statistik, künstlichen Intelligenz und dem maschinellen Lernen durchsucht. Diese Suche nach Mustern in Daten verspricht überall dort nützliche Potentiale, wo viele Daten anfallen. Handelsketten, Banken, Versicherungen seien nur Vertretungsweise genannt.[7]
Auch bei dem Internet-Unternehmen ImmoPortal-XY – einem Marktführer bei Immobilienanzeigen in Deutschland – wächst das Datenvolumen beständig und der Bedarf an Informationen zum Ausbau der marktbeherrschenden Stellung steigt.
1.3 Ziele und Kriterien für ImmoPortal-XY
Das Immobilienportal führt Nachfrager und Anbieter von Immobilien im deutschsprachigen Internet zusammen. Unter einer Million Objekten im Monat suchen ca. 400.000 Benutzer (Visits) täglich nach Immobilien jeder Art (z.B. Wohnung, Haus, Gewerbe, Ferien, Anlage). Zur Nutzung anmeldepflichtiger Dienste (z.B. Gesuchs-benachrichtigung, Objekt-Merkzettel), muss sich ein Nachfrager mittels E-Mailadresse registrieren. Darüber hinaus begleitet ImmoPortal-XY die Suchenden durch Zusatz-Dienstleistungen wie z.B. Umzugsplaner und Finanzierungsrechner. Für den Nachfrager sind alle Service-Arten kostenlos. Die Immobilien-Angebote werden von den anbietenden Kunden selbst inseriert und als Exposé mit Bildern, PDFs, Videos und Kartenansicht dargestellt. Bei den Anbietern handelt es sich um ca. 42.000 Privatpersonen und ca. 24.000 gewerbliche Anbieter (z.B. Makler, Haus- und Wohnungsverwaltungen, Bauträger). Die Kosten für die Objekteinstellung variieren je nach Objektanzahl und Nutzung von Zusatz-Produkten wie Top-Listing oder Highlighting.
Jeden Tag werden neue Daten generiert, die entweder für das operative Geschäft notwendig sind oder zur Prüfung der Wirtschaftlichkeit unternehmerischer Aktivitäten benötigt werden. Zum einen werden über die Web-Applikation Kunden-, Objekt- und Buchungsdaten in die operative Datenbank (DB) geschrieben. Darüber hinaus werden täglich ca. 6 GByte bzw. 3,8 Mio. Zeilen bereits auf Tagesbasis aggregierte Messdaten/Faktdaten (z.B. Exposéaufrufe, Suchanfragen) in das Data Warehouse geladen. Auch die täglichen ca. 1,5 GByte[8]großen Web-Server-Logfiles, mit detaillierten Informationen über die Seitenaufrufe der ImmoPortal-XY-Benutzer, sind eine immense Datenquelle. Darüber hinaus werden ergänzende Daten, die bei Kundenkontakten gesammelt wurden, von Mitarbeitern im CRM-System gepflegt. Eine schematische Darstellung relevanter IT-Komponenten befindet sich in Abbildung A-1.
Die wesentlichen Datenquellen für Analysen sind das Operational Data Store (ODS) und das Data Warehouse. Das ODS wird einmal am Tag mit dem Stand der operativen DB befüllt. Gelöschte Daten bleiben dabei erhalten. Personenbezogene Merkmale sind in solchen Fällen anonymisiert. Das darauf aufbauende Data Warehouse enthält zusätzlich auch historische Datensätze gleicher Entitäten auf Tagesbasis. Personenbeschreibende Daten werden allerdings nicht geladen. Einen Überblick über Datenvolumen und –menge der relevanten Daten (DB-Schema ODSUDM und DSS), sowie der wichtigsten Entitäten vermittelt die Tabelle 1-1.
Tabelle 1-1: Mengen-/Volumengerüst wichtiger Entitäten bei ImmoPortal-XY
Abbildung in dieser Leseprobe nicht enthalten
Systeme zur dauerhaften Speicherung anfallender Geschäftsdaten und OLAP-getriebene Werkzeuge zu deren Auswertung sind bereits im Unternehmen etabliert. Das Potential in den vorhandenen Daten zur Unterstützung von Marketingentscheidungen und besseren Kundenbeziehungen scheint jedoch noch nicht vollständig genutzt zu werden. Gängige Datenanalysen befassen sich i.d.R. nur mit uni- oder bivariaten[9]Auswertungen, die nicht die vollständige Komplexität von Markt- und Kundenbeziehungen berücksichtigen können.
Data Mining, als alternative Form der Datenanalyse, vermag auch komplexe, bisher unbekannte Informationen zu entdecken, die einen deutlichen Beitrag zur Wissensgenerierung im Unternehmen leisten. Nachfolgend werden denkbare Anwendungsfälle für Data Mining zur Entscheidungsunterstützung illustriert, auf die in den folgenden Kapiteln teilweise zurückgegriffen wird. Sie sollen das Thema greifbarer und die theoretischen Ausführungen dieser Arbeit verständlicher machen:
1. Optimierung von Direktmailingaktionen
Identifizieren von Kunden, die (wahrscheinlich) positiv auf Marketingaktionen reagieren, um gezielt nur solche Kunden anzusprechen (vgl. Abschnitt 4.2.2)
2. Zielgruppenspezifische Strukturierung der ImmoPortal-XY-Website
Mit Hilfe einer Nutzersegmentierung mittels Data Mining, kann die Website so optimiert werden, dass Seiteninhalte und darauf präsentierte Angebote zielgruppenorientiert zusammengefasst werden (vgl. Abschnitt 4.2.1)
3. Verbesserung der Site-Struktur bei ImmoPortal-XY
Durch das Entdecken von Auffälligkeiten im Navigationsverhalten bzw. Entdecken häufiger Bewegungspfade der ImmoPortal-XY-Benutzer, kann die Site-Struktur so verbessert werden, dass Benutzer schneller an gewünschte Ressourcen gelangen (vgl. Abschnitt 4.2.4).
4. Individualisierung des Angebots auf ImmoPortal-XY
Data Mining unterstützt das Erstellen von typischen Benutzerprofilen. Neue Besucher werden anschließend einem Profil zugewiesen, so dass personalisierte Angebote bzw. Seiteninhalte dynamisch angezeigt werden. Daraus ergeben sich Potentiale zum Cross/Up-Selling und Dynamic Pricing.
5. Verbesserung der Upgrade-Quote von Testkunden zu Stammkunden
Um den Einstieg in die professionelle Immobilienvermarktung zu erleichtern, gibt es beschränkte Testpakete. Ziel ist es, diese Test-Kunden langfristig zu binden.
6. Prognose von Exposé-Erfolgen
Für einen Anbieter ist es erstrebenswert, dass seine Immobilienanzeigen (Exposés) große Resonanz erhalten (viele Exposéaufrufe, Kontaktanfragen). Eine Untersuchung historischer Anzeigen soll Aufschluss geben, welche Objektattribute und Einstellungsmerkmale besonders interessant für Nachfrager sind.
7. Verringerung der Kündigerquote(Kündigerprävention)
Kundenbindung ist ein elementares Ziel. Abwanderungswillige Kunden vorher zu erkennen, ist für präventive Maßnahmen eine wertvolle Unterstützung (vgl. Kapitel 5).
1.4 Zielsetzung und Aufbau dieser Arbeit
Kernziel der vorliegenden Arbeit ist die Analyse, inwieweit sich Data Mining zur Deckung des oben erwähnten Informationsbedarfs bei ImmoPortal-XY nutzen lässt. Da das Thema Data Mining im zu untersuchenden Unternehmen für alle Beteiligte Neuland ist, besteht eine Aufgabe dieser Arbeit darin, das relevante Wissen über Data Mining zu strukturieren und bündig zusammenzufassen.
Im 2. Kapitel wird somit der Begriff Data Mining in den Kontext der analytischen Informationssysteme eingeordnet und zu klassischen Verfahren der Datenanalyse abgegrenzt.
Das 3. Kapitel widmet sich der übergeordneten prozessorientierten Sicht auf Data Mining (Knowledge Discovery in Databases). Hier werden die vor- und nachgelagerten Stufen von der Problemdefinition bis zur Ergebnisinterpretation vorgestellt.
In Kapitel 4 werden gängige Methoden und Techniken aus der Welt des Data Mining dargestellt und damit Data Mining im engeren Sinn vorgestellt.
Im 5. Kapitel wird ein Anwendungsfall („Kündigerprävention“) in einem Feldversuch praktisch untersucht.
Das 6. Kapitel fasst die Ergebnisse zusammen und gibt Empfehlungen zur weiteren Anwendung.
1.5 Abgrenzung
Da diese Arbeit einen praxisorientierten Hintergrund hat und das Potential von Data Mining im Vordergrund steht, soll im Rahmen der Darstellung der Data Mining Grundlagen eine Systematisierung der Methoden und Techniken erfolgen. Algorithmen im Detail spielen dabei eine untergeordnete Rolle. Eine eingehende Untersuchung der Voraussetzungen und Möglichkeiten bereitet unter anderem eine Evaluation einsetzbarer Data Mining Tools vor. Diese Analyse vorhandener Tools findet dann jedoch an anderer Stelle statt. Da die Erkenntnisse der Untersuchungen bei der Zielabgrenzung offen sind, wird auch keine automatische Integration von Data Mining Ergebnissen in die Geschäftsprozesse untersucht. Eine erweiterte Diskussion zu datenschutzrechtlichen Problemen bleibt ebenso außen vor. Trotz zahlreicher Einsatzpotentiale in wissenschaftlichen Disziplinen wie Medizin, Naturwissenschaften und Multimedia, stehen im Rahmen dieser Arbeit wirtschaftliche Anwendungsgebiete im Vordergrund.
2 Der Begriff Data Mining
In diesem Kapitel wird ein Überblick über einordnende und verwandte Begriffe zum Thema Data Mining gegeben, worauf aufbauend eine Definition von Data Mining vorgestellt werden soll. In der Literatur gibt es hierzu zahlreiche Ansätze und unterschiedliche Sichtweisen. Häufig wird eine methodenorientierte Definition verwendet, bei der eine begrenzte Sammlung von Verfahren (z.B. Entscheidungsbäume, Assoziationsregeln) der Data Mining-Disziplin zugeordnet wird. Solch eine Betrachtung ist nicht unkritisch, da sie zu uneinheitlichen Abgrenzungen führt und potentiell geeignete Data Mining-Verfahren unnötig ausgrenzt.[10]Im Abschnitt 2.1 wird deshalb eine anwendungsorientierte Einordnung vorgenommen.
2.1 Ansätze der Datenanalyse
Für ein besseres Verständnis über Einsatzmöglichkeiten von Data Mining, scheint ein anwendungsorientierter Überblick über Datenanalyseansätze sinnvoll. Datenanalysen werden auf der Grundlage von Datenbeständen durchgeführt, um gewisse Frage-stellungen zu beantworten bzw. Probleme zu lösen. Nach Art der Fragestellung kann zwischen hypothesengetriebenen und hypothesenfreien Verfahren unterschieden werden.[11]
2.1.1 Hypothesengetriebene Analyse
Bei dieser Form der Datenanalyse ist vor der eigentlichen Analyse bereits implizit bekannt, wonach gesucht werden soll. Es existieren Annahmen (Hypothesen), die mit Hilfe von gesammelten oder bei Experimenten erzeugten Daten überprüft werden. Typische Fragestellungen sind beispielsweise:
- Frage A: „Wie entwickelten sich die Objektzahlen von gewerblichen Anbietern im letzten Quartal unterteilt nach Immobilientyp?“
- Frage B: „Wie viel Prozent der Kunden, welche die Rubrik ‚Wohnen’ betraten, waren auch in der Rubrik ‚Gewerbe’ oder ‚Anlage’“?
Der Analyst hat also vorher eine Hypothese aufgestellt, die mit Hilfe verfügbarer Daten überprüft wird. Die Fragestellung A basiert z.B. auf der Hypothese „Die Anzahl eingestellter Ferienwohnungen ist im letzten Quartal auf Grund verstärkter Marketing-aktivitäten stark gestiegen.“ In solchen Fällen ist relativ klar, in welcher Form und wonach in den Daten gesucht werden soll. Hier muss z.B. nur die Kennzahl Objektanzahl, unterteilt nach Immobilientyp, für vergleichbare Tage aus dem letzten Quartal berechnet werden. Der Suchraum wird dadurch bereits erheblich eingeschränkt.
Zu dieser Kategorie der Datenanalyse gehören u.a. die traditionelle Statistik, Abfragesprachen wie SQL (Programmiersprache der 4. Generation) und die multidimensionale Analyse mittels OLAP.[12]
2.1.2 Hypothesenfreie/ Datengetriebene Analyse>
Hypothesenfreie[13] Ansätze können ohne vorzugebende Annahmen ausgeführt werden. Die Hypothesen werden stattdessen automatisch generiert und anhand der Daten geprüft. Aus der Vielzahl möglicher Hypothesen werden nur die gültigen als Ergebnis zurückgeliefert. Entsprechende analytische Fragestellungen sind deshalb weniger konkret:
- Frage A: „Welche Objekte sind besonders erfolgreich? Was charakterisiert sie?“
- Frage B: „Welchen Navigationspfad bevorzugt ein systematisch Suchender?“
Die so erzeugten Hypothesen beschreiben bisher unbekannte Regeln, Zusammenhänge bzw. allgemein Muster in den vorhandenen Daten. Eine generierte Hypothese einer Klickpfadanalyse (Frage B) könnte beispielsweise sein: „60% aller Besucher der Rubrik ‚Ferien’, gehen in den Bereich ‚Wohnen auf Zeit’, um dann wieder zurück zu springen“.
Im Gegensatz zu den hypothesengetriebenen Verfahren unterliegt die Analyse kaum einschränkenden Annahmen und ermöglicht damit die Entdeckung bisher unbekannter Muster, nach denen man aus Aufwandsgründen oder subjektiver Voreingenommenheit nicht gesucht hätte. Im Weiteren dient diese Analyseform zur Eingrenzung einer sonst unüberschaubaren Vielzahl an möglichen Hypothesen, gerade vor dem Hintergrund eines immer komplexeren Datenbestandes.
Es sei aber darauf hingewiesen, dass es in der Praxis keine vollkommen hypothesenfreien Fragestellungen gibt und eine völlig freie Suche nach irgendwelchen Mustern im Datenbestand auch als unsinnig angesehen wird. Selbst die Klickpfadanalyse (Frage B) unterliegt der Annahme, dass überhaupt irgendwelche Beziehungen zwischen einzelnen Webseiten existieren.[14]
In diese Kategorie lassen sich die Verfahren des Data Mining einordnen.
2.1.3 Iterativ-inkrementelles Vorgehen bei der Datenanalyse
Beide oben dargestellten Ansätze sind sehr idealisierte Auffassungen, die sich nicht scharf abgrenzen lassen. Da der eine Ansatz Hypothesen liefert und der andere auf Hypothesenprüfung ausgerichtet ist, scheint eine Kombination beider zu einem Datenanalysezyklus sinnvoll. Dieser umfasst die Durchführung jeweils einer hypothesengetriebenen und hypothesenfreien Analyse.
In einem ersten Schritt z.B. werden Regeln, Muster oder Zusammenhänge entdeckt (Data Mining), die in einem zweiten Schritt mit traditionellen Verfahren (z.B. OLAP, SQL) auf Richtigkeit überprüft werden. Je nach Ergebnis kann die generierte Hypothesenmenge verworfen oder modifiziert und in einem weiteren Zyklus erneut geprüft werden. Auf diese Weise können komplexe Probleme und Theorien schrittweise verfeinert werden. Eine schematische Darstellung des Prozess ist in Abbildung 2-1 visualisiert. In der Praxis werden die Synergieeffekte, die sich durch die Kombination beider Verfahren ergeben, jedoch zu selten genutzt.[15]
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2-1: Datenanalysezyklus[16]
Abbildung 2-2 demonstriert ein Analyseszenario, wie es sich bei ImmoPortal-XY zur Optimierung der Website entwickeln könnte. Die Reihenfolge der aufeinander folgenden Analysen ergibt sich ausschließlich aus dem zu Grunde liegenden Problem und den sich ergebenden Erkenntnissen einzelner Analysefälle.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2-2: Analyseszenario bei ImmoPortal-XY[17]
2.2 Definition Data Mining/ Knowledge Discovery in Databases
Zum Thema Data Mining gibt es in Literatur und Praxis zahlreiche, teilweise sehr unterschiedliche Auffassungen.[18]Eine häufig zitierte und weitgehend anerkannte Definition, die gleichzeitig von einer übergeordneten prozessorientierten Sicht (Knowledge Discovery in Databases – KDD) abgrenzt, stammt von Fayyad et al.[19]
Knowledge Discovery in Databases (KDD) bezeichnet den nicht-trivialen Prozess der Identifikation valider, neuartiger, potentiell nützlicher und klar verständlicher Muster in Daten.
Data Mining ist ein Teilschritt des KDD-Prozesses, der aus Algorithmen besteht, die in akzeptabler Rechenzeit aus einer vorgegebenen Datenbasis eine Menge von Mustern liefert.
Nachfolgend sollen die markanten Eigenschaften beider Definitionen näher erläutert werden.
- Nicht-trivial
Der Prozess wird als nicht-trivial bezeichnet, da Algorithmen zum Einsatz kommen, die einen gewissen Grad an Suchautonomie aufweisen. Die angewandten Methoden gehen damit über einfache Datenbankabfragen oder statistische Auswertungen hinaus.
- Prozess
Verwertbare Muster werden meist nicht mit einer einzigen Analyse geliefert. Der Begriff Prozess betont daher das mehrstufige, i.d.R. iterative Vorgehen bei der Wissensentdeckung.
- Muster
Ein Muster bezeichnet einen Ausdruck, der einfacher ist als die bloße Aufzählung aller Fakten einer Datenmenge.
- Valide
Die Gültigkeit der gefundenen Muster muss über die verwendete Stichprobe hinaus geprüft werden. Die Ergebnisse dürfen also keinen Zufall beschreiben, sondern müssen auch auf neue Daten anwendbar sein (statistische Sicherheit).
- Neuartig
Die Erkenntnisse müssen neu sein. Insbesondere bei wiederholten Datenanalysen wird man auf bereits bekannte Aussagen stoßen.
- Potentiell nützlich
Dieses Merkmal ist pragmatischer Natur und verlangt, dass die Ergebnisse auch verwertbar sind und sinnvolle Handlungen implizieren.
- Verständlich
Die Muster müssen nicht nur gültig sein, sondern auch in einer für den Anwender verständlichen Darstellung vorliegen.
Dass die Suche in den Daten dabei möglichst automatisch ablaufen sollte, wird in dieser Definition allerdings nicht direkt berücksichtigt. Dies kann als Kritik angemerkt werden, da der Automatismus vielfach explizit gefordert wird. Nur wenn der Benutzereingriff so gering wie möglich gehalten wird, ist die Analyse umfangreicher Datenmengen praktikabel.[20]
Die Forderung nach Automatismus hat sich dabei auch nur für die Verfahren des Data Mining im engeren Sinn, also der automatischen Generierung und Prüfung von Hypothesen, als umsetzbar erwiesen. Den gesamten KDD-Prozess, vielleicht sogar bis zu handlungsbezogenen Empfehlungen, ohne Benutzerinteraktion durchführen zu lassen, ist bei dem derzeitigen Stand der Technik nach wie vor Utopie.[21]
In der Praxis wird der Begriff Data Mining häufig aus der prozessorientierten Sicht verstanden und damit als Synonym zu KDD verwendet. Für eine methodische Einordnung im Rahmen dieser Arbeit, soll jedoch bewusst zwischen beiden Begriffen unterschieden werden. Data Mining als Prozess, mit seinen vor- und nachgelagerten Stufen (KDD), wird im Kapitel 3 vorgestellt. Data Mining im engen Sinne, also nur die Algorithmen, Verfahren und Techniken, die zur Mustersuche eingesetzt werden können, sind Gegenstand des 4. Kapitels.
2.3 Rahmen und Abgrenzung zu verwandten Gebieten
Bei dem Data Mining-Ansatz handelt es sich nicht um eine gänzlich neue Disziplin, sondern um konsequente Fortentwicklungen bereits bekannter Ansätze unter-schiedlicher Forschungsrichtungen. Neuartig ist die Fokussierung auf Algorithmen, mit denen Informationen automatisch generiert und große Datenmengen bearbeiten werden können.[22]In diesem Abschnitt werden daher Begriffe erörtert, die im Zusammenhang mit Data Mining stehen und für die eine Abgrenzung bzw. Einordnung sinnvoll erscheint.
2.3.1 Statistik
Viele Data Mining-Algorithmen implementieren statistische Methoden, die insbesondere bei Signifikanztests zur Attributsauswahl Anwendung finden. Weiterhin spielt die Statistik im Rahmen des KDD-Prozesses bei der Datenvorverarbeitung (z.B. Signifikanz- und Korrelationstests oder Faktorenanalysen zur Reduktion der Datenmerkmale) eine große Rolle (vgl. Abschnitt 3.2.3). Eine klare Trennung zwischen Data Mining und Statistik erweist sich deshalb als schwierig.
Es geht auch weniger um Gegensätze, sondern um unterschiedliche Herangehensweisen und Denkansätze. Die klassischen Methoden der Statistik (deskriptive und induktive Statistik) setzen formulierte Hypothesen voraus, die anschließend manuell geprüft werden müssen. Eine vollständige Analyse aller Zusammenhänge ist damit zwar möglich, wäre allerdings viel zu aufwändig.[23]
Die Data Mining-Disziplin dagegen erlaubt die Bearbeitung großer Datenmengen mit zahlreichen Merkmalen und geht auf Grund der Integration von Methoden aus der künstlichen Intelligenz sowie dem maschinellen Lernen weit über die Statistik hinaus.
2.3.2 Explorative Datenanalyse
Bei der explorativen Datenanalyse (auch als explorative Statistik bezeichnet) werden Daten inspiziert, um Auffälligkeiten zu finden, die Hinweise auf mögliche Daten-strukturen und Zusammenhänge liefern. Zum Methodenspektrum gehören in erster Linie die deskriptive Statistik (z.B. Mittelwerte, Mediane, Häufigkeitsverteilungen) und Visualisierungstechniken (z.B. Histogramme, Box-Plots, X-Y-Punktwolken).[24]
So wie beim Data Mining, ist die Datenanalyse weitestgehend hypothesenfrei. Da sich interaktive Exploration und Interpretation abwechseln, ist allerdings kein Automatismus umsetzbar. Weiterhin ist die Untersuchung von Zusammenhängen auf wenige Merkmale (3-6) beschränkt.[25]
Die explorative Datenanalyse gehört deshalb nicht zum Data Mining im engeren Sinn, liefert allerdings einen wertvollen Beitrag zur Datenaufbereitung innerhalb des KDD-Prozesses. So liefert sie erste Aussagen zur Interessantheit des Datenmaterials hinsichtlich der analytischen Ziele des Data Mining und dient zum Feststellen von Qualitätsproblemen (z.B. fehlende Werte, Ausreißer).[26]
2.3.3 Data Warehouse
Ein Data Warehouse ist eine homogene, unternehmensweite, entscheidungsorientierte, physische Datenbasis, die bezüglich des Informationsbedarfs individuell gestaltet ist. Wesentlich geprägt wurde der Begriff durch den amerikanischen Berater William H. Inmon, der das Data Warehouse als eine
- themenorientierte (Fokussierung auf inhaltliche Themenschwerpunkte wie z.B. Kunden, Produkte, Leistungen der Organisation),
- vereinheitlichte (homogene Bemaßung, Kodierung und Namensgebung zum Ziele eines konsistenten Datenbestandes),
- zeitorientierte (historische Daten sowie periodische Ergänzung aktueller Daten)
- und beständige (keine Änderung gespeicherter Daten, nur Hinzufügen neuer Daten)
Sammlung von Informationen zur Entscheidungsunterstützung des Managements definiert.[27]
Die im Data Warehouse gespeicherten Daten werden regelmäßig aus operativen und evtl. externen Datenquellen importiert. Meist sind umfangreiche Aufbereitungsprozesse (Selektion, Filterung, Säuberung, Transformation, Aggregation) notwendig, bevor diese in das Data Warehouse geladen werden. Dieser Prozess der Datenbefüllung wird auch als Extrahieren – Transformieren – Laden (ETL) bezeichnet.
Begründet wird die Notwendigkeit eines Data Warehouse durch die mangelnde Eignung operativer Datenbanken für analytische entscheidungsorientierte Auswertungen. Operative Datenbanksysteme unterstützen das Tagesgeschäft indem sie detaillierte Transaktionen vollständig und redundanzarm (3. Normalform) speichern. Sie sind für transaktionsorientierte Prozesse optimiert, die pro Aktion nur wenige Datensätze berühren. Im Weiteren sind operative Daten über verschiedene Systeme verteilt (heterogen), unübersichtlich (benutzerunfreundlich) und werden laufend überschrieben. Strategisch oder taktisch orientierte Auswertungen erfordern jedoch historische Daten, beziehen sich auf längere Zeiträume und bearbeiten damit eine Vielzahl von Entitäten. Häufig werden Millionen von Datensätzen in einer Auswertung verarbeitet.[28]
Durch eine separate Data Warehouse-Systemarchitektur wird der operative Betrieb nicht durch diese rechenintensiven Auswertungen belastet. Den besonderen Wert des Data Warehouse machen jedoch die Datenaufbereitungsprozesse aus, da Inkonsistenzen in operativen Datenquellen ein weit verbreitetes Hindernis sind.[29]
Das Data Warehouse stellt also eine strukturierte, einheitliche, homogene Datenbasis bereit, auf der analytische Anwendungen wie OLAP und Data Mining aufsetzen können.
2.3.4 Online Analytical Processing (OLAP)
Einen wesentlichen Beitrag zur analyseorientierten Ausgestaltung des Data Warehouse stellt OLAP dar. Der Begriff OLAP bezeichnet Software-Technologien für komplexe analytische Abfragen, wie z.B. „Zeige alle monatlichen Exposéaufrufe aus dem 1. Quartal 2006 je Immobilientyp und Bundesland des Objekts an und vergleiche sie prozentual mit dem Vorjahr.“ OLAP-Werkzeuge greifen i.d.R. auf das Data Warehouse zu und ermöglichen dem Anwender einen interaktiven Zugriff auf Unternehmensdaten. Der geistige Urvater dieses Konzepts ist E.F. Codd, der die Anforderungen an solche Systeme durch 12 Regeln festgelegt hat.[30]
Primäres Merkmal von OLAP-Werkzeugen ist die Navigation durch einen multidimensionalen Datenraum (Datenwürfel). Die operativen Daten sind hierfür in Form von Fakten (quantitative Daten/ Kennzahlen) und Dimensionen (qualitative Daten) neu angeordnet. In relationalen DB-Systemen wird die Multidimensionalität durch spezielle Modellierungstechniken (Star-/ Snowflake-Schema) erreicht. Diese Eigenschaft ermöglicht eine natürliche Sicht auf die Daten und erlaubt schnellere sowie einfacher zu formulierende Abfragen. Beispielsweise lässt sich obige Abfrage durch Verknüpfung der Kennzahl Exposéaufrufe mit den Dimensionen Region, Zeit und Objekt realisieren (vgl. Abbildung 2-3).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2-3: Mehrdimensionale Darstellung und Kreuztabelle in OLAP[31]
Die zurückgegebene Ergebnismenge kann je nach Fragestellung durch spezielle OLAP-Funktionen dynamisch angepasst werden. Die wichtigsten Operatoren beeinflussen den Detaillierungsgrad (drill-down bzw. roll-up), selektieren einen Ergebnisteil durch weitere Filterkriterien (slice and dice) oder ändern die Perspektive (rotate). Denkbar ist beispielsweise die Navigation von einem Monatsbericht in eine Wochen- oder Tagesauswertung durch einen drill-down innerhalb der Zeitdimension.
Wie bereits in Abschnitt 2.1 erörtert, unterliegt OLAP den Einschränkungen der hypothesengetriebenen Datenanalyse. Im Rahmen des KDD-Prozesses kann OLAP jedoch zur initialen explorativen Analyse oder nachgelagerten Hypothesenprüfung eingesetzt werden.
2.3.5 Business Intelligence (BI)
Der Begriff Business Intelligence (BI) umfasst ein breites Spektrum an Anwendungen und Technologien zur entscheidungsorientierten Sammlung, Aufbereitung und Darstellung geschäftsrelevanter Informationen. Es ist kein neues Produkt oder Konzept, sondern eine begriffliche Klammer um bestehende Ansätze zur Datenanalyse und zum Verständnis von Geschäftsprozessen. Eine standardisierte Definition gibt es nicht, was zu vielfältigen Auffassungen und einer zunehmenden „Verwässerung“ des Begriffs geführt hat. Im engen Sinne bezeichnet BI nur die eigentliche Analyse der Geschäftsprozesse und setzt die notwendigen aufbereiteten Daten bereits voraus. Im weitesten Sinn versteht man unter BI alle Werkzeuge, die operative Daten in entscheidungsrelevante Informationen umwandeln. Bei der prozessorientierten Auffassung werden auch die permanente Datenpflege und Anpassungen an ein sich ständig änderndes Umfeld berücksichtigt.[32]
Ein Data Warehouse ist häufig die technische Basis zur Implementierung einer BI-Lösung. Bei den darauf aufbauenden Analysen kommen u.a. OLAP, Data Mining, Dashboards und AdHoc-Abfragewerkzeuge zum Einsatz. Abbildung 2-4 zeigt die Komponenten, die im Rahmen einer BI-Strategie i.d.R. eingesetzt werden.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2-4: Integration von IT-Komponenten in BI-Lösung
Kritisch anzumerken ist die Tatsache, dass es sich bei BI nicht wirklich um ein neues Konzept handelt, sondern bereits bekannte Technologien und Methoden nur unter einem neuen Begriff verknüpft werden. Dies und die unterschiedlichsten Definitionen lassen eine Existenzberechtigung des Begriffs unter wissenschaftlichen Aspekten als fraglich erscheinen. Es erscheint dem Verfasser dieser Arbeit, dass es primär Marketing-Gründe sind, die zur Einführung dieses „Modeworts“ führten.
3 Knowledge Discovery in Databases (KDD)
Im vorherigen Kapitel wurde bereits der Unterschied zwischen Data Mining im engeren Sinne und einer übergeordneten prozessorientierten Sicht hervorgehoben. Im Folgenden Abschnitt soll zunächst die Notwendigkeit einer übergeordneten Betrachtung beschrieben werden, sowie eine Begründung für ein methodisches Vorgehen bei der Datenanalyse erfolgen. Anschließend wird mit dem Cross-Industry Standard Process for Data Mining (CRISP-DM) ein softwareunabhängiger und domänenübergreifender Standard zur Bearbeitung von Data Mining-Aufgaben vorgestellt.
3.1 Motivation für Data Mining-Prozessmodelle
Die Methoden des Data Mining umfassen Mechanismen, die aus vorhandenen Daten Zusammenhänge in Form von Mustern extrahieren. Diese Muster alleine beschreiben jedoch noch kein Wissen. Erst mit ergänzenden Bewertungs- und Interpretations-maßnahmen kann die Gültigkeit und Interessantheit der gewonnenen Aussagen für geschäftsunterstützende Aktionen ermittelt werden. Darüber hinaus sind wegweisende Aufgaben und Ziele notwendig, um eine planlose Suche nach „irgendwelchen“ Auffälligkeiten in den Datenbeständen zu vermeiden.[33]Im Weiteren müssen die zu untersuchenden Daten gezielt aufbereitet und in ein Standarddatenformat[34](denormalisierte Tabelle) transformiert werden, bevor Data Mining-Methoden überhaupt anwendbar sind. Gerade diese Datenaufbereitung ist algorithmisch zwar nicht komplex, aber die zeitaufwändigste Phase im Data Mining-Prozess und sollte deshalb in einem separaten Analyseschritt gewürdigt werden.
Bei der Anwendung von Data Mining-Methoden für betriebliche Analyseprobleme ist also ein prozessorientiertes Zusammenspiel mit Phasen der Zieldefinition, Vorverarbeitung und Ergebnisevaluation unumgänglich.
Neben der Prozessorientierung wird zusätzlich ein methodisches und nachvollziehbares Vorgehen immer wichtiger. Durch ein immer größeres Angebot an Verfahren und Werkzeugen zur Datenanalyse, steigt die Komplexität des Analyseprozesses und damit die Notwendigkeit einer Methodologie.[35]Eine Methodologie soll sicherstellen, dass die Data Mining-Bemühungen zu einem stabilen Modell führen, welches die zu Grunde liegenden Geschäftsprobleme erfolgreich lösen kann. Ohne systematisches Vorgehen besteht die Gefahr, sich ziellos durch einen „großen Datenberg zu graben“ und „Dinge zu lernen, die nicht wahr sind“ oder „[...] nicht nützlich sind“.[36]
Heute kann auf eine Reihe von Data Mining-Vorgehensmodellen zurückgegriffen werden. Diese unterscheiden sich im Wesentlichen nur hinsichtlich ihres Detaillierungsgrades (Anzahl Phasen) und der Ausrichtung an KDD-Werkzeugen. Da Datenanalysen häufig nicht geradlinig verlaufen, gibt es kein allgemeingültiges Vorgehensmodell. Allerdings werden die Mehrphasigkeit, sowie der iterative und interaktive Charakter als wesentliche Eigenschaften angesehen. Der Anwender bestimmt anhand der Ergebnisse einzelner Phasen bzw. des gesamten Prozesses den weiteren Verlauf der Analyse. Durch die noch notwendige Interaktivität wird auch die eingeschränkte Automatisierbarkeit des gesamten KDD-Prozesses offensichtlicher.[37]
Als Beispiele für Prozessmodelle sind die Ausführungen von Fayyad[38]und Berry/ Linoff[39], sowie das CRISP-DM hervorzuheben. Es wird noch deutlich werden, dass der KDD-Prozess ein universeller Beschreibungsrahmen für Datenanalyseprobleme ist. Die vor- und nachgelagerten Phasen sind auch für hypothesengetriebene Analysen notwendig. Die nachfolgenden Schritte sind allerdings auf Data Mining zugeschnitten, da hier die Problembearbeitung weniger strukturiert abläuft als bei traditionellen Analysen.[40]
3.2 Cross-Industry Standard Process for Data Mining
(CRISP-DM)
CRISP-DM ist ein industrieübergreifendes und herstellerunabhängiges Prozessmodell zur Durchführung von Data Mining-Projekten. Entwickelt wurde es von einer Interessengemeinschaft aus verschiedenen Industrieunternehmen, die ein standardisiertes Vorgehen im Bereich KDD etablieren wollen. Die Version 1.0 unterscheidet sechs Phasen, die wiederholt ausgeführt werden (vgl. Abbildung 3-1). Die Abbildung visualisiert dabei nur die wichtigsten Beziehungen, hebt allerdings noch mal das iterativ-inkrementelle Vorgehen bei der Datenanalyse hervor. Begleitet werden alle Phasen durch Dokumentationen, in denen das Vorgehen und die Ergebnisse festgehalten werden.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3-1: Schematische Darstellung des CRISP-DM Prozessmodells[41]
In den folgenden Unterabschnitten werden diese Phasen mit ihren jeweiligen Aufgaben näher erläutert. Diese Aufgaben haben keine festgelegte Reihenfolge und können wiederholt ausgeführt werden.
Das Prozessmodell selbst – und damit auch die nachfolgenden Ausführungen – konzentrieren sich auf die systematische Darstellung der notwendigen Arbeitsschritte und wie diese im Prozessgefüge zusammenspielen. Konkrete Techniken zur Umsetzung und was dabei zu beachten ist (z.B. Skalierung, Behandlung fehlender Werte, korrekte Stichprobenerhebung), wird in den Arbeiten von Berry/ Linoff (2005) und Witten/ Eibe (2005) umfassender erläutert.
3.2.1 Verstehen des Geschäftsablaufs (Business understanding)
In dieser ersten Phase wird Verständnis für den geschäftlichen Hintergrund entwickelt, um daraus Data Mining-Ziele und einen Projektplan ableiten zu können.
A) Geschäftsziele bestimmen
Zunächst müssen aus einer Unternehmensperspektive die zu erreichenden Ziele und ihre Erfolgskriterien erfasst werden. Häufig äußern die Fachbereiche konkurrierende und zu allgemeine Ziele, die ausbalanciert und priorisiert werden müssen. Die Ziele sollten so klar und realistisch wie möglich formuliert werden, um enormen Aufwand für falsch verstandene Fragestellungen zu vermeiden. Ein Geschäftsziel könnte z.B. lauten „Verbesserung der Responserate bei Direktmailingaktionen um 30%“. Bei subjektiv messbaren Ergebnissen muss wenigstens festgelegt werden, wer das Resultat bewertet.
B) Einschätzen der Situation
Diese Aufgabe dient der Erfassung aller benötigten und verfügbaren Ressourcen (Personal, Hard-/Software, Daten). Ein nicht zu unterschätzender Erfolgsfaktor ist die Identifikation eines internen Sponsors, der von der Data Mining-Strategie überzeugt ist. Im Weiteren werden alle Anforderungen (z.B. Qualität und Verständlichkeit der Ergebnisse, Endtermin), Annahmen (insbesondere schwer prüfbare Annahmen über Daten[42]) und Einschränkungen (Personalmangel, Gesetze) festgehalten. Ein weiteres Ergebnis dieser Phase ist eine Kosten/Nutzen-Analyse, in der auch versteckte Kosten für wiederholte Datenaufbereitungen und benötigte Schulungs- bzw. Lernphasen berücksichtigt werden sollten.
C) Data Mining-Ziele bestimmen
Die formulierten Geschäftsziele werden nun aus technischer Sicht beschrieben. Das o.g. Unternehmensziel könnte beispielsweise lauten „Bestimmen der Merkmale, die einen typischen Mailadressaten beschreiben, der wie gewünscht auf Mails reagiert.“ Dazu wird zunächst der Data Mining-Problemtyp bestimmt (z.B. Klassifizierung für das Mailingproblem oder Segmentierung zur zielgruppengerechten Marktbearbeitung). Anschließend werden messbare (z.B. Modellgenauigkeit, Performanz) und subjektive (Bedeutung von entdeckten Informationen aus Marketingsicht wie z.B. Kaufmuster/-gewohnheiten) Data Mining-Erfolgskriterien festgelegt.
D) Projektplan erstellen
Abgeschlossen wird die erste Phase durch die Erstellung eines Projektplans, indem alle auszuführenden Stufen mit Dauer, den benötigten Ressourcen und deren Abhängigkeiten aufgeführt werden. Wenn möglich, sollten hier die geplanten und ungeplanten Iterationen zwischen den einzelnen Phasen deutlich gemacht werden.
3.2.2 Verstehen der Daten (Data understanding)
In der zweiten Phase werden die benötigten Daten gesammelt und erforscht, um erste Informationen und einen Eindruck hinsichtlich der Datenqualität zu erhalten.
A) Daten sammeln
Es wird nun geprüft, welche Daten für das Data Mining-Ziel benötigt werden und verfügbar sind. Dabei ist u.a. festzuhalten, welche Attribute als irrelevant oder aber besonders wichtig eingeschätzt werden. Die Daten werden anschließend selektiert, zusammengefügt und ggf. in ein spezielles Analysewerkzeug geladen. Dabei werden gleichzeitig Selektionskriterien, wie die Größe der Stichprobe und evtl. Attributsbeschränkungen, festgelegt.
B) Daten beschreiben
Anschließend werden die groben Eigenschaften der gesammelten Daten beschrieben (z.B. Datenvolumen, Merkmalstypen, Skalenniveau, Formate, Wertebereiche).
In dieser Arbeit werden die in Tabelle 3-1 dargestellten Attributstypen und Skalenniveaus unterschieden. Diese bestimmen welche mathematischen Operationen oder Transformationen zulässig sind.
Tabelle 3-1: Skalenniveaus und Attributstypen
Abbildung in dieser Leseprobe nicht enthalten
Die numerischen Merkmale lassen sich noch in stetige/kontinuierliche (z.B. Gewicht) und diskrete/diskontinuierliche (z.B. Kinderzahl) Merkmalstypen kategorisieren.
Weiterhin werden für jedes Attribut beschreibende statistische Kenngrößen berechnet, die aus geschäftlicher Sicht bewertet werden. Bezüglich der zu beurteilenden Relevanz der Attribute, können Experten aus den Fachbereichen befragt werden.
C) Daten erforschen
Mit Hilfe von Visualisierungstechniken (z.B. Histogramme, Streudigramme) werden die Daten explorativ erforscht. Die Ergebnisse liefern Hinweise, ob Teilmengen oder einige Attribute näher analysiert werden sollten. Erste Hypothesen werden festgehalten und ihre Bedeutung für das Projekt bewertet (Vgl. 2.3.2 Explorative Datenanalyse).
D) Datenqualität untersuchen
Bei dieser Aufgabe wird u.a. festgestellt, ob die Daten alle benötigten Fälle abdecken (repräsentative Stichprobe) oder Konflikte bzw. Inkonsistenzen aufweisen. Des Weiteren ist festzuhalten, wie mit fehlenden Werten umzugehen ist und ob bestimmte Werteausprägungen eine besondere fachliche Bedeutung (z.B. 999.999 = unendlich) haben. Nachdem ermittelt wurde, wie häufig bestimmte Fehler oder Inkonsistenzen auftreten, sollten auch Lösungen zu deren Behandlung entworfen werden.
[...]
[1]Vgl. Kemper/ Baars (2006), S.8
[2]Vgl. Neckel/ Knobloch (2006), S.95
[3]Der tatsächliche Firmenname wurde aus datenschutzrechtlichen Gründen anonymisiert.
[4]Bekannt sind sie unter den Bezeichnungen Management Information Systeme, Decision Support Systeme und Executive Information Systeme (Vgl. Chamoni/ Gluchowski (2006), S.6ff)
[5]Vgl. Düsing (2006), S.242
[6]John Naisbitt, übersetzt aus seinem Buch Megatrends 2000, Quelle: http://www.saracus.com/saracus_22_.html_business_intelligence, letzter Abruf: 26.07.2006
[7]Vgl. Chamoni/ Budde (1997), S.9
[8]18x 60 MByte Access Logfile + 550 MB page access per Log-Daemon (jeweils komprimiert)
[9]D.h. die untersuchten Merkmale werden einzeln (maximal zwei Attribute gleichzeitig) untersucht.
[10]Vgl. Knobloch (2001), S.63f
[11]Vgl. Neckel/ Knobloch (2005), S.78ff
[12]Vgl. Neckel/ Knobloch (2005), S.79
[13] Der hypothesenfreie Ansatz wird in der Literatur teilweise auch als datengetrieben bezeichnet.
(Vgl. Lusti (1999), S.252f)
[14]Vgl. Knobloch (2001), S. 68ff
[15]Vgl. Neckel/ Knobloch (2006), S.95ff
[16]Vgl. Neckel/Knobloch (2005), S.84 Tab.2-11 und Knobloch (2001), S.71 Abb.3
[17]Angelehnt an Knobloch (2001), S.72, Abb.4
[18]Einen interessanten Überblick über diverse Definitionsansätze zeigt Küppers (1998), S.19 ff.
[19]Eigene Übersetzung aus Fayyad et.al. (1996), S.6 ff.
[20]Vgl. Küppers (1998), S.20
[21]Vgl. Chamoni/ Gluchowski (2006), S.17
[22]Vgl. Küsters/ Kalinowski (2001), S.156.
[23]Vgl. Küppers (1998), S.52 und Mena (1999), S.48 ff.
[24] Eine Einführung in Visualisierungstechniken bieten Degen (2006), S.308 ff.
und Küsters/ Kalinowski (2001), S.134 ff.
[25]Vgl. Degen (2006), S.307
[26]Vgl. Hippner/ Wilde (2001), S.73 f.
[27]Vgl. Chamoni/ Gluchowski (2006), S.13 f.
[28]Vgl. Lusti (1999), S.124 ff.
[29]Vgl. Hippner (2006), S.370
[30]Vgl. Codd, E.F./ Codd, S.B./ Salley (1993), S.12 ff.
[31]Eigene Abbildung mit nicht realen Messwerten angelehnt an Neckel/Knobloch (2006), S.80 Abb. 2-4
[32]Vgl. Preuschoff (2002), S.7 f.
[33]Vgl. Knobloch (2001), S.86.
[34]Vgl. Hippner/ Wilde (2001), S.37ff.
[35]Vgl. Neckel/ Knobloch (2006), S.94
[36]Vgl. Berry/ Linoff (2005), S.44 ff.
[37]Vgl. Düsing, (2006), S.246
[38]9 Phasen, Vgl. Fayyad et.al. S.10f.
[39]Ihr KDD-Modell kennt 11 Phasen., Vgl. Berry/ Linoff (2005), S.54ff
[40]Vgl. Neckel/ Knobloch (2005), S.183
[41]Quelle: Chapman et.al. (2000), S.13
[42]Beispiel: Ca. 10% der versendeten E-Mails werden durch einen Spam-Filter nicht zugestellt.
Details
- Seiten
- Erscheinungsform
- Originalausgabe
- Erscheinungsjahr
- 2006
- ISBN (eBook)
- 9783836624152
- DOI
- 10.3239/9783836624152
- Dateigröße
- 1.2 MB
- Sprache
- Deutsch
- Institution / Hochschule
- Private FernFachhochschule Darmstadt; Standort Pfungstadt – Informatik, Studiengang Informations- und Kommunikationsmanagement
- Erscheinungsdatum
- 2008 (Dezember)
- Note
- 2,1
- Schlagworte
- data mining business intelligence datenanalyse customer relationship management marketing
- Produktsicherheit
- Diplom.de