Anwendung von Data Mining Verfahren bei politischen Wahlkämpfen
©2017
Bachelorarbeit
72 Seiten
Zusammenfassung
Der Kern des Data Mining ist das Gewinnen von Wissen aus gigantischen Datenmengen. Dies findet heutzutage immer mehr Anwendung und spielt eine zunehmende Rolle. Bekannt sind Anwendungen von Data Mining Verfahren überwiegend aus dem Marketing Bereich. Zum größten Teil wird das Kaufverhalten der Kunden analysiert und passende Werbung geschaltet. Jedoch finden Data Mining Algorithmen seit einigen Jahren auch in der Politik Einsatz, genauer gesagt bei Wahlkämpfen. Das angestrebte Ziel dahinter ist es, Wähler durch gezieltes Ansprechen zu verunsichern. Der erste Einsatz kam 2008 bei den US-Präsidentschaftswahlen in die Schlagzeilen. Dabei wurden erstmals nur mit demografischen Daten über Wahlberechtigte gearbeitet. Bis heute wurden immense Fortschritte gemacht, sodass nun auch psychologische Daten erhoben werden. Um Wähler gezielt ansprechen zu können, müssen im ersten Schritt ihre Interessen sowie ihr Charakter analysiert und anschließend sich ähnelnde Personen in Gruppen zusammengefasst werden. An der Stelle wird das Clustering des Data Mining eingesetzt.
In dieser Thesis wird anhand von personenbezogenen Daten, die von Facebook Profilen erhoben werden, eine beispielhafte Clusteranalyse mit RapidMiner Studio durchgeführt. Um das Problem und die geschichtliche Entwicklung darzustellen, wird auf diverse Zeitungs –und Zeitschriftenartikel bezogen. Die Theorie zu Data Mining, der Clusteranalyse und zum Microtargeting beschränkt sich auf die Bereiche, die für die praktische Analyse von Bedeutung sind. Für das Data Mining wird hauptsächlich das Buch Data Mining von Cleve und Lämmel genutzt. Für das Anwendungsszenario werden zunächst die Art und Weise der Datenerhebung sowie die Daten an sich detailliert beschrieben und anschließend der Analyseprozess im RapidMiner Studio mit Screenshots erklärt und die Ergebnisse mit Diagrammen visualisiert. Das Besondere an dieser Untersuchung ist es, dass Daten über politische Ansichten der Personen zwar erhoben werden aber nicht in die Analyse einfließen. Damit soll ermittelt werden, ob in den entstandenen Clustern jeweils eine Mehrheit von politisch gleich ausgerichteten Menschen zu erkennen ist.
In dieser Thesis wird anhand von personenbezogenen Daten, die von Facebook Profilen erhoben werden, eine beispielhafte Clusteranalyse mit RapidMiner Studio durchgeführt. Um das Problem und die geschichtliche Entwicklung darzustellen, wird auf diverse Zeitungs –und Zeitschriftenartikel bezogen. Die Theorie zu Data Mining, der Clusteranalyse und zum Microtargeting beschränkt sich auf die Bereiche, die für die praktische Analyse von Bedeutung sind. Für das Data Mining wird hauptsächlich das Buch Data Mining von Cleve und Lämmel genutzt. Für das Anwendungsszenario werden zunächst die Art und Weise der Datenerhebung sowie die Daten an sich detailliert beschrieben und anschließend der Analyseprozess im RapidMiner Studio mit Screenshots erklärt und die Ergebnisse mit Diagrammen visualisiert. Das Besondere an dieser Untersuchung ist es, dass Daten über politische Ansichten der Personen zwar erhoben werden aber nicht in die Analyse einfließen. Damit soll ermittelt werden, ob in den entstandenen Clustern jeweils eine Mehrheit von politisch gleich ausgerichteten Menschen zu erkennen ist.
Leseprobe
Inhaltsverzeichnis
ii
Abbildungsverzeichnis
Abbildung 1: Das CRISP-DM Modell ... 11
Abbildung 2: Abstimmung im US-Senat ... 13
Abbildung 3: Schlechtes und optimales Clustering ... 16
Abbildung 4: Datenpunkte und 1 Iteration ... 18
Abbildung 5: 2 und 3 Iterationen ... 18
Abbildung 6: 4 und 5 Iterationen ... 18
Abbildung 7: Operator ´Read Excel´ ... 33
Abbildung 8: Import Configuration Wizard ... 33
Abbildung 9: Import Configuration Wizard (2) ... 33
Abbildung 10: Operator ´Generate ID´ ... 34
Abbildung 11: Operator ´Select Attributes´ ... 34
Abbildung 12: Parametereinstellung des ´Select Attributes´ ... 35
Abbildung 13: Operator ´Set Role´ ... 35
Abbildung 14: Parametereinstellung ´Set Role´ ... 36
Abbildung 15: Operator ´Shuffle´ ... 36
Abbildung 16: Operator ´Clustering (k-Means)´ ... 38
Abbildung 17: Parametereinstellung des ´Clustering (k-Means)´ ... 38
Abbildung 18: Erstellte Cluster (1) ... 39
Abbildung 19: Erstellte Cluster (2) ... 39
Abbildung 20: Parametereinstellung des ´Data to Similarity´ ... 45
Abbildung 21: ´Data to Similarity´ und ´Performance´... 45
Abbildung 22: Silhouetten-Messwerte ... 46
Abbildung 23: Dendrogram US Senat 2003 ... 54
Abbildung 24: Symmetrische Unähnlichkeitsmatrix ... 55
iii
Tabellenverzeichnis
Tabelle 1: Basisdaten für das k-Means Verfahren... 19
Tabelle 2: Numerische Werte für das k-Means Verfahren ... 20
Tabelle 3: Beispieldatensätze ... 30
iv
Diagrammverzeichnis
Diagramm 1: Centroiden zum ´Alter´ ... 40
Diagramm 2: Centroiden zu ´Westen_jn´ ... 40
Diagramm 3: Centroiden zu ´Süden_jn´ ... 40
Diagramm 4: Centroiden zu ´Akademiker´ ... 40
Diagramm 5: Centroiden zum ´Einkommen´ ... 41
Diagramm 6: Centroiden zu ´verheiratet´ ... 41
Diagramm 7: Centroiden zu ´Sport_jn´ ... 41
Diagramm 8: Centroiden zu ´Kunst_jn´ ... 41
Diagramm 9: Centroiden zu ´Reality-Shows_jn´ ... 42
Diagramm 10: Centroiden zu ´Serien _jn´ ... 42
Diagramm 11: Centroiden zu ´Current-affairs_jn´ ... 42
Diagramm 12: Centroiden zu ´Science-Fiction_jn´... 42
Diagramm 13: Centroiden zu ´Drama_jn´ ... 43
Diagramm 14: Centroiden zu ´Pop_jn´ ... 43
Diagramm 15: Centroiden zu ´Country_jn´... 43
Diagramm 16: Cluster 0 - Demografie und Interessen ... 46
Diagramm 17: Cluster 0 - Präferenzen ... 47
Diagramm 18: Cluster 1 - Demografie und Interessen ... 48
Diagramm 19: Cluster 1 - Präferenzen ... 48
Diagramm 20: Demografien und Interessen der Konservativen und Liberalen im
Datenbestand ... 49
Diagramm 21: Präferenzen der Konservativen und Liberalen im Datenbestand ... 50
Diagramm 22: Altersverteilung in den Clustern... 51
Diagramm 23: Altersverteilung im Datenbestand ... 51
Diagramm 24: Einkommensverteilung in den Clustern ... 52
Diagramm 25: Einkommensverteilung im Datenbestand ... 52
"You can have data without information, but you cannot have information
without data."
Daniel Keys Moran, amerikanischer Programmierer und Science-Fiction-Schriftsteller.
1 Einleitung
1
1 Einleitung
Einst sagte die US-amerikanische Politikerin und ehemalige CEO der Hewlett-Packard
Inc. Cara Carleton Fiorina: "The goal is to turn data into information, and information
into insight." Der erste Teil des Zitates beschreibt den Kern das Data Mining, nämlich
das Gewinnen von Wissen aus gigantischen Datenmengen. Dies findet heutzutage
immer mehr Anwendung und spielt eine zunehmende Rolle. Bekannt sind
Anwendungen von Data Mining Verfahren überwiegend aus dem Marketing Bereich.
Zum größten Teil wird das Kaufverhalten der Kunden analysiert und passende Werbung
geschaltet. Jedoch finden Data Mining Algorithmen seit einigen Jahren auch in der
Politik Einsatz, genauer gesagt bei Wahlkämpfen. Das angestrebte Ziel dahinter ist es,
Wähler durch gezieltes Ansprechen zu verunsichern. Der erste Einsatz kam 2008 bei
den US-Präsidentschaftswahlen in die Schlagzeilen. Dabei wurden erstmals nur mit
demografischen Daten über Wahlberechtigte gearbeitet. Bis heute wurden immense
Fortschritte gemacht, sodass nun auch psychologische Daten erhoben werden. Um
Wähler gezielt ansprechen zu können, müssen im ersten Schritt ihre Interessen sowie ihr
Charakter analysiert und anschließend sich ähnelnde Personen in Gruppen
zusammengefasst werden. An der Stelle wird das Clustering des Data Mining
eingesetzt.
In dieser Thesis soll anhand von personenbezogenen Daten, die von Facebook Profilen
erhoben werden, eine beispielhafte Clusteranalyse mit RapidMiner Studio durchgeführt
werden. Um das Problem und die geschichtliche Entwicklung darzustellen, wird auf
diverse Zeitungs und Zeitschriftenartikel bezogen. Die Theorie zu Data Mining, der
Clusteranalyse und zum Microtargeting beschränkt sich auf die Bereiche, die für die
praktische Analyse von Bedeutung sind. Für das Data Mining wird hauptsächlich das
Buch Data Mining von Cleve und Lämmel genutzt. Für das Anwendungsszenario
werden zunächst die Art und Weise der Datenerhebung sowie die Daten an sich
detailliert beschrieben und anschließend der Analyseprozess im RapidMiner Studio mit
Screenshots erklärt und die Ergebnisse mit Diagrammen visualisiert. Das Besondere an
dieser Untersuchung ist es, dass Daten über politische Ansichten der Personen zwar
erhoben werden aber nicht in die Analyse einfließen. Damit soll ermittelt werden, ob in
den entstandenen Clustern jeweils eine Mehrheit von politisch gleich ausgerichteten
Menschen zu erkennen ist. Für diesen Abschnitt werden überwiegend Vorlesungsskripte
online Operatorbeschreibungen von RapidMiner Documentation verwendet.
2 Wählerbeeinflussung
2
2 Wählerbeeinflussung
In diesem Abschnitt wird die Beeinflussung von Wählern durch Anwendung von
technischen Methoden des Data Mining bei politischen Wahlkämpfen erläutert.
Zunächst wird das Problem dargestellt. Anschließend folgt eine Beschreibung der
geschichtlichen Entwicklung der bisher genutzten Verfahren und Strategien im Internet
sowie in den sozialen Netzwerken. Abschließend wird die Zielsetzung dieser
Bachelorarbeit beschrieben.
2.1 Problemstellung
Data Mining Verfahren werden üblicherweise im Handel genutzt, um das Kaufverhalten
der Kunden zu ermitteln. Darüber hinaus werden sie ebenfalls im Customer-
Relationship-Management verwendet, um beispielsweise zu ermitteln, welches Produkt
welchem Kunden angeboten werden soll. Seit einigen Jahren finden Data Mining
Verfahren auch in der Politik Anwendung, genauer gesagt bei politischen
Wahlkämpfen.
In den Präsidentschaftswahlen im Jahr 2016 in den Vereinigten Staaten haben politische
Parteien die Wähler mithilfe des Microtargeting auf Grundlage von Daten, die Auskunft
über die Interessen der US-Bürger geben, gezielt angesprochen. Um dies zu erreichen,
haben Daten-Unternehmen persönliche Daten von amerikanischen Erwachsenen
eingeholt und diese analysiert. Jedoch ist nicht bekannt, welche genauen individuellen
Daten für die Wahlkampagne genutzt bzw. welche Cluster für die Zielgruppen
festgelegt wurden. Darüber hinaus weiß man nicht, wie viele Menschen auf die
Botschaften reagiert haben. Allgemein formuliert, ist es unbekannt, ob oder inwiefern
diese Methode das Wahlverhalten der Bürger beeinflusst, sodass es einer Partei zum
Sieg verhelfen könnte. (Wolfie, 2016)
Jedoch ermöglicht das Targeting, bestimmte Wähler zur Wahlbeteiligung zu bewegen
und andere eher davon abzuhalten. Dies nennt man Mobilisierung. Während man darauf
hin arbeitet, dass in einigen Gruppen die Menschen vermehrt an den Wahlen
teilnehmen, wird diese Anzahl in anderen Gruppen verringert. Bei dieser Strategie geht
es um das Motivieren der einen und das Enttäuschen der anderen Wähler. Wenn nun die
2 Wählerbeeinflussung
3
Anteile der erhaltenen Stimmen der einzelnen Parteien sich nicht stark voneinander
unterscheiden, fokussieren sich Wahlkampagnen auf die Mobilisierung der eigenen
Wähler. Ferner versuchen die Parteien, die Wähler der Konkurrenzparteien zu
verwirren. Somit soll erreicht werden, dass letztere sich nicht an den Wahlen beteiligen.
Das Microtargeting ist ein gut geeignetes Instrument, um diese Strategien umzusetzen.
(Wolfie, 2016)
Die Parteien nutzen die erhaltenen Daten von den Firmen, um den Profilen der Nutzer
entsprechende Nachrichten auf ihrem Facebook-Kanal einzublenden. Durch Methoden
der Rasterfahndung werden mithilfe vieler Merkmale spezifische Personen ein- oder
ausgegrenzt. Zudem sind die geteilten Postings nur für bestimmte Personen sichtbar,
wobei es so aussieht, als ob diese jedem Betrachter angezeigt werden. (Wolfie, 2016)
Die Parteien führen Experimente durch, indem sie Inhalte für definierte Gruppen auf
sozialen Netzwerken einblenden. In diesen Inhalten werden Text und Design in
unterschiedlichen Varianten dargestellt. Anschließend wird geprüft, welche Variante die
meisten Wähler zum gewünschten Verhalten leitet. (Wolfie, 2016)
Während Menschen im Internet surfen oder eine mobile Applikation verwenden,
entstehen Daten über die Person selbst. Diese persönlichen Daten werden an
Werbetreibende weitergegeben bzw. verkauft. In den USA gibt es Firmen, die sich auf
politische Wahlkampagnen konzentrieren. Sie verfügen über Datenbanken mit
detaillierten persönlichen Daten über jeden Erwachsenen, der in den USA lebt. (Wolfie,
2016)
Im folgenden Absatz wird kurz beschrieben, wie Facebook die Startseite eines jeden
Benutzers ordnet.
Generell ist Facebook heute nicht mehr nur eine Plattform, wo sich Nutzer mit
Freunden und Familie vernetzten. Auf Facebook wird nun Ware verkauft, Werbung
geschaltet und Entertainment betrieben. Auch ist Facebook für Parteien eine sehr
hilfreiche und wichtige Plattform, um ihre Wahlkampagne durchzuführen und eine hohe
Reichweite zu erreichen. Der wesentliche Vorteil einer Präsenz der Parteien auf
Facebook ist die direkte und permanente Interaktion mit den Bürgern. (Brühl, Brunner,
& Ebitsch, kein Datum)
Der Newsfeed bzw. die Startseite eines jeden Benutzers wird durch Facebook geordnet.
Zuerst sind Inhalte sichtbar, die den Interessen des Nutzers am ehesten entsprechen.
2 Wählerbeeinflussung
4
Durch Algorithmen wird errechnet, welche Posts von welchen Freunden oder
abonnierten Seiten dem Benutzer interessant erscheinen könnten. So wird verfahren,
damit der Nutzer so lange wie möglich auf der Seite bleibt. Ein wesentlicher Grund
dafür ist, dass durch längeren Aufenthalt mehr Werbung eingeblendet werden kann. Der
Facebook-Algorithmus wird geheim gehalten. Jedoch sind einige Kriterien bekannt, die
für die Prüfung der Relevanz der Inhalte entscheidend sind. Das erste Kriterium lautet
Nähe. Es wird ermittelt, wie nah sich die Benutzer sind. Dies kann man beispielsweise
anhand von gegenseitigen ´Gefällt mir-Angaben´ und Unterhaltungen messen. Ein
weiteres Kriterium ist die Popularität des Inhalts, welches ebenfalls mittels der Anzahl
der ´Gefällt mir-Angaben´ und Kommentare zu messen ist. Die persönlichen Vorlieben
des Benutzers bilden ebenso ein wichtiges Kriterium. Zuletzt wird auf die Aktualität des
geteilten Inhalts geachtet. (Brühl, Brunner, & Ebitsch, kein Datum)
Ob eine Botschaft eine hohe Reichweite erreicht, ist von der Weiterverbreitung durch
Facebook Nutzer abhängig. Das bedeutet, dass die Macht nicht mehr bei den Anbietern,
sondern bei den Nachfragern liegt. (Brühl, 2017)
2.2 Geschichtliche Entwicklung
1969 wurde zunächst das Unternehmen Acxiom gegründet. Es ist ein
Marketingunternehmen, das damals in den USA im Auftrag der Demokratischen Partei
Listen mit Adressen der Wahlberechtigten vorbereitete. Bereits zu diesem Zeitpunkt
begann man in Amerika Gruppen von Wählern anhand ihrer demographischen Daten
gezielt anzusprechen. Ebenso wurden diese Daten dafür genutzt, um eigene politische
Botschaften zu optimieren. 1996 wurde zum ersten Mal mit Daten über Lifestyle und
Konsumverhalten für die Wahlkampagne von Bill Clinton gearbeitet. Bei den 55.
Präsidentschaftswahlen in den Vereinigten Staaten im Jahr 2004 besaß sowohl die
Partei von George W. Bush als auch die von John Kerry Daten über jeden
amerikanischen Wahlberechtigten. (Wolfie, 2016)
2008 betrieb Barack Obama seine Wahlkampagne auf Facebook und Twitter. Dadurch
wurde beabsichtigt, Wähler zu mobilisieren und Spenden zu sammeln. (Kolb, 2012)
Michal Kosinski ist ein russischer Psychologe, der sich auf das Fachgebiet der
Psychometrik, auch Psychometrie oder Psychografie genannt, spezialisiert hat. Er
2 Wählerbeeinflussung
5
entwickelte 2008 ein Modell, mit dem man die Aktionen der Menschen auf Facebook
untersuchen kann. (Grassegger & Krogerus, 2016)
Im schweizerischen ´Das Magazin´ wird die Psychometrie folgendermaßen definiert:
,,Psychometrie [...] ist der wissenschaftliche Versuch, die Persönlichkeit eines
Menschen zu vermessen." (Grassegger & Krogerus, 2016)
Um das umzusetzen, wird das sogenannte Ocean-Modell verwendet. In diesem Modell
werden fünf Kriterien, die Big Five, zur Untersuchung der Persönlichkeit eines
Menschen herangezogen. Diese Dimensionen wurden von zwei Psychologen in den
1980er Jahren entwickelt. Diese fünf Dimensionen sind Offenheit, Gewissenhaftigkeit,
Extraversion, Verträglichkeit und Neurotizismus. Der Neurotizismus beschreibt die
Verletzlichkeit. Nach Analyse dieser Kriterien lässt sich der Charakter eines Menschen
ermitteln. Es ist sogar möglich, einige Verhalten der Person vorherzusagen. Damals
erfolgte die Datenerfassung mittels Ausfüllen von persönlichen Fragebögen. Im Jahr
2008 entwickelte Kosinski zusammen mit einem Kollegen an der Cambridge University
eine mobile Applikation namens ´MyPersonality´ für Facebook, wo Nutzer wiederum
persönliche Fragen beantworten konnten. Anschließend wurde der Charakter
ausgewertet und die Daten der Nutzer in der Datenbank gespeichert. Somit erhielten die
beiden Psychologen nach kurzer Zeit eine große psychologische Datenmenge über
Personen. In den darauf folgenden Jahren wurden durch die Arbeitsgruppe von Kosinski
die Ergebnisse der Fragebögen mit den Angaben der Nutzer auf Facebook wie
Geschlecht, Alter etc. verglichen. Somit wurden Beziehungen zwischen den Daten
abgeleitet, dass beispielsweise Personen, denen öfter philosophische Inhalte gefallen,
eher in sich verschlossen sind. (Grassegger & Krogerus, 2016)
Das Modell wurde optimiert, sodass im Jahr 2012 anhand von ungefähr 68 ´Gefällt mir-
Angaben´ eines Nutzers u.a. dessen Hautfarbe sowie politische und religiöse
Orientierung mit ca. 85- bis 95-prozentiger Wahrscheinlichkeit prognostiziert werden
konnten. Durch weitere Verfeinerungen sei es mit 300 ´Gefällt mir-Angaben´ des
Nutzers möglich, sein zukünftiges Verhalten genauer vorauszusagen als durch einen
Freund oder einer Freundin. Mittlerweile könne man einen Nutzer nur mit seinem
Portrait bereits dem Ocean-Modell einordnen. Genauso, wie man aus Massendaten
persönliche Profile erstellte, war eine Suche nach Personen mit bestimmten
Eigenschaften möglich. Daher wird die Erfindung im Artikel als eine
Menschensuchmaschine bezeichnet. (Grassegger & Krogerus, 2016)
2 Wählerbeeinflussung
6
Im selben Jahr arbeiteten die Präsidentschaftskandidaten Barack Obama und Mitt
Romney bei ihren Wahlkampagnen mit rund 500 Daten pro US Bürger. Unter diesen
Daten waren z. B. Informationen wie die Automarke, der Bildungsstand, Abonnements
etc. vorhanden. Mithilfe von Algorithmen und dem Verfahren des Targetings wurde
ermittelt, welche Gruppe mit welchen Nachrichten angesprochen werden sollte. Die
Bevölkerung wurde dafür in kleine Gruppen unterteilt, sodass man diesen passende
Inhalte schicken konnte. Anhand dieser Daten wurde genau ermittelt, auf welchen
Wegen man den Wählern die Botschaften übermitteln sollte. Diese waren
beispielsweise Anzeigen auf Facebook oder Broschüren mit Informationen. Darüber
hinaus wurden Tracking Tools eingerichtet, um das Verhalten der Nutzer im Browser zu
verfolgen. Nach Angaben waren im September 2012 auf der Webseite
barackobama.com 73 Spione im Einsatz und auf mittromney.com 40 Spione. Da Zac
Moffat damals herausfand, dass Amerikaner immer mehr Zeit im Internet verbrachten
als beim Fernsehen, konzentrierte man sich auf Werbungen auf Facebook und YouTube
etc. (Kolb, 2012)
Da Barack Obama und somit die Demokratische Partei in zwei aufeinander folgenden
Wahlkämpfen Verfahren des Data Mining zusammen mit Big Data nutzten und siegten,
hatten sie einen deutlichen Vorteil und mehr Erfahrung im Vergleich zu den
Republikanern. Nach zwei Niederlagen gab die Republikanische Partei 100 Millionen
US Dollar für ein Datencenter und weitere Techniken aus, um dem Fortschritt folgen zu
können. (Maier, Matheis, & Voß, 2016)
Zu Beginn des Jahres 2014 erhielt der Psychologe Michal Kosinski einen Auftrag vom
damaligen Assistenzprofessor Alexandr Kogan, zehn Millionen Facebook Konten von
US Bürgern zu analysieren. Es sei ein Auftrag des Unternehmens SCL Group bzw.
Strategic Communications Laboratories.
1
Kosinski lehnte den Auftrag ab. Laut dem
Magazinartikel machte SCL durch Kogan die erste Bekanntschaft mit dem Ocean-
Modell. (Grassegger & Krogerus, 2016)
1
,,SCL (Strategic Communication Laboratories) Group ist ein britisches Unternehmen für
Verhaltensforschung und strategische Kommunikation. SCL nutzt Data mining und Datenanalyse, um
Kommunikationsmaßnahmen auf bestimmte Zielgruppen maßgerecht zuschneiden zu können und so
Verhaltensänderungen (wie etwa Wahlentscheidungen) im Sinne der Kunden von SCL zu bewirken. SCL
gründete Cambridge Analytica und betrat damit 2012 den Markt in den Vereinigten Staaten." (Wikipedia
(Hr.) (2), 2017)
2 Wählerbeeinflussung
7
Am Ende desselben Jahres unterstützte Cambridge Analytica zum ersten Mal eine
Wahlkampagne für Ted Cruz von der Republikanischen Partei. (Grassegger &
Krogerus, 2016)
Am 19. September 2016 hielt Alexander Nix, der CEO von Cambridge Analytica, am
Concordia Annual Summit
2
eine Präsentation. Er stellte das Modell vor, mit dem eine
Wahlkampagne online unterstützt wurde. Demnach wird die Bevölkerung in
einheitliche Gruppen geteilt. Im Gegensatz zu dieser Methode hätte Hillary Clinton, die
Präsidentschaftskandidatin der Demokratischen Partei, nur mit demographischen Daten
gearbeitet. Ferner erklärte Nix in seinem Vortrag, dass das Unternehmen ein Modell
konstruiert hat, womit der Charakter von jedem amerikanischen Erwachsenen
vermessen werden kann. Wichtige Bausteine, mit denen das Unternehmen arbeite, seien
Big Data, das Ocean-Modell und das Micro- bzw. Ad-Targeting. Massendaten wurden
u. a. aus Grundbucheinträgen und Wählerverzeichnissen beschaffen. In den Vereinigten
Staaten ist es nicht schwierig persönliche Daten von Bürgern zu besorgen. Dafür stehen
Informationsdienstleister wie Acxiom oder Experian zur Verfügung. Cambridge
Analytica setzte diese Daten mit den Wählerlisten der Partei und den Informationen aus
den Facebook Aktionen in Verbindung, sodass mithilfe des Ocean-Modells
Persönlichkeitsprofile erstellt wurden. (Grassegger & Krogerus, 2016)
Aus dem Magazinartikel geht hervor, dass die Methoden dieses Unternehmens völlig
gleich zu dem Modell von Kosinski seien. Laut Nix besäße das Unternehmen Profile
von 220 Millionen Menschen. Das sind alle Erwachsenen in den USA. In einem
weiteren Vortrag beschrieb Nix die Vorgehensweise des Targetings in Bezug auf das
Waffengesetz. Einer furchtsamen Person wurde die Botschaft beispielsweise in Form
eines Bildes mit einem Eindringling vermittelt, um die Waffe als Verteidigungsmittel
darzustellen. (Grassegger & Krogerus, 2016)
Im Juni 2016 wurde verkündet, dass Donald John Trump, der Präsidentschaftskandidat
der Republikanischen Partei, seine Wahlkampagne in Zusammenarbeit mit Cambridge
Analytica führte. Als die dritte Debatte zwischen den Präsidentschaftskandidaten Trump
und Clinton stattfand, wurden vom Wahlkampf Team der Republikaner 175 Tausend
Arten der Argumente von Trump hauptsächlich über Facebook verschickt. Diese
2
,,The Concordia Annual Summit convened the world's most prominent business, government, and
nonprofit leaders to enable effective partnerships for impact. Thought leaders and innovators gathered at
this global affairs forum to examine the world's most pressing challenges and identify avenues for
collaboration." (Concordia (Hr.), 2016)
2 Wählerbeeinflussung
8
wurden den Persönlichkeitsprofilen jedes Nutzers entsprechend gestaltet. Laut CEO Nix
wurden beispielsweise an die Bewohner von Little Haiti in Miami Botschaften
verschickt, dass die Stiftung von Clinton nach dem Erdbebenunglück in Haiti
gescheitert sei. Ein weiteres Beispiel zum Thema Targeting war, dass Afroamerikanern
ein Video eingeblendet wurde, in dem Hillary Clinton dunkelhäutige Männer Raubtiere
nannte. Wie im vorigen Abschnitt beschrieben, wird diese Strategie verfolgt, um die
Wähler der Konkurrenzparteien von der Wahlbeteiligung fern zu halten. (Grassegger &
Krogerus, 2016)
Im Juli 2016 wurde eine mobile Applikation entwickelt, mit der man die politische
Ansicht sowie das Charakterprofil von jeder Person der privaten Haushalte sehen
konnte. Falls die Applikation befürwortete, dass ein Haushalt für die Vermittlung der
Nachrichten der Republikaner geeignet war, wurden dort Hausbesuche abgestattet.
Zudem waren Gesprächsleitfaden für jeden Charaktertyp vorhanden, an denen sich die
Wahlhelfer orientierten. Nach den Gesprächen bzw. Hausbesuchen wurde die
Verhaltensweise der Personen in der Applikation mit neuen Informationen aktualisiert.
(Grassegger & Krogerus, 2016)
Ferner stellte Cambridge Analytica 32 Persönlichkeitstypen vor, die die ganze
Bevölkerung der Vereinigten Staaten abdecken. Im Rahmen der Wahlkampagne für
Trump fokussierte man sich auf 17 Staaten. Nachdem Daten ausgewertet wurden, kam
man zu der Erkenntnis, dass Amerikaner, die in den USA hergestellte Autos
bevorzugen, am ehesten für Donald Trump stimmen würden. Nach Forschungen des
Psychologen Michal Kosinski erhöhten sich durch die Strategie von Cambridge
Analytica die Klickraten von Facebook Anzeigen um ca. 60 Prozent. (Grassegger &
Krogerus, 2016)
In Deutschland wird im Gegensatz zu Amerika der Datenschutz strikter gehandhabt.
Somit können die Parteien hier nicht private Daten über die Bevölkerung von
Marketingunternehmen abkaufen, geschweige denn solche Daten auswerten. (Von
Billerbeck & Beckedahl, 2016)
2 Wählerbeeinflussung
9
2.3 Zielsetzung der Bachelorarbeit
In
der
vorliegenden
Bachelorarbeit
wird
beabsichtigt,
ein
plausibles
Anwendungsszenario für die bei politischen Wahlkämpfen genutzten Data Mining
Verfahren zu erarbeiten. Als Untersuchungsgebiet wurde die Politik gewählt, da
einerseits die Anwendung von Data Mining in diesem Bereich bis vor einigen Jahren
nicht üblich war und dort erst seit kurzer Zeit immer mehr Verwendung findet.
Andererseits steigt der Fortschritt bei der Nutzung dieser Verfahren enorm, sodass es zu
einem aktuellen Thema auf der ganzen Welt wird. Nahezu bei jedem wichtigen
Referendum und bei jeder großen Wahl kommt das Thema Big Data und Data Mining
in der Politik in die Schlagzeilen.
Vor der Untersuchung des Sachverhalts werden folgende Hypothesen aufgestellt:
· Durch die technische Analyse von großen Mengen an personenbezogenen Daten
mithilfe von Data Mining Verfahren können Personen anhand der Ähnlichkeiten
bezüglich der demographischen und psychologischen Daten in Gruppen
unterteilt werden.
· Die Clusteranalyse eignet sich gut für die Unterteilung von Personen mit
ähnlichen Eigenschaften in homogene Gruppen.
Folglich sollen folgende Fragen beantwortet werden:
· Woher und welche personenbezogenen Daten können erfasst werden? Welche
sind käuflich erwerbbar? Zu welchen Daten hat man freien Zugang?
· Wie wird die Clusteranalyse technisch durchgeführt, um Daten zu auszuwerten?
· Welches Distanz- bzw. Ähnlichkeitsmaß ist für die Clusterbildung anhand von
personenbezogenen Daten geeignet?
· Wie werden entstandene Cluster visualisiert und interpretiert?
· Wie wird die Güte der entstandenen Cluster evaluiert?
Um das Anwendungsszenario zu erarbeiten, werden diverse Quellen zum Thema
Clusteranalyse recherchiert. Ebenso wird versucht, Informationen über die in der Praxis
angewandten Methoden des Clustering Verfahrens zu finden.
3 Data Mining
10
3 Data Mining
In diesem Abschnitt werden Definitionen des Begriffs Data Mining aufgeführt und der
Prozess anhand des CRISP-DM Modells beschrieben. Anschließend wird ein
praktisches Beispiel zur Datenanalyse in der Politik mithilfe von Data Mining
Verfahren geschildert. Zum Schluss wird die Clusteranalyse bzw. das k-Means
Verfahren im Detail thematisiert, was im späteren Anwendungsszenario verwendet
wird.
In ihrem Buch ´Data Mining´ definieren die Autoren Cleve und Lämmel den Begriff des
Data Mining folgendermaßen: ,,Data Mining (Datenschürfen) ist die Extraktion von
Wissen aus Daten." (Cleve & Lämmel, 2016, S. 38)
Somit wird aus Daten Wissen gewonnen, was vorher nicht offenkundig war. (Cleve &
Lämmel, 2016, S. 38)
Eine andere Quelle beschreibt Data Mining als einen Prozess, in dem Muster und
Wissen in großen Datenmengen herausgefunden werden. Daten können dabei in
Datenbanken, Data Warehouses oder im Netz gespeichert sein. (Han, Pei, & Kamber,
2011, S. 8)
Im Rahmen des Data Mining werden zunächst geeignete Verfahren bzw. Algorithmen
gewählt, um sie auf vorhandene Daten anzuwenden. Dabei ist die Auswahl des
Verfahrens stark von der vorliegenden Aufgabe abhängig. Nachdem man sich für ein
geeignetes Verfahren entschieden hat, werden Parameter vergeben bzw. festgelegt.
Diese können beispielsweise die Auswahl der Attribute oder die Anzahl der Cluster
sein. Anschließend werden mithilfe dieser Analysen auf Basis von ähnlichen Daten
Muster ermittelt. Am Ende wird ein Modell angefertigt, mit dem die Daten evaluiert
werden. (Cleve & Lämmel, 2016, S. 11)
Zu den Verfahren des Data Mining gehören Entscheidungsbäume im Rahmen von
Klassifikationsanalysen, Neuronale Netze, Cluster- sowie Assoziationsanalysen.
Mögliche Einsatzgebiete sind beispielsweise die Bonitätsbewertung, die
Kundensegmentierung und die Warenkorbanalyse. (Chamoni, 2016)
Details
- Seiten
- Erscheinungsform
- Originalausgabe
- Erscheinungsjahr
- 2017
- ISBN (PDF)
- 9783961161911
- ISBN (Paperback)
- 9783961166916
- Dateigröße
- 2.7 MB
- Sprache
- Deutsch
- Institution / Hochschule
- Technische Hochschule Köln, ehem. Fachhochschule Köln – Informations- und Kommunikationswissenschaften
- Erscheinungsdatum
- 2017 (November)
- Note
- 1,5
- Schlagworte
- Informatik Informationswissenschaft Kommunikationswissenschaft Data Mining Politik Wahlkampf Wahl Clusteranalyse Cluster Clustering Trump Obama Clinton USA RapidMiner Studio Facebook Soziale Netzwerke Big Data Data Sience Data Analytics Business Understanding Data Understanding Evaluation Deployment Data Preparation CRISP-DM Business Intelligence Data Intelligence
- Produktsicherheit
- Diplom.de