Anwendung von Data Mining Verfahren bei politischen Wahlkämpfen

Altinay, Feyza

Anwendung von Data Mining Verfahren bei politischen Wahlkämpfen

Informatik - Internet, neue Technologien

Zusammenfassung

Der Kern des Data Mining ist das Gewinnen von Wissen aus gigantischen Datenmengen. Dies findet heutzutage immer mehr Anwendung und spielt eine zunehmende Rolle. Bekannt sind Anwendungen von Data Mining Verfahren überwiegend aus dem Marketing Bereich. Zum größten Teil wird das Kaufverhalten der Kunden analysiert und passende Werbung geschaltet. Jedoch finden Data Mining Algorithmen seit einigen Jahren auch in der Politik Einsatz, genauer gesagt bei Wahlkämpfen. Das angestrebte Ziel dahinter ist es, Wähler durch gezieltes Ansprechen zu verunsichern. Der erste Einsatz kam 2008 bei den US-Präsidentschaftswahlen in die Schlagzeilen. Dabei wurden erstmals nur mit demografischen Daten über Wahlberechtigte gearbeitet. Bis heute wurden immense Fortschritte gemacht, sodass nun auch psychologische Daten erhoben werden. Um Wähler gezielt ansprechen zu können, müssen im ersten Schritt ihre Interessen sowie ihr Charakter analysiert und anschließend sich ähnelnde Personen in Gruppen zusammengefasst werden. An der Stelle wird das Clustering des Data Mining eingesetzt.
In dieser Thesis wird anhand von personenbezogenen Daten, die von Facebook Profilen erhoben werden, eine beispielhafte Clusteranalyse mit RapidMiner Studio durchgeführt. Um das Problem und die geschichtliche Entwicklung darzustellen, wird auf diverse Zeitungs –und Zeitschriftenartikel bezogen. Die Theorie zu Data Mining, der Clusteranalyse und zum Microtargeting beschränkt sich auf die Bereiche, die für die praktische Analyse von Bedeutung sind. Für das Data Mining wird hauptsächlich das Buch Data Mining von Cleve und Lämmel genutzt. Für das Anwendungsszenario werden zunächst die Art und Weise der Datenerhebung sowie die Daten an sich detailliert beschrieben und anschließend der Analyseprozess im RapidMiner Studio mit Screenshots erklärt und die Ergebnisse mit Diagrammen visualisiert. Das Besondere an dieser Untersuchung ist es, dass Daten über politische Ansichten der Personen zwar erhoben werden aber nicht in die Analyse einfließen. Damit soll ermittelt werden, ob in den entstandenen Clustern jeweils eine Mehrheit von politisch gleich ausgerichteten Menschen zu erkennen ist.

Leseprobe

Inhaltsverzeichnis

ii

Abbildungsverzeichnis

Abbildung 1: Das CRISP-DM Modell ... 11

Abbildung 2: Abstimmung im US-Senat ... 13

Abbildung 3: Schlechtes und optimales Clustering ... 16

Abbildung 4: Datenpunkte und 1 Iteration ... 18

Abbildung 5: 2 und 3 Iterationen ... 18

Abbildung 6: 4 und 5 Iterationen ... 18

Abbildung 7: Operator ´Read Excel´ ... 33

Abbildung 8: Import Configuration Wizard ... 33

Abbildung 9: Import Configuration Wizard (2) ... 33

Abbildung 10: Operator ´Generate ID´ ... 34

Abbildung 11: Operator ´Select Attributes´ ... 34

Abbildung 12: Parametereinstellung des ´Select Attributes´ ... 35

Abbildung 13: Operator ´Set Role´ ... 35

Abbildung 14: Parametereinstellung ´Set Role´ ... 36

Abbildung 15: Operator ´Shuffle´ ... 36

Abbildung 16: Operator ´Clustering (k-Means)´ ... 38

Abbildung 17: Parametereinstellung des ´Clustering (k-Means)´ ... 38

Abbildung 18: Erstellte Cluster (1) ... 39

Abbildung 19: Erstellte Cluster (2) ... 39

Abbildung 20: Parametereinstellung des ´Data to Similarity´ ... 45

Abbildung 21: ´Data to Similarity´ und ´Performance´... 45

Abbildung 22: Silhouetten-Messwerte ... 46

Abbildung 23: Dendrogram US Senat 2003 ... 54

Abbildung 24: Symmetrische Unähnlichkeitsmatrix ... 55

iii

Tabellenverzeichnis

Tabelle 1: Basisdaten für das k-Means Verfahren... 19

Tabelle 2: Numerische Werte für das k-Means Verfahren ... 20

Tabelle 3: Beispieldatensätze ... 30

iv

Diagrammverzeichnis

Diagramm 1: Centroiden zum ´Alter´ ... 40

Diagramm 2: Centroiden zu ´Westen_jn´ ... 40

Diagramm 3: Centroiden zu ´Süden_jn´ ... 40

Diagramm 4: Centroiden zu ´Akademiker´ ... 40

Diagramm 5: Centroiden zum ´Einkommen´ ... 41

Diagramm 6: Centroiden zu ´verheiratet´ ... 41

Diagramm 7: Centroiden zu ´Sport_jn´ ... 41

Diagramm 8: Centroiden zu ´Kunst_jn´ ... 41

Diagramm 9: Centroiden zu ´Reality-Shows_jn´ ... 42

Diagramm 10: Centroiden zu ´Serien _jn´ ... 42

Diagramm 11: Centroiden zu ´Current-affairs_jn´ ... 42

Diagramm 12: Centroiden zu ´Science-Fiction_jn´... 42

Diagramm 13: Centroiden zu ´Drama_jn´ ... 43

Diagramm 14: Centroiden zu ´Pop_jn´ ... 43

Diagramm 15: Centroiden zu ´Country_jn´... 43

Diagramm 16: Cluster 0 - Demografie und Interessen ... 46

Diagramm 17: Cluster 0 - Präferenzen ... 47

Diagramm 18: Cluster 1 - Demografie und Interessen ... 48

Diagramm 19: Cluster 1 - Präferenzen ... 48

Diagramm 20: Demografien und Interessen der Konservativen und Liberalen im

Datenbestand ... 49

Diagramm 21: Präferenzen der Konservativen und Liberalen im Datenbestand ... 50

Diagramm 22: Altersverteilung in den Clustern... 51

Diagramm 23: Altersverteilung im Datenbestand ... 51

Diagramm 24: Einkommensverteilung in den Clustern ... 52

Diagramm 25: Einkommensverteilung im Datenbestand ... 52

"You can have data without information, but you cannot have information

without data."

Daniel Keys Moran, amerikanischer Programmierer und Science-Fiction-Schriftsteller.

1 Einleitung

1

1 Einleitung

Einst sagte die US-amerikanische Politikerin und ehemalige CEO der Hewlett-Packard

Inc. Cara Carleton Fiorina: "The goal is to turn data into information, and information

into insight." Der erste Teil des Zitates beschreibt den Kern das Data Mining, nämlich

das Gewinnen von Wissen aus gigantischen Datenmengen. Dies findet heutzutage

immer mehr Anwendung und spielt eine zunehmende Rolle. Bekannt sind

Anwendungen von Data Mining Verfahren überwiegend aus dem Marketing Bereich.

Zum größten Teil wird das Kaufverhalten der Kunden analysiert und passende Werbung

geschaltet. Jedoch finden Data Mining Algorithmen seit einigen Jahren auch in der

Politik Einsatz, genauer gesagt bei Wahlkämpfen. Das angestrebte Ziel dahinter ist es,

Wähler durch gezieltes Ansprechen zu verunsichern. Der erste Einsatz kam 2008 bei

den US-Präsidentschaftswahlen in die Schlagzeilen. Dabei wurden erstmals nur mit

demografischen Daten über Wahlberechtigte gearbeitet. Bis heute wurden immense

Fortschritte gemacht, sodass nun auch psychologische Daten erhoben werden. Um

Wähler gezielt ansprechen zu können, müssen im ersten Schritt ihre Interessen sowie ihr

Charakter analysiert und anschließend sich ähnelnde Personen in Gruppen

zusammengefasst werden. An der Stelle wird das Clustering des Data Mining

eingesetzt.

In dieser Thesis soll anhand von personenbezogenen Daten, die von Facebook Profilen

erhoben werden, eine beispielhafte Clusteranalyse mit RapidMiner Studio durchgeführt

werden. Um das Problem und die geschichtliche Entwicklung darzustellen, wird auf

diverse Zeitungs und Zeitschriftenartikel bezogen. Die Theorie zu Data Mining, der

Clusteranalyse und zum Microtargeting beschränkt sich auf die Bereiche, die für die

praktische Analyse von Bedeutung sind. Für das Data Mining wird hauptsächlich das

Buch Data Mining von Cleve und Lämmel genutzt. Für das Anwendungsszenario

werden zunächst die Art und Weise der Datenerhebung sowie die Daten an sich

detailliert beschrieben und anschließend der Analyseprozess im RapidMiner Studio mit

Screenshots erklärt und die Ergebnisse mit Diagrammen visualisiert. Das Besondere an

dieser Untersuchung ist es, dass Daten über politische Ansichten der Personen zwar

erhoben werden aber nicht in die Analyse einfließen. Damit soll ermittelt werden, ob in

den entstandenen Clustern jeweils eine Mehrheit von politisch gleich ausgerichteten

Menschen zu erkennen ist. Für diesen Abschnitt werden überwiegend Vorlesungsskripte

online Operatorbeschreibungen von RapidMiner Documentation verwendet.

2 Wählerbeeinflussung

2

2 Wählerbeeinflussung

In diesem Abschnitt wird die Beeinflussung von Wählern durch Anwendung von

technischen Methoden des Data Mining bei politischen Wahlkämpfen erläutert.

Zunächst wird das Problem dargestellt. Anschließend folgt eine Beschreibung der

geschichtlichen Entwicklung der bisher genutzten Verfahren und Strategien im Internet

sowie in den sozialen Netzwerken. Abschließend wird die Zielsetzung dieser

Bachelorarbeit beschrieben.

2.1 Problemstellung

Data Mining Verfahren werden üblicherweise im Handel genutzt, um das Kaufverhalten

der Kunden zu ermitteln. Darüber hinaus werden sie ebenfalls im Customer-

Relationship-Management verwendet, um beispielsweise zu ermitteln, welches Produkt

welchem Kunden angeboten werden soll. Seit einigen Jahren finden Data Mining

Verfahren auch in der Politik Anwendung, genauer gesagt bei politischen

Wahlkämpfen.

In den Präsidentschaftswahlen im Jahr 2016 in den Vereinigten Staaten haben politische

Parteien die Wähler mithilfe des Microtargeting auf Grundlage von Daten, die Auskunft

über die Interessen der US-Bürger geben, gezielt angesprochen. Um dies zu erreichen,

haben Daten-Unternehmen persönliche Daten von amerikanischen Erwachsenen

eingeholt und diese analysiert. Jedoch ist nicht bekannt, welche genauen individuellen

Daten für die Wahlkampagne genutzt bzw. welche Cluster für die Zielgruppen

festgelegt wurden. Darüber hinaus weiß man nicht, wie viele Menschen auf die

Botschaften reagiert haben. Allgemein formuliert, ist es unbekannt, ob oder inwiefern

diese Methode das Wahlverhalten der Bürger beeinflusst, sodass es einer Partei zum

Sieg verhelfen könnte. (Wolfie, 2016)

Jedoch ermöglicht das Targeting, bestimmte Wähler zur Wahlbeteiligung zu bewegen

und andere eher davon abzuhalten. Dies nennt man Mobilisierung. Während man darauf

hin arbeitet, dass in einigen Gruppen die Menschen vermehrt an den Wahlen

teilnehmen, wird diese Anzahl in anderen Gruppen verringert. Bei dieser Strategie geht

es um das Motivieren der einen und das Enttäuschen der anderen Wähler. Wenn nun die

2 Wählerbeeinflussung

3

Anteile der erhaltenen Stimmen der einzelnen Parteien sich nicht stark voneinander

unterscheiden, fokussieren sich Wahlkampagnen auf die Mobilisierung der eigenen

Wähler. Ferner versuchen die Parteien, die Wähler der Konkurrenzparteien zu

verwirren. Somit soll erreicht werden, dass letztere sich nicht an den Wahlen beteiligen.

Das Microtargeting ist ein gut geeignetes Instrument, um diese Strategien umzusetzen.

(Wolfie, 2016)

Die Parteien nutzen die erhaltenen Daten von den Firmen, um den Profilen der Nutzer

entsprechende Nachrichten auf ihrem Facebook-Kanal einzublenden. Durch Methoden

der Rasterfahndung werden mithilfe vieler Merkmale spezifische Personen ein- oder

ausgegrenzt. Zudem sind die geteilten Postings nur für bestimmte Personen sichtbar,

wobei es so aussieht, als ob diese jedem Betrachter angezeigt werden. (Wolfie, 2016)

Die Parteien führen Experimente durch, indem sie Inhalte für definierte Gruppen auf

sozialen Netzwerken einblenden. In diesen Inhalten werden Text und Design in

unterschiedlichen Varianten dargestellt. Anschließend wird geprüft, welche Variante die

meisten Wähler zum gewünschten Verhalten leitet. (Wolfie, 2016)

Während Menschen im Internet surfen oder eine mobile Applikation verwenden,

entstehen Daten über die Person selbst. Diese persönlichen Daten werden an

Werbetreibende weitergegeben bzw. verkauft. In den USA gibt es Firmen, die sich auf

politische Wahlkampagnen konzentrieren. Sie verfügen über Datenbanken mit

detaillierten persönlichen Daten über jeden Erwachsenen, der in den USA lebt. (Wolfie,

2016)

Im folgenden Absatz wird kurz beschrieben, wie Facebook die Startseite eines jeden

Benutzers ordnet.

Generell ist Facebook heute nicht mehr nur eine Plattform, wo sich Nutzer mit

Freunden und Familie vernetzten. Auf Facebook wird nun Ware verkauft, Werbung

geschaltet und Entertainment betrieben. Auch ist Facebook für Parteien eine sehr

hilfreiche und wichtige Plattform, um ihre Wahlkampagne durchzuführen und eine hohe

Reichweite zu erreichen. Der wesentliche Vorteil einer Präsenz der Parteien auf

Facebook ist die direkte und permanente Interaktion mit den Bürgern. (Brühl, Brunner,

& Ebitsch, kein Datum)

Der Newsfeed bzw. die Startseite eines jeden Benutzers wird durch Facebook geordnet.

Zuerst sind Inhalte sichtbar, die den Interessen des Nutzers am ehesten entsprechen.

2 Wählerbeeinflussung

4

Durch Algorithmen wird errechnet, welche Posts von welchen Freunden oder

abonnierten Seiten dem Benutzer interessant erscheinen könnten. So wird verfahren,

damit der Nutzer so lange wie möglich auf der Seite bleibt. Ein wesentlicher Grund

dafür ist, dass durch längeren Aufenthalt mehr Werbung eingeblendet werden kann. Der

Facebook-Algorithmus wird geheim gehalten. Jedoch sind einige Kriterien bekannt, die

für die Prüfung der Relevanz der Inhalte entscheidend sind. Das erste Kriterium lautet

Nähe. Es wird ermittelt, wie nah sich die Benutzer sind. Dies kann man beispielsweise

anhand von gegenseitigen ´Gefällt mir-Angaben´ und Unterhaltungen messen. Ein

weiteres Kriterium ist die Popularität des Inhalts, welches ebenfalls mittels der Anzahl

der ´Gefällt mir-Angaben´ und Kommentare zu messen ist. Die persönlichen Vorlieben

des Benutzers bilden ebenso ein wichtiges Kriterium. Zuletzt wird auf die Aktualität des

geteilten Inhalts geachtet. (Brühl, Brunner, & Ebitsch, kein Datum)

Ob eine Botschaft eine hohe Reichweite erreicht, ist von der Weiterverbreitung durch

Facebook Nutzer abhängig. Das bedeutet, dass die Macht nicht mehr bei den Anbietern,

sondern bei den Nachfragern liegt. (Brühl, 2017)

2.2 Geschichtliche Entwicklung

1969 wurde zunächst das Unternehmen Acxiom gegründet. Es ist ein

Marketingunternehmen, das damals in den USA im Auftrag der Demokratischen Partei

Listen mit Adressen der Wahlberechtigten vorbereitete. Bereits zu diesem Zeitpunkt

begann man in Amerika Gruppen von Wählern anhand ihrer demographischen Daten

gezielt anzusprechen. Ebenso wurden diese Daten dafür genutzt, um eigene politische

Botschaften zu optimieren. 1996 wurde zum ersten Mal mit Daten über Lifestyle und

Konsumverhalten für die Wahlkampagne von Bill Clinton gearbeitet. Bei den 55.

Präsidentschaftswahlen in den Vereinigten Staaten im Jahr 2004 besaß sowohl die

Partei von George W. Bush als auch die von John Kerry Daten über jeden

amerikanischen Wahlberechtigten. (Wolfie, 2016)

2008 betrieb Barack Obama seine Wahlkampagne auf Facebook und Twitter. Dadurch

wurde beabsichtigt, Wähler zu mobilisieren und Spenden zu sammeln. (Kolb, 2012)

Michal Kosinski ist ein russischer Psychologe, der sich auf das Fachgebiet der

Psychometrik, auch Psychometrie oder Psychografie genannt, spezialisiert hat. Er

2 Wählerbeeinflussung

5

entwickelte 2008 ein Modell, mit dem man die Aktionen der Menschen auf Facebook

untersuchen kann. (Grassegger & Krogerus, 2016)

Im schweizerischen ´Das Magazin´ wird die Psychometrie folgendermaßen definiert:

,,Psychometrie [...] ist der wissenschaftliche Versuch, die Persönlichkeit eines

Menschen zu vermessen." (Grassegger & Krogerus, 2016)

Um das umzusetzen, wird das sogenannte Ocean-Modell verwendet. In diesem Modell

werden fünf Kriterien, die Big Five, zur Untersuchung der Persönlichkeit eines

Menschen herangezogen. Diese Dimensionen wurden von zwei Psychologen in den

1980er Jahren entwickelt. Diese fünf Dimensionen sind Offenheit, Gewissenhaftigkeit,

Extraversion, Verträglichkeit und Neurotizismus. Der Neurotizismus beschreibt die

Verletzlichkeit. Nach Analyse dieser Kriterien lässt sich der Charakter eines Menschen

ermitteln. Es ist sogar möglich, einige Verhalten der Person vorherzusagen. Damals

erfolgte die Datenerfassung mittels Ausfüllen von persönlichen Fragebögen. Im Jahr

2008 entwickelte Kosinski zusammen mit einem Kollegen an der Cambridge University

eine mobile Applikation namens ´MyPersonality´ für Facebook, wo Nutzer wiederum

persönliche Fragen beantworten konnten. Anschließend wurde der Charakter

ausgewertet und die Daten der Nutzer in der Datenbank gespeichert. Somit erhielten die

beiden Psychologen nach kurzer Zeit eine große psychologische Datenmenge über

Personen. In den darauf folgenden Jahren wurden durch die Arbeitsgruppe von Kosinski

die Ergebnisse der Fragebögen mit den Angaben der Nutzer auf Facebook wie

Geschlecht, Alter etc. verglichen. Somit wurden Beziehungen zwischen den Daten

abgeleitet, dass beispielsweise Personen, denen öfter philosophische Inhalte gefallen,

eher in sich verschlossen sind. (Grassegger & Krogerus, 2016)

Das Modell wurde optimiert, sodass im Jahr 2012 anhand von ungefähr 68 ´Gefällt mir-

Angaben´ eines Nutzers u.a. dessen Hautfarbe sowie politische und religiöse

Orientierung mit ca. 85- bis 95-prozentiger Wahrscheinlichkeit prognostiziert werden

konnten. Durch weitere Verfeinerungen sei es mit 300 ´Gefällt mir-Angaben´ des

Nutzers möglich, sein zukünftiges Verhalten genauer vorauszusagen als durch einen

Freund oder einer Freundin. Mittlerweile könne man einen Nutzer nur mit seinem

Portrait bereits dem Ocean-Modell einordnen. Genauso, wie man aus Massendaten

persönliche Profile erstellte, war eine Suche nach Personen mit bestimmten

Eigenschaften möglich. Daher wird die Erfindung im Artikel als eine

Menschensuchmaschine bezeichnet. (Grassegger & Krogerus, 2016)

2 Wählerbeeinflussung

6

Im selben Jahr arbeiteten die Präsidentschaftskandidaten Barack Obama und Mitt

Romney bei ihren Wahlkampagnen mit rund 500 Daten pro US Bürger. Unter diesen

Daten waren z. B. Informationen wie die Automarke, der Bildungsstand, Abonnements

etc. vorhanden. Mithilfe von Algorithmen und dem Verfahren des Targetings wurde

ermittelt, welche Gruppe mit welchen Nachrichten angesprochen werden sollte. Die

Bevölkerung wurde dafür in kleine Gruppen unterteilt, sodass man diesen passende

Inhalte schicken konnte. Anhand dieser Daten wurde genau ermittelt, auf welchen

Wegen man den Wählern die Botschaften übermitteln sollte. Diese waren

beispielsweise Anzeigen auf Facebook oder Broschüren mit Informationen. Darüber

hinaus wurden Tracking Tools eingerichtet, um das Verhalten der Nutzer im Browser zu

verfolgen. Nach Angaben waren im September 2012 auf der Webseite

barackobama.com 73 Spione im Einsatz und auf mittromney.com 40 Spione. Da Zac

Moffat damals herausfand, dass Amerikaner immer mehr Zeit im Internet verbrachten

als beim Fernsehen, konzentrierte man sich auf Werbungen auf Facebook und YouTube

etc. (Kolb, 2012)

Da Barack Obama und somit die Demokratische Partei in zwei aufeinander folgenden

Wahlkämpfen Verfahren des Data Mining zusammen mit Big Data nutzten und siegten,

hatten sie einen deutlichen Vorteil und mehr Erfahrung im Vergleich zu den

Republikanern. Nach zwei Niederlagen gab die Republikanische Partei 100 Millionen

US Dollar für ein Datencenter und weitere Techniken aus, um dem Fortschritt folgen zu

können. (Maier, Matheis, & Voß, 2016)

Zu Beginn des Jahres 2014 erhielt der Psychologe Michal Kosinski einen Auftrag vom

damaligen Assistenzprofessor Alexandr Kogan, zehn Millionen Facebook Konten von

US Bürgern zu analysieren. Es sei ein Auftrag des Unternehmens SCL Group bzw.

Strategic Communications Laboratories.

1

Kosinski lehnte den Auftrag ab. Laut dem

Magazinartikel machte SCL durch Kogan die erste Bekanntschaft mit dem Ocean-

Modell. (Grassegger & Krogerus, 2016)

1

,,SCL (Strategic Communication Laboratories) Group ist ein britisches Unternehmen für

Verhaltensforschung und strategische Kommunikation. SCL nutzt Data mining und Datenanalyse, um

Kommunikationsmaßnahmen auf bestimmte Zielgruppen maßgerecht zuschneiden zu können und so

Verhaltensänderungen (wie etwa Wahlentscheidungen) im Sinne der Kunden von SCL zu bewirken. SCL

gründete Cambridge Analytica und betrat damit 2012 den Markt in den Vereinigten Staaten." (Wikipedia

(Hr.) (2), 2017)

2 Wählerbeeinflussung

7

Am Ende desselben Jahres unterstützte Cambridge Analytica zum ersten Mal eine

Wahlkampagne für Ted Cruz von der Republikanischen Partei. (Grassegger &

Krogerus, 2016)

Am 19. September 2016 hielt Alexander Nix, der CEO von Cambridge Analytica, am

Concordia Annual Summit

2

eine Präsentation. Er stellte das Modell vor, mit dem eine

Wahlkampagne online unterstützt wurde. Demnach wird die Bevölkerung in

einheitliche Gruppen geteilt. Im Gegensatz zu dieser Methode hätte Hillary Clinton, die

Präsidentschaftskandidatin der Demokratischen Partei, nur mit demographischen Daten

gearbeitet. Ferner erklärte Nix in seinem Vortrag, dass das Unternehmen ein Modell

konstruiert hat, womit der Charakter von jedem amerikanischen Erwachsenen

vermessen werden kann. Wichtige Bausteine, mit denen das Unternehmen arbeite, seien

Big Data, das Ocean-Modell und das Micro- bzw. Ad-Targeting. Massendaten wurden

u. a. aus Grundbucheinträgen und Wählerverzeichnissen beschaffen. In den Vereinigten

Staaten ist es nicht schwierig persönliche Daten von Bürgern zu besorgen. Dafür stehen

Informationsdienstleister wie Acxiom oder Experian zur Verfügung. Cambridge

Analytica setzte diese Daten mit den Wählerlisten der Partei und den Informationen aus

den Facebook Aktionen in Verbindung, sodass mithilfe des Ocean-Modells

Persönlichkeitsprofile erstellt wurden. (Grassegger & Krogerus, 2016)

Aus dem Magazinartikel geht hervor, dass die Methoden dieses Unternehmens völlig

gleich zu dem Modell von Kosinski seien. Laut Nix besäße das Unternehmen Profile

von 220 Millionen Menschen. Das sind alle Erwachsenen in den USA. In einem

weiteren Vortrag beschrieb Nix die Vorgehensweise des Targetings in Bezug auf das

Waffengesetz. Einer furchtsamen Person wurde die Botschaft beispielsweise in Form

eines Bildes mit einem Eindringling vermittelt, um die Waffe als Verteidigungsmittel

darzustellen. (Grassegger & Krogerus, 2016)

Im Juni 2016 wurde verkündet, dass Donald John Trump, der Präsidentschaftskandidat

der Republikanischen Partei, seine Wahlkampagne in Zusammenarbeit mit Cambridge

Analytica führte. Als die dritte Debatte zwischen den Präsidentschaftskandidaten Trump

und Clinton stattfand, wurden vom Wahlkampf Team der Republikaner 175 Tausend

Arten der Argumente von Trump hauptsächlich über Facebook verschickt. Diese

2

,,The Concordia Annual Summit convened the world's most prominent business, government, and

nonprofit leaders to enable effective partnerships for impact. Thought leaders and innovators gathered at

this global affairs forum to examine the world's most pressing challenges and identify avenues for

collaboration." (Concordia (Hr.), 2016)

2 Wählerbeeinflussung

8

wurden den Persönlichkeitsprofilen jedes Nutzers entsprechend gestaltet. Laut CEO Nix

wurden beispielsweise an die Bewohner von Little Haiti in Miami Botschaften

verschickt, dass die Stiftung von Clinton nach dem Erdbebenunglück in Haiti

gescheitert sei. Ein weiteres Beispiel zum Thema Targeting war, dass Afroamerikanern

ein Video eingeblendet wurde, in dem Hillary Clinton dunkelhäutige Männer Raubtiere

nannte. Wie im vorigen Abschnitt beschrieben, wird diese Strategie verfolgt, um die

Wähler der Konkurrenzparteien von der Wahlbeteiligung fern zu halten. (Grassegger &

Krogerus, 2016)

Im Juli 2016 wurde eine mobile Applikation entwickelt, mit der man die politische

Ansicht sowie das Charakterprofil von jeder Person der privaten Haushalte sehen

konnte. Falls die Applikation befürwortete, dass ein Haushalt für die Vermittlung der

Nachrichten der Republikaner geeignet war, wurden dort Hausbesuche abgestattet.

Zudem waren Gesprächsleitfaden für jeden Charaktertyp vorhanden, an denen sich die

Wahlhelfer orientierten. Nach den Gesprächen bzw. Hausbesuchen wurde die

Verhaltensweise der Personen in der Applikation mit neuen Informationen aktualisiert.

(Grassegger & Krogerus, 2016)

Ferner stellte Cambridge Analytica 32 Persönlichkeitstypen vor, die die ganze

Bevölkerung der Vereinigten Staaten abdecken. Im Rahmen der Wahlkampagne für

Trump fokussierte man sich auf 17 Staaten. Nachdem Daten ausgewertet wurden, kam

man zu der Erkenntnis, dass Amerikaner, die in den USA hergestellte Autos

bevorzugen, am ehesten für Donald Trump stimmen würden. Nach Forschungen des

Psychologen Michal Kosinski erhöhten sich durch die Strategie von Cambridge

Analytica die Klickraten von Facebook Anzeigen um ca. 60 Prozent. (Grassegger &

Krogerus, 2016)

In Deutschland wird im Gegensatz zu Amerika der Datenschutz strikter gehandhabt.

Somit können die Parteien hier nicht private Daten über die Bevölkerung von

Marketingunternehmen abkaufen, geschweige denn solche Daten auswerten. (Von

Billerbeck & Beckedahl, 2016)

2 Wählerbeeinflussung

9

2.3 Zielsetzung der Bachelorarbeit

In

der

vorliegenden

Bachelorarbeit

wird

beabsichtigt,

ein

plausibles

Anwendungsszenario für die bei politischen Wahlkämpfen genutzten Data Mining

Verfahren zu erarbeiten. Als Untersuchungsgebiet wurde die Politik gewählt, da

einerseits die Anwendung von Data Mining in diesem Bereich bis vor einigen Jahren

nicht üblich war und dort erst seit kurzer Zeit immer mehr Verwendung findet.

Andererseits steigt der Fortschritt bei der Nutzung dieser Verfahren enorm, sodass es zu

einem aktuellen Thema auf der ganzen Welt wird. Nahezu bei jedem wichtigen

Referendum und bei jeder großen Wahl kommt das Thema Big Data und Data Mining

in der Politik in die Schlagzeilen.

Vor der Untersuchung des Sachverhalts werden folgende Hypothesen aufgestellt:

· Durch die technische Analyse von großen Mengen an personenbezogenen Daten

mithilfe von Data Mining Verfahren können Personen anhand der Ähnlichkeiten

bezüglich der demographischen und psychologischen Daten in Gruppen

unterteilt werden.

· Die Clusteranalyse eignet sich gut für die Unterteilung von Personen mit

ähnlichen Eigenschaften in homogene Gruppen.

Folglich sollen folgende Fragen beantwortet werden:

· Woher und welche personenbezogenen Daten können erfasst werden? Welche

sind käuflich erwerbbar? Zu welchen Daten hat man freien Zugang?

· Wie wird die Clusteranalyse technisch durchgeführt, um Daten zu auszuwerten?

· Welches Distanz- bzw. Ähnlichkeitsmaß ist für die Clusterbildung anhand von

personenbezogenen Daten geeignet?

· Wie werden entstandene Cluster visualisiert und interpretiert?

· Wie wird die Güte der entstandenen Cluster evaluiert?

Um das Anwendungsszenario zu erarbeiten, werden diverse Quellen zum Thema

Clusteranalyse recherchiert. Ebenso wird versucht, Informationen über die in der Praxis

angewandten Methoden des Clustering Verfahrens zu finden.

3 Data Mining

10

3 Data Mining

In diesem Abschnitt werden Definitionen des Begriffs Data Mining aufgeführt und der

Prozess anhand des CRISP-DM Modells beschrieben. Anschließend wird ein

praktisches Beispiel zur Datenanalyse in der Politik mithilfe von Data Mining

Verfahren geschildert. Zum Schluss wird die Clusteranalyse bzw. das k-Means

Verfahren im Detail thematisiert, was im späteren Anwendungsszenario verwendet

wird.

In ihrem Buch ´Data Mining´ definieren die Autoren Cleve und Lämmel den Begriff des

Data Mining folgendermaßen: ,,Data Mining (Datenschürfen) ist die Extraktion von

Wissen aus Daten." (Cleve & Lämmel, 2016, S. 38)

Somit wird aus Daten Wissen gewonnen, was vorher nicht offenkundig war. (Cleve &

Lämmel, 2016, S. 38)

Eine andere Quelle beschreibt Data Mining als einen Prozess, in dem Muster und

Wissen in großen Datenmengen herausgefunden werden. Daten können dabei in

Datenbanken, Data Warehouses oder im Netz gespeichert sein. (Han, Pei, & Kamber,

2011, S. 8)

Im Rahmen des Data Mining werden zunächst geeignete Verfahren bzw. Algorithmen

gewählt, um sie auf vorhandene Daten anzuwenden. Dabei ist die Auswahl des

Verfahrens stark von der vorliegenden Aufgabe abhängig. Nachdem man sich für ein

geeignetes Verfahren entschieden hat, werden Parameter vergeben bzw. festgelegt.

Diese können beispielsweise die Auswahl der Attribute oder die Anzahl der Cluster

sein. Anschließend werden mithilfe dieser Analysen auf Basis von ähnlichen Daten

Muster ermittelt. Am Ende wird ein Modell angefertigt, mit dem die Daten evaluiert

werden. (Cleve & Lämmel, 2016, S. 11)

Zu den Verfahren des Data Mining gehören Entscheidungsbäume im Rahmen von

Klassifikationsanalysen, Neuronale Netze, Cluster- sowie Assoziationsanalysen.

Mögliche Einsatzgebiete sind beispielsweise die Bonitätsbewertung, die

Kundensegmentierung und die Warenkorbanalyse. (Chamoni, 2016)

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2017
ISBN (PDF): 9783961161911
ISBN (Paperback): 9783961166916
Dateigröße: 2.7 MB
Sprache: Deutsch
Institution / Hochschule: Technische Hochschule Köln, ehem. Fachhochschule Köln – Informations- und Kommunikationswissenschaften
Erscheinungsdatum: 2017 (November)
Note: 1,5
Schlagworte: Informatik Informationswissenschaft Kommunikationswissenschaft Data Mining Politik Wahlkampf Wahl Clusteranalyse Cluster Clustering Trump Obama Clinton USA RapidMiner Studio Facebook Soziale Netzwerke Big Data Data Sience Data Analytics Business Understanding Data Understanding Evaluation Deployment Data Preparation CRISP-DM Business Intelligence Data Intelligence
Produktsicherheit: Diplom.de

Autor

Feyza Altinay (Autor:in)

Anwendung von Data Mining Verfahren bei politischen Wahlkämpfen

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Details

Autor

Feyza Altinay (Autor:in)