Automatisierte Sentiment Analyse als betriebswirtschaftlicher Erfolgsfaktor
Zusammenfassung
Motivation:
Die Zahl der Online-Käufer in Deutschland ist im Jahr 2011 auf 69 % der Bevölkerung (im Alter von 14 – 65 Jahren) gestiegen. In den vergangenen Jahren ist dabei ein stetiger Anstieg der Zahl der Käufer wie auch deren Kauffrequenz festzustellen. Üblicherweise informieren sich Kunden vor einem Online–Kauf auch im Internet über die jeweilige Produktkategorie. Dabei zieht mehr als die Hälfte (60 %) der Kunden Bewertungen oder Kommentare anderer Nutzer als Informationsquelle heran. In knapp drei Viertel der Fälle gaben diese Bewertungen auch den Ausschlag für einen Kauf bzw. Nicht–Kauf.
Aufgrund dieser Relevanz für die Kaufentscheidung kommt Kundenkommentaren eine äußerst wichtige betriebswirtschaftliche Bedeutung zu. Die Vorteile werden einerseits auf Kundenseite gesehen, da potentiellen Käufern bei der Entscheidung geholfen wird. Gleichzeitig besteht auch ein direkter Einfluss auf die Reputation und den Umsatz des betroffenen Unternehmens. Die Option, aus dieser Information Nutzen zu ziehen um die betriebliche Geschäftstätigkeit zu verbessern wird von Organisationen oft vernachlässigt. Eine Untersuchung der veröffentlichten Kritik ist gerade hier sinnvoll, da es sich um konkrete Kritik handelt, die auf Erfahrungswerten von Käufern basiert und wertzuschätzen ist.
Dies ist der Ansatzpunkt für eine Sentiment Analyse, mit der sich die Dokumente auf Basis der enthaltenen Meinung untersuchen und kategorisieren lassen. Unterschieden werden dabei die manuelle Analyse und automatisierte Verfahren, die aus Erkenntnissen aus dem Information Retrieval in Kombination mit linguistischen Ansätzen bestehen. Eine manuelle Bearbeitung ist aufgrund der gestiegenen Datenmenge, die die im Internet veröffentlichten Kundenrezensionen darstellen nicht rentabel und daher nicht zu empfehlen. Dies bekräftigt die Bedeutung automatisierter Verfahren für die Sentiment Analyse, auf die in dieser Arbeit eingegangen wird.
Zielsetzung:
Leseprobe
Inhaltsverzeichnis
INHALTSVERZEICHNIS
Abbildungsverzeichnis
1. Einleitung
1.1 Motivation
1.2 Zielsetzung
1.3 Aufbau der Arbeit
2. Einführung in die Sentiment Analyse
2.1 Sentiment Analyse als meinungsbasierte Form der Textkategorisierung
2.2 Sentiment Analyse als binäres Klassifikationsproblem
2.3 Ansprüche an eine automatisierte Sentiment Analyse
3. Verfahren für die automatisierte Sentiment Analyse
3.1 Vorverarbeitung
3.1.1 Vektordarstellung
3.1.2 Sprachbasierte Modifikationen
3.1.3 Merkmalsauswahl
3.1.4 Part-Of-Speech-Tagging
3.2 Klassifikationsalgorithmen des maschinellen Lernens
3.2.1 Bewertung der Verfahren
3.2.2 Support Vector Machines
3.2.3 Naive Bayes Klassifikator
3.2.4 Klassifikator-Training
4. Anwendung im betriebswirtschaftlichen Umfeld
4.1 Automatisierte Sentiment Analyse zur Verbesserung der Geschäftstätigkeit
4.1.1 Betriebswirtschaftliche Bedeutung von Kundenrezensionen
4.1.2 Ablauf der Analyse
4.1.3 Einflussfaktoren auf die Genauigkeit im Analyseverfahren
4.1.4 Grenzen der automatisierten Sentiment Analyse bei Kundenrezensionen
4.2 Nutzungsmöglichkeiten der Analyseergebnisse
4.2.1 Nutzenbetrachtung anhand des Marketing-Mix
4.2.2 Auswirkungen auf einzelne Funktionsbereiche
4.2.3 Weitere Nutzungsmöglichkeiten
5. Fazit und Ausblick
5.1 Implikationen für die Praxis
5.2 Offene Forschungsfragen
5.3 Potential für die Zukunft
6. Literaturverzeichnis
1. Abbildungsverzeichnis
Abb. 1: Beispiel eines Merkmals-Vektors aus der Bag-Of-Words-Darstellung
Abb. 2: Auszug der ersten 20 POS-Tag-Abkürzungen von Santorini
Abb. 3: Trainieren und Testen eines Klassifikationsalgorithmus
Abb. 4: Optimale Hyperebene im zweidimensionalen Raum
Abb. 5: Abhängigkeit der Genauigkeitswerte von der Anzahl an Trainingsdokumenten
1. Einleitung
1.1 Motivation
Die Zahl der Online-Käufer in Deutschland ist im Jahr 2011 auf 69 % der Bevölkerung (im Alter von 14 – 65 Jahren) gestiegen. In den vergangenen Jahren ist dabei ein stetiger Anstieg der Zahl der Käufer wie auch deren Kauffrequenz festzustellen. Üblicherweise informieren sich Kunden vor einem Online–Kauf auch im Internet über die jeweilige Produktkategorie. Dabei zieht mehr als die Hälfte (60 %) der Kunden Bewertungen oder Kommentare anderer Nutzer als Informationsquelle heran. In knapp drei Viertel der Fälle gaben diese Bewertungen auch den Ausschlag für einen Kauf bzw. Nicht–Kauf.[1]
Aufgrund dieser Relevanz für die Kaufentscheidung kommt Kundenkommentaren eine äußerst wichtige betriebswirtschaftliche Bedeutung zu. Die Vorteile werden einerseits auf Kundenseite gesehen, da potentiellen Käufern bei der Entscheidung geholfen wird. Gleichzeitig besteht auch ein direkter Einfluss auf die Reputation und den Umsatz des betroffenen Unternehmens. Die Option, aus dieser Information Nutzen zu ziehen um die betriebliche Geschäftstätigkeit zu verbessern wird von Organisationen oft vernachlässigt. Eine Untersuchung der veröffentlichten Kritik ist gerade hier sinnvoll, da es sich um konkrete Kritik handelt, die auf Erfahrungswerten von Käufern basiert und wertzuschätzen ist.
Dies ist der Ansatzpunkt für eine Sentiment Analyse, mit der sich die Dokumente auf Basis der enthaltenen Meinung untersuchen und kategorisieren lassen. Unterschieden werden dabei die manuelle Analyse und automatisierte Verfahren, die aus Erkenntnissen aus dem Information Retrieval in Kombination mit linguistischen Ansätzen bestehen. Eine manuelle Bearbeitung ist aufgrund der gestiegenen Datenmenge, die die im Internet veröffentlichten Kundenrezensionen darstellen nicht rentabel und daher nicht zu empfehlen. Dies bekräftigt die Bedeutung automatisierter Verfahren für die Sentiment Analyse, auf die in dieser Arbeit eingegangen wird.
1.2 Zielsetzung
Das Ziel der Arbeit ist aufzuzeigen, welche Verfahren für eine automatisiert ausgeführte Sentiment Analyse verwendet werden können und wie die Sentiment Analyse im betriebswirtschaftlichen Umfeld gewinnbringend Anwendung finden kann.
Zur Einführung in die Sentiment Analyse sollen die Besonderheiten der meinungsbasierten Kategorisierung verdeutlicht und spezielle Herausforderungen an eine automatisierte Analyse betont werden. Auf Basis der Definition der Sentiment Analyse soll ein Überblick über verwendete Verfahren aus der Textkategorisierung gegeben werden, die auch für eine automatisierte Sentiment Analyse zur Verfügung stehen. Neben der Funktionsweise soll jeweils auf die Einsatzmöglichkeit und den Nutzen für die Sentiment Analyse eingegangen werden. Gleichzeitig werden eventuelle Risiken und spezifische Voraussetzungen erwähnt, die für den Erfolg der Verfahren von Bedeutung sind.
Im zweiten Schritt soll der konkrete betriebswirtschaftliche Nutzen, der sich mit einer automatisierten Sentiment Analyse erzielen lässt und die Bezeichnung als „betriebswirtschaftlicher Erfolgsfaktor“ rechtfertigt, herausgestellt werden. Dabei soll auf Besonderheiten beim Einsatz der Sentiment Analyse auf Kundenrezensionen eingegangen werden und auf Basis möglicher Analyseergebnisse individuelle Handlungsmöglichkeiten und Nutzenperspektiven aufgezeigt werden.
1.3 Aufbau der Arbeit
Im Anschluss an diese Einleitung wird eine Einführung in die Sentiment Analyse gegeben. Diese wird dabei als meinungsbasierte Form der Textkategorisierung definiert, wodurch der Einsatz bewährter Verfahren aus der Textkategorisierung begründet wird. Um Besonderheiten der automatisierten Analyse herauszustellen, wird auf signifikante Unterschiede zur manuellen Analyse hingewiesen, aus denen sich spezielle Herausforderungen an automatisierte Verfahren ableiten lassen.
Im dritten Kapitel wird ein Überblick über verwendete Verfahren für die automatisierte Sentiment Analyse gegeben. Vor dem Hintergrund eines idealtypischen Analyseverlaufs werden zunächst Möglichkeiten zur Vorverarbeitung der Dokumente aufgezeigt. Danach wird ein Einblick in für die Sentiment Analyse verwendete Verfahren des maschinellen Lernens gegeben. Als zwei bewährte Klassifikationsalgorithmen werden Support Vector Machines und der Naive Bayes Klassifikator vorgestellt.[2] Nachdem jeweils die Funktionsweise erklärt wurde, wird auf die Einsatzmöglichkeit und den Nutzen für die Sentiment Analyse eingegangen.
Das vierte Kapitel bezieht sich auf die Anwendung der Sentiment Analyse im betriebswirtschaftlichen Umfeld. Der Nutzen entsteht dabei durch die Verwendung der präsentierten Verfahren bei der Analyse von Kundenrezensionen. Bevor auf eventuelle Risiken beim Einsatz der Verfahren oder spezielle Bedingungen an die Inputdaten eingegangen wird, werden Kundenrezensionen mit typischen Eigenschaften und Aufbau vorgestellt. Im letzten Schritt werden Nutzenperspektiven aufgezeigt, indem aus den verschiedenen Analyseergebnissen spezielle Handlungsmöglichkeiten abgeleitet werden.
Eine Schlussbetrachtung gibt einen Überblick über Implikationen der Ergebnisse für Forschung und Praxis und Ausblick auf zukünftiges Potential der Sentiment Analyse.
2. Einführung in die Sentiment Analyse
2.1 Sentiment Analyse als meinungsbasierte Form der Textkategorisierung
Die Sentiment Analyse, auch als Opinion Mining bezeichnet, befasst sich mit der Analyse einer gegebenen Texteinheit, mit dem Ziel, die Polaritäten ausgedrückter Meinungen und Emotionen hinsichtlich verschiedener Aspekte des Themas zu verstehen.[3] Dabei wird davon ausgegangen, dass die zu analysierenden Texte in sprachlicher Form vorliegen und für die Darstellung von Meinungen subjektive Ausdrücke verwendet werden. Das zur Analyse vorliegende Dokument wird anhand der semantischen Orientierung der darin enthaltenen Meinungen kategorisiert. Wertende Aussagen können als positiv oder negativ kategorisiert werden, woraus sich zwei entgegengesetzt orientierte Kategorien ergeben, die für die Sentiment Analyse relevant sind.
Verbreitet ist die Auffassung, dass sich Textkategorisierung mit der themenbasierten Zuordnung von Texten in vordefinierte Klassen beschäftigt.[4] Diese klassische Sichtweise wird erweitert, indem auch die meinungsbasierte Klassifizierung als Form der Textkategorisierung gesehen wird. Begründet wird dies durch die Tatsache, dass bei beiden Formen ein gleich aufgebautes Klassifikationsproblem vorliegt. Der Unterschied besteht in der Klassifizierung entweder nach Themenbegriffen oder nach enthaltenen Meinungen. Auch die Sichtweise der Textkategorisierung von Joachims bestätigt diese Auffassung:
„The goal of text categorization is the classification of documents into a fixed number of predefined categories. Each document Abbildung in dieser Leseprobe nicht enthaltencan be in multiple, exactly one, or no category at all.“[5]
Seine Zieldefinition fordert keine themenbasierte Klassifikation. Die Sortierung von Dokumenten in verschiedene Kategorien kann auch auf Basis anderer Merkmale erfolgen, womit Joachims die Sentiment Analyse einschließt, die Texte nach der Polarität der enthaltenen Meinungen kategorisiert.
Zusammenfassend kann die Sentiment Analyse damit als „kind of text classification that classifies texts based on the sentimental orientation (SO) of opinions they contain“[6] bezeichnet werden. Diese Definition begründet die Anwendung von Klassifikationsalgorithmen, die aus dem Gebiet der klassischen themenbasierten Textkategorisierung bekannt sind.
2.2 Sentiment Analyse als binäres Klassifikationsproblem
Formell kann die Textkategorisierung als Zielfunktion Abbildung in dieser Leseprobe nicht enthaltenbeschrieben werden, die bestimmt, nach welcher Regel die Dokumente klassifiziert werden. Abbildung in dieser Leseprobe nicht enthaltenwird als Klassifikator bezeichnet, der unter der Zielvorgabe konstruiert ist, dass „Abbildung in dieser Leseprobe nicht enthaltenand Abbildung in dieser Leseprobe nicht enthaltencoincide as much as possible“. Abbildung in dieser Leseprobe nicht enthaltenist die festgelegte Menge an verfügbaren Kategorien und Abbildung in dieser Leseprobe nicht enthaltenbeinhaltet alle für die Analyse verfügbaren Dokumente.[7]
In Abhängigkeit der Art der Anwendung der Textkategorisierung kann die single-label Kategorisierung bei der jedem Dokument Abbildung in dieser Leseprobe nicht enthaltengenau eine Kategorie Abbildung in dieser Leseprobe nicht enthaltenzugeordnet wird, von der multi-label Kategorisierung unterschieden werden. In letztgenannter Form können einem Dokument mehrere Kategorien zugewiesen werden. Als Spezialfall der single-label Klassifizierung gilt die binäre Textkategorisierung, bei der genau 2 Kategorien Abbildung in dieser Leseprobe nicht enthaltenund Abbildung in dieser Leseprobe nicht enthaltenverfügbar sind. Mit einem binären Klassifikator wird jedes Dokument Abbildung in dieser Leseprobe nicht enthaltenentweder Abbildung in dieser Leseprobe nicht enthaltenoder dem Komplement Abbildung in dieser Leseprobe nicht enthaltenzugeordnet.[8]
Die Sentiment Analyse, bei der eine vorliegende Menge an Dokumenten je nach Polarität der ausgedrückten Meinung kategorisiert werden soll, kann in diesem Zusammenhang als binäres Klassifikationsproblem gesehen werden. Die Menge Abbildung in dieser Leseprobe nicht enthaltender Kategorien ist auf Abbildung in dieser Leseprobe nicht enthaltenund Abbildung in dieser Leseprobe nicht enthaltenbeschränkt.
2.3 Ansprüche an eine automatisierte Sentiment Analyse
Es besteht der Anspruch, mit einer automatisierten Sentiment Analyse auf Basis der vorliegenden meinungsbeinhaltenden Dokumenten eine realitätstreue Abbildung der veröffentlichten Meinung zu generieren. Da die Besonderheiten dieser Analyseform in ihrem Unterschied zur Themenkategorisierung und andererseits der automatisierten statt manuellen Ausführung gesehen werden, werden die Herausforderungen anhand dieser beiden Merkmale formuliert.
Pang et al. stellen fest, dass die Sentiment Analyse im Vergleich zur themenbasierten Kategorisierung ein „besseres Verständnis“ des vorliegenden Textes verlangt. Während sich Themen meist durch einzelne Schlüsselwörter identifizieren lassen, können Meinungen auf subtilere Art ausgedrückt werden. Dadurch sind sie schwieriger zu erkennen und kategorisieren.[9] Um dieses bessere Verständnis der Dokumente zu erlangen und die Kategorisierung zu ermöglichen wurden zwei signifikante Merkmale ausgedrückter Meinung festgestellt, die sie von rein sachlichen Textteilen abheben: Subjektivität und Polarität. In den Verfahren der klassischen Textkategorisierung finden diese keine Beachtung - müssen bei einer Sentiment Analyse jedoch berücksichtigt werden, da durch den Umgang mit Subjektivität und Polarität im Analyseverfahren die Güte der Sentiment Analyse beeinflusst wird.
Weitere Herausforderungen, denen speziell eine automatisierte Analyse gerecht werden sollte, orientieren sich an den Ergebnissen, die mit manuellen Analysen erzielt werden können. Auch wenn die Genauigkeit menschlicher Klassifizierungen mit technischen Mitteln nicht erreicht werden kann, gilt sie als Zielwert. Bei der Annäherung an manuell erzielbare Genauigkeiten werden insbesondere folgende Probleme gesehen:
- Eine Herausforderung an automatisierte Verfahren besteht in der Behandlung von „thwarted expectations”. Der Ausdruck von nicht erfüllten Erwartungen des Verfassers kann auf eine falsche Spur führen. So können positive Reviews viele negative Wörter beinhalten und umgekehrt. Beispielsweise wird eine Vektor-Abbildung des Satzes “I was expecting this movie to be great, but it was terrible” nicht der tatsächlich ausgedrückten Meinung gerecht.[10]
- Zusätzlich können automatisierte Verfahren keine Ironie erkennen. Ironie ist ein Stilmittel, bei dem das Gegenteil von dem Gemeinten ausgedrückt wird.[11] Bei der Verwendung von ironischen Ausdrücken wird davon ausgegangen, dass das rhetorische Mittel von anderen Personen erkannt wird und die Meinung im Kontext richtig verstanden wird. Da diese menschliche Fähigkeit bei automatisierten Verfahren fehlt, besteht die Gefahr, Kundenmeinungen falsch zu interpretieren.
3. Verfahren für die automatisierte Sentiment Analyse
3.1 Vorverarbeitung
Ziel der Vorverarbeitung ist, die Daten vor Anwendung der Klassifikatoren zu bearbeiten, so dass die spätere Analyse beschleunigt wird. Zunächst wird dafür eine Darstellung der Dokumente als Vektoren vorgeschlagen. Diese Darstellung beinhaltet grundsätzlich alle vorhandenen Textbestandteile und muss für eine effektive und effiziente Analyse so weit wie möglich reduziert werden. Neben der Reduktion des Datenumfangs orientieren sich die Verfahren der Vorverarbeitung daran, dass die für eine Sentiment Analyse wichtigen Daten im Text ausgedrückte Meinungen sind. Da objektive Informationen keine Auswirkung auf die Sentiment Kategorisierung haben dürfen, sollen die subjektiven polarisierten Meinungen von objektiven Daten getrennt werden. Texte sollen damit als beträchtlich kleinere Dokumente dargestellt werden ohne, dass zu beachtende Information über die Polarität verloren geht. Eine komprimierte und reinere Darstellung der ausgedrückten Polarität ist das Ziel.[12]
Im Folgenden wird zunächst die Vektordarstellung vorgestellt. Im Anschluss werden Verfahren aufgezeigt, mit denen der Umfang der Vektordarstellung reduziert werden kann. Es werden sprachbasierte Modifikationen und eine automatische Merkmalsauswahl, basierend auf errechneten Maßen, vorgestellt. Zusätzlich wird auf Part-Of-Speech-Tagging eingegangen, das die Möglichkeit bietet, spezielle Wortarten zu extrahieren, die zuvor als Träger relevanter Information bestimmt werden konnten.
Es wird davon ausgegangen, dass die aus dem Internet gewonnen Dokumente für die Analyse in Textform vorliegen und frei von Bild- und Navigationsinhalten sind. Daher wird auf eine Bereinigung gesamter Web Pages[13] nicht eingegangen. Es wird jedoch empfohlen, eventuell vorhandene Formatierungs-tags zu entfernen. Meist handelt es sich um HTML-Elemente zur Textstrukturierung, die keinen Inhalt transportieren.
[...]
[1] vgl. de Sombre 2011
[2] vgl. Ye, Zhang und Law 2009, S.6528
[3] vgl. Thet, Na und Koo 2010, S.823
[4] vgl. Pang und Lee 2008, S.16; vgl. Debole und Sebastiani 2004, S.1
[5] Joachims 1997, S.1
[6] vgl. Leung und Chan 2008, S.2
[7] vgl. Debole und Sebastiani 2004, S.1
[8] vgl. Rafi, Hassan und Shaikh 2012, S.1
[9] vgl. Pang, Lee und Vaithyanathan 2002, S.79
[10] vgl. Gaudette und Japkowicz 2011, S.146
[11] vgl. Sperber und Wilson 1981, S.295
[12] vgl. Pang und Lee 2004, S.7
[13] vgl. Li und Ezeife 2006
Details
- Seiten
- Erscheinungsform
- Originalausgabe
- Erscheinungsjahr
- 2012
- ISBN (eBook)
- 9783842815414
- Dateigröße
- 872 KB
- Sprache
- Deutsch
- Institution / Hochschule
- Universität Passau – Wirtschaftsinformatik
- Erscheinungsdatum
- 2014 (März)
- Note
- 1,3
- Produktsicherheit
- Diplom.de