Lade Inhalt...

Text Mining und dessen Implementierung

©2010 Bachelorarbeit 86 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt, ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante Informationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Großteil der gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet, das es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informationssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschiedenen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio. Webseiten, ganz zu schweigen von unternehmensinternen Datenbanken, Email-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen in unaufhaltsamem Maße fast exponentiell an. Dieser Trend wird auch als Information Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des Systems im World Wide Web klar definiert sind.
Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaffen. Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informationssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgefiltert werden. Dieses Verfahren ist bekannt unter dem Begriff ‘Data-Mining’. Bei natürlichen Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Informationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische Methoden eine große Rolle spielen, um die gewünschten Informationen aus den Texten zu gewinnen. Ohne entsprechende Systeme ist es somit unmöglich, effektiv mit den Informationen aus Texten umzugehen.
Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus unbekannten Texten zu […]

Leseprobe

Inhaltsverzeichnis


Norman Zänker/Christian Zietzsch
Text Mining und dessen Implementierung
ISBN: 978-3-8428-0628-3
Herstellung: Diplomica® Verlag GmbH, Hamburg, 2011
Zugl. Technische Universität Bergakademie Freiberg, Freiberg, Deutschland,
Bachelorarbeit, 2010
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.
verbliebene fehlerhafte Angaben und deren Folgen.
© Diplomica Verlag GmbH
http://www.diplomica.de, Hamburg 2011

Inhaltsverzeichnis
7
Inhaltsverzeichnis
1 Einleitung
10
1.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Grundlagen
12
2.1 Was ist Text Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Aufbau und Struktur von Text . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse . . . 15
2.3.1 Die Linguistik und ihre Ebenen . . . . . . . . . . . . . . . . . . . . 15
2.3.2 Syntagmatische und Paradigmatische Relationen . . . . . . . . . . 20
2.3.3 Semantische Relationen . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Text Mining-Prozess
27
3.1 Unterschied Text Mining und Data Mining . . . . . . . . . . . . . . . . . . 28
3.2 Dokumentsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Information Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Aufbau und Funktion eines Information Retrieval Systems . . . . . 30
3.3 Dokumentaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Textressourcen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Aufbau eines Analysekorpus . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2.1 Satzsegmentierung . . . . . . . . . . . . . . . . . . . . . . 34
3.3.2.2 Wortsegmentierung . . . . . . . . . . . . . . . . . . . . . 35
3.4 Text Mining - Statistische Analysemethoden . . . . . . . . . . . . . . . . . 37
3.4.1 Zipfsches Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.2 Dierenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.3 Part-of-Speech Tagging . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.3.1 Regelbasierte Tagger . . . . . . . . . . . . . . . . . . . . . 39
3.4.3.2 Stochastische Tagger . . . . . . . . . . . . . . . . . . . . . 41
3.4.3.3 Regelbasierte Tagger vs. Stochastische Tagger . . . . . . . 47
3.4.4 Kookkurrenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5 Text Mining - Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5.1 Nicht-hierarchische Verfahren . . . . . . . . . . . . . . . . . . . . . 51
3.5.2 Hierarchische Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5.3 Fuzzy-Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.4 Dokumentähnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5.5 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.6 Text Mining - Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.1 Reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.2 Syntaktische Muster . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4 Text Mining-Prozess anhand des Zalazar Text Miner
64
4.1 Programmaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

Inhaltsverzeichnis
8
4.2 Dokumentaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.1 Formatierung des zu analysierenden Textdokuments . . . . . . . . 67
4.2.2 Aufbau des Analysekorpus anhand der Satz- und Wortsegmentierung 68
4.3 Dokumentanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.1 Part-of-Speech Tagging . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.2 Dierenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.3 Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.4 Ergebnisevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.5 Handhabung des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . . 82
4.5.1 Önen einer neuen Mail . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5.2 Durchführen der Textanalyse . . . . . . . . . . . . . . . . . . . . . 84
4.5.3 Speichern der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 85
4.5.4 Laden der Ergebnisse einer bereits analysierten Mail . . . . . . . . 86
5 Schlusswort
87
Literatur
89
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

Abbildungsverzeichnis
9
Abbildungsverzeichnis
1
Überblick: Aufbau eines Textes (vgl. G. Heyer [5]) . . . . . . . . . . . . . 15
2
Prozess des Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3
Vergleich Text Mining- und Data Mining Prozess . . . . . . . . . . . . . . 28
4
Aufbau eines IR-Systems (vgl. T. Gottron [2]) . . . . . . . . . . . . . . . . 30
5
Aufbau eines Hidden-Markov-Modells . . . . . . . . . . . . . . . . . . . . 42
6
Komplettes Gitter für The design of the car is great. (in Anlehnung an
K. Haenelt [4]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7
Reduziertes Gitter für The design of the car is great. mithilfe des Viterbi-
Algorithmus (in Anlehnung an K. Haenelt [4]). . . . . . . . . . . . . . . . 46
8
Wortnetz der Wortform technology (vgl. Uni-Leipzig, Projekt Wortschatz
[12]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
9
Clustering mit k-means (vgl. G. Heyer [5]) . . . . . . . . . . . . . . . . . . 52
10 Hierarchische Verfahren: agglomerativ (Links), divisiv (Rechts) . . . . . . 53
11 Schmetterlingsproblem (vgl. S. Grossmann [3]) . . . . . . . . . . . . . . . 54
12 Verfahren zur Ähnlichkeitsbestimmung zweier Cluster: single-link (Links),
complete-link (Mitte), group-average (Rechts) . . . . . . . . . . . . . . . . 58
13 Beispiel: Clustering thematisch ähnlicher Dokumente . . . . . . . . . . . . 59
14 Schematischer Aufbau des Zalazar Text Miner . . . . . . . . . . . . . . . . 65
15 Klassendiagramm des Zalazar Text Miner . . . . . . . . . . . . . . . . . . 66
16 Analysekorpus des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . 69
17 Hauptfenster des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . . 82
18 Filedialog zum Önen einer Mail . . . . . . . . . . . . . . . . . . . . . . . 83
19 Analysefenster des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . 84
20 Filedialog zum Speichern der gewonnenen Ergebnisse . . . . . . . . . . . . 85
21 Filedialog zum Laden bereits gespeicherter Analyseergebnisse . . . . . . . 86
Tabellenverzeichnis
1
Linguistische Ebenen und ihre Teildisziplinen (vgl. G. Heyer [5]) . . . . . 19
2
Häugkeitssortierte Liste des Romans Tom Sawyer (vgl. B. Homann [6]) 37
3
Hidden-Markov-Matrix für den Satz The design of the car is great (Ma-
trizenanordnung: A--B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4
Beispiele für Signikanzwerte der Kookkurrenz zweier Wortformen (vgl.
G. Heyer [5]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5
Term-Dokument-Matrix (vgl. G. Heyer [5]) . . . . . . . . . . . . . . . . . 56
6
Dokument-Dokument-Matrix (vgl. G. Heyer [5]) . . . . . . . . . . . . . . 57
7
Dokument-Dokument-Matrix (Beispiel) . . . . . . . . . . . . . . . . . . . . 59
8
Auszug aus dem Penn Treebank Tagset . . . . . . . . . . . . . . . . . . . . 76
9
Softwarelösungen zur Informationsextraktion . . . . . . . . . . . . . . . . 87
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

1 Einleitung
10
1 Einleitung
In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt,
ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante In-
formationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Groÿteil der
gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von
Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet,
dass es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich
sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den
Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit
der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informa-
tionssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen
erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschie-
denen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die
Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio.
Webseiten (Stand: 2005), ganz zu schweigen von unternehmensinternen Datenbanken,
E-Mail-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im
Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen
Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen
in unaufhaltsamem Maÿe fast exponentiell an. Dieser Trend wird auch als Information
Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des
Systems im World Wide Web klar deniert sind.
Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaen.
Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informati-
onssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgeltert
werden. Dieses Verfahren ist bekannt unter dem Begri Data Mining. Bei natürlichen
Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Infor-
mationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische
Methoden eine groÿe Rolle, bei der Gewinnung von gewünschten Informationen aus den
Texten, spielen. Ohne entsprechende Systeme ist es somit unmöglich, eektiv mit den
Informationen aus Texten umzugehen.
Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus
unbekannten Texten zu extrahieren, wird als Text Mining bezeichnet, welches auf den
Grundlagen des Data Mining basiert. Nichts desto trotz stecken die Analyseverfahren
noch in den Kinderschuhen, da die enorme Fülle an Informationen und deren dieren-
zierter sprachlicher Aufbau der Entwicklung zu schaen macht.
In der folgenden Arbeit geben wir grundlegende Einblicke in das Gebiet des Text Mi-
ning, denieren und beschreiben den Prozess und erläutern die Methodik an einem eigens
konzipierten Text Mining-Tool.
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

1.1 Zielsetzung
11
1.1 Zielsetzung
Ziel dieser Studie ist es, einen grundlegenden Überblick über den Prozess des Text Mi-
ning zu verschaen. Dabei steht die englische Sprache im Mittelpunkt. Die Herausfor-
derung soll anschlieÿend darin liegen, ein Programm zu entwickeln, welches anhand der
vorgestellten Verfahren des Text Mining-Prozesses diskriminierende Terme aus englisch
sprachlichen Fach-Mails extrahiert und dem Nutzer präsentiert.
1.2 Aufbau der Arbeit
Der Aufbau dieses Buches gliedert sich in mehrere Kapitel, die im Folgendem kurz vorge-
stellt werden sollen. In Kapitel 2 wird zunächst der Wissensgrundstein gelegt, der für das
Verständnis aller weiteren Ausführungen unabdingbar ist. Dabei werden wir speziell auf
die verschiedenen Charakteristika der Linguistik eingehen. Kapitel 3 bildet das Hauptka-
pitel unserer Arbeit. Hier werden wir einzelne Prozessschritte des Text Mining-Prozess
der Reihe nach ausführlich erläutern. Im Folgekapitel stellen wir unseren selbstentwickel-
ten Zalazar Text Miner in Bezug auf die, in Kapitel 3 erläuterten, Teilprozesse vor. Der
Abschluss der Studie gewährt einen kleinen Einblick in die aktuelle Marktlage, bzw. den
technischen Stand und versucht eine tendenzielle Aussage über die Entwicklung dieses
Fachbereichs zu treen.
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2 Grundlagen
12
2 Grundlagen
2.1 Was ist Text Mining?
Obwohl Text Mining ein wichtiges Fachgebiet der Informatik darstellt, existiert keine
einheitliche Denition. Vielmehr besteht eine groÿe Vielzahl verschiedener Begrisklä-
rungen, die von Autor zu Autor sehr unterschiedlich sein können. Folglich ist es nicht
gerade leicht für den Begri Text Mining eine allgemeine und doch detailierte Denition
anzubieten. Dies wird anhand der folgenden beiden ausgewählten Denitionen besonders
deutlich.
Mit dem Terminus Text Mining werden computergestützte Verfahren für die seman-
tische Analyse von Texten bezeichnet, welche die automatische bzw. semi-automatische
Strukturierung von Texten, insbesondere sehr groÿen Mengen von Texten, unterstüt-
zen.
G.Heyer [5]
Text Mining ist das Verwandeln von unstrukturierten oder semistrukturierten, für
den Benutzer also anfangs wertlosen Textmaterialien oder in Text umwandelbaren Ma-
terialien, in strukturiertes und wertvolles Wissen.
M. Marinschek [8]
Nach Heyer wird der Begri Text Mining sehr technisch auf Grundlage der eingesetzten
Verfahren beschrieben. Etwas dierenzierter erfolgt die Begrisklärung durch Marinschek
und Daume, welche nicht das technische Detail, sondern eher den wirtschaftlichen Nut-
zen des Text Mining in den Vordergrund rücken.
Da es im Kern dieser Arbeit um die Implementierung von Text Mining-Verfahren gehen
soll, beziehen wir uns mehr auf die Denition nach Heyer, welche gleich zwei wichtige
Informationen in sich trägt. Zum einen, dass es sich bei Text Mining nicht um ein Ver-
fahren, sondern um mehrere handelt und zum anderen, dass die Datengrundlage Texte
darstellen, welche eine, für die automatische Weiterverarbeitung, ungünstige Struktur
aufweisen. Sie werden daher in der Allgemeinsprache auch als unstrukturiert bezeich-
net.
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.2 Aufbau und Struktur von Text
13
2.2 Aufbau und Struktur von Text
Wie bereits im vorhergehenden Kapitel angesprochen, kann man Texte allgemein als un-
strukturiert bezeichnen. In der Informatik sind es einfach Daten vom Typ String, welcher
nichts weiter als eine Aneinanderreihung von Zeichen (Char) darstellt. Die Zeichen erge-
ben wiederum unter Einbeziehung eines sprachspezischen Syntax und einer sprachspe-
zischen Semantik Informationen, die bei Verständnis auch als Wissen bezeichnet werden.
Um dieses Wissen ezient und automatisch anhand von Text Mining-Verfahren extra-
hieren zu können, benötigt man auf der einen Seite detailierte Informationen über den
Syntax einer Sprache und auf der anderen Seite deren semantisches Verständnis. Bei-
spielsweise unterscheidet sich der Syntax eines japanischen Textes von einem westlichen
Text, da der Satzbau verschieden ist. Hinzukommt, dass ein Leser der die japanische Spra-
che nicht kennt und versteht, den Text auch nicht inhaltlich interpretieren kann. Folglich
betrachten wir Texte unabhängig von der Sprache als Wissensrohsto, welcher zum Fest-
halten, Bearbeiten und der Weitergabe von Wissen dient. Dabei können Wissen vermit-
telnde Texte in den verschiedensten Formen auftreten. Als Beispiele für solche Textsorten
wären unter anderem wissenschaftliche Aufsätze, Fachbücher, Lexika oder auch techni-
sche Dokumentationen zu nennen. Hinzu kommen digitalisierte Texte, die sich in unserem
modernen Zeitalter immer gröÿerer Beliebtheit erfreuen (ca. 1 Million neuer Dokumente
täglich!). In diesem Zusammenhang ist es wichtig, erst einmal die Struktur eines Textes
und die Beziehung zwichen Wissen und Text genauer zu untersuchen. Sprachwissen-
schaftlich besteht ein Text aus einer Menge von Sätzen mit einer verschiedenen Anzahl
an Wortformen. In der Informatik wiederum handelt es sich um eine Aneinandereihung
von Buchstaben, Ziern, Leer -und Sonderzeichen. Demnach besteht jeder Text lediglich
aus einer Aneinanderreihung von Zeichen, also einer Zeichenkette. Diese Betrachtungs-
weise ist aber mit der Sprachwissenschaft und der ihr zu Grunde liegenden Linguistik
nicht vereinbar, da die Struktur eines Textes auf der im Text genutzten Sprache beruht.
Im nächsten Kapitel wird dies noch ausführlich behandelt. Jeder sinnvolle Text repräsen-
tiert eine Menge von Aussagen, welche wir bereits als Wissen bezeichnen können. Dieser
Sachverhalt ist aber nicht ganz korrekt, da erst von Wissen gesprochen werden kann,
wenn der Text bzw. dessen Zeichenketten semantisch richtig verstanden worden sind.
Um Wissen aus Texten extrahieren zu können, müssen zunächst sogenannte semantische
Relationen [vgl. Kap. 2.3.3] zwischen den Zeichenketten untersucht werden [5]. Hierzu
nutzt man Verfahren aus der Sprachstatistik, dem Clustering und der Musteranalyse.
Auf einige werden wir später in dieser Arbeit noch eingehen. An dieser Stelle soll aber
erst einmal der Verweis auf die entsprechenden Kapitel genügen.
·
Statistische Analysemethoden [Kap. 3.4]
·
Clusteranalyse [Kap. 3.5]
·
Musteranalyse [Kap. 3.6]
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.2 Aufbau und Struktur von Text
14
Um die Beziehung zwischen Wissen und Text darstellen zu können, bedarf es der Ein-
führung einiger Begrie aus der Informationstheorie, welche in der Informatik die theo-
retische Grundlage für die automatische Verarbeitung von Zeichen und Informationen
darstellt.
Ein Zeichen ist ein Element eines endlich geordneten Zeichenvorrats.
G. Heyer [5]
Der endlich geordnete Zeichenvorrat wird als Alphabet bezeichnet, dessen Elemente durch
grammatikalische Regeln zu Zeichenketten kombiniert werden können. Eine solche nach
festgelegten Regeln gebildete Zeichenkette bezeichnet man als Nachricht.
Eine Nachricht ist eine nach vorher festgelegten Regeln zusammengestellte, endliche
Folge von Zeichen und Zuständen, die eine Information vermittelt.
G. Heyer [5]
Bei Information handelt es sich um Daten, die in einem Kontext interpretiert werden
und somit eine Bedeutung für den Besitzer oder Empfänger dieser Daten haben.
G. Heyer [5]
Die Information stellt aber selbst noch kein Wissen dar. Sie ist zwar eine Nachricht mit
einem festgelegten Informationsschlüssel, aber für den Empfänger sind es immer noch Da-
ten, die in einem Bedeutungskontex stehen. Damit diese Information für den Empfänger
wertvoll ist, muss sie mit seinen eigenen gespeicherten Informationen vernetzt werden.
Diese Vernetzung erfolgt durch das Wissen.
Wissen ist die meist auf Erfahrung beruhende und objektiv nachprüfbare Kenntnis
von Fakten und Zusammenhängen eines Weltausschnitts, die Personen zur Lösung von
Problemen einsetzen. Wissen ermöglicht die Vernetzung von Informationen.
G. Heyer [5]
Wird der Inhalt der Information hingegen nicht ausgewertet, sondern nur als sinnhaltiges
Datenobjekt behandelt, spricht man von Content. Betrachtet man dieses als Wirtschafts-
gut, so spricht man auch von einem Asset [5].
Neben der inneren Struktur eines Textes sind auch externe Merkmale für die weitere
Verarbeitung von Bedeutung, da sie für die Einordnung und Nutzung eines Textes oftmals
wichtige Hinweise geben. Zu externen Merkmalen gehören beispielsweise die Sprache, der
Entstehungsbereich (Wirtschaft, Wissenschaft, Behörden usw.), die Form (Buch, Brief,
E-Mail usw.), der Typ (Aufsatz, Webseite, FAQ usw.) oder auch das Sachgebiet eines
Textes.
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
15
Abb. 1: Überblick: Aufbau eines Textes (vgl. G. Heyer [5])
2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
Texte von natürlichen Sprachen repräsentieren Wissen. Um dieses Wissen mit computer-
gestützten Verfahren extrahieren zu können, müssen aus den in einem Text verwendeten
sprachlichen Zeichen (Laute, Morpheme, Wortformen usw.) die Informationen abgeleitet
werden.
Das Herausltern dieser Informationen geschieht auf Grundlage des Linguistischen Struk-
turalismus, welcher die elementaren strukturellen Beziehungen zwischen den sprachlichen
Zeichen auf Grundlage der linguistischen Ebenen untersucht. Mit den in diesem Kapitel
vorgestellten syntagmatischen und paradigmatischen Relationen werden diese struktu-
rellen Beziehungen ausführlich beschrieben und durch eine formale Denition als theore-
tische Grundlage des Text Mining zur Verfügung gestellt. Die beiden Relationen werden
später unter dem Begri der semantischen Relation zusammengefasst, welche für die
sprachliche Repräsentation von Wissen verwendet wird. Zum Anfang bedarf es aber ei-
ner kurzen Einführung in die Linguistik und ihrer Ebenen.
2.3.1 Die Linguistik und ihre Ebenen
Die Linguistik basiert auf der Unterteilung verschiedener hierarchischer Ebenen, auf de-
ren Grundlage die linguistische Analyse von Texten erfolgt. Diese Ebenen werden als
linguistische Ebenen bezeichnet und ergeben sich aus dem grundlegenden Aufbau einer
Sprache. In diesem Zusammenhang soll eine Menge von Grundbegrien eingeführt wer-
den, die den Aufbau einer Sprache vom kleinsten zum gröÿten Element beschreiben.
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
16
Die Grundbausteine einer Sprache sind Laute. Jede natürliche Sprache verwendet ein
konkretes Lautsystem, wobei bestimmte Laute in einzelne Lautgruppen, den sogenann-
ten Phonemen, zusammengefasst werden. Dabei bedienen wir uns folgender Denition:
Im Zusammenhang des Lautsystems einer natürlichen Sprache ist ein Phonem die
kleinste bedeutungsunterscheidende Einheit und kann durch die Gegenüberstellung von
zwei Lautfolgen, die sich nur in einem Laut unterscheiden, identiziert werden.
G. Heyer [5]
Phoneme einer natürlichen Sprache müssen aber nicht unbedingt Phoneme einer ande-
ren natürlichen Sprache sein. Ein einfaches Beispiel verdeutlicht dies: In der englischen
Lautsprache wird zwischen starkem und schwachem th unterschieden, im deutschen
aber nicht, da der Laut th kaum verwendet wird. Auf Grundlage der vorhergehenden
Denition wird das schriftliche Gegenstück des Phonems als Graphem bezeichnet.
Grapheme bilden den Zeichenvorrat einer Schriftsprache und sind die elementaren
Bausteine von Texten. Sie bilden ein Alphabet.
G. Heyer [5]
Ein Alphabet ist ein endlicher geordneter Zeichenvorrat.
G. Heyer [5]
Grapheme sind somit mit den Buchstaben eines Alphabetes gleichzusetzen. Einzelne Gra-
pheme können zu Zeichenketten verschiedener Länge zusammengefasst werden, wobei
diese unterschiedlich oft zur Verwendung kommen und semantisch keinen Sinn ergeben
müssen. Da in den natürlichen Sprachen bestimmte Buchstabenkombinationen häuger
vorkommen als andere, ist es möglich über die Häugkeitsverteilung von diesen Buchsta-
bentupeln die Entropie und Redundanz einer Schriftsprache zu berechnen. Dabei ist zu
beobachten, dass beim Bilden von Zeichenketten aus beliebigen Tupeln und Leerzeichen,
mit wachsender Länge dieser, sich eine immer bessere Annäherung an eine morphologisch
korrekte Sprache ergibt. Diese Sprache muss aber semantisch nicht sinnvoll sein. Im Text
Mining spielen solche Tupel in mehreren Verfahren eine groÿe Rolle, wobei es sich in
dieser Hinsicht nicht nur um Buchstabentupel handeln muss, sondern es auch Tupel von
ganzen Wörtern sein können. Solche Tupel werden auch als n-Gramme bezeichnet, von
denen mehrere Spezialfälle existieren.
Ein n-Gramm besteht aus n aufeinanderfolgenden Wortformen bzw. Buchstaben.
G. Heyer [5]
Mit dem folgenden Beispiel wollen wir die mit wachsender Länge der Tupel erfolgende
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
17
Annäherung an eine morphologisch korrekte Sprache, darstellen.
Beispiel (in Anlehnung an G. Heyer [5]):
Einzelbuchstaben
AME GK NSET EVS TITBL BTZETF NDSBGJ EAI E L HSZ BETEATR IBSMINCH
Bigramme
UNES IWENU WOKTHLIN ATOUN IS DTH STEISBERER ITHI ANOREBL
Trigramme
THOANYNES ONTEL INED INGTHEUCH AROUT IS SOEAD ITDER LY WON
Quadrupel
THIS SUCSTEADMANY OURTAKE THEMEANAND DISPAFTER RUNNAME
In diesem Beispiel sind ebenfalls zwei Spezialfälle von n-Grammen enthalten, die Bi- und
Trigramme. Daher hier eine kurze Denition beider Begrie:
Ein Bigramm ist ein spezieller Typ von n-Grammen, das aus zwei aufeinander fol-
genden Wortformen oder Buchstaben besteht.
G. Heyer [5]
Ein Trigramm ist ein spezieller Typ von n-Grammen, das aus drei aufeinander fol-
genden Wortformen oder Buchstaben besteht.
G. Heyer [5]
An dem Beispiel ist sehr schön zu erkennen, wie mit dem Wachsen der Buchstabentupel
bzw. n-Gramme, sich in den Zeichenketten immer mehr, uns bekannte, englische Worte
abbilden. Wo wir bei Einzelbuchstaben den Inhalt der Zeichenkette nicht richtig deuten
können, sind bei Bigrammen bereits einzelne englische Wörter wie is oder it erkenn-
bar, bei Trigrammen sogar schon the, out, won oder any und bei Quadrupel mutet
die Zeichenkette auf dem ersten Blick schon fast einen normalem englischen Satz an. Die
kleinsten bedeutungstragenden Buchstabentupel werden in der Linguistik als Morphe-
me bezeichnet.
Ein Morphem ist in einer natürlichen Sprache die kleinste bedeutungstragende Einheit
von Zeichenketten.
G. Heyer [5]
Es wird dabei zwischen den freien und gebundenen Morphemen unterschieden. Diese Ein-
teilung basiert auf dem Sachverhalt, ob die Morpheme frei als Wörter im Satz auftreten
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
18
können oder nicht. Ein freies Morphem kann ohne ein weiteres Morphem ein Wort bil-
den, weshalb sie alle lexikalischen Grundformen von Wörtern darstellen. Freie Morpheme
sind beispielsweise dog, house, break oder child. Gebundene Morpheme hingegen
können in einem Satz nicht als Wort allein auftreten, sondern immer im Zusammenhang
mit mindestens einem anderen freiem oder gebundenem Morphem. Es ist sogar mög-
lich, dass ein Wort aus zwei gebundenen Morphemen besteht, wie zum Beispiel biology,
welches aus dem Präx bio und dem Sux logy besteht. Die gebundenen Morpheme
beschreiben somit grammatikalische Informationen durch Präxe wie un oder Flexions-
endungen wie able, die an freie oder gebundene Morpheme angehangen werden können.
Eine besondere Form der freien Morpheme sind die Allmorphe, welche verschiedene
Formen besitzen, aber semantisch identisch sind.
Die Kombination von den oben beschriebenen freien und gebundenen Morphemen, ent-
sprechend den Regeln der Morphologie, ergibt eine Wortform.
Eine Wortform ergibt sich in einer natürlichen Sprache aus den nach morphologischen
Regeln aneinander gefügten Morphemen (z.B. sprich + st).
G. Heyer [5]
Semantisch zusammengehörige Wortformen bilden wiederum eine Äquivalenzklasse
und werden als Wort bezeichnet.
Ein Wort ist die Abstraktion aus allen semantisch zusammengehörigen Wortformen.
G. Heyer [5]
Wörter werden mit der Grundform bezeichnet. Für Nomen wäre dies der Nominativ Sin-
gular bzw. für Verben der Innitiv Präsenz. Wenn man nun verschiedene Wortformen
syntaktisch miteinander kombiniert, so erhält man eine Phrase.
Als Phrase bezeichnet man die in einer natürlichen Sprache nach syntaktischen Regeln
aneinandergefügten Wortformen (z.B. ...hoch über den Wolken...).
G. Heyer [5]
Phrasen bilden die elementaren Gliederungseinheiten (Konstituenten) eines wohlgeform-
ten Satzes.
Die grammatikalisch korrekte Kombination von Konstituenten ergibt einen wohlge-
formten Satz.
G. Heyer [5]
Ein Satz ist im Unterschied zu einzelnen Phrasen wahrheitsfähig. Folglich wird er dafür
verwendet, um eine Aussage zu machen, die auf ihre Wahrheit hin überprüft werden
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
19
kann.
Mit der Reihenfolge, der in diesem Kapitel eingeführten Begrie (Laut, Phonem, Mor-
phem, Wortform, Wort, Phrase, Satz, Aussage), haben wir gleichzeitig auch die Un-
terteilung der linguistischen Ebenen eingeführt. Diese dienen zur Unterscheidung der
linguistischen Teildisziplinen Phonetik, Phonologie, Morphologie, Syntax und Semantik,
die den einzelnen Ebenen der Linguistik zugeordnet sind.
Sprachliche Ebene
Linguistische Teildisziplin
Laute
Phonetik
Äquivalenzklassen von Lauten
Phonologie
Phonem: kleinste bedeutungsunterscheidende
Einheit
Konkatenationsgruppen von Graphemen Morphologie
Silbe: kleinste aussprachebezogene Einheit
Morphem: kleinste bedeutungstragende
Einheit
Allomorph: Äquivalenzklasse
bedeutungsäquivalenter Morpheme
Beispiel: sprech = {sprech, sprich, sprach, ...}
Konkatenationsgruppen von Morphemen Morphologie
Wortform: nach morphologischen Regeln
aneinandergefügte Morpheme
Wort: Äquivalenklasse von Wortformen
Konkatenationsgruppen von Wörtern
Syntax
Phrasen: nach syntaktischen Regeln
aneinandergefügte Wörter
Sätze: nach syntaktischen Regeln
aneinandergefügte Phrasen
Äquivalenzklassen von Sätzen
Semantik/Pragmatik
Aussagen: wahrheitsfähige Sätze
Sprechakte: zustandsverändernde Sätze und
Phrasen
Tab. 1: Linguistische Ebenen und ihre Teildisziplinen (vgl. G. Heyer [5])
Die linguistischen Ebenen beschreiben den formalen Aufbau einer natürlichen Sprache
durch das Bildungsprinzip des Aneinanderfügens (Konkatenation) und der Abstraktion
durch Äquivalenzklassen. Der Prozess des Text Mining orientiert sich ebenfalls an die-
sen Ebenen, da die Reihenfolge der eingesetzten Verfahren, die der Ebenen entspricht.
So beginnt man zunächst mit einer morphologischen Analyse in Form eines Tokenisie-
rers, welcher die Sätze und Wortformen aus dem Text extrahiert. Es folgt eine syntak-
tische Analyse durch einen Part-of-Speech Tagger zur Zuordnung der Wortarten und
abschlieÿend eine semantische Analyse, beispielsweise anhand einer Musteranalyse, um
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
20
bestimmte syntaktische Muster zu nden, welche semantisch zusammenhängende Wort-
formkombinationen beschreiben.
2.3.2 Syntagmatische und Paradigmatische Relationen
Ein Programm, welches automatisch aus einem Text Wissen extrahieren soll, versteht
von dem Text genauso wenig wie eine Person, die eine für ihn fremde Sprache liest. In
der Informatik handelt es sich bei einem Text um nichts weiter, als eine Datenmenge
vom Typ String. Texte werden dabei allgemein als unstrukturiert betrachtet. Durch die
Einführung der linguistischen Ebenen erfolgt die Einführung einer formalen Struktur,
welche sich aus verschieden denierten sprachlichen Zeichen zusammensetzt und durch
Aneinanderfügung (Konkatenation), sowie dem Bilden von Äquivalenzklassen, Ebenen
beschreibt. Die Berücksichtigung der linguistischen Ebenen ist somit eine wesentliche
Voraussetzung für die automatische Ermittlung von semantischen Zusammenhängen.
Der bedeutende Schweizer Linguist Ferdinand de Saussure beschrieb sprachliche Bedeu-
tungszusammenhänge mit den sogenannten syntagmatischen und paradigmatischen Re-
lationen.
Syntagmatische Relation ist in der Tradition des linguistischen Strukturalismus
die Bezeichnung für das gemeinsame Auftreten zweier Wortformen in einem Satz oder
Textfenster.
G. Heyer [5]
Paradigmatische Relation ist in der Tradition des linguistischen Strukturalismus
die Bezeichnung für das Auftreten zweier Wortformen in ähnlichen Kontexten.
G. Heyer [5]
Syntagmatische Relationen sollen dabei semantische Zusammenhänge zwischen zwei Wort-
formen einer Sprache erfassen, paradigmatische Relationen hingegen syntaktische, seman-
tische und logische Zusammenhänge. Anhand der Denitionen von De Saussures lassen
sich folgende mathematische Denitionen als formale Rekonstruktion des Strukturalis-
mus angeben.
Es sei L = (W, S) eine Sprache mit der Menge W aller Wortformen dieser Sprache und
der Menge S, der in dieser Sprache gültigen und sinnvollen Sätze. Jeder Satz s S
repräsentiert dabei eine Menge von Wortformen, s = {w
1
, ..., w
n
}
mit w
i
W
, wobei
jede Wortform nur einmal, unabhängig ihres Vorkommens in einem Satz, in der Menge
enthalten sein darf [5]. Somit gilt:
Der lokale Kontext K
s
(w
i
)
einer Wortform w
i
s
ist die Menge der Wortformen,
mit denen w
i
zusammen in einem Satz s auftritt. (nach G. Heyer [5])
K
s
(w
i
) = s\ {w
i
}
, mit w
i
s
.
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
21
Nach dieser Denition ist es möglich, dass zwei verschiedene Sätze den gleichen lokalen
Kontext bilden, da die Wortstellung im Kontext keine Rolle spielt. Der Begri des lokalen
Kontexts beschränkt sich auf die Satzebene der Linguistik, da er auf dieser aufbaut. Aus
der mathematischen Denition des lokalen Kontexts, ergibt sich die syntagmatischen
Relation wie folgt:
Zwei Wortformen w
i
W
und w
j
W
stehen dann und nur dann in einer syntag-
matischen Relation SY N(w
i
, w
j
)
zueinander, wenn es mindestens einen lokalen
Kontext von w
i
gibt, der w
j
enthält. (nach G. Heyer [5])
SY N (w
i
, w
j
) s : w
j
K
s
(w
i
)
.
Daraus folgt, dass jede Wortform w W , die ein Element des lokalen Kontexts K
s
(w
i
)
darstellt, mit w
i
in syntagmatischer Relation steht. Die syntagmatische Relation wird
auch als Kookkurrenz oder Satzkookkurrenz und die beteiligten Wortformen als
Kookkurrenten bezeichnet [5]. Die Denition wiederspricht aber dem Prinzip der Su-
che nach semantischen Zusammenhängen, da jede Wortform mit jeder anderen in einem
Satz auftreten kann. Es ist somit schwer zu erkennen, welche Wortformen nur zufäl-
lig zusammen vorkommen und welche nicht. Mithilfe der Wahrscheinlichkeitsrechnung
kann dieses Problem, unter der Annahme eines unabhängigen zufälligen Auftretens der
Wortformen, umgangen werden. Auf Grundlage der Poisson-Verteilung kann für jede syn-
tagmatische Relation ein Signikanzmaÿ berechnet werden, welches auf eine statistische
Abweichung des gemeinsamen Auftretens beider Wortformen hinweisen kann [vgl. Kap.
3.4.4]. Der inhaltliche Zusammenhang kann als Grund für die statistische Abweichung
angesehen werden und wird als statistisch-syntagmatische Relation bezeichnet.
Zwei Wortformen w
i
und w
j
stehen dann in einer statistisch-syntagmatischen Rela-
tion SY NS(w
i
, w
j
)
, wenn sie in syntagmatischer Relation stehen und ihr gemeinsames
Auftreten gemessen anhand einem noch festzulegenden Signikanzmaÿ nicht zufällig
ist.
(nach G. Heyer [5])
Durch diese neue Denition ist es nun möglich, auälliges gemeinsames Auftreten von
Wortformen anhand eines Signikanzmaÿes hervorzuheben. Hinzukommend muss noch
ein Schwellenwert festgelegt werden, ab dem eine statistisch-syntagmatische Relation
vorliegt. Diese Relation wird analog zur syntagmatischen Relation auch als signikan-
te Kookkurrenz oder signikante Satzkookkurrenz bezeichnet [5]. Wenn man nun
solche signikanten Kookkurrenzen näher betrachtet, beschreiben diese eine Vielzahl lin-
guistischer Eigenschaften, wie beispielsweise Aufzählungen, feste Wendungen oder auch
Mehrwortbegrie bzw. Wortformkombinationen, die aber im Unterschied zu den bisher
gegebenen Denitionen mehrere Wortformen beinhalten können.
Bei den paradigmatischen Relationen handelt es sich, im Unterschied zu einem lokalen
Kontext, um einen globalen Kontext. Es wird somit nicht mehr betrachtet, mit welchen
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
22
anderen Wortformen eine bestimmte Wortform w
i
W
in einem Satz auftritt. Stattdes-
sen werden alle Wortformen, die zusammen mit w
i
in verschiedenen Sätzen vorkommen,
betrachtet. Für den globalen Kontext erfolgt folgende formale Denition:
Der globale Kontext K
G
(w
i
)
einer Wortform w
i
W
ist die Menge aller Wortformen
w W
, welche mit w
i
in statistisch-syntagmatischer Relation stehen.
(nach G. Heyer [5])
K
G
(w
i
) = {w|SY N S(w
i
, w)}
.
Nach der Denition bilden alle statistisch-syntagmatischen Relationen von w
i
jeweils ei-
ne Teilmenge des globalen Kontexts K
G
(w
i
)
. Folglich ist der globale Kontext die Menge
aller signikanten Kookkurrenten von w
i
. Zudem existiert nur ein globaler Kontext in
Abhängigkeit des zugrunde gelegten Textkorpus, des gewählten Signikanzmaÿes und
des festgelegten Schwellenwertes. Es ist möglich, zwei globale Kontexte auf ihre Ähnlich-
keit hin, unter Anwendung eines Vergleichsprädikats SIM
t
mit einem Schwellenwert t,
zu vergleichen. Die formale Beschreibung dafür ist SIM
t
(K
G
(w
i
), K
G
(w
j
))
[5]. Für die
Beschreibung der Ähnlichkeit muss, wie bei der statistisch-syntagmatischen Relation, ein
repräsentativer Wert gebildet werden. Dieser Wert wird allgemein als Ähnlichkeitsmaÿ
bezeichnet, dessen Berechnung auf verschiedenen Herangehensweisen beruht. Es wird bei-
spielsweise das sogenannte Cosinus-Maÿ als Ähnlichkeitsmaÿ verwendet [vgl. Kap. 3.5.4].
Sind nun zwei globale Kontexte ähnlich zueinander, bezeichnen wir diese als paradig-
matische Relation.
Zwei Wortformen w
i
, w
j
W
stehen dann und nur dann in einer paradigmatischen
Relation P ARA(w
i
, w
j
)
, wenn ihre globalen Kontexte K
G
(w
i
)
und K
G
(w
j
)
in Bezug
auf ein Ähnlichkeitsmaÿ und einem zuvor festgelegten Schwellwert zueinander ähnlich
sind. (nach G. Heyer [5])
P ARA(w
i
, w
j
) SIM
t
(K
G
(w
i
), K
G
(w
j
))
Bei der Bestimmung des globalen Kontext einer Wortform, kann zudem die Verwendung
eines Filter erfolgen. So werden im einfachsten Fall die Wortformen eines globalen Kon-
textes K
G
(w
i
)
herausgeltert, die nicht der Wortart der Wortform w
i
entsprechen. Somit
ergibt sich ein globaler Kontext mit Elementen einer bestimmten syntaktischen Kate-
gorie CAT, der mit anderen, ebenfalls auf diese Weise, gelterten globalen Kontexten
verglichen werden kann. Es gilt:
P ARA
CAT
(w
i
, w) P ARA(w
i
, w)
& CAT (w
i
) = CAT (w)
. (nach G. Heyer [5])
Als Ergebnis erhält man eine Menge aller Wortformen w, zu denen eine Wortform w
i
, in
syntaktischer Hinsicht, in paradigmatischer Relation steht:
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
23
{w|P ARA
CAT
(w
i
, w)}
. (nach G. Heyer [5])
Diese Menge von Wortformen ist auch unter dem Begri Ersetzungsklasse bekannt [5],
da sie die Wortformen beinhaltet, die w
i
in einem Satz, an einer bestimmten Position
und unter der geforderten Beibehaltung des Syntax dieses Satzes, ersetzen können.
Beispiel:
In der Satzform The X shines kann die Variable X, an der ursprünglich sun
stand, durch andere Wortformen, mit denen sun, in syntaktischer Hinsicht, in einer
paradigmatischen Relation steht, ersetzt werden. Die anderen Wortformen können
folglich nur Nomen sein und müssen, trotz einer semantischen Beziehung zu X, nicht
die selben semantischen Merkmale besitzen. Ein Beispielnomen wäre die Wortform
ower, die im semantischen Zusammenhang mit sun steht und gleiche syntaktische
Merkmale besitzt.
Unabhängig von dem Einsatz einer syntaktischen Filterung, ist auch der Einsatz eines
semantischen Filters möglich. Dabei werden in einem globalen Kontext K
G
(w
i
)
nur die
Wortformen zugelassen, die mit w
i
gemeinsame semantische Merkmale besitzen. Es wer-
den daher nur die gelterten globalen Kontexte miteinander verglichen, deren Elemente
einer bestimmten semantischen Kategorie SEM angehören.
P ARA
SEM
(w
i
, w) P ARA(w
i
, w)
& SEM(w
i
) = SEM (w).
(nach G. Heyer [5])
Als Ergebnis erhält man wieder eine Menge aller Wortformen w, zu denen die Wortform
w
i
, in diesem Fall aus semantischer Sicht, in paradigmatischer Relation steht:
{w|P ARA
SEM
(w
i
, w)}
. (nach G. Heyer [5])
Diese Menge bildet ebenfalls eine Ersetzungsklasse, aber auf semantischer Ebene.
Beispiel:
In der Satzform The X shines werden nur Belegungen von X zugelassen, die
meist mit dem Verb shines gemeinsam auftreten. Die anderen Wortformen müssen
somit das Merkmal einer Lichtquelle mit X gemein haben. Als Beispiele kämen für X
latern, lamp oder candle infrage.
Abschlieÿend existieren noch die logischen Bedingungen wie die Ober- und Unterbe-
grisbeziehungen, auf Basis derer eine Filterung erfolgen kann. Dabei werden nur gel-
terte globale Kontexte verglichen, deren Elemente diese logische Bedingung LOG erfüllen.
P ARA
LOG
(w
i
, w) P ARA(w
i
, w)
& LOG(w
i
) = LOG(w)
. (nach G. Heyer [5])
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2010
ISBN (eBook)
9783842806283
Dateigröße
1.7 MB
Sprache
Deutsch
Institution / Hochschule
Technische Universität Bergakademie Freiberg – Informatik, Network Computing
Erscheinungsdatum
2014 (April)
Note
1,7
Schlagworte
text mining information retrieval linguistik stochastik tool
Zurück

Titel: Text Mining und dessen Implementierung
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
86 Seiten
Cookie-Einstellungen