Text Mining und dessen Implementierung

Zänker, Norman; Zietzsch, Christian

Text Mining und dessen Implementierung

von Norman Zänker (Autor:in) Christian Zietzsch (Autor:in)

Zusammenfassung

Inhaltsangabe:Einleitung:
In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt, ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante Informationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Großteil der gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet, das es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informationssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschiedenen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio. Webseiten, ganz zu schweigen von unternehmensinternen Datenbanken, Email-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen in unaufhaltsamem Maße fast exponentiell an. Dieser Trend wird auch als Information Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des Systems im World Wide Web klar definiert sind.
Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaffen. Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informationssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgefiltert werden. Dieses Verfahren ist bekannt unter dem Begriff Data-Mining. Bei natürlichen Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Informationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische Methoden eine große Rolle spielen, um die gewünschten Informationen aus den Texten zu gewinnen. Ohne entsprechende Systeme ist es somit unmöglich, effektiv mit den Informationen aus Texten umzugehen.
Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus unbekannten Texten zu […]

Leseprobe

Inhaltsverzeichnis

Norman Zänker/Christian Zietzsch

Text Mining und dessen Implementierung

ISBN: 978-3-8428-0628-3

Herstellung: Diplomica® Verlag GmbH, Hamburg, 2011

Zugl. Technische Universität Bergakademie Freiberg, Freiberg, Deutschland,

Bachelorarbeit, 2010

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,

insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von

Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der

Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,

bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik

Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich

vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des

Urheberrechtes.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in

diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,

dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei

zu betrachten wären und daher von jedermann benutzt werden dürften.

Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können

Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder

Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.

verbliebene fehlerhafte Angaben und deren Folgen.

http://www.diplomica.de, Hamburg 2011

Inhaltsverzeichnis

1 Einleitung

1.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Grundlagen

2.1 Was ist Text Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 Aufbau und Struktur von Text . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse . . . 15

2.3.1 Die Linguistik und ihre Ebenen . . . . . . . . . . . . . . . . . . . . 15

2.3.2 Syntagmatische und Paradigmatische Relationen . . . . . . . . . . 20

2.3.3 Semantische Relationen . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Text Mining-Prozess

3.1 Unterschied Text Mining und Data Mining . . . . . . . . . . . . . . . . . . 28

3.2 Dokumentsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2.1 Information Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2.2 Aufbau und Funktion eines Information Retrieval Systems . . . . . 30

3.3 Dokumentaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3.1 Textressourcen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3.2 Aufbau eines Analysekorpus . . . . . . . . . . . . . . . . . . . . . . 32

3.3.2.1 Satzsegmentierung . . . . . . . . . . . . . . . . . . . . . . 34

3.3.2.2 Wortsegmentierung . . . . . . . . . . . . . . . . . . . . . 35

3.4 Text Mining - Statistische Analysemethoden . . . . . . . . . . . . . . . . . 37

3.4.1 Zipfsches Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.4.2 Dierenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.4.3 Part-of-Speech Tagging . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4.3.1 Regelbasierte Tagger . . . . . . . . . . . . . . . . . . . . . 39

3.4.3.2 Stochastische Tagger . . . . . . . . . . . . . . . . . . . . . 41

3.4.3.3 Regelbasierte Tagger vs. Stochastische Tagger . . . . . . . 47

3.4.4 Kookkurrenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.5 Text Mining - Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.5.1 Nicht-hierarchische Verfahren . . . . . . . . . . . . . . . . . . . . . 51

3.5.2 Hierarchische Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 53

3.5.3 Fuzzy-Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.5.4 Dokumentähnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.5.5 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.6 Text Mining - Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.6.1 Reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.6.2 Syntaktische Muster . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4 Text Mining-Prozess anhand des Zalazar Text Miner

4.1 Programmaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

Inhaltsverzeichnis

4.2 Dokumentaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.2.1 Formatierung des zu analysierenden Textdokuments . . . . . . . . 67

4.2.2 Aufbau des Analysekorpus anhand der Satz- und Wortsegmentierung 68

4.3 Dokumentanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.3.1 Part-of-Speech Tagging . . . . . . . . . . . . . . . . . . . . . . . . 75

4.3.2 Dierenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.3.3 Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.4 Ergebnisevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.5 Handhabung des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . . 82

4.5.1 Önen einer neuen Mail . . . . . . . . . . . . . . . . . . . . . . . . 83

4.5.2 Durchführen der Textanalyse . . . . . . . . . . . . . . . . . . . . . 84

4.5.3 Speichern der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 85

4.5.4 Laden der Ergebnisse einer bereits analysierten Mail . . . . . . . . 86

5 Schlusswort

Literatur

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

Abbildungsverzeichnis

Überblick: Aufbau eines Textes (vgl. G. Heyer [5]) . . . . . . . . . . . . . 15

Prozess des Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Vergleich Text Mining- und Data Mining Prozess . . . . . . . . . . . . . . 28

Aufbau eines IR-Systems (vgl. T. Gottron [2]) . . . . . . . . . . . . . . . . 30

Aufbau eines Hidden-Markov-Modells . . . . . . . . . . . . . . . . . . . . 42

Komplettes Gitter für The design of the car is great. (in Anlehnung an

K. Haenelt [4]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Reduziertes Gitter für The design of the car is great. mithilfe des Viterbi-

Algorithmus (in Anlehnung an K. Haenelt [4]). . . . . . . . . . . . . . . . 46

Wortnetz der Wortform technology (vgl. Uni-Leipzig, Projekt Wortschatz

[12]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Clustering mit k-means (vgl. G. Heyer [5]) . . . . . . . . . . . . . . . . . . 52

10 Hierarchische Verfahren: agglomerativ (Links), divisiv (Rechts) . . . . . . 53

11 Schmetterlingsproblem (vgl. S. Grossmann [3]) . . . . . . . . . . . . . . . 54

12 Verfahren zur Ähnlichkeitsbestimmung zweier Cluster: single-link (Links),

complete-link (Mitte), group-average (Rechts) . . . . . . . . . . . . . . . . 58

13 Beispiel: Clustering thematisch ähnlicher Dokumente . . . . . . . . . . . . 59

14 Schematischer Aufbau des Zalazar Text Miner . . . . . . . . . . . . . . . . 65

15 Klassendiagramm des Zalazar Text Miner . . . . . . . . . . . . . . . . . . 66

16 Analysekorpus des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . 69

17 Hauptfenster des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . . 82

18 Filedialog zum Önen einer Mail . . . . . . . . . . . . . . . . . . . . . . . 83

19 Analysefenster des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . 84

20 Filedialog zum Speichern der gewonnenen Ergebnisse . . . . . . . . . . . . 85

21 Filedialog zum Laden bereits gespeicherter Analyseergebnisse . . . . . . . 86

Tabellenverzeichnis

Linguistische Ebenen und ihre Teildisziplinen (vgl. G. Heyer [5]) . . . . . 19

Häugkeitssortierte Liste des Romans Tom Sawyer (vgl. B. Homann [6]) 37

Hidden-Markov-Matrix für den Satz The design of the car is great (Ma-

trizenanordnung: A--B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Beispiele für Signikanzwerte der Kookkurrenz zweier Wortformen (vgl.

G. Heyer [5]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Term-Dokument-Matrix (vgl. G. Heyer [5]) . . . . . . . . . . . . . . . . . 56

Dokument-Dokument-Matrix (vgl. G. Heyer [5]) . . . . . . . . . . . . . . 57

Dokument-Dokument-Matrix (Beispiel) . . . . . . . . . . . . . . . . . . . . 59

Auszug aus dem Penn Treebank Tagset . . . . . . . . . . . . . . . . . . . . 76

Softwarelösungen zur Informationsextraktion . . . . . . . . . . . . . . . . 87

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

1 Einleitung

In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt,

ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante In-

formationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Groÿteil der

gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von

Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet,

dass es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich

sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den

Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit

der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informa-

tionssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen

erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschie-

denen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die

Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio.

Webseiten (Stand: 2005), ganz zu schweigen von unternehmensinternen Datenbanken,

E-Mail-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im

Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen

Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen

in unaufhaltsamem Maÿe fast exponentiell an. Dieser Trend wird auch als Information

Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des

Systems im World Wide Web klar deniert sind.

Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaen.

Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informati-

onssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgeltert

werden. Dieses Verfahren ist bekannt unter dem Begri Data Mining. Bei natürlichen

Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Infor-

mationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische

Methoden eine groÿe Rolle, bei der Gewinnung von gewünschten Informationen aus den

Texten, spielen. Ohne entsprechende Systeme ist es somit unmöglich, eektiv mit den

Informationen aus Texten umzugehen.

Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus

unbekannten Texten zu extrahieren, wird als Text Mining bezeichnet, welches auf den

Grundlagen des Data Mining basiert. Nichts desto trotz stecken die Analyseverfahren

noch in den Kinderschuhen, da die enorme Fülle an Informationen und deren dieren-

zierter sprachlicher Aufbau der Entwicklung zu schaen macht.

In der folgenden Arbeit geben wir grundlegende Einblicke in das Gebiet des Text Mi-

ning, denieren und beschreiben den Prozess und erläutern die Methodik an einem eigens

konzipierten Text Mining-Tool.

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

1.1 Zielsetzung

Ziel dieser Studie ist es, einen grundlegenden Überblick über den Prozess des Text Mi-

ning zu verschaen. Dabei steht die englische Sprache im Mittelpunkt. Die Herausfor-

derung soll anschlieÿend darin liegen, ein Programm zu entwickeln, welches anhand der

vorgestellten Verfahren des Text Mining-Prozesses diskriminierende Terme aus englisch

sprachlichen Fach-Mails extrahiert und dem Nutzer präsentiert.

1.2 Aufbau der Arbeit

Der Aufbau dieses Buches gliedert sich in mehrere Kapitel, die im Folgendem kurz vorge-

stellt werden sollen. In Kapitel 2 wird zunächst der Wissensgrundstein gelegt, der für das

Verständnis aller weiteren Ausführungen unabdingbar ist. Dabei werden wir speziell auf

die verschiedenen Charakteristika der Linguistik eingehen. Kapitel 3 bildet das Hauptka-

pitel unserer Arbeit. Hier werden wir einzelne Prozessschritte des Text Mining-Prozess

der Reihe nach ausführlich erläutern. Im Folgekapitel stellen wir unseren selbstentwickel-

ten Zalazar Text Miner in Bezug auf die, in Kapitel 3 erläuterten, Teilprozesse vor. Der

Abschluss der Studie gewährt einen kleinen Einblick in die aktuelle Marktlage, bzw. den

technischen Stand und versucht eine tendenzielle Aussage über die Entwicklung dieses

Fachbereichs zu treen.

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2 Grundlagen

2.1 Was ist Text Mining?

Obwohl Text Mining ein wichtiges Fachgebiet der Informatik darstellt, existiert keine

einheitliche Denition. Vielmehr besteht eine groÿe Vielzahl verschiedener Begrisklä-

rungen, die von Autor zu Autor sehr unterschiedlich sein können. Folglich ist es nicht

gerade leicht für den Begri Text Mining eine allgemeine und doch detailierte Denition

anzubieten. Dies wird anhand der folgenden beiden ausgewählten Denitionen besonders

deutlich.

Mit dem Terminus Text Mining werden computergestützte Verfahren für die seman-

tische Analyse von Texten bezeichnet, welche die automatische bzw. semi-automatische

Strukturierung von Texten, insbesondere sehr groÿen Mengen von Texten, unterstüt-

zen.

G.Heyer [5]

Text Mining ist das Verwandeln von unstrukturierten oder semistrukturierten, für

den Benutzer also anfangs wertlosen Textmaterialien oder in Text umwandelbaren Ma-

terialien, in strukturiertes und wertvolles Wissen.

M. Marinschek [8]

Nach Heyer wird der Begri Text Mining sehr technisch auf Grundlage der eingesetzten

Verfahren beschrieben. Etwas dierenzierter erfolgt die Begrisklärung durch Marinschek

und Daume, welche nicht das technische Detail, sondern eher den wirtschaftlichen Nut-

zen des Text Mining in den Vordergrund rücken.

Da es im Kern dieser Arbeit um die Implementierung von Text Mining-Verfahren gehen

soll, beziehen wir uns mehr auf die Denition nach Heyer, welche gleich zwei wichtige

Informationen in sich trägt. Zum einen, dass es sich bei Text Mining nicht um ein Ver-

fahren, sondern um mehrere handelt und zum anderen, dass die Datengrundlage Texte

darstellen, welche eine, für die automatische Weiterverarbeitung, ungünstige Struktur

aufweisen. Sie werden daher in der Allgemeinsprache auch als unstrukturiert bezeich-

net.

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.2 Aufbau und Struktur von Text

Wie bereits im vorhergehenden Kapitel angesprochen, kann man Texte allgemein als un-

strukturiert bezeichnen. In der Informatik sind es einfach Daten vom Typ String, welcher

nichts weiter als eine Aneinanderreihung von Zeichen (Char) darstellt. Die Zeichen erge-

ben wiederum unter Einbeziehung eines sprachspezischen Syntax und einer sprachspe-

zischen Semantik Informationen, die bei Verständnis auch als Wissen bezeichnet werden.

Um dieses Wissen ezient und automatisch anhand von Text Mining-Verfahren extra-

hieren zu können, benötigt man auf der einen Seite detailierte Informationen über den

Syntax einer Sprache und auf der anderen Seite deren semantisches Verständnis. Bei-

spielsweise unterscheidet sich der Syntax eines japanischen Textes von einem westlichen

Text, da der Satzbau verschieden ist. Hinzukommt, dass ein Leser der die japanische Spra-

che nicht kennt und versteht, den Text auch nicht inhaltlich interpretieren kann. Folglich

betrachten wir Texte unabhängig von der Sprache als Wissensrohsto, welcher zum Fest-

halten, Bearbeiten und der Weitergabe von Wissen dient. Dabei können Wissen vermit-

telnde Texte in den verschiedensten Formen auftreten. Als Beispiele für solche Textsorten

wären unter anderem wissenschaftliche Aufsätze, Fachbücher, Lexika oder auch techni-

sche Dokumentationen zu nennen. Hinzu kommen digitalisierte Texte, die sich in unserem

modernen Zeitalter immer gröÿerer Beliebtheit erfreuen (ca. 1 Million neuer Dokumente

täglich!). In diesem Zusammenhang ist es wichtig, erst einmal die Struktur eines Textes

und die Beziehung zwichen Wissen und Text genauer zu untersuchen. Sprachwissen-

schaftlich besteht ein Text aus einer Menge von Sätzen mit einer verschiedenen Anzahl

an Wortformen. In der Informatik wiederum handelt es sich um eine Aneinandereihung

von Buchstaben, Ziern, Leer -und Sonderzeichen. Demnach besteht jeder Text lediglich

aus einer Aneinanderreihung von Zeichen, also einer Zeichenkette. Diese Betrachtungs-

weise ist aber mit der Sprachwissenschaft und der ihr zu Grunde liegenden Linguistik

nicht vereinbar, da die Struktur eines Textes auf der im Text genutzten Sprache beruht.

Im nächsten Kapitel wird dies noch ausführlich behandelt. Jeder sinnvolle Text repräsen-

tiert eine Menge von Aussagen, welche wir bereits als Wissen bezeichnen können. Dieser

Sachverhalt ist aber nicht ganz korrekt, da erst von Wissen gesprochen werden kann,

wenn der Text bzw. dessen Zeichenketten semantisch richtig verstanden worden sind.

Um Wissen aus Texten extrahieren zu können, müssen zunächst sogenannte semantische

Relationen [vgl. Kap. 2.3.3] zwischen den Zeichenketten untersucht werden [5]. Hierzu

nutzt man Verfahren aus der Sprachstatistik, dem Clustering und der Musteranalyse.

Auf einige werden wir später in dieser Arbeit noch eingehen. An dieser Stelle soll aber

erst einmal der Verweis auf die entsprechenden Kapitel genügen.

Statistische Analysemethoden [Kap. 3.4]

Clusteranalyse [Kap. 3.5]

Musteranalyse [Kap. 3.6]

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.2 Aufbau und Struktur von Text

Um die Beziehung zwischen Wissen und Text darstellen zu können, bedarf es der Ein-

führung einiger Begrie aus der Informationstheorie, welche in der Informatik die theo-

retische Grundlage für die automatische Verarbeitung von Zeichen und Informationen

darstellt.

Ein Zeichen ist ein Element eines endlich geordneten Zeichenvorrats.

G. Heyer [5]

Der endlich geordnete Zeichenvorrat wird als Alphabet bezeichnet, dessen Elemente durch

grammatikalische Regeln zu Zeichenketten kombiniert werden können. Eine solche nach

festgelegten Regeln gebildete Zeichenkette bezeichnet man als Nachricht.

Eine Nachricht ist eine nach vorher festgelegten Regeln zusammengestellte, endliche

Folge von Zeichen und Zuständen, die eine Information vermittelt.

G. Heyer [5]

Bei Information handelt es sich um Daten, die in einem Kontext interpretiert werden

und somit eine Bedeutung für den Besitzer oder Empfänger dieser Daten haben.

G. Heyer [5]

Die Information stellt aber selbst noch kein Wissen dar. Sie ist zwar eine Nachricht mit

einem festgelegten Informationsschlüssel, aber für den Empfänger sind es immer noch Da-

ten, die in einem Bedeutungskontex stehen. Damit diese Information für den Empfänger

wertvoll ist, muss sie mit seinen eigenen gespeicherten Informationen vernetzt werden.

Diese Vernetzung erfolgt durch das Wissen.

Wissen ist die meist auf Erfahrung beruhende und objektiv nachprüfbare Kenntnis

von Fakten und Zusammenhängen eines Weltausschnitts, die Personen zur Lösung von

Problemen einsetzen. Wissen ermöglicht die Vernetzung von Informationen.

G. Heyer [5]

Wird der Inhalt der Information hingegen nicht ausgewertet, sondern nur als sinnhaltiges

Datenobjekt behandelt, spricht man von Content. Betrachtet man dieses als Wirtschafts-

gut, so spricht man auch von einem Asset [5].

Neben der inneren Struktur eines Textes sind auch externe Merkmale für die weitere

Verarbeitung von Bedeutung, da sie für die Einordnung und Nutzung eines Textes oftmals

wichtige Hinweise geben. Zu externen Merkmalen gehören beispielsweise die Sprache, der

Entstehungsbereich (Wirtschaft, Wissenschaft, Behörden usw.), die Form (Buch, Brief,

E-Mail usw.), der Typ (Aufsatz, Webseite, FAQ usw.) oder auch das Sachgebiet eines

Textes.

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

Abb. 1: Überblick: Aufbau eines Textes (vgl. G. Heyer [5])

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

Texte von natürlichen Sprachen repräsentieren Wissen. Um dieses Wissen mit computer-

gestützten Verfahren extrahieren zu können, müssen aus den in einem Text verwendeten

sprachlichen Zeichen (Laute, Morpheme, Wortformen usw.) die Informationen abgeleitet

werden.

Das Herausltern dieser Informationen geschieht auf Grundlage des Linguistischen Struk-

turalismus, welcher die elementaren strukturellen Beziehungen zwischen den sprachlichen

Zeichen auf Grundlage der linguistischen Ebenen untersucht. Mit den in diesem Kapitel

vorgestellten syntagmatischen und paradigmatischen Relationen werden diese struktu-

rellen Beziehungen ausführlich beschrieben und durch eine formale Denition als theore-

tische Grundlage des Text Mining zur Verfügung gestellt. Die beiden Relationen werden

später unter dem Begri der semantischen Relation zusammengefasst, welche für die

sprachliche Repräsentation von Wissen verwendet wird. Zum Anfang bedarf es aber ei-

ner kurzen Einführung in die Linguistik und ihrer Ebenen.

2.3.1 Die Linguistik und ihre Ebenen

Die Linguistik basiert auf der Unterteilung verschiedener hierarchischer Ebenen, auf de-

ren Grundlage die linguistische Analyse von Texten erfolgt. Diese Ebenen werden als

linguistische Ebenen bezeichnet und ergeben sich aus dem grundlegenden Aufbau einer

Sprache. In diesem Zusammenhang soll eine Menge von Grundbegrien eingeführt wer-

den, die den Aufbau einer Sprache vom kleinsten zum gröÿten Element beschreiben.

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

Die Grundbausteine einer Sprache sind Laute. Jede natürliche Sprache verwendet ein

konkretes Lautsystem, wobei bestimmte Laute in einzelne Lautgruppen, den sogenann-

ten Phonemen, zusammengefasst werden. Dabei bedienen wir uns folgender Denition:

Im Zusammenhang des Lautsystems einer natürlichen Sprache ist ein Phonem die

kleinste bedeutungsunterscheidende Einheit und kann durch die Gegenüberstellung von

zwei Lautfolgen, die sich nur in einem Laut unterscheiden, identiziert werden.

G. Heyer [5]

Phoneme einer natürlichen Sprache müssen aber nicht unbedingt Phoneme einer ande-

ren natürlichen Sprache sein. Ein einfaches Beispiel verdeutlicht dies: In der englischen

Lautsprache wird zwischen starkem und schwachem th unterschieden, im deutschen

aber nicht, da der Laut th kaum verwendet wird. Auf Grundlage der vorhergehenden

Denition wird das schriftliche Gegenstück des Phonems als Graphem bezeichnet.

Grapheme bilden den Zeichenvorrat einer Schriftsprache und sind die elementaren

Bausteine von Texten. Sie bilden ein Alphabet.

G. Heyer [5]

Ein Alphabet ist ein endlicher geordneter Zeichenvorrat.

G. Heyer [5]

Grapheme sind somit mit den Buchstaben eines Alphabetes gleichzusetzen. Einzelne Gra-

pheme können zu Zeichenketten verschiedener Länge zusammengefasst werden, wobei

diese unterschiedlich oft zur Verwendung kommen und semantisch keinen Sinn ergeben

müssen. Da in den natürlichen Sprachen bestimmte Buchstabenkombinationen häuger

vorkommen als andere, ist es möglich über die Häugkeitsverteilung von diesen Buchsta-

bentupeln die Entropie und Redundanz einer Schriftsprache zu berechnen. Dabei ist zu

beobachten, dass beim Bilden von Zeichenketten aus beliebigen Tupeln und Leerzeichen,

mit wachsender Länge dieser, sich eine immer bessere Annäherung an eine morphologisch

korrekte Sprache ergibt. Diese Sprache muss aber semantisch nicht sinnvoll sein. Im Text

Mining spielen solche Tupel in mehreren Verfahren eine groÿe Rolle, wobei es sich in

dieser Hinsicht nicht nur um Buchstabentupel handeln muss, sondern es auch Tupel von

ganzen Wörtern sein können. Solche Tupel werden auch als n-Gramme bezeichnet, von

denen mehrere Spezialfälle existieren.

Ein n-Gramm besteht aus n aufeinanderfolgenden Wortformen bzw. Buchstaben.

G. Heyer [5]

Mit dem folgenden Beispiel wollen wir die mit wachsender Länge der Tupel erfolgende

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

Annäherung an eine morphologisch korrekte Sprache, darstellen.

Beispiel (in Anlehnung an G. Heyer [5]):

Einzelbuchstaben

AME GK NSET EVS TITBL BTZETF NDSBGJ EAI E L HSZ BETEATR IBSMINCH

Bigramme

UNES IWENU WOKTHLIN ATOUN IS DTH STEISBERER ITHI ANOREBL

Trigramme

THOANYNES ONTEL INED INGTHEUCH AROUT IS SOEAD ITDER LY WON

Quadrupel

THIS SUCSTEADMANY OURTAKE THEMEANAND DISPAFTER RUNNAME

In diesem Beispiel sind ebenfalls zwei Spezialfälle von n-Grammen enthalten, die Bi- und

Trigramme. Daher hier eine kurze Denition beider Begrie:

Ein Bigramm ist ein spezieller Typ von n-Grammen, das aus zwei aufeinander fol-

genden Wortformen oder Buchstaben besteht.

G. Heyer [5]

Ein Trigramm ist ein spezieller Typ von n-Grammen, das aus drei aufeinander fol-

genden Wortformen oder Buchstaben besteht.

G. Heyer [5]

An dem Beispiel ist sehr schön zu erkennen, wie mit dem Wachsen der Buchstabentupel

bzw. n-Gramme, sich in den Zeichenketten immer mehr, uns bekannte, englische Worte

abbilden. Wo wir bei Einzelbuchstaben den Inhalt der Zeichenkette nicht richtig deuten

können, sind bei Bigrammen bereits einzelne englische Wörter wie is oder it erkenn-

bar, bei Trigrammen sogar schon the, out, won oder any und bei Quadrupel mutet

die Zeichenkette auf dem ersten Blick schon fast einen normalem englischen Satz an. Die

kleinsten bedeutungstragenden Buchstabentupel werden in der Linguistik als Morphe-

me bezeichnet.

Ein Morphem ist in einer natürlichen Sprache die kleinste bedeutungstragende Einheit

von Zeichenketten.

G. Heyer [5]

Es wird dabei zwischen den freien und gebundenen Morphemen unterschieden. Diese Ein-

teilung basiert auf dem Sachverhalt, ob die Morpheme frei als Wörter im Satz auftreten

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

können oder nicht. Ein freies Morphem kann ohne ein weiteres Morphem ein Wort bil-

den, weshalb sie alle lexikalischen Grundformen von Wörtern darstellen. Freie Morpheme

sind beispielsweise dog, house, break oder child. Gebundene Morpheme hingegen

können in einem Satz nicht als Wort allein auftreten, sondern immer im Zusammenhang

mit mindestens einem anderen freiem oder gebundenem Morphem. Es ist sogar mög-

lich, dass ein Wort aus zwei gebundenen Morphemen besteht, wie zum Beispiel biology,

welches aus dem Präx bio und dem Sux logy besteht. Die gebundenen Morpheme

beschreiben somit grammatikalische Informationen durch Präxe wie un oder Flexions-

endungen wie able, die an freie oder gebundene Morpheme angehangen werden können.

Eine besondere Form der freien Morpheme sind die Allmorphe, welche verschiedene

Formen besitzen, aber semantisch identisch sind.

Die Kombination von den oben beschriebenen freien und gebundenen Morphemen, ent-

sprechend den Regeln der Morphologie, ergibt eine Wortform.

Eine Wortform ergibt sich in einer natürlichen Sprache aus den nach morphologischen

Regeln aneinander gefügten Morphemen (z.B. sprich + st).

G. Heyer [5]

Semantisch zusammengehörige Wortformen bilden wiederum eine Äquivalenzklasse

und werden als Wort bezeichnet.

Ein Wort ist die Abstraktion aus allen semantisch zusammengehörigen Wortformen.

G. Heyer [5]

Wörter werden mit der Grundform bezeichnet. Für Nomen wäre dies der Nominativ Sin-

gular bzw. für Verben der Innitiv Präsenz. Wenn man nun verschiedene Wortformen

syntaktisch miteinander kombiniert, so erhält man eine Phrase.

Als Phrase bezeichnet man die in einer natürlichen Sprache nach syntaktischen Regeln

aneinandergefügten Wortformen (z.B. ...hoch über den Wolken...).

G. Heyer [5]

Phrasen bilden die elementaren Gliederungseinheiten (Konstituenten) eines wohlgeform-

ten Satzes.

Die grammatikalisch korrekte Kombination von Konstituenten ergibt einen wohlge-

formten Satz.

G. Heyer [5]

Ein Satz ist im Unterschied zu einzelnen Phrasen wahrheitsfähig. Folglich wird er dafür

verwendet, um eine Aussage zu machen, die auf ihre Wahrheit hin überprüft werden

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

kann.

Mit der Reihenfolge, der in diesem Kapitel eingeführten Begrie (Laut, Phonem, Mor-

phem, Wortform, Wort, Phrase, Satz, Aussage), haben wir gleichzeitig auch die Un-

terteilung der linguistischen Ebenen eingeführt. Diese dienen zur Unterscheidung der

linguistischen Teildisziplinen Phonetik, Phonologie, Morphologie, Syntax und Semantik,

die den einzelnen Ebenen der Linguistik zugeordnet sind.

Sprachliche Ebene

Linguistische Teildisziplin

Laute

Phonetik

Äquivalenzklassen von Lauten

Phonologie

Phonem: kleinste bedeutungsunterscheidende

Einheit

Konkatenationsgruppen von Graphemen Morphologie

Silbe: kleinste aussprachebezogene Einheit

Morphem: kleinste bedeutungstragende

Einheit

Allomorph: Äquivalenzklasse

bedeutungsäquivalenter Morpheme

Beispiel: sprech = {sprech, sprich, sprach, ...}

Konkatenationsgruppen von Morphemen Morphologie

Wortform: nach morphologischen Regeln

aneinandergefügte Morpheme

Wort: Äquivalenklasse von Wortformen

Konkatenationsgruppen von Wörtern

Syntax

Phrasen: nach syntaktischen Regeln

aneinandergefügte Wörter

Sätze: nach syntaktischen Regeln

aneinandergefügte Phrasen

Äquivalenzklassen von Sätzen

Semantik/Pragmatik

Aussagen: wahrheitsfähige Sätze

Sprechakte: zustandsverändernde Sätze und

Phrasen

Tab. 1: Linguistische Ebenen und ihre Teildisziplinen (vgl. G. Heyer [5])

Die linguistischen Ebenen beschreiben den formalen Aufbau einer natürlichen Sprache

durch das Bildungsprinzip des Aneinanderfügens (Konkatenation) und der Abstraktion

durch Äquivalenzklassen. Der Prozess des Text Mining orientiert sich ebenfalls an die-

sen Ebenen, da die Reihenfolge der eingesetzten Verfahren, die der Ebenen entspricht.

So beginnt man zunächst mit einer morphologischen Analyse in Form eines Tokenisie-

rers, welcher die Sätze und Wortformen aus dem Text extrahiert. Es folgt eine syntak-

tische Analyse durch einen Part-of-Speech Tagger zur Zuordnung der Wortarten und

abschlieÿend eine semantische Analyse, beispielsweise anhand einer Musteranalyse, um

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

bestimmte syntaktische Muster zu nden, welche semantisch zusammenhängende Wort-

formkombinationen beschreiben.

2.3.2 Syntagmatische und Paradigmatische Relationen

Ein Programm, welches automatisch aus einem Text Wissen extrahieren soll, versteht

von dem Text genauso wenig wie eine Person, die eine für ihn fremde Sprache liest. In

der Informatik handelt es sich bei einem Text um nichts weiter, als eine Datenmenge

vom Typ String. Texte werden dabei allgemein als unstrukturiert betrachtet. Durch die

Einführung der linguistischen Ebenen erfolgt die Einführung einer formalen Struktur,

welche sich aus verschieden denierten sprachlichen Zeichen zusammensetzt und durch

Aneinanderfügung (Konkatenation), sowie dem Bilden von Äquivalenzklassen, Ebenen

beschreibt. Die Berücksichtigung der linguistischen Ebenen ist somit eine wesentliche

Voraussetzung für die automatische Ermittlung von semantischen Zusammenhängen.

Der bedeutende Schweizer Linguist Ferdinand de Saussure beschrieb sprachliche Bedeu-

tungszusammenhänge mit den sogenannten syntagmatischen und paradigmatischen Re-

lationen.

Syntagmatische Relation ist in der Tradition des linguistischen Strukturalismus

die Bezeichnung für das gemeinsame Auftreten zweier Wortformen in einem Satz oder

Textfenster.

G. Heyer [5]

Paradigmatische Relation ist in der Tradition des linguistischen Strukturalismus

die Bezeichnung für das Auftreten zweier Wortformen in ähnlichen Kontexten.

G. Heyer [5]

Syntagmatische Relationen sollen dabei semantische Zusammenhänge zwischen zwei Wort-

formen einer Sprache erfassen, paradigmatische Relationen hingegen syntaktische, seman-

tische und logische Zusammenhänge. Anhand der Denitionen von De Saussures lassen

sich folgende mathematische Denitionen als formale Rekonstruktion des Strukturalis-

mus angeben.

Es sei L = (W, S) eine Sprache mit der Menge W aller Wortformen dieser Sprache und

der Menge S, der in dieser Sprache gültigen und sinnvollen Sätze. Jeder Satz s S

repräsentiert dabei eine Menge von Wortformen, s = {w

, ..., w

}

mit w

, wobei

jede Wortform nur einmal, unabhängig ihres Vorkommens in einem Satz, in der Menge

enthalten sein darf [5]. Somit gilt:

Der lokale Kontext K

)

einer Wortform w

ist die Menge der Wortformen,

mit denen w

zusammen in einem Satz s auftritt. (nach G. Heyer [5])

) = s\ {w

}

, mit w

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

Nach dieser Denition ist es möglich, dass zwei verschiedene Sätze den gleichen lokalen

Kontext bilden, da die Wortstellung im Kontext keine Rolle spielt. Der Begri des lokalen

Kontexts beschränkt sich auf die Satzebene der Linguistik, da er auf dieser aufbaut. Aus

der mathematischen Denition des lokalen Kontexts, ergibt sich die syntagmatischen

Relation wie folgt:

Zwei Wortformen w

und w

stehen dann und nur dann in einer syntag-

matischen Relation SY N(w

, w

)

zueinander, wenn es mindestens einen lokalen

Kontext von w

gibt, der w

enthält. (nach G. Heyer [5])

SY N (w

, w

) s : w

)

Daraus folgt, dass jede Wortform w W , die ein Element des lokalen Kontexts K

)

darstellt, mit w

in syntagmatischer Relation steht. Die syntagmatische Relation wird

auch als Kookkurrenz oder Satzkookkurrenz und die beteiligten Wortformen als

Kookkurrenten bezeichnet [5]. Die Denition wiederspricht aber dem Prinzip der Su-

che nach semantischen Zusammenhängen, da jede Wortform mit jeder anderen in einem

Satz auftreten kann. Es ist somit schwer zu erkennen, welche Wortformen nur zufäl-

lig zusammen vorkommen und welche nicht. Mithilfe der Wahrscheinlichkeitsrechnung

kann dieses Problem, unter der Annahme eines unabhängigen zufälligen Auftretens der

Wortformen, umgangen werden. Auf Grundlage der Poisson-Verteilung kann für jede syn-

tagmatische Relation ein Signikanzmaÿ berechnet werden, welches auf eine statistische

Abweichung des gemeinsamen Auftretens beider Wortformen hinweisen kann [vgl. Kap.

3.4.4]. Der inhaltliche Zusammenhang kann als Grund für die statistische Abweichung

angesehen werden und wird als statistisch-syntagmatische Relation bezeichnet.

Zwei Wortformen w

und w

stehen dann in einer statistisch-syntagmatischen Rela-

tion SY NS(w

, w

)

, wenn sie in syntagmatischer Relation stehen und ihr gemeinsames

Auftreten gemessen anhand einem noch festzulegenden Signikanzmaÿ nicht zufällig

ist.

(nach G. Heyer [5])

Durch diese neue Denition ist es nun möglich, auälliges gemeinsames Auftreten von

Wortformen anhand eines Signikanzmaÿes hervorzuheben. Hinzukommend muss noch

ein Schwellenwert festgelegt werden, ab dem eine statistisch-syntagmatische Relation

vorliegt. Diese Relation wird analog zur syntagmatischen Relation auch als signikan-

te Kookkurrenz oder signikante Satzkookkurrenz bezeichnet [5]. Wenn man nun

solche signikanten Kookkurrenzen näher betrachtet, beschreiben diese eine Vielzahl lin-

guistischer Eigenschaften, wie beispielsweise Aufzählungen, feste Wendungen oder auch

Mehrwortbegrie bzw. Wortformkombinationen, die aber im Unterschied zu den bisher

gegebenen Denitionen mehrere Wortformen beinhalten können.

Bei den paradigmatischen Relationen handelt es sich, im Unterschied zu einem lokalen

Kontext, um einen globalen Kontext. Es wird somit nicht mehr betrachtet, mit welchen

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

anderen Wortformen eine bestimmte Wortform w

in einem Satz auftritt. Stattdes-

sen werden alle Wortformen, die zusammen mit w

in verschiedenen Sätzen vorkommen,

betrachtet. Für den globalen Kontext erfolgt folgende formale Denition:

Der globale Kontext K

)

einer Wortform w

ist die Menge aller Wortformen

w W

, welche mit w

in statistisch-syntagmatischer Relation stehen.

(nach G. Heyer [5])

) = {w|SY N S(w

, w)}

Nach der Denition bilden alle statistisch-syntagmatischen Relationen von w

jeweils ei-

ne Teilmenge des globalen Kontexts K

)

. Folglich ist der globale Kontext die Menge

aller signikanten Kookkurrenten von w

. Zudem existiert nur ein globaler Kontext in

Abhängigkeit des zugrunde gelegten Textkorpus, des gewählten Signikanzmaÿes und

des festgelegten Schwellenwertes. Es ist möglich, zwei globale Kontexte auf ihre Ähnlich-

keit hin, unter Anwendung eines Vergleichsprädikats SIM

mit einem Schwellenwert t,

zu vergleichen. Die formale Beschreibung dafür ist SIM

), K

))

[5]. Für die

Beschreibung der Ähnlichkeit muss, wie bei der statistisch-syntagmatischen Relation, ein

repräsentativer Wert gebildet werden. Dieser Wert wird allgemein als Ähnlichkeitsmaÿ

bezeichnet, dessen Berechnung auf verschiedenen Herangehensweisen beruht. Es wird bei-

spielsweise das sogenannte Cosinus-Maÿ als Ähnlichkeitsmaÿ verwendet [vgl. Kap. 3.5.4].

Sind nun zwei globale Kontexte ähnlich zueinander, bezeichnen wir diese als paradig-

matische Relation.

Zwei Wortformen w

, w

stehen dann und nur dann in einer paradigmatischen

Relation P ARA(w

, w

)

, wenn ihre globalen Kontexte K

)

und K

)

in Bezug

auf ein Ähnlichkeitsmaÿ und einem zuvor festgelegten Schwellwert zueinander ähnlich

sind. (nach G. Heyer [5])

P ARA(w

, w

) SIM

), K

))

Bei der Bestimmung des globalen Kontext einer Wortform, kann zudem die Verwendung

eines Filter erfolgen. So werden im einfachsten Fall die Wortformen eines globalen Kon-

textes K

)

herausgeltert, die nicht der Wortart der Wortform w

entsprechen. Somit

ergibt sich ein globaler Kontext mit Elementen einer bestimmten syntaktischen Kate-

gorie CAT, der mit anderen, ebenfalls auf diese Weise, gelterten globalen Kontexten

verglichen werden kann. Es gilt:

P ARA

CAT

, w) P ARA(w

, w)

& CAT (w

) = CAT (w)

. (nach G. Heyer [5])

Als Ergebnis erhält man eine Menge aller Wortformen w, zu denen eine Wortform w

, in

syntaktischer Hinsicht, in paradigmatischer Relation steht:

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse

{w|P ARA

CAT

, w)}

. (nach G. Heyer [5])

Diese Menge von Wortformen ist auch unter dem Begri Ersetzungsklasse bekannt [5],

da sie die Wortformen beinhaltet, die w

in einem Satz, an einer bestimmten Position

und unter der geforderten Beibehaltung des Syntax dieses Satzes, ersetzen können.

Beispiel:

In der Satzform The X shines kann die Variable X, an der ursprünglich sun

stand, durch andere Wortformen, mit denen sun, in syntaktischer Hinsicht, in einer

paradigmatischen Relation steht, ersetzt werden. Die anderen Wortformen können

folglich nur Nomen sein und müssen, trotz einer semantischen Beziehung zu X, nicht

die selben semantischen Merkmale besitzen. Ein Beispielnomen wäre die Wortform

ower, die im semantischen Zusammenhang mit sun steht und gleiche syntaktische

Merkmale besitzt.

Unabhängig von dem Einsatz einer syntaktischen Filterung, ist auch der Einsatz eines

semantischen Filters möglich. Dabei werden in einem globalen Kontext K

)

nur die

Wortformen zugelassen, die mit w

gemeinsame semantische Merkmale besitzen. Es wer-

den daher nur die gelterten globalen Kontexte miteinander verglichen, deren Elemente

einer bestimmten semantischen Kategorie SEM angehören.

P ARA

SEM

, w) P ARA(w

, w)

& SEM(w

) = SEM (w).

(nach G. Heyer [5])

Als Ergebnis erhält man wieder eine Menge aller Wortformen w, zu denen die Wortform

, in diesem Fall aus semantischer Sicht, in paradigmatischer Relation steht:

{w|P ARA

SEM

, w)}

. (nach G. Heyer [5])

Diese Menge bildet ebenfalls eine Ersetzungsklasse, aber auf semantischer Ebene.

Beispiel:

In der Satzform The X shines werden nur Belegungen von X zugelassen, die

meist mit dem Verb shines gemeinsam auftreten. Die anderen Wortformen müssen

somit das Merkmal einer Lichtquelle mit X gemein haben. Als Beispiele kämen für X

latern, lamp oder candle infrage.

Abschlieÿend existieren noch die logischen Bedingungen wie die Ober- und Unterbe-

grisbeziehungen, auf Basis derer eine Filterung erfolgen kann. Dabei werden nur gel-

terte globale Kontexte verglichen, deren Elemente diese logische Bedingung LOG erfüllen.

P ARA

LOG

, w) P ARA(w

, w)

& LOG(w

) = LOG(w)

. (nach G. Heyer [5])

C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2010
ISBN (eBook): 9783842806283
Dateigröße: 1.7 MB
Sprache: Deutsch
Institution / Hochschule: Technische Universität Bergakademie Freiberg – Informatik, Network Computing
Erscheinungsdatum: 2014 (April)
Note: 1,7
Schlagworte: text mining information retrieval linguistik stochastik tool
Produktsicherheit: Diplom.de