Lade Inhalt...

Text Mining und dessen Implementierung

Bachelorarbeit 2010 86 Seiten

Informatik - Computerlinguistik

Zusammenfassung

Inhaltsangabe:Einleitung:
In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt, ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante Informationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Großteil der gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet, das es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informationssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschiedenen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio. Webseiten, ganz zu schweigen von unternehmensinternen Datenbanken, Email-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen in unaufhaltsamem Maße fast exponentiell an. Dieser Trend wird auch als Information Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des Systems im World Wide Web klar definiert sind.
Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaffen. Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informationssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgefiltert werden. Dieses Verfahren ist bekannt unter dem Begriff ‘Data-Mining’. Bei natürlichen Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Informationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische Methoden eine große Rolle spielen, um die gewünschten Informationen aus den Texten zu gewinnen. Ohne entsprechende Systeme ist es somit unmöglich, effektiv mit den Informationen aus Texten umzugehen.
Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus unbekannten Texten zu […]

Details

Seiten
86
Erscheinungsform
Originalausgabe
Jahr
2010
ISBN (eBook)
9783842806283
Dateigröße
1.7 MB
Sprache
Deutsch
Katalognummer
v228110
Institution / Hochschule
Technische Universität Bergakademie Freiberg – Informatik, Network Computing
Note
1,7
Schlagworte
text mining information retrieval linguistik stochastik tool

Autoren

Zurück

Titel: Text Mining und dessen Implementierung