Lade Inhalt...

Polyrepräsentation, Relevanz-Approximation und aktives Lernen im Vektorraummodell des Information-Retrievals

Doktorarbeit / Dissertation 2001 556 Seiten

Informatik - Angewandte Informatik

Zusammenfassung

Inhaltsangabe:Einleitung:
Information-Retrieval-Systeme (IRS) können als Spezialfall eines IS beschrieben werden, indem die einzelnen Komponenten des Tupels (A, W, Q, I, E) spezifiziert werden, was im Kontext des Standard-Retrieval-Prozesses in einem Vektorraummodell geschehen soll. Gegeben ist zu einem Zeitpunkt t eine Dokumentmenge Dt, die durch eine Dokument-Indexierungsfunktion AIR(D) auf eine Dokumentvektorenmenge DVMt abgebildet wurde. Die einzelnen Dokumentvektoren xi sind Element eines metrischen, nt-dimensionalen Dokumentvektorraumes DVR, mit nt als der Anzahl der Merkmale (Features), auf der die Indexierung basiert und die in der Menge Ft zusammengefasst werden. Der Dokumentvektorraum wird allgemein als Teilraum von Rn(t) beschrieben, z.B. durch [0, 1]n(t). Die Query-Indexierungsfunktion AIR(Q) wird vereinfachend definiert als Abbildung aus der Menge Q(T) der möglichen bzw. zugelassenen Queries über einem endlichen Alphabet T, in DVR. Es folgt die Anwendung der Retrieval-Funktion, die abhängig ist von der momentanen Dokumentvektorenmenge DVMt, dem Queryvektor qi t und dem metrischen Dokumentvektorraum DVR mit seinen definierenden Eigenschaften, wobei hier ausschließlich die Metrik dDVR betrachtet wird. Sei GDVR die Menge aller Metriken, die in einem Dokumentvektorraum DVR angewendet werden können, ohne dass hier auf die Definition der Metrik eingegangen werden soll (siehe Abschnitt 3.6.3)). Die Retrieval-Funktion kann somit spezifiziert werden als eine Abbildung der Potenzmenge PDVM(t) der Dokumentvektorenmenge DVMt, dem DVR und GDVR auf PDVM(t), indem das Tripel aus DVMt, dem Queryvektor qi t und eine Metrik dDVR auf die query-abhängige Ergebnis-Dokumentvektorenmenge DVMi t abgebildet wird. D.h. die Retrieval-Funktion besitzt die allgemeine Form ret(DVMt, qit, dDVR) bzw. ret(DVMt, qit, dDVR, e), wenn eine einfache Best-Match-Retrievalstrategie betrachtet wird, bei der alle Dokumentvektoren aus DVMt selektiert werden, deren Abstand von qi t kleiner-gleich einer Distanzschwelle e ? R+ ist. Der letzte Schritt besteht in der Erzeugung der Dokumentmenge Dit, die zu der Ergebnismenge DVMi t korrespondiert. Vereinfachend wurde auf die Beschreibung einer Ranking-Funktion verzichtet, die aus DVMi t eine geordnete Liste von Dokumentvektoren erzeugt.

Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Einleitung und Überblick13
1.1Information-Retrieval-Systeme als Spezialfall von Informationssystemen13
1.2Problemkomplexität des Information […]

Details

Seiten
556
Erscheinungsform
Originalausgabe
Jahr
2001
ISBN (eBook)
9783832465636
ISBN (Buch)
9783838665634
Dateigröße
10.5 MB
Sprache
Deutsch
Katalognummer
v221958
Institution / Hochschule
Universität des Saarlandes – Informationswissenschaft
Note
1,0
Schlagworte
informationssystem neuronales netz maschinelles lernen clustering self-organizing maps

Autor

Zurück

Titel: Polyrepräsentation, Relevanz-Approximation und aktives Lernen im Vektorraummodell des Information-Retrievals