Lade Inhalt...

Konzeption und Evaluation der Aggregationsmethode mit analytischem Hierarchieprozess für Meta-Suchmaschine in Unternehmen

©2009 Diplomarbeit 100 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Wissen erlangt zunehmende Bedeutung als Wettbewerbfaktor. Durch die stetige Steigerung der Menge der in digitaler Form zur Verfügung stehenden Information stellt die Nutzung des vorhandenen Wissens eine große Herausforderung dar. Mitarbeiter wissen oft nicht, ob die relevante Information zu einem Thema in Unternehmen vorhanden ist oder wo die Information zu finden ist. Durch diesen Umstand ist es schwierig, Wissen effizient und effektiv zu nutzen, was dazu führt, dass die Erfahrungen und Kompetenzen eines Unternehmens nicht konsequent ausgenutzt oder weiterentwickelt werden können. Das Auffinden vollständiger Information zu einem Problem, wie es Mitarbeiter beispielsweise zur Aufgabenerledigung benötigen, umfasst die zeitaufwendige Suche mit mehreren Suchdiensten in unterschiedlichen Systemen. Durch Suchmaschinen können die Inhalte mehrerer Quellsysteme erschlossen werden. Die Anzahl der auf eine Suchanfrage gelieferten Treffer ist jedoch häufig zu hoch oder die Qualität der Ergebnisse für die Suchintention unpassend. Effektives Ranking der Suchergebnisse aus heterogenen Informationsquellen wurde deshalb als offenes Problem im Bereich des Enterprise Search identifiziert.
Am Lehrstuhl für Wirtschaftsinformatik und E-Government der Universität Potsdam wurde eine Meta-Suchmaschine im Rahmen des Forschungsprojekts selbstlernende Suchmaschine (kurz SLS) entwickelt. Durch eine kombinierte automatische und interaktive Bewertung der Suchergebnisse und durch den suchenden Mitarbeiter wird die Qualität der Ergebnisse ermittelt. Diese Daten werden in Beziehung zur organisatorischen Einbindung des Suchenden (Projekt, Hierarchie, Rolle) gesetzt. Die so entstehenden Verknüpfungen werden zur Verbesserung der Suchergebnisse verwendet. Durch die Anwendung von Techniken des fallbasierten Schließens (Engl.: Case-Based Reasoning) soll es möglich sein, die so gewonnenen Informationen auf andere suchende Mitarbeiter zu übertragen. So wurden die Personalisierung sowie die Sozialisierung der Suche in der selbstlernenden Suchmaschine bereits berücksichtigt.
Um Ranking der Suchergebnisse aus heterogenen Informationsquellen zu verbessern, kann man den Rankingprozess als einen Entscheidungsprozess aus Sicht des Nutzers betrachten. Dabei soll der Entscheidungsträger (der Suchende) die Alternativen (die Suchergebnisse) hinsichtlich seines Problems (Suchintention) auswählen. So können Entscheidungsmodelle dafür eingesetzt werden. Der multikriterielle […]

Leseprobe

Inhaltsverzeichnis


Inhaltsverzeichnis

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung
1.1 Motivation und Thema
1.2 Zielsetzung und Aufbau der Arbeit

2 Theoretische Grundlagen
2.1 Grundlage des Information Retrievals
2.1.1 Daten, Information und Wissen
2.1.2 Definition des Information Retrievals
2.1.3 Modelle des Information Retrievals
2.1.3.1 Boolesches Modell
2.1.3.2 Vektorraummodell
2.1.3.3 Probabilistisches Modell
2.1.4 Grundlegende Techniken in Information Retrieval
2.1.4.1 Invertierter Index
2.1.4.2 Termgewichtung
2.1.4.3 Modifikation der Anfrage
2.1.5 Evaluation von Information Retrieval Systemen
2.2 Meta-Suchmaschine
2.2.1 Definition und Abgrenzung der Meta-Suchmaschine
2.2.2 Typologien der Meta-Suchmaschinen
2.2.3 Komponenten der Meta-Suchmaschine
2.2.4 Aggegrationsmethode der Ergebnisliste
2.2.4.1 Scorebasierte Methode
2.2.4.2 Rangbasierte Methode
2.3 Fazit

3 Selbstlernende Suchmaschine
3.1 Hintergrund der selbstlernenden Suchmaschine
3.2 Architektur und Implementierung des Prototyps
3.3 Technische Aspekte der selbstlernenden Suchmaschine
3.4 Aggegrationsmethode der selbstlernenden Suchmaschine
3.4.1 Fallbasiertes Schließen
3.4.2 Ranking mit fallbasiertem Schließen
3.5 Fazit

4 Konzeption der Aggregationsmethode mit analytischem Hierarchieprozess
4.1 Eignung des analytischem Hierarchieprozesses für Aggregation der heterogenen Suchergebnisse
4.1.1 Informationsbeschaffung als ein Entscheidungsproblem
4.1.2 Ranking als ein Entscheidungsproblem
4.2 Grundlagen und Vorgehensweise des analytischen Hierarchieprozesses
4.2.1 Grundlagen des analytischen Hierarchieprozesses
4.2.2 Vorgehensweise des analytischen Hierarchieprozesses
4.3 Konzeption der Aggregationsmethode mit analytischen Hierarchieprozess
4.3.1 Festlegung der Kriterien und Aufbau der Entscheidungshierarchie
4.3.2 Errechnung der Gewichte für Suchergebnisse
4.4 Technische Umsetzung
4.4.1 Umsetzungsziele und Rahmenbedingungen
4.4.2 Realisierung und Einbettung der Aggregationsmethode in SLS

5 Fallstudien: Ein Anwendungszenario der selbstlernenden Suchmaschine
5.1 Zielsetzung der Fallstudie
5.2 Design der Fallstudie
5.2.1 Ausgangsituation und Vorbereitungen der Fallstudie
5.2.2 Vorgehensweise
5.2.3 Datenerfassung
5.3 Analyse und Bewertung der Ergebnisse

6 Zusammenfassung und Ausblick

Literaturverzeichnis

Anhänge

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1: Abgrenzung von Daten, Information und Wissen nach Rehäuser /Krcmar

Abbildung 2: Wissenstreppe nach North

Abbildung 3: Vektorraummodell (vgl. [Manning et al. 2008], S. 121)

Abbildung 4: Invertierter Index

Abbildung 5: Komponentenbasiert Meta-Suchmaschine (vgl. [Meng et al. 2002], S.55)

Abbildung 6: Vereinfachte konzeptionelle Architektur einer Suchmaschine (i.A.a [Bahrs 2008])

Abbildung 7: Systeme zur Datenintegration (nach [Domenig et al 1999])

Abbildung 8: Architektur der SLS (eigene Darstellung)

Abbildung 9: Spring – Architektur (siehe [Walls 2008], S. 7)

Abbildung 10: Objektorientierte Fallrepräsentation (eigene Darstellung)

Abbildung 11: Suchprozess aus Sicht der Entscheidungstheorie

Abbildung 12: AHP Ablauf (in Anlehnung an [Meixner, Haar 2002])

Abbildung 13: Darstellung einer Evaluationsmatrix in AHP

Abbildung 14: AHP Hierarchie für Rankingproblem (eigene Darstellung)

Abbildung 15: Prozess des kooperativen Filterns (vgl. [Sawar et al. 2001])

Abbildung 16: Kompositum – Entwurfmuster

Abbildung 17: Strategie-Muster

Abbildung 18: AHP Paketdiagramm

Abbildung 19: Bewertung Modal box im Web 2.0 Stil

Abbildung 20: Precision@10 der Aggregationsmethode

Abbildung 21: Anteil der positiven Bewertungen jeder Aggregationsmethode

Abbildung 22: Laufzeit der Aggregationsmethoden

Tabellenverzeichnis

Tabelle 1: Information Retrieval und Fakten Retrieval ([van Rijsbergen 1979])

Tabelle 2: Beispiel für Invertierte Dokumentshäufigkeit

Tabelle 3: Übersicht der Methode zur Scorekombination (vgl. [Fox et al. 1994])

Tabelle 4: AHP – Bewertungsskala

Tabelle 5: Beispiel für eine Evaluationsmatrix

Tabelle 6: Normalisierte Matrix

Tabelle 7: Ermittlung der Beurteilungsurteile

Tabelle 8: Random Index

Tabelle 9: Defaultgewichte für Kriterien

Tabelle 10: Defaultgewicht für Subkriterien anfragebezogen Kriteriums

Tabelle 11: Index von SLS

Tabelle 12: Sammlung der Suchaufgaben

Tabelle 13: Überblick

Tabelle 14:Vergleiche der Aggregationsmethoden

Tabelle 15: Vergleiche der Aggregationsmethode nach Korrigieren

1 Einleitung

1.1 Motivation und Thema

Wissen erlangt zunehmende Bedeutung als Wettbewerbfaktor. Durch die stetige Steigerung der Menge der in digitaler Form zur Verfügung stehenden Information stellt die Nutzung des vorhandenen Wissens eine große Herausforderung dar. Mitarbeiter wissen oft nicht, ob die relevante Information zu einem Thema in Unternehmen vorhanden ist oder wo die Information zu finden ist. Durch diesen Umstand ist es schwierig, Wissen effizient und effektiv zu nutzen, was dazu führt, dass die Erfahrungen und Kompetenzen eines Unternehmens nicht konsequent ausgenutzt oder weiterentwickelt werden können ([Rehäuser, Krcmar 1996]). Das Auffinden vollständiger Information zu einem Problem, wie es Mitarbeiter beispielsweise zur Aufgabenerledigung benötigen, umfasst die zeitaufwendige Suche mit mehreren Suchdiensten in unterschiedlichen Systemen. Durch Suchmaschinen können die Inhalte mehrerer Quellsysteme erschlossen werden. Die Anzahl der auf eine Suchanfrage gelieferten Treffer ist jedoch häufig zu hoch oder die Qualität der Ergebnisse für die Suchintention unpassend. Effektives Ranking der Suchergebnisse aus heterogenen Informationsquellen wurde deshalb als offenes Problem im Bereich des Enterprise Search identifiziert (vgl. [Hawking 2004]).

Am Lehrstuhl für Wirtschaftsinformatik und E-Government der Universität Potsdam wurde eine Meta-Suchmaschine im Rahmen des Forschungsprojekts selbstlernende Suchmaschine (kurz SLS) entwickelt. Durch eine kombinierte automatische und interaktive Bewertung der Suchergebnisse und durch den suchenden Mitarbeiter wird die Qualität der Ergebnisse ermittelt. Diese Daten werden in Beziehung zur organisatorischen Einbindung des Suchenden (Projekt, Hierarchie, Rolle) gesetzt. Die so entstehenden Verknüpfungen werden zur Verbesserung der Suchergebnisse verwendet. Durch die Anwendung von Techniken des fallbasierten Schließens (Engl.: Case-Based Reasoning) soll es möglich sein, die so gewonnenen Informationen auf andere suchende Mitarbeiter zu übertragen. So wurden die Personalisierung sowie die Sozialisierung der Suche in der selbstlernenden Suchmaschine bereits berücksichtigt.

Um Ranking der Suchergebnisse aus heterogenen Informationsquellen zu verbessern, kann man den Rankingprozess als einen Entscheidungsprozess aus Sicht des Nutzers betrachten. Dabei soll der Entscheidungsträger (der Suchende) die Alternativen (die Suchergebnisse) hinsichtlich seines Problems (Suchintention) auswählen. So können Entscheidungsmodelle dafür eingesetzt werden. Der multikriterielle Entscheidungsansatz, der analytischer Hierarchieprozess (Engl.: a nalytic hierarchy process, kurz AHP), wurde bereits für diesen Zweck verwendet (siehe [Scime, Kerschberg 2001], [Kerschberg et al. 2001]). Das wichtigste Argument für die Anwendung der multikriteriellen Entscheidungsmethode besteht darin, dass je mehr die Suchmaschine über die Suchintention des Nutzers weist, desto besser kann sie ihn bei der Informationssuche unterstützen und ihm bessere Ergebnisse zurückliefern. Der Entwurf für einen derartigen Ansatz für die SLS wird im Rahmen der Diplomarbeit analysiert und prototypisch umgesetzt. Im Gegensatz zu den bisherigen Ansätzen liegt der Fokus hier im Bereich Enterprise Search anstelle Web Search.

1.2 Zielsetzung und Aufbau der Arbeit

Die vorliegende Arbeit soll einen Beitrag zur Verbesserung der Informationssuche in Unternehmen leisten, indem eine neuartige Aggregationsmethode mittels des analytischen Hierarchieprozesses für die selbstlernende Suchmaschine entwickelt wird. Dabei sollen die Personalisierung und die Sozialisierung der Suche besonders berücksichtigt bzw. verbessert werden.

Zur Erreichung der oben genannten Ziele wird die Diplomarbeit folgendermaßen aufgebaut. Das erste Kapitel befasst sich mit den theoretischen Grundlagen. Dabei werden unter anderem Grundlagen des Information Retrievals, der Meta-Suchmaschine ausführlich behandelt. Im zweiten Kapitel wird die selbstlernende Suchmaschine vorgestellt. Dabei werden nicht nur Hintergrund, Konzept dieser Suchmaschine vorgestellt, sondern wichtige technische Aspekte werden ebenfalls ausführlich erläutert. Der wichtigste Teil der Diplomarbeit befindet sich im vierten Kapitel. Hier wird die Konzeption einer neuen Aggregationsmethode mittels des analytischen Hierarchieprozess ausführlich erörtert. Zunächst werden Methoden der Entscheidungstheorie auf ihre Eignung für den Einsatz im Kontext der Suchmaschine geprüft. Die Grundlage des analytischen Hierarchieprozesses wird nicht im theoretischen Kapitel sondern hier erläutert. Das Ergebnis dieses Kapitels stellt eine Softwarekomponente für AHP dar. Auf deren Basis wird eine Aggregationsmethode entwickelt und in die Suchmaschine eingebettet. Um die Aussagen über die Qualität der neu entwickelten Aggregationsmethode ableiten zu können, wird im fünften Kapital der Diplomarbeit eine Evaluation dieser Methode durchgeführt. Dabei wird ein Anwendungszenario der Suchmaschine vorgestellt. Das letzte Kapitel wird die Arbeit mit einer Aussicht auf offene Forschungsfragen abschließen.

2 Theoretische Grundlagen

In diesem Kapitel werden die theoretischen Grundlagen für die Arbeit erläutert. Bevor Information Retrieval definiert wird, soll zunächst eine Abgrenzung von Data, Information und Wissen vorgenommen werden. Danach werden klassische Modelle sowie grundlegende Techniken des Information Retrievals vorgestellt. Die Thematik der Meta-Suchmaschine wird anschließend diskutiert, da die selbstlernende Suchmaschine auf dieser Basis entwickelt wurde. Dabei sollen die Typologien und wichtige Komponenten der Meta-Suchmaschine beleuchtet werden.

2.1 Grundlage des Information Retrievals

2.1.1 Daten, Information und Wissen

Für die Arbeit ist es erforderlich, zunächst eine Abgrenzung von Begriffen Data, Information und Wissen vorzunehmen. Diese Begriffe werden in vielen Fachgebieten verwendet und damit auch unterschiedlich definiert. Mit dem Fokus auf das Wissensmanagement haben Rehäuser und Krcmar ein Modell zum Unterscheiden von Wissen zu Zeichen, Daten und Information vorgestellt. Abbildung 1 zeigt ein Beispiel für dieses Modell. Danach sind Zeichen das kleinste Element und sind zusammenhangslos. Wenn diese Zeichen anhand einer bekannten oder unbekannten Syntax miteinander im Zusammenhang stehen, ergeben sich Daten. Erst durch die Einbettung in einen Kontext kann aus Daten eine Information werden. Wissen ist schließlich die zweckorientierte Vernetzung von Informationen (vgl. [Rehäuser, Krcmar 1996], S.3ff).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Abgrenzung von Daten, Information und Wissen nach Rehäuser /Krcmar

In diesem Zusammenhang hat North das Modell von Rehäuser und Krcmar ergänzt, indem er die strategische Bedeutung von Wissen in seiner „Wissenstreppe“ (siehe Abbildung 2) betont. Wissen kann demzufolge zu anwendungsspezifischem Können entwickelt werden, d. h. der Fähigkeit, das Wissen praktisch anzuwenden. Wenn der Wille zur Umsetzung vorhanden ist, äußert sich dies in einem entsprechenden Handeln. Kompetenzen entstehen durch die wiederholte Umsetzung richtigen Handelns. Wenn diese (Kern-) Kompetenzen einzigartig sind, so können diese zur strategischen Wettbewerbsfähigkeit beitragen ([North 2005]).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Wissenstreppe nach North

Die beiden Ansätze verdeutlichen, dass es einen engen Zusammenhang zwischen Daten, Information und Wissen besteht. Problematisch hierbei ist, dass Begriff Information und Wissen häufig wenig trennscharf oder sogar äquivalent verwendet werden (vgl. [Kusterer 2008], S.16). Im weiteren Verlauf der Arbeit wird Information ebenfalls äquivalent zu Wissen verwendet werden. Information versteht sich im Kontext der Arbeit demnach kodifiziertes Wissen.

2.1.2 Definition des Information Retrievals

Information Retrieval (IR) kann aus verschiedenen Perspektiven betrachtet werden. Zum Beispiel ist Information Retrieval in der Informationswirtschaft ein grundlegendes Thema, wobei der Informationsinhalt – das Wissen – nicht so sehr die technische Implementierung von Retrievalalgorithmen im Zentrum steht. IR ist die Wirtschaft, die Technik und der Praxisbereich des Suchens und Findens von Informationen (vgl. [Stock 2007], S.2).

Mit Fokus auf das Wissensmanagement bzw. Wissensmanagementsysteme hat Lehner IR - Systeme als für das Wissensmanagement nützliche Systeme (Suchdienst) bezeichnet. Sie haben die Aufgabe zum Auffinden von subjektiv relevanten Informationen. Unter IR-System oder Suchdienst sind sowohl Systeme zu fassen, welche ausgehend von einer Anfrage den aktuellen Informationsbestand durchsucht (Pullsysteme), als auch Systeme, die dem Benutzer unaufgefordert Information zustellen, sobald sie verfügbar ist (Pushsysteme) (vgl. [Lehner 2006], S.249).

Die Fachgruppe „Information Retrieval“ der Gesellschaft für Informatik (GI) hingegen betrachtet die Rolle des Information Retrievals als Informationssysteme zur Unterstützung des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden. Sie sieht ihre Aufgabe deshalb in der Beschäftigung mit Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. IR-Systeme werden dabei als Informationssysteme bezeichnet, deren Funktion allerdings auf die Informationssuche beschräkt ist. Andere Aspekte solcher Systeme (z.B. die Aktualisierung der Datenbank oder zentrale vs. verteilte Datenhaltung) bleiben damit unberücksichtigt ([Fuhr 1991]). Letztendlich sind Nutzer bei der Suche an der Nutzung der Information für einen Zweck interessiert. Hierbei dient ein Informationssystem dazu, aus der gespeicherten Information das benötigte Wissen zu extrahieren. Aus Perspektive der Informatik rücken die konzeptionellen Modelle des IR mehr im Vordergrund.

In dem vorherigen Abschnitt wurde zwischen Daten und Information unterschieden. Eine Abgrenzung zwischen Daten (Fakten)- und Information Retrieval ist deshalb zweckmäßig, die durch folgende Kriterien vorgenommen werden kann (siehe Tabelle 1).

Tabelle 1: Information Retrieval und Fakten Retrieval ([van Rijsbergen 1979])

Abbildung in dieser Leseprobe nicht enthalten

Obwohl Fakten Retrieval weiterhin als ein spannendes Forschungsthema bleibt, liegt im Fokus der Arbeit Information Retrieval. Zusammenfassend kann der Begriff Information Retrieval folgendermaßen definiert werden (vgl. [Manning et al. 2008], S.1f).

Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).

Der Definition nach ist Information Retrieval die inhaltliche Suche nach Informationen in digital vorhandenen Informationssammlungen. Ein IR-System soll den Nutzer darüber informieren, ob in Bezug auf seine Anfrage relevante Informationen existieren und ggf. in welchen Textdokumenten er diese auffinden kann.

2.1.3 Modelle des Information Retrievals

Vorgegeben sind Repräsentation (D) für Dokumente der Dokumentensammlung und Repräsentation (Q) für die Anfragen an die Dokumentsammlung. Ein IR-Modell soll die Beziehung zwischen D und Q modellieren. Darüber hinaus soll ein IR-Modell eine Rangfunktion beinhalten, anhand deren einem Dokument (d Î D) einen Wert in Bezug auf eine Anfrage (q Î Q) zugeordnet werden kann (vgl. [Baeza-Yates 1999], S.21). Im Laufe der Zeit sind einige Modelle für Information Retrieval entwickelt worden, welche bis heute noch eingesetzt bzw. weiterentwickelt werden.

Im Folgenden werden zunächst die Grundlogik des booleschen Modells sowie seine Vorteile und Nachteile kurz präsentiert. Es soll deutlich sein, dass bei dem booleschen Modell kein Ranking der Ergebnisse ausgeführt wird. Bei anderen IR-Modellen dagegen wird dies ausgeführt, d.h. sie berechnen die Relevanz jedes Dokuments in Bezug auf eine Anfrage, teilt diesem Dokument einen numerischen Bewertungswert zu. Für den Zweck der Relevanzermittlung sind einige Modelle vorgeschlagen worden – darunter Vektorraummodell und probabilistisches Modell. Diese beiden klassischen IR-Modelle werden ebenfalls kurz vorgestellt.

2.1.3.1 Boolesches Modell

Boolesches Modell ist nach wie vor ein häufig verwendetes Verfahren bei vielen kommerziellen IR-Systemen ([Ferber 2003]). Die Grundidee des booleschen Modells ist es, zu überprüfen, ob eine vom Nutzer wohl definierte Bedingung – wie z.B. das Vorkommen einer bestimmten Zeichenketten im Text – erfüllt ist oder nicht. Boolesches Modell ermöglicht einem Nutzer, seine Suchintention anhand einer Kombination logischer Operationen (AND, OR, NOT) zu formulieren. Weiterhin besteht die Möglichkeit der Klammersetzung, um noch komplexe Suchanfrage zu formulieren (vgl. [Lewandowski 2005], S.81f). Im erweiterten booleschen Modell steht darüber hinaus noch Vergleichoperatoren wie kleiner (<) oder größer (>) zur Verfügung, dadurch die Trefferliste eingeschränkt werden kann. Die Vorteile des booleschen Modells sind in dem kostengünstigen Aufbau des Systems und in der beinah unbegrenzten Möglichkeit der Anfrageformulierung zu sehen.

Allerdings weist das boolesche Modell in der Praxis einige Einschränkungen auf. Es gibt in diesem Modell selbst kein Konzept für Relevanz, also kein Ranking der Ergebnisse. Boolesche Systeme liefern auf eine Anfrage eine ungeordnete Menge von Dokumenten ([Ferber 2003]). Problematisch ist es dann bei großer Informationssammlung. Im Allgemein lässt sich ein boolesches System nicht einfach bedienen. Für die meisten Nutzer ist es schwierig, eine gute Suchanfrage auszudrücken. Die notwendig exakte Übereinstimmung des Modells führt dazu, dass viele relevante Dokumente nicht gefunden werden können, weil ihre Repräsentation die Suchanfrage nur teilweise erfüllen. Außerdem wird die Wichtigkeit der Begriffe innerhalb der Suchanfrage oder innerhalb der Dokumente nicht berücksichtigt.

2.1.3.2 Vektorraummodell

Das Vektorraummodell ist nach dem booleschen Model einer des grundlegenden theoretischen Ansatzes im Information Retrieval (vgl. [Stock 2007], S.334). Der Grundgedanken dieses Modells ist es, ein Term als eine unabhängige Dimension eines n-dimensionalen Raums anzusehen (siehe [Salton et al. 1975]). Der Termsbegriff wurde ursprünglich in der Arbeit von Salton nicht ausführlich definiert. Er bedeutet je nach dem Reifegrad der im IR-System eingesetzten informationslinguistischer Funktionen durchaus Unterschiedliches. Term kann Wortform, Grundform, Wortstamm, Begriff etc. bedeuten. (vgl. [Stock 2007], S.321). Zur Vereinfachung wird in Rahmen dieser Arbeit unter einem Term ein Begriff oder ein Wort in einer Anfrage oder einem Dokument verstanden. Von dieser einfachen Termsdefiniton ausgehend wird jeder Begriff im Text eine unabhängige Dimension in einem mehrdimensionalen Vektorraum abgebildet. Sowohl Dokumente als auch die Suchanfrage werden als Vektore in diesem Raum abgebildet.

Wenn es zwei Vektoren für zwei Dokumente gibt, ist es möglich, das Ähnlichkeitsmaß zwischen ihnen zu berechnen. Ein einfacher Ansatz wäre es, das Skalaprodukt[1] zweier Vektoren zu ermitteln. Der Nachteil dieses Ansatzes besteht darin, dass längere Dokumente bevorzugt werden. Eine Alternative dafür ist die Berechnung des Winkels zwischen zwei Vektoren. Kosinus des Winkels bestimmt das Ähnlichkeitsmaß von zwei Vektoren. Je kleiner der Kosinus des Winkels ist, desto ähnlicher sind die Vektoren.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Vektorraummodell (vgl. [Manning et al. 2008], S. 121)

Anhand des Relevanzmaßes, ausgedrückt in der Ähnlichkeit zwischen zwei Vektoren lässt sich Ergebnisliste begrenzen, so kann eine Liste der bestrelevanten Ergebnisse ausgegeben werden. Weiterer Vorteil des Vektorraummodells ist es, dass bei der Anfrageformulierung keine Angabe von logischen Operatoren notwendig ist.

2.1.3.3 Probabilistisches Modell

Das probabilistische Modell geht davon aus, dass aufgrund der Gegebenheiten der natürlichen Sprache nicht mit Sicherheit festgestellt werden kann, ob ein Dokument für eine Suchanfrage relevant ist oder nicht. Vielmehr kann lediglich eine Wahrscheinlichkeit ermittelt werden, ob das Dokument für die Suchanfrage relevant ist (vgl. [Lewandowski 2005], S. 86). Da diese Wahrscheinlichkeit nicht unmittelbar zugänglich ist, kann man nur versuchen, sie zu schätzen. Dazu müssen die Dokumente und Anfragen weiter untersucht werden und entsprechende Vereinfachungen und Unabhängigkeitsannahmen gemacht werden ([Ferber 2003]). Da dieses Modell im Verlauf der Arbeit keine Anwendung findet, wird auf die Wahrscheinlichkeitseinschätzung verzichtet. Dafür wird auf [Baeza-Yates 1999], [Ferber 2003] etc. verwiesen.

Die Vorteile des probabilistischen Modells sind in seiner theoretischen Begründbarkeit sowie darin, dass Nutzer ihre Suchanfrage wie beim Vektorraummodell umgangssprachlich formulieren können; keine logischen Operatoren sind notwendig. Problematisch ist allerdings, dass in diesem Modell die Relevanz der Dokumente als voneinander unabhängig betrachtet werden soll, was in der Praxis nicht gegeben ist.

2.1.4 Grundlegende Techniken in Information Retrieval

Im folgenden Abschnitt werden die grundlegenden Techniken in Information Retrieval vorgestellt. Sie sind der invertierte Index, die Termgewichtung und die Anfragemodifikation.

2.1.4.1 Invertierter Index

Die meisten IR-Systeme werden auf der so genannten invertierten Datenstruktur aufgebaut, welche einen schnellen Zugriff auf Dokumente ermöglicht. Eine typische invertierte Datenstruktur wird beispielhaft in Abbildung 4 dargestellt. Es ist zu sehen, dass der Term Ti in Dokumenten da, db, dc … dn zu finden ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Invertierter Index

Um einen invertierten Index zu erstellen, wird hierbei aus jedem Dokument eine Liste aus Termen extrahiert, die ggf. durch Normalisierungstechniken (z.B. Stemming[2] ) auf das Wesentliche reduziert werden. Aus allen Termen aller Dokumente wird ein Wortschatz aufgebaut. So lässt sich schnell mit Hilfe eines Terms die Dokumente finden, die dieses Terms enthalten. Für jedes dieser Termen wird häufig auch die Position festgehalten, an der das Wort im Dokument vorkommt ([Baeza-Yates 1999], S.192). Dadurch erhält man noch die Möglichkeit, die Suche nach einer Folge von Termen (Phrase Query) durchzuführen, indem man überprüft, ob die Positionen in aufsteigender Reihefolge sind. In einem invertierten Index kann man auch andere Informationen wie Termgewicht, Termhäufigkeit in Dokument abspeichern. Jedoch ist darauf zu achten, dass der invertierte Index wegen Retrievalgeschwindigkeit möglichst klein gehalten ist.

2.1.4.2 Termgewichtung

Die Tatsache ist es, dass Terme unterschiedlichen Stellenwert in einem Dokument haben können. Für die meisten IR-Modelle gilt es, einen quantitativen Ausdruck dafür zu finden, wie wichtig ein Term im Kontext eines Dokuments ist. Es gibt in der Literatur verschiedene Ansätze für Termgewichtung.

In einem Text ist die Häufigkeit eines Terms (Engl.: Term Frequency, kurz tf) ein Maß für seine Relevanz. Diese Behauptung geht auf die Arbeit von Luhn im Jahr 1957 zurückt (siehe [Luhn 1957]). Jedoch besagt die These von Luhn nicht, dass Termhäufigkeit und Relevanz positiv miteinander korreliert. Es gilt nicht, dass je häufiger ein Term im Text vorkommt, desto relevanter ist er auch (vgl. [Stock 2007], S. 320). Der Ansatz von einfacher Termhäufigkeit weist deshalb ein Problem auf, weil er alle Terme als gleich wichtig bei der Relevanzbewertung betrachtet. Vielmehr wird ein Term, der in allen Dokumenten einer Dokumentssammlung vorkommt, als ein allgemeiner Term angesehen, weil er nicht zum Unterscheidung der Dokumente genutzt werden kann. Der Diskriminationsgrad eines Terms steigt demnach in Abhängigkeit von der Anzahl der Dokument, in denen er zu finden ist, und umgekehrt (vgl. [Stock 2007], S. 324). Deswegen ist es notwendig, das Gewicht eines Terms, die in vielen Dokumenten vorkommt, zu reduzieren. Die Dokumenthäufigkeit (Engl.: Document Frequency, kurz df), die die Anzahl der Dokumente, die das Term enthält definiert, kann für diesen Zweck genutzt werden. Auf dieser Dokumentshäufigkeit aufbauend wurde eine Gewichtungsmethode, also die so genannte invertierte Dokumentshäufigkeit (idf), entwickelt (siehe [Jones 1972]).

Wird N beispielsweise als der Dokumentsanzahl in der Sammlung definiert, so lässt sich die invertierte Dokumentshäufigkeit nach der folgenden Gleichung (F. 2‑1) ermitteln.

Abbildung in dieser Leseprobe nicht enthalten

Für einen selten vorkommenden Term ist der idf - Wert hoch, während dieser Wert für einen allgemeinen Term niedrig ist. Der Term Best ist in etwa 25.000 Dokument zu finden, sein idf - Wert ist entsprechend 1.5 und deutlich kleiner als der Wert für den Term Auto (2.08), der nur in ungefähr 6800 Dokumenten vorkommt (siehe Tabelle 2).

Tabelle 2: Beispiel für Invertierte Dokumentshäufigkeit[4]

Abbildung in dieser Leseprobe nicht enthalten

In der Praxis findet häufig eine Kombination der Termshäufigkeit und der invertierten Dokumentshäufigkeit die Anwendung, um das Gewicht jedes Terms in Dokument zu berechnen. Das kombinierte Gewicht eines Terms ist anhand der Gleichung (F. 2‑2) zu ermitteln

Abbildung in dieser Leseprobe nicht enthalten

Danach hat ein Term ein höchstes Gewicht, wenn er am meisten in einem Dokument und in der kleinsten Anzahl der Dokumente auftritt. Er hat weniger Gewicht, wenn er weniger im Dokument oder in mehr Dokumenten vorkommt.

2.1.4.3 Modifikation der Anfrage

Die Nützlichkeit eines IR-Systems ist durchaus davon abhängig, wie die Suchanfrage definiert wird. Die Fachgruppe „Information Retrieval“ der GI hat sogar ihre Aufgabe als welche definiert, die im Zusammenhang mit den vagen Anfragen steht. In der Regel ist der Nutzer nicht immer in der Lage, seine Suchintention in Form einer für IR System verständlichen Anfrage auszudrücken. Einige Ansätze zur Lösung dieses Problems wurden bereits entwickelt. Zum einen soll eine Anfrage um ihre Synonyme oder Oberbegriffe erweitert werden. Da eine allgemeine Thesauri in der Regel mit hohem Aufwand zu entwickeln ist, wurde einige Technik zur automatischen Erstellung der Thesauri vorgeschlagen. Ein Beispiel dafür ist der so genannte Latent Semantic Indexing (LSI) – schwache Bedeutungseinordnung. Der Grundidee der Methode ist es, Wörter mit ähnlicher Bedeutung auch in gleichem Kontext aufzutreten scheinen. Wenn zwei Wörter sehr häufig in gleichem Kontext beobachtet werden, lässt sich daraus ableiten, dass sie wahrscheinlich gleiche Bedeutung haben oder stark miteinander assoziieren.

Rocchio hat die Methode vom Relevanz-Feedback zur Anfrageerweiterung vorgeschlagen. Nachdem die ersten Ergebnisse präsentiert wurden, bietet das System dem Nutzer die Möglichkeit, Feedback zur Relevanz der einzelnen oder mehreren Ergebnisse explizit zu geben. Die abgegebenen Feedback-Informationen werden dann verwendet, um die Anfrage neu zu formulieren. Dieser iterative Prozess kann die Effektivität des IR-System, insbesondere Recall (siehe 2.1.5, S.11) verbessern.

Ein anderer Ansatz ist in [Gronau, Laskowski 2002] zu finden. Dabei wurden eine Case-Based Reasoning (CBR) Komponente in ein Wissensmanagementsystem integriert. Die erfolgreichen Suchsitzungen werden durch diese CBR - Komponente abgespeichert und wieder genutzt, um die aktuelle Suchanfrage zu verfeinern.

Nicht immer ist der Nutzer bereits oder in der Lage, die Ergebnisse explizit zu bewerten. Einige Methode zur Anfrageerweiterung ohne die Beteiligung des Nutzers wurde in den 90er Jahren entwickelt. Zu nennen ist das Pseudo-Feedback, eine Variante der Relevanz-Feedback-Methode. Zunächst wird die erste Anfrage normal bearbeitet. Eine Annahme wird dann getroffen, dass die ersten n gefundene Ergebnisse relevant sind, die im nächsten Schritte analysiert werden, um die Anfrage neu zu formulieren. Pseudo-Feedback ist effektiv, besonderes bei kurzer Anfrage (siehe [Singhal 2001]).

Generell kann durch Modifikation der Anfrage die Effektivität des IR-Systems verbessert werden. Auf einer Seite kann die fehlerhaft formulierte Anfrage vermieden werden. Auf anderer Seite führt die verfeinerte Suchanfrage oft zu besseren Suchergebnissen. In Bezug auf die semantische Suche spielt die Modifikation der Anfrage ebenfalls eine wichtige Rolle (vgl. [Coskun et al. 2008], S. 47).

2.1.5 Evaluation von Information Retrieval Systemen

Zentrale Frage in diesem Abschnitt ist, wie Effizienz und Effektivität eines IR Systems gemessen und bewertet werden können. Effizienz eines IR Systems drückt sich in der möglichen sparsamen Umgang mit Systemressourcen (Rechenzeit, Speicherplatz etc.) aus. Dies hat normalerweise einen direkten Einfluss auf die Antwortzeit des Systems. Effektivität beschreibt die Fähigkeit des Systems, den Nutzenden die benötigte Information bei möglichst geringen Kosten an Zeit und Anstrengung anzubieten (vgl. [Ferber 2003], S.85). Die Messung von Effizienz eines IR Systems ist relativ einfach. Um Effektivität eines IR Systems zu ermitteln, müssen dagegen empirische Methoden eingesetzt werden. Dabei werden tatsächliche Nutzer einer Anwendung beobachtet bzw. befragt.

Es gibt mehrere Modelle zur Beurteilung der Effektivität des IR-Systems. Beim klassischen Evaluationsmodell wird im Prinzip eine Testkollektion herangezogen, welche sich aus einer Liste von Dokumenten, einer Liste von Anfragen und einer Liste der Relevanzbewertung für jeweilige Anfrage zusammensetzt. Für bestimmten Zweck kann auf die Standardkollektionen wie Cranfiel[5], TREC [6] , etc. zurückgegriffen werden. Die Testkollektionen werden nicht nur bei der Evaluation eines einzelnen IR Systems benutzt, sondern auch dazu verwendet, IR Systeme miteinander zu vergleichen. Diese Evaluationsmethode berücksichtigt den menschlichen Aspekt nicht, sondern zielt hauptsächlich auf Performance des IR Systems ab. Dabei werden Qualitätsmaße wie Recall, Precision etc. ermittelt.

Recall gibt den Anteil der relevanten Dokumente, die gefunden wurden, an.

Abbildung in dieser Leseprobe nicht enthalten

Recall und Precision sind naturgemäß gegenläufige Maße.

Im Mittelpunkt des interaktiven Modells steht dagegen die Interaktion der Nutzer vor, während und nach der Suche. Dieses Modell ermöglicht nicht nur die Beurteilung über Effektivität sondern auch Beurteilung über Benutzerfreundlichkeit (Engl. Usibility) des IR Systems. Während die Daten für Usibility durch die Interaktion mit System erfasst werden, werden Daten für die Performance durch die Bewertung des Nutzers gespeichert. Die Performanz lässt sich durch den Vergleich von Bewertung des Nutzer mit der in Testkollektion bestimmen.

2.2 Meta-Suchmaschine

2.2.1 Definition und Abgrenzung der Meta-Suchmaschine

Unter Meta-Suchmaschine kann ein System verstanden werden, das es ermöglicht, mit einer einzigen Suchanfrage eine Reihe von Suchmaschinen und Katalogen parallel abzusuchen und die Ergebnisse auszuwerten[7]. Potenzial der Meta-Suchmaschine besteht darin, dass es keine Einschränkung bezüglich der Hardwareauswahl besteht, da kein Index erstellt und verwaltet werden muss.

Bereits im Juli 1998 bei einer Tagung der ISOC[8] in Genf wurden sieben Kriterien festgelegt, von denen sechs zutreffen müssen, um einen Metasuchdienst zu beschreiben. Diese Kriterien sind:

- Parallele Suche: Es muss eine parallele Suche stattfinden. Kein All-In-One Formular das mit Hilfe eines Skriptes einzelne Suchdienste nacheinander abarbeitet,
- Zusammenführung der Ergebnisse: Alle Ergebnisse müssen in einem einheitlichen Format präsentiert werden,
- Eliminierung von Dubletten: Redundante Ergebnisse von unterschiedlichen Suchdiensten müssen erkannt und entfernt werden,
- Verfügbarkeit und Weitergabe logischer Operatoren: Es müssen mindestens die beiden logischen Operatoren AND & OR verfügbar sein und an die drunter liegenden Suchdienste weitergeleitet werden,
- Sicherstellung der Informationsweitergabe: Wird von einem Quellsystem beispielsweise eine Kurzbeschreibung angeboten, muss sichergestellt werden, dass diese Information weitergegeben wird,
- Search Engine Hiding: Spezifische Eigenschaften der Quellsysteme dürfen für den Anwender keinen Einfluss auf die Benutzung der Metasuchmaschine haben,
- Vollständige Suche: Es muss die vollständige Ausgabe aller Suchergebnisse der Quellsysteme gewährleistet werden.

Zentrales Problem der Meta-Suchmaschine ist die Zusammenführung der aus heterogenen Informationsquellen stammenden Ergebnisse, die auf Grund der unterschiedlichen und der meistes nicht bekannten Rankingalgorithmen miteinander nicht vergleichbar sind.

In der Literatur kommt der Begriff Federated-Search auch häufig zum Einsatz, insbesondere in englischen Raum. Zur Abgrenzung der beiden Begriffe Meta-Search und Federated-Search soll die folgende Definition dienen (siehe [Asadi, Jamali 2004]).

” Federated search engines are different from Meta-Search engines. Meta-Search engines services for users are free while federated search engines are sold to libraries and other interested information service providers. Federated search mostly covers subscription based databases that are usually a part of Invisible Web and ignored by Web-oriented Meta-Search engines”

Der Definition nach sind Meta-Suchmaschinen web-orientiert. Im Gegensatz dazu sind die Federated-Search eher im Bereich Unternehmenssoftware anzusiedeln. Der grundlegende Unterschied besteht also in der Zielgruppe. Eine Meta-Suchmaschine ist für jeden zugänglich, während Federated-Search nur für eine bestimmte Zielgruppe zur Verfügung steht. Das in der Arbeit betrachtete System (die selbstlernende Suchmaschine) fällt deshalb eher in die Kategorie des Federated-Search. Einfachheit halber werden die beiden Begriffe im Rahmen der Arbeit äquivalent benutzt.

2.2.2 Typologien der Meta-Suchmaschinen

Zur Kategorisierung von Meta-Suchmaschine kann auf die Arbeit von Paul zurückgegriffen werden. Danach lassen sich drei Typologien von Meta-Suchmaschinen unterscheiden (vgl. [Paul 2008], S.9ff).

Exhaustive Meta-Suchmaschine: In diesem Model wird eine Anfrage an alle unterliegenden Suchmaschinen gesendet. D.h. alle Suchmaschinen werden aktiviert und liefern das Ergebnis an Meta-Suchmaschine zurück. Eine zusammengeführte Ergebnisliste wird dem Nutzer dann präsentiert. Bei großer Anzahl von unterliegenden Suchmaschinen ist es deswegen problematisch, dass nicht alle Suchmaschine relevante Dokumente für eine Anfrage liefern können. Bei Aktivierung von Suchmaschinen, die für eine Anfrage nicht hilfreich sind, führt zum Verlust der wertvollen Resources für die Meta-Suchmaschine und verursacht unnötigen Netzwerksverkehr.

Selektive Meta-Suchmaschine: Um das Problem der exhaustiven Meta-Suchmaschinen zu vermeiden, wird die selektive Meta-Suchmaschine vorgeschlagen. Es werden nur unterliegende Suchmaschinen aktiviert, die für eine Anfrage als nützlich bewertet werden. Mehrere Ansätze zur Auswahl der relevanten Suchmaschinen wurden bereits entwickelt, die in 2.2.3 nur kurz vorgestellt und im weiteren Verlauf der Arbeit nicht weiter behandelt werden. Für mehr Information über die Suchmaschinesauswahl wird auf die oben genante Literatur zu verwiesen.

Hybride Meta-Suchmaschine: Für die praktische Anwendung scheinen die oben genannten Modelle nicht ideal zu sein. Eine „reine“ Meta-Suchmaschine hat den Nachteil, dass sie auf andere Suchmaschinen angewiesen ist und ihre Suchweite dadurch gegrenzt sein kann. Es ist der Fall, wenn z.B. Daten in Unternehme von keinen Suchmaschinen erfasst werden. Deshalb wird die hybride Meta-Suchmaschine vorgeschlagen und sie kann als eine Erweiterung der exhaustiven und selektiven Meta-Suchmaschinen betrachtet werden. Die hybride Meta-Suchmaschine ist in der Lage, auch eigenen Index zu erstellen und zu verwalten. Dadurch verfügt sie über vollständige Information über eine oder mehrere Informationsquellen. Der Definition nach fällt die selbstlernende Suchmaschine, die im weiteren Verlauf der Arbeit noch vorgestellt wird, in diese Kategorie (siehe Abschnitt 3.2 und 5.2.1).

2.2.3 Komponenten der Meta-Suchmaschine

[Meng et al. 2002] hat eine konzeptionelle Architektur für Meta-Suchmaschine vorgeschlagen, die aus mehreren Komponenten besteht und in Abbildung 5 visualisiert wird. Ausgewählte Komponenten werden nachfolgend kurz vorgestellt. Da in der Arbeit die Aggregation der Ergebnisse eine wichtige Rolle spielt, wird sie separat im eigenen Abschnitt ausführlich behandelt (2.2.4, S.16).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Komponentenbasiert Meta-Suchmaschine (vgl. [Meng et al. 2002], S.55)

Komponente für Auswahl der Informationsquellen: Wenn die Anzahl der angeschlossenen Informationsquellen gering ist, ist es möglich, die Suchanfrage an sie alle weiterzuleiten. Wenn dieser Anzahl allerdings beachtlich groß ist, steht die Übermittlung der Suchanfrage an alle Informationsquellen keine gute Strategie dar. Der Grund dafür wurde bereits im vorherigen Abschnitt bei der exhaustiven Meta-Suchmaschine diskutiert. Ziel der Komponenten ist, Effektivität und Effizienz der Meta-Suchmaschine zu steigern, indem nur die relevanten Informationsquellen in Bezug auf eine Anfrage auszuwählen, während die irrelevanten Informationsquellen bei der Suche ausgeschaltet werden sollen. Es existieren unterschiedliche Herangehensweisen für dieses Problem, die sich in der Regel durch die Inhaltpräsentation der Quellen oder durch die Methode zur Relevanzschätzung der Quellen bezüglich einer Anfrage unterscheiden lassen.

Einfache Inhaltpräsentation: In diesem Ansatz wird der Inhalt einer Informationsquelle schlicht durch eine Reihe von Schlüsselwörtern oder Sätzen beschrieben. Dieser Ansatz ist deshalb nur dafür geeignet, Inhalt der Quelle allgemein zu beschreiben und nicht für die genaue Schätzung der Relevanz der Quelle für eine Anfrage passend.

Statistischer Ansatz: Der Inhalt der Informationsquelle wird durch detaillierte statistische Daten wie Termhäufigkeit, Dokumenthäufigkeit für jeden Term, Termgewichtung etc. präsentiert. Dadurch ist eine genauere Relevanzschätzung der Quelle möglich. Der Nachteil besteht allerdings in der Speicherung und Verwaltung der benötigten Daten.

Lernender Ansatz: Solche Ansätze schätzt die Nützlichkeit einer Informationsquellen mittels der Erfahrungen aus vorherigen Suche in dieser Quelle. Dabei spielt Lernmethode wichtige Rolle. Es wird unterschieden zwischen statischen und dynamischen Lernmethoden. Die statische Lernmethode ist auf training data angewiesen, die im Voraus erstellt wird. Der Nachteil solcher Methode ist, dass sie die Änderung der Informationsquelle sowie der Anfragemuster nicht berücksichtigt. Dieses Problem wird in dynamischen Lernmethoden beseitigt, welche allerdings Schwäche zeigen, falls nicht genügend Daten erfasst wird. Eine Kombination beider Methoden wird in der Tat häufig benutzt, die es ermöglicht, mit Schwächen der einzelnen Methoden umzugehen.

Komponente für die Auswahl der Dokumente: Für jede Informationsquelle, die von der oben Komponente ausgewählt, gilt es die relevante Dokumente zu holen. Einige Faktore können die Auswahl der Dokumente beeinflussen. Zum einen ist es die Anzahl der relevanten Dokumente in der Informationsquelle und zum anderen die Rankingmethode der unterliegenden Quelle.

Komponente für die Anfrageübermittlung: Die Komponente ist zuständig für die Verbindung mit den unterliegenden Informationsquellen und für die Übermittlung der Suchanfrage an sie. Dabei besteht oft die Notwendigkeit, Anfrage in eine passende Form für die unterliegende Informationsquelle zu übersetzen.

2.2.4 Aggegrationsmethode der Ergebnisliste

Bevor eine Ergebnisliste dem Nutzer präsentiert wird, sollen Ergebnisse der unterliegenden Suchmaschinen in eine einzige Liste zusammengeführt. Normalerweise soll die endgültige Ergebnisliste absteigend eines Relevanzmaßes sortiert werden. Wegen der Heterogenität der unterliegenden Suchmaschinen stellt die Aggregation der Ergebnisliste eine schwierige Aufgabe einer Meta-Suchmaschine dar. Die Heterogenität der Suchmaschine drück sich in unterschlichen Indexierungsmethoden, Termgewichtung, Anfragegewichtung, Ähnlichkeitsfunktionen, die Aktualität der Dokumente und in der Ergebnisrepräsentation etc. ([Meng et al. 2002]). Deshalb ist die lokale Ähnlichkeit der unterschiedlichen Suchmaschinen nicht immer miteinander zu vergleichen, selbst wenn sie verfügbar sind. Manche Suchmaschinen machen die lokale Ähnlichkeit der zurück gelieferten Ergebnisse verfügbar, während die anderen Suchmaschinen diesen Ähnlichkeitsmaß geheim halten. Es stellt sich die Aufgabe, die Ergebnisliste so zusammenzuführen, dass sie nicht auf die lokale Ähnlichkeit abhängig ist oder in der Anwesenheit unvergleichbarer Ähnlichkeitsmaße. Die derzeit vorhandene Aggregationsmethoden können in zwei Kategorien gegliedert werden.

- Die Anpassung der lokalen Ähnlichkeit: solche Methoden passen die lokale Ähnlichkeit der einzelnen Suchmaschine mit zusätzlichen Informationen wie die Wichtigkeit der jeweiligen Suchmaschine an.
- Globale Ähnlichkeit: Solche Methoden berechnen oder schätzen die globale Ähnlichkeit der zurückgelierten Ergebnisse.

Die Methoden zur Anpassung der lokalen Ähnlichkeit sind leichter umzusetzen, aber manchmal ungenau. Die andere Methode kann bessere Ergebnisse liefern, benötigt zudem jedoch zusätzliche Information von unterliegenden Informationssystemen.

Die zwei folgenden Abschnitte beschäftigen sich mit zwei Methoden zur Anpassung der lokalen Ähnlichkeit. Die eine wird eingesetzt, wenn die Score verfügbar ist. Die andere ist geeignet für den Fall, bei dem Score nicht bekannt ist.

2.2.4.1 Scorebasierte Methode

Diese Methode setzt voraus, dass Score, das den Relevanzmaß für ein Suchergebnis darstellt, bekannt ist. Aus mehreren Gründen ist Score der unterschiedlichen Suchmaschinen nicht immer miteinander verglichen werden können, müssen diese deshalb so angepasst werden, dass sie miteinander vergleichbar sind. Dazu soll Score zunächst normalisiert werden. Das bekanntes Das Z-Tranfomieren ist als ein Beispiel für Normalisierung in Gleichung (F. 2‑5) aufzuführen.

Abbildung in dieser Leseprobe nicht enthalten

Für die genaue Beschreibung der Normalisierungsmethode wird auf entsprechende Literatur ([Renda et al. 2003]) verwiesen.

Nach der Normalisierung kann die aggregierte Score für ein Ergebnis (i) ermittelt werden. Dabei sind zwei möglichen Szenarien zu unterscheiden. Zum einen sind die unterliegenden Informationsquellen nicht identisch. In diesem Szenario ist jedes Ergebnis ein Unikat. Durch die Standardisierung sind die Ergebnisse vergleichbar. Das andere Szenario liegt vor, wenn die Informationsquellen nicht disjunkt sind. In diesem Szenario kann eine Suchergebnisse in verschiedenen Informationsquellen gefunden werden. Zur Kombination der Ergebnisse wurde in [Fox et al. 1994] verschiedene Methode vorgeschlagen.

Tabelle 3: Übersicht der Methode zur Scorekombination (vgl. [Fox et al. 1994])

Abbildung in dieser Leseprobe nicht enthalten

Wenn die Komponente für die Auswahl der unterliegenden Suchmaschine dennoch umgesetzt wird, kann Bewertungswert für eine Suchmaschine zur Aggregation der Suchergebnisse eingesetzt werden. Idee dieser Methoden ist, Ergebnisse aus einer besseren Quelle soll auch besser bewertet werden (vgl. [Meng et al. 2002], S.77). Auf der identischen Weise arbeitet die Aggregationsmethode der selbstlernenden Suchmaschine (siehe 3.4, S.31).

2.2.4.2 Rangbasierte Methode

Bei rangbasierten Aggregationsmethode wird Rangfolge zur Zusammenführung der Suchergebnisse herangezogen. Das Relevanzmaß (Score) wird außer Acht gelassen, selbst wenn sie bekannt ist.

Es gibt mehrere Ansätze zur rangbasierten Aggregationsmethode. Für diesen Zweck wird in [Dwork et al. 2001], [Aslam et al. 2001] beispielweise die Borda-Wahl[9] eingesetzt. Diese Methode arbeitet folgendermaßen. Jede unterliegende Suchmaschine gibt eine Trefferliste für eine Anfrage zurück, die nach absteigender Relevanz sortiert wird. Das erste Ergebnis in der Trefferliste erhält die meisten Punkte, das zweite Ergebnis einen Punkt weniger als das ersten, das dritte Ergebnis einen Punkt weniger als das zweite, usw. Die Punktvergabe geschieht dann für alle Trefferliste anderer unterliegenden Suchmaschinen. Die gesamte Punkte, die ein Ergebnis bekommt, stellt dessen Relevanzmaß dar. Diese Methode ist einfach zu realisieren, hat aber den Nachteil, dass die nur in Fällen gut funktioniert, bei denen Ergebnisse der heterogenen Informationsquellen nicht komplett disjunkt sind (vgl. [Renda et al. 2003]).

In der Literatur wird die auf Markow-Kette[10] basierende Aggregationsmethode auch häufig diskutiert. Qualität der Methode ist gut und ist mit scorebasierten Methoden vergleichbar. Wegen ihrer Komplexität und des geringen Themenbezugs wird diese Methode hier nicht ausführlich erläutert. Stattdessen wird auf entsprechende Literatur ([Renda et al. 2003], [Dwork et al. 2001]) verwiesen.

2.3 Fazit

In diesem Kapitel wurden die theoretischen Grundlagen für die Arbeit vorgestellt. Dabei wurde auf Information Retrieval und seine spezielle Form, die Meta-Suchmaschinen eingegangen.

In Bezug auf Meta-Suchmaschine hat sich der Kapitel insbesondere mit der Komponente zur Aggregation der Suchergebnisse aus heterogenen Informationsquellen befasst. Dabei wurde festgestellt, dass sowohl die scorebasierten als auch rangbasierte Aggregationsmethoden nur gut funktionieren, wenn Suchergebnisse aus verschiedenen Informationsquellen nicht komplett disjunkt sind (vgl. [Renda et al. 2003]). Es wurde auch deutlich, dass die scorebasierte Aggregationsmethode gute Ergebnisse liefern kann. Sie haben aber den Nachteil, dass sie von der Anwesenheit der Score abhängig ist, die aber aus verschiedenen Gründen nicht immer vorliegt. Darüber hinaus wurden in den meisten Aggregationsmethode der Suchkontext und Nutzerprofile nicht berücksichtigt.

Da die Qualität der Meta-Suchmaschine von der Aggregationsmethode abhängig ist, bleibt dieses Thema nach wie vor ein spannendes Forschungsgebiet (vgl.[Hawking 2004]).

3 Selbstlernende Suchmaschine

3.1 Hintergrund der selbstlernenden Suchmaschine

Für die Produktivitätssteigerung der Mitarbeit und somit auch für die Wettbewerbsfähigkeit von Unternehmen spielen die Wiedernutzung sowie der schnelle Zugriff auf Information und Wissensbestand eine immer wichtige Rolle. Im Bezug auf das Wissensmanagement und Enterprise Search in Unternehmen im deutschsprachigen Raum wurde 2007 eine empirische Studie am Lehrstuhl für E-Government und Wirtschaftsinformatik der Uni Potsdam durchgeführt (siehe [Bahrs et al. 2007]).

Die Studie hat gezeigt, dass die berufbezogene Nutzungshäufigkeit unternehmensexterner Suchinstrumente deutlich höher ist, als die der unternehmensinternen. Rund 20% der Befragten (n=140) geht davon aus, dass im Unternehmen vorhandene Informationen zu einem Thema gefunden werden kann. Rund 60% haben erhebliches Misstrauen gegenüber der Qualität der Suchmaschine. Die verbleibenden 20% erwarten gar nicht, dass diese Information aufgefunden werden können. Dies ist auf die vorhandenen Suchinstrumente in Unternehmen zurückzuführen. Zwar werden Suchmaschinen in den meisten Unternehmen (über 80%) eingesetzt. Aber die Informationen sind nur teilweise und erst durch die Nutzung mehrerer Suchinstrumente zugänglich. Es gibt mehrere Gründe dafür. Zum einen werden Informationen in Unternehmen überwiegend nicht in strukturierter Form gespeichert, wie es zum Beispiel bei einer relationalen Datenbank der Fall ist. Zum anderen werden vielfältige applikationsspezifische Dokumentenformate, Intranet Webseiten, unterschiedliche und proprietäre Systeme und Datenbanken verwendet. Von einer heterogenen Informationslandschaft mit dezentralen Speichersystemen in den meisten Unternehmen kann gesprochen werden. Darüber hinaus werden in Unternehmen in der Regel Zugriffsrechte eingeschränkt. So ist der überwiegende Teil der Informationen nur mit entsprechenden Zugriffsrechten erreichbar. Ein zentraler Index muss daher die Zugriffsrechte abbilden können. Dies ist bei Datenbankstrukturen, wo ggf. einzelne Attribute gesondert geschützt werden, komplex.

[...]


[1] Auch inneres Produkt oder Punktprodukt genannt

[2] Reduzierung eines Wortes auf sein Wortstamm

[3] Vgl. [Manning et al. 2008], S.119

[4] idf für verschiedene Terme in einer Sammlung von 806.791 Dokumenten (vgl. [Manning et al. 2008], S. 119)

[5] http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/cran/

[6] http://trec.nist.gov/

[7] http://meta.rrzn.uni-hannover.de/what.is.meta.html; Abruf am 10.05.2009.

[8] http://www.isoc.org/inet98/proceedings/1c/1c_2.htm#ref2_; Abruf am 10.05.2009.

[9] Engl. Borda count:

[10] Engl. markow chain.

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2009
ISBN (eBook)
9783836640237
DOI
10.3239/9783836640237
Dateigröße
939 KB
Sprache
Deutsch
Institution / Hochschule
Universität Potsdam – Wirtschafts- und Sozialwissenschaftliche Fakultät, Studiengang Wirtschaftsinformatik
Erscheinungsdatum
2009 (Dezember)
Note
1,7
Schlagworte
wissensmanagement meta-suchmaschine information entscheidungsmethode
Zurück

Titel: Konzeption und Evaluation der Aggregationsmethode mit analytischem Hierarchieprozess für Meta-Suchmaschine in Unternehmen
Cookie-Einstellungen