Lade Inhalt...

Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™

©2002 Diplomarbeit 180 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Mit dem Auffinden bzw. dem Nichtauffinden von Produkt- und Informationsinhalten steht und fällt die Akzeptanz von Portalen und elektronischen Beschaffungsplattformen. Suchmaschinen, die diese Aufgabe übernehmen, werden daher üblicherweise von kommerziellen Anbietern bzw. Open Source fremdbezogen. Die Auswahl und Integration einer geeigneten Suchmaschine bildet für Portalplattformen somit einen zentralen Erfolgsfaktor. Entscheider stehen daher vor der schwierigen Wahl einer geeigneten Suchtechnologie, durch welche sowohl die individuellen Anforderungen des Portals als auch die Erwartungen der Benutzer erfüllt werden.
Gang der Untersuchung:
Im Rahmen dieser Diplomarbeit werden Methoden zur Suche in Portalplattformen für elektronische Marktplätze (Commerce und Content) vorgestellt. Dabei soll im Hinblick auf die Integration einer Suchmaschine die Frage beantwortet werden, welche Anforderungen sich aus den portaltypischen Gegebenheiten und den verschiedenen Suchszenarien an eine geeignete Suchtechnologie ergeben. Dabei will diese Arbeit Antworten auf folgende Fragen geben:
- Welche Methoden zur Suche in Portalen existieren?
- Worin liegt der Nutzen dieser Technologien?
- Wie lässt sich dieser Nutzen messen?
- Wie charakterisieren sich portalspezifische Gegebenheiten und welche Suchszenarien gibt es?
- Durch welche Technologien werden diese Suchszenarien optimal unterstützt?
Im Rahmen der Arbeit wird ein Kriterienkatalog zur Beurteilung der technischen Eigenschaften von Suchmaschinen erarbeitet. Dieser Kriterienkatalogs soll es ermöglichen, die Zahl potenzieller Technologielieferanten systematisch einzugrenzen. Dabei wird auch das allgemeine Suchverhalten von Benutzern und deren Erwartungen an die Suchfunktionalität berücksichtigt. Die Empfehlungen orientieren sich folglich danach, welche Suchtechnologien den Benutzer in seinem Verhalten optimal unterstützen, und somit von praktischer Relevanz sind.
Für die Suche im Content-Modul der Portalplattform up2gate.com werden anhand des Kriterienkatalogs konkrete Eigenschaften für eine Suchtechnologie empfohlen. Diese Empfehlungen können bei entsprechender Schlussfolgerung auf andere Portalplattformen übertragen werden. Diese Arbeit kann somit Entscheidern als Hilfestellung dienen, bei der Auswahl einer geeigneten Suchtechnologie die richtige Wahl zu […]

Leseprobe

Inhaltsverzeichnis


ID 6658
Marunde, Gerald: Analyse von Methoden zur Suche in Portalplattformen und deren
technische Integration am Beispiel der Portalplattform Up2gate.comTM
Hamburg: Diplomica GmbH, 2003
Zugl.: Augsburg, Universität, Diplomarbeit, 2002
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2003
Printed in Germany

INHALTSVERZEICHNIS
I
Inhaltsverzeichnis
Inhaltsverzeichnis ...I
Abbildungsverzeichnis ... V
Abkürzungsverzeichnis ... VII
1 Einleitung ... 1
1.1
Ziel der Arbeit ... 3
1.2 Praxispartner
UP2GATE ... 3
1.3
Gang der Arbeit ... 4
2 Elektronische
Marktplätze ... 7
2.1
Einführung und Definition ... 7
2.2 Die
Transaktionsprozesse auf einem Marktplatz ... 8
2.3 Ausrichtungen... 9
2.3.1
Markt-, vertriebs- und einkaufsorientierte Ausrichtung... 9
2.3.2
Vertikale versus horizontale Ausrichtung ... 10
2.3.3
Offene versus geschlossene Ausrichtung ... 11
2.3.4 Vermittlungsmechanismen ... 11
2.3.5 Funktionalitäten... 12
2.4
Abgrenzung des hier behandelten Marktplatztypen ... 13
2.5 Beispielhafte
Architektur... 15
2.6 Zusammenfassung ... 16
Teil I Analyse von Methoden zur Suche...17
3 Data
Retrieval ... 18
3.1
Definitionen im Data Retrieval ... 18
3.2 Strukturierte
Daten ... 19
3.2.1 Strukturierte
Daten
in XML-Dokumenten ... 19
3.2.2
Strukturierte Daten in Datenbanken ... 20
3.3 Zusammenfassung ... 21
4 Information
Retrieval ... 22
4.1
Definitionen im Information Retrieval... 22
4.2 Unstrukturierte
Daten ... 23
4.2.1
Unstrukturierte Daten in Dokumenten ... 23
4.2.2
Unstrukturierte Daten in Datenbanken... 24

INHALTSVERZEICHNIS
II
4.3 Semi-strukturierte
Daten ... 24
4.3.1
Semi-strukturierte Daten in Dokumenten... 24
4.3.2
Semi-strukturierte Daten in Datenbanken ... 26
4.4
Typen von Information Retrieval ... 26
4.5 Zusammenfassung ... 28
5 Grundlagen
zu
Suchmaschinen... 29
5.1
Einführung in die Suche durch Suchmaschinen... 29
5.2
Der Suchprozess aus Sicht des Benutzers ... 31
5.2.1
Das Prozessmodell für Suche ... 31
5.2.2
Typen von Benutzern ... 33
5.2.3
Charakteristika von Benutzern ... 34
5.2.4
Typen von Suche ... 35
5.3
Der Suchprozess aus technischer Sicht ... 38
5.3.1 Technische
Komponenten ... 38
5.3.2
Die menschliche Sprache: Herausforderung an die Technik... 39
5.3.3 Die
Bewertungskriterien... 41
5.4 Zusammenfassung ... 42
6 Crawling ... 43
6.1 Der
Crawler ... 43
6.2
Bewertungskriterien für den Crawler ... 44
6.3 Zusammenfassung ... 47
7 Index-Server... 48
7.1
Die Notwendigkeit für einen Index ... 48
7.1.1 Sequentielle
Suche... 48
7.1.2 Index-basierte
Suche ... 49
7.2 Index-Typen ... 49
7.2.1
Inverted File Structure... 50
7.2.2 Signature
Files ... 51
7.2.3
Bewertungskriterien für die Indexstruktur ... 52
7.3 Text
Operations ... 53
7.3.1 Bewertungskriterien
für
obligatorische Text-Operations ... 54
7.3.2 Bewertungskriterien
für
optionale Text-Operations... 55
7.4 Zusammenfassung ... 59

INHALTSVERZEICHNIS
III
8 Query
Server... 60
8.1 Die
Benutzerschnittstelle... 60
8.1.1 Eingabemöglichkeiten ... 60
8.1.2
Ausgabe der Suchergebnisse ... 62
8.1.3
Berücksichtigung des Berechtigungskonzepts ... 64
8.1.4 Das
Benutzersuchverhalten ... 65
8.2 Fuzzy-Suche ... 68
8.2.1
Definition und Notwendigkeit für Fuzzy-Suche ... 68
8.2.2 Eigenschaft
von
Fuzzy-Suche ... 69
8.2.3
Konventionelle Methoden zur Fuzzy-Suche ... 69
8.2.4
Fortschrittliche Methoden zur Fuzzy-Suche ... 70
8.2.5
Bewertungsmöglichkeiten für Fuzzy-Suche... 73
8.2.6
Bewertung der verschiedenen Fuzzy-Methoden ... 75
8.3
Retrieval-Modelle von Query Servern ... 76
8.3.1
Ziele und Leistungsindizes eines Query Server ... 76
8.3.2
Die verschiedenen Retrieval-Modelle ... 81
8.4 Off-the-Page
Ranking-Kriterien... 92
8.5
Bewertung von Query Servern ... 93
8.5.1 Die
Testumgebung... 93
8.5.2
Verfügbarkeit von a priori Bewertungen... 95
8.5.3
Kritik an a priori Bewertungen... 96
8.5.4
Implikationen für die Bewertung von Query Servern ... 98
8.6 Zusammenfassung ... 100
Teil II Die Integration von Suche in Portalplattformen ... 101
9 Analyse der Portalplattform up2gate.com
TM
... 102
9.1 Profiportal.com... 103
9.2 Die
Portal-Benutzer ... 103
9.3 Das
Commerce-Modul ... 104
9.3.1
Der elektronische Produktkatalog ... 105
9.3.2 Die
Produktklassifikationsstruktur ... 108
9.3.3
Produktsuche im elektronischen Katalog ... 109
9.3.4
Daten im Commerce-Modul... 113

INHALTSVERZEICHNIS
IV
9.4 Das
Content-Modul ... 114
9.4.1 Interner
Content... 114
9.4.2 Externer
Content... 115
9.4.3
Textsuche im Content-Modul... 115
9.4.4
Daten im Content-Modul... 116
9.5 Das
Berechtigungskonzept ... 116
9.6
Die Ausgangslage bei UP2GATE ... 118
10 Szenariospezifische
Handlungsempfehlungen ... 119
10.1 Qualitative Bestimmung eines Retrieval-Modells... 119
10.1.1 Wirkungs-Modell der drei Einflussgrößen... 120
10.1.2 Generelle Ausprägungen der Einflussgrößen... 121
10.2 Analyse
der
Suchszenarien... 122
10.2.1 Hierarchische
Suche ... 123
10.2.2 Schlagwortsuche... 123
10.2.3 Parametrische
Suche... 128
10.2.4 Commerce-Volltextsuche ... 129
10.2.5 Content-Textsuche... 133
10.3 Zusammenfassung ... 137
11
Anforderungsprofil der Content-Textsuche ... 139
11.1 Muss-, KO- und Kann-Kriterien... 139
11.2 Empfehlungen für den Query Server... 140
11.2.1 Retrieval-Modell... 140
11.2.2 Benutzerschnittstelle... 144
11.3 Empfehlungen für den Index-Server ... 147
11.3.1 Beschaffenheit
des
Index... 147
11.3.2 Text-Operations... 148
11.4 Empfehlungen für den Crawler ... 150
11.5 Berücksichtigung von IT-Standards ... 153
11.6 Empfehlung für den Auswahlprozess... 154
12 Fazit ... 156
Literaturverzeichnis ... 157

ABBILDUNGSVERZEICHNIS
V
Abbildungsverzeichnis
Abbildung 1-1: Rahmenwerk der Portalplattform up2gate.com
TM
... 4
Abbildung 2-1: Transaktionsphasen... 8
Abbildung 2-2: Ausrichtungsmöglichkeiten von Marktplätzen ... 9
Abbildung 2-3: Relevante Eigenschaften des behandelten Marktplatztypen... 14
Abbildung 2-4: Architektur eines elektronischen Marktplatzes... 15
Abbildung 3-1: Erhalt von Struktur und Semantik in XML-Dokumneten... 19
Abbildung 3-2: Suche über strukturierte Daten... 20
Abbildung 4-1: Meta-Daten in einem HTML-Dokument ... 25
Abbildung 4-2: Unstrukturierte Daten in einem HTML-Dokments... 25
Abbildung 5-1: Matching von Informationsbedürfnis und. Informationsbestand... 30
Abbildung 5-2: Standard Model of the Information Access Process ... 31
Abbildung 5-3: Vier Typen von Suche ... 37
Abbildung 5-4: Komponenten einer Suchmaschine... 39
Abbildung 6-1: Crawling mittels Verfolgung der Linkstruktur ... 44
Abbildung 7-1: Invertierte File Struktur... 50
Abbildung 7-2: Umwandlung von Wörtern in Bit-Signaturen... 51
Abbildung 7-3: Die einzelnen Text Operations bis zur Indizierung ... 53
Abbildung 7-4: Feststellung signifikanter Wörter gemäß dem Modell von Luhn]... 56
Abbildung 8-1: Standard Suche der Suchmaschine www.Teoma.com... 60
Abbildung 8-2: Verschiedene Fehlertypen bei Fuzzy-Suche... 69
Abbildung 8-3: Pattern Matching... 71
Abbildung 8-4: Schwierigkeitsgrade Intraword (IS) und Phrase Similaritiy (PS) ... 73
Abbildung 8-5: Test von Edit-Distance-Algorithmen für
= 0,3 und variierendem m ... 75
Abbildung 8-6: Recall und Precision ... 78
Abbildung 8-7: Trade-off zwischen Recall und Precision ... 78
Abbildung 8-8: Inverse Relation zwischen Recall und Precision ... 79
Abbildung 8-9: Veranschaulichung des Vektorraummodells ... 84
Abbildung 8-10: Testumgebung zur Bewertung von Query Servern... 94
Abbildung 9-1: Die Portalplattform up2gate.com
TM
... 102
Abbildung 9-2: Vertikaler Marktplatz der Baubranche profiportal.com... 103
Abbildung 9-3: Die drei in sich homogenen Benutzergruppen von profiportal.com... 104
Abbildung 9-4: Speicherung der Produktdaten im Marktplatz ... 105

ABBILDUNGSVERZEICHNIS
VI
Abbildung 9-5: Produktvergleich im Hyper-Katalog... 106
Abbildung 9-6: Klassifizierungsstruktur von profiCl@ss am Beispiel eCl@ss ... 109
Abbildung 9-7: Sukzessive Suchschritte bei hierarchischer Suche... 110
Abbildung 9-8: Schlagwortsuche nach Produktgruppen... 111
Abbildung 9-9: Ergebnis einer Schlagwortsuche ... 111
Abbildung 9-10: Produktgruppe mit synonymen Schlagworten und Merkmalen... 111
Abbildung 9-11. Parametrische Suche anhand von Produktmerkmalen ... 112
Abbildung 9-12: Volltextsuche im elektronischen Katalog ... 113
Abbildung 9-13: Berechtigungskonzept für redaktionelle Inhalte ... 117
Abbildung 10-1: Einfluss der drei Einflussgrößen auf ein Retrieval-Modell ... 120
Abbildung 10-2: Produktgruppe mit Schlagwortliste... 124
Abbildung 10-3: Problematik bei abweichender Eingabe... 124
Abbildung 10-4: Fehlertypen unterteilt nach Schwierigkeitsgrad... 127
Abbildung 10-5: Fehlertolerante Suche mit Intraword und Phrase Similarity... 128
Abbildung 11-1: Layoutgestaltung durch XSLT... 145

ABKÜRZUNGSVERZEICHNIS
VII
Abkürzungsverzeichnis
API
Application
Programming
Interface
ASCII
American Standard Code for Information Interchange
B2B
Business-to-Business
BME
Bundesverband Materialwirtschaft, Einkauf und Logistik
BMEcat
Datenmodell auf Basis von XML, vorgeschlagen vom BME
COM
Component Object Model
EDI
Electronic Data Interchange
ERP
Enterprise Resource Planning
EAN
European Article Numbering Association
FTP
File Transfer Protocol
GIF
Graphics Interchange Format
HTML
Hypertext Markup Language
HTTP
HyperText Transfer Protocol
IMAP
Internet Message Access Protocol
IR Information
Retrieval
JDBC
Java Database Connectivity
JPG
Joint Photographic Experts Group
LDAP
Lightweight Directory Access Protocol
LSI
Latent
Semantic
Indexing
NLP
Natural Language Processing
NNTP
Network News Transfer Protocol
NITF
News Industry Text Format
ODBC
Open DataBase Connectivity
PCC
Pre-Click-Confidence
PDF
Portable Document Format
SMS
Short Massage Service
SQL
Standard Query Language
TCP/IP Transmission
Control
Protocol/Internet Protocol
TXT
Text
URL
Uniform Resource Locator
WWW
World Wide Web
XML
eXtensible Markup Languag

KAPITEL 1 - EINLEITUNG
1
1 Einleitung
Die hohe Transformationsgeschwindigkeit des Internet und die stetige Entwicklung
neuer Geschäftsmodelle sollen Unternehmen erhebliche Einsparungen bringen. Eines
dieser Geschäftsmodelle, das als neuer Vertriebsweg eine bleibende Berechtigung erlangt
hat, ist der elektronische Marktplatz. Spezialisierte Unternehmen bieten mit sogenannten
Portalplattformen fertige Hardware und Software-Architekturen für elektronische
Marktplätze [Up2g2001]. Auf Basis dieser Plattformen können Marktplatzbetreiber
eigenverantwortlich elektronische Märkte aufbauen.
Um Marktplatzteilnehmer zu gewinnen, konzentriert sich die Argumentation der
Marktplatzbetreiber in der Regel auf die erzielbaren Prozesskosteneinsparungen bei der
Beschaffung über elektronische Marktplätze. Hier werden Einsparungspotenziale von bis
zu 60% genannt [Velt2001]. Der aufwendige traditionelle Prozessablauf mit seiner
Informationsbeschaffung, Angebotseinholung und Lieferantenauswahl wird durch einen
elektronischen Beschaffungsprozess ersetzt. Diese Einsparungspotenziale lassen sich
jedoch nur erreichen, wenn die Nutzung und die Suche im Produktangebot problemlos
möglich ist [Allw2001].
Damit wird eine oft vernachlässigte und doch so wichtige Funktionalität
elektronischer Marktplätze angesprochen: die Suchfunktionalität. Für den
Marktplatzteilnehmer bietet eine komfortable Suche der Produktdaten und
Informationsinhalte eine Optimierung des Einkaufprozesses [RüSz2000]. Durch integrierte
Suchmöglichkeiten kann so im gesamten Angebot schnell und komfortabel gesucht
werden. ,,Die Vorteile von E-Markets liegen im schnellen und komfortablen Zugang zum
Produktangebot und relevanten Informationen. Suchtechnologien führen dadurch zur
Reduktion der Beschaffungskosten" [EiPW2000, S.15]. Die Suche bildet somit für
Portalplattformen und den darauf realisierten elektronischen Marktplätzen einen zentralen
Erfolgsfaktor.
Das Wort Suche hat in dieser Arbeit die Bedeutung des englischen Wortes Retrieval.
Da es für Retrieval im Computer-Sprachgebrauch keine direkte deutsche Entsprechung
gibt, wird es in der Englisch-Deutsch-Übersetzung als ,,Finden von Informationen"
umschrieben [BaPr2002]. Der im deutschen Sprachraum gebräuchliche Ausdruck für
Retrieval ist jedoch Suche: ,,Wir gehen von einem allgemeineren Begriff des Information
Retrieval aus, ... Das Ziel all dieser Systeme ist die Suche und der Nachweis von

KAPITEL 1 - EINLEITUNG
2
Informationen" [Kuhl1995, S.276]. Unter Suche im Sinne von Retrieval fallen daher in
dieser Arbeit alle Methoden, die das Finden von Informationen ermöglichen. Eine
,,Suchfunktionalität" ist dabei die Realisierung von Suche. Technologien, die solche
Suchfunktionalitäten ermöglichen, werden als ,,Suchtechnologie" bezeichnet. Synonym
wird der Begriff ,,Suchsystem" verwendet.
Für die in eine Portalplattformen zu intergierende Suchtechnologie bedeutet Suche:
Mit dem Auffinden bzw. dem Nichtauffinden von Produkten und Informationsinhalten
steht und fällt die Akzeptanz der darauf basierenden elektronischen Marktplätze. In der
Praxis hat sich jedoch gezeigt, ,, ... dass nach der Einführung von elektronischen
Beschaffungssystemen in Unternehmen häufig die erste Forderung der Nutzer war, die
Suchfunktionalität zu verbessern" [Hent2001, S.94].
Die Anbieter von Portalplattformen stehen daher vor der schwierigen Wahl einer
geeigneten Suchtechnologien, durch welche sowohl die individuellen Anforderungen der
elektronischen Marktplätze als auch die Erwartungen der Benutzer optimal unterstützt
werden. Bei einer Zahl von zur Zeit über 200 Anbietern von Suchtechnologien
[Rapp2002a] und einer Vielzahl von verschiedenen technologischen
Lösungsmöglichkeiten ist dies ein schwieriges Unterfangen. Der Entscheider steht vor
mehreren ungelösten Problemen:
Welche Methoden zur Suche existieren?
Worin liegt der Nutzen dieser Technologien?
Wie lässt sich der Nutzen bewerten?
Worin bestehen die marktplatztypischen Gegebenheiten und welche Suchszenarien
gibt es?
Reicht die Integration einer Technologie für alle Suchszenarien?
Durch welche Technologie(n) wird / werden diese Suchszenarien optimal
unterstützt?
Erst durch Beantwortung dieser Fragen lässt sich die Menge der Technologieanbieter
auf eine überschaubare Zahl begrenzen und potenzielle Technologielieferanten erkennen.

KAPITEL 1 - EINLEITUNG
3
1.1 Ziel der Arbeit
Im Rahmen diese Arbeit sollen Methoden zur Suche in Portalplattformen für
elektronische Marktplätze vorgestellt werden. Dabei soll im Hinblick auf die Integration
einer Suchmaschine die Frage beantwortet werden, welche Anforderungen sich aus den
marktplatztypischen Gegebenheiten und den unterschiedlichen Suchszenarien an eine
geeignete Suchtechnologie ergeben. Um diese Frage beantworten zu können, soll ein
Kriterienkatalog zur Beurteilung der technischen Eigenschaften von Suchmaschinen
erarbeitet werden. Durch die Erarbeitung des Kriterienkatalogs soll es möglich werden, die
Zahl der potenziellen Technologielieferanten systematisch einzugrenzen.
Ziel ist es, den Anbietern von Portalplattformen Handlungsempfehlungen zu geben,
welche Eigenschaften Suchtechnologien idealerweise erfüllen müssen, um den
Anforderungen der verschiedenen Suchszenarien elektronischer Marktplätze gerecht zu
werden. Ein Schwerpunkt dieser Arbeit liegt dabei auf der Betrachtung des Suchverhaltens
von Benutzern und deren Erwartungen an eine Suchtechnologie. Die Empfehlungen
orientieren sich folglich danach, welche Suchtechnologien den Benutzer in seinem
Verhalten optimal unterstützen.
Für die Suche im Content-Modul der Portalplattform up2gate.com
TM
werden anhand
des Kriterienkatalogs konkrete Eigenschaften für eine Suchtechnologie empfohlen. Diese
dienen als Hilfestellung für Entscheider, um mit entsprechenden Schlussfolgerungen die
Empfehlungen auf die eigene Portalplattform beziehen zu können.
1.2 Praxispartner UP2GATE
Die vorliegende Diplomarbeit wurde in Zusammenarbeit mit dem Praxispartner
UP2GATE, einem sogenannten Portal-Service-Provider für vertikale elektronische
Marktplätze erstellt. UP2GATE ist ein 100%iges Tochterunternehmen der Siemens
Business Services GmbH & Co. OHG mit Hauptsitz in München und wurde im September
2000 gegründet.
Die eigens entwickelte Portalplattform up2gate.com
TM
bietet Unternehmen als
Marktplatzbetreibern die technische Basis, auf der sie branchenspezifische sogenannte
vertikale Portale in wirtschaftlich eigener Verantwortung betreiben können. Die
Portalplattform up2gate.com
TM
dient in dieser Arbeit bei der Erarbeitung der
Handlungsempfehlungen als repräsentativer Referenz-Marktplatz.
UP2GATE stellt für die elektronischen Marktplätze die Architektur mit den zentralen
Portaldiensten wie Registrierung, Benutzerverwaltung, Personalisierung, etc. zur

KAPITEL 1 - EINLEITUNG
4
Verfügung. Ebenso enthalten sind die Grundfunktionen für den technischen Betrieb und
ein Help-Desk mit 24h/7Tage Support. Die Portal-Funktionalität besteht aus verschiedenen
Modulen, wodurch die Marktplätze kundenspezifisch und individuell angepasst werden
können. Abbildung 1-1 zeigt das Prinzip, nach dem die Portale der Marktplatzbetreiber als
Teilmenge der Plattform up2gate.com
TM
logisch untergeordnet sind (Portale-im-Portal-
Konzept: 1,2,3,...n).
Abbildung 1-1: Rahmenwerk der Portalplattform up2gate.com
TM
[Up2g2002b]
Die Vermarktung wird über ein eFranchise-Modell vorgenommen. Das eFranchise
Vertragsrahmenwerk ist ein standardisiertes Rahmenwerk, welches die Leistungs-
beschreibung und das Vergütungsmodell enthält. Jedes vertikale Portal wird
unternehmerisch selbstständig von einem Portal Partner betrieben. Dieses Konzept des
eFranchise ermöglicht dadurch einen schnellen und kostengünstigen Markteinstieg für den
Portalunternehmer, indem die technische Realisierung und Weiterentwicklung von
UP2GATE übernommen wird ­ UP2GATE wiederum kann die entwickelten
Standardfunktionen mehreren Partner-Portalen zur Verfügung stellen. Mittelfristig wird für
die Portalplattform up2gate.com
TM
eine globale Vermarktung angestrebt.
Der erste
vertikale Marktplatz profiportal.com entstammt der Baubranche (Bau, Bautechnik und
Industrieausrüstung) und befindet sich am Ende der Aufbauphase.
1.3 Gang der Arbeit
Kapitel 1 hat die Problemstellung und den Praxispartner dieser Arbeit vorgestellt. Da
auf die hier betrachteten Portalplattformen vertikale elektronische Marktplätze aufsetzten,
werden in Kapitel 2 elektronische Marktplätze und deren verschiedenen

KAPITEL 1 - EINLEITUNG
5
Ausrichtungsmöglichkeiten vorgestellt. Dabei wird der in dieser Arbeit speziell behandelte
Marktplatztyp eingegrenzt.
Der folgende Gang der Arbeit gliedert sich in zwei logische Teile. Teil I widmet sich
der ,,Analyse von Methoden zur Suche" in Portalplattformen und erarbeitet
Bewertungskriterien für die technischen Komponenten einer Suchmaschinen-Software.
Kapitel 3 beschreibt im Rahmen von Data Retrieval die Methoden zur Suche über
sogenannte strukturierte Daten. Data Retrieval in elektronischen Marktplätzen wird bereits
über bestehende Komponenten gelöst, so dass sich die Abhandlung auf eine kurze
Einführung beschränkt. Aufgrund dieses Wissens können jedoch später Suchszenarien mit
Suche über unstrukturierte Daten von der weiteren Betrachtung ausgeklammert werden.
Das Hauptaugenmerk von Teil I richtet sich auf Methoden zur Suche
im Rahmen von
Information Retrieval. In Kapitel 4 werden die Information Retrieval zugrunde liegenden
sogenannten unstrukturierten und semi-strukturierte Daten erläutert und für elektronische
Marktplätze potenziell relevanten Typen von Retrieval vorgestellt.
In Kapitel 5 erfolgt eine Einführung in die Thematik Suche durch Suchmaschinen.
Dabei liegt ein Schwerpunkt auf Suche aus Benutzersicht. Anschließend werden anhand
des typischen Aufbaus einer Suchmaschinenarchitektur die einzelnen technischen
Komponenten aufgezeigt. Ziel der folgenden Kapitel ist es, Beurteilungskriterien für die
einzelnen technischen Komponenten zu erarbeiten, anhand denen im Teil II dieser Arbeit
Empfehlungen für die Integration einer Suchmaschine gegeben werden können.
In Kapitel 6 wird die Komponente Crawler behandelt, die für den Prozess der
Informationssammlung zuständig ist. Kapitel 7 behandelt mit der Komponente Index-
Server das Indizierungsprogramm einer Suchmaschine, bei dem ausgehend von den
gesammelten Dokumenten die Dokumentendaten extrahiert und in einer für Suche
optimierten Index-Struktur gespeichert werden.
In Kapitel 8 wird die Komponente Query Server behandelt, welche die Annahme und
Verarbeitung von Suchanfragen sowie die Ausgabe von Suchergebnissen übernimmt.
Zuerst werden die Interaktionsmöglichkeiten zwischen Benutzer und Suchmaschinen
erörtert. Hier wird speziell auf das konkrete Benutzerverhalten eingegangen und abhängig
davon Beurteilungskriterien für die Beschaffenheit der Benutzerschnittstelle abgeleitet.
Anschließend werden die gängigen Heuristiken zur Verarbeitung von Suchanfragen
vorgestellt und auf Vor- und Nachteile untersucht. Da die Eignung dieser Heuristiken
situationsspezifisch variiert, lassen sich keine allgemeingültigen Anforderungen

KAPITEL 1 - EINLEITUNG
6
formulieren. Vielmehr müssen hierfür die Charakteristiken der einzelnen Suchszenarien
berücksichtigt werden.
Aufbauend auf die Ergebnisse von Teil I behandelt der folgende Teil II der Arbeit die
,,Integration von Suche in Portalplattformen".
In Kapitel 9 werden die Rahmenbedingungen und verschiedenen Suchszenarien eines
elektronischen Marktplatzes anhand der Portalplattform up2gate.com
TM
beschrieben.
Dabei werden zum besseren Verständnis marktplatztypische Gegebenheiten und
Suchszenarien anhand der konkreten Ausprägungen des Referenz-Portals profiportal.com
erläutert.
Kapitel 10 gibt Empfehlungen für die Integration einer Suchmaschine Dabei wird zur
Veranschaulichung das Vorgehen anhand der Portalplattform up2agte.com
TM
beschrieben.
Ausgehend von der Portalbeschreibung in Kapitel 9 und den Grundlagen aus Teil I werden
Handlungsempfehlungen für die ideale Beschaffenheit eines Query Servers abgeleitet.
Dabei soll auch die Frage beantwortet werden, ob alle Suchszenarien durch eine
Technologie abgedeckt werden können, oder ob für verschiedene Suchszenarien
verschiedene Suchtechnologien notwendig sind.
In Kapitel 11 werden für das Content-Modul von up2agte.com
TM
auf Basis des
Kriterienkataloges für die verschiedenen Komponente einer Suchmaschine Empfehlungen
gegeben.

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
7
2 Elektronische Marktplätze
Dieses Kapitel gibt eine Einführung in die Thematik der elektronischen Marktplätze,
die auf den hier behandelten Portalplattformen aufsetzten.
Nach einer allgemeinen
Definition elektronischer Marktplätze in Kapitel 2.1 werden in Kapitel 2.2 die einzelnen
Transaktionsprozesse vorgestellt und in Phasen eingeteilt. Anschließend werden in Kapitel
2.3 die verschiedenen Ausrichtungen und Funktionen elektronischer Marktplätze
vorgestellt. In Kapitel 2.4 erfolgt auf Basis der vorgestellten Ausrichtungen eine
Beschreibung des in dieser Diplomarbeit speziell behandelten Marktplatztypen und seiner
charakteristischen Merkmale. Kapitel 2.5 gibt abschließend eine beispielhafte
Aufbaudarstellung des beschriebenen elektronischen Marktplatztypus und zeigt die
technischen Komponenten.
Kapitel 2.6 fasst daraus resultierenden Implikationen vor dem
Hintergrund der Thematik Suche zusammen.
2.1 Einführung und Definition
Im allgemeinen Verständnis werden Orte, an denen Anbieter und Nachfrager zum
Zweck des Warenaustauschs zusammentreffen, als Marktplätze bezeichnet. Das
elektronische Pendant, der elektronische Marktplatz, wird realisiert durch die Verlagerung
des Zusammentreffens von Anbietern und Nachfragern auf einer neutralen Website im
Internet [ScSc2000, S.98]. Ein elektronischer Marktplatz kann wie folgt definiert werden:
Ein elektronischer Marktplatz stellt einen virtuellen Marktraum innerhalb eines
übergeordneten Datennetzes dar, innerhalb dessen virtuelle
Geschäftstransaktionen durchgeführt werden, die mit Hilfe
informationsorientierter Wertschöpfungsaktivitäten zu jedem Zeitpunkt des
Koordinationsprozesses vom Marktplatzbetreiber unterstützt werden können
[Koll1999, S.198].
Der Marktplatzbetreiber bietet den Anbietern von Gütern eine Infrastruktur für die
Verwaltung und Koordination ihres Angebots. Er erfüllt so eine Mittlerfunktion zwischen
Nachfrager und Anbieter, die je nach Marktplatz unterschiedlich ausgeprägt ist.
Elektronische Marktplätze erfüllen somit die klassischen ökonomischen Funktionen eines
Marktes, ohne dass die Marktteilnehmer auf dem Marktplatz physisch vertreten sein

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
8
müssen. Im Folgenden wird zuerst vorgestellt, welche Transaktionsprozesse auf
elektronischen Marktplätzen abgewickelt werden können.
2.2 Die Transaktionsprozesse auf einem Marktplatz
Der überwiegende Teil der Transaktionsprozesse auf einem Marktplatz basiert auf
Informationen und deren Austausch zwischen den beteiligten Transaktionspartnern. Die
Informationstechnologie ermöglicht die Bereitstellung von Informationen in Form von
digitalisierten Daten. Die Daten können dabei als Text-, Bild-, Ton-, und
Videoinformationen angeboten werden.
Dies eröffnet die Möglichkeit, Handelsobjekte in digitalisierter Form darzustellen.
Verhandlungen zwischen Marktteilnehmern können durch digitale Kommunikation (Email,
elektronische Formulare,
etc.) abgewickelt werden. Der ganze Ablauf einer
Markttransaktion kann in drei Phasen eingeteilt werden [Koll2001, S.64]:
Abbildung 2-1: Transaktionsphasen [ScLi1997, S.7]
Informationsphase (Anbahnung): Innerhalb der Informationsphase kommt es zu
einem ersten Austausch von Informationen zwischen Anbieter und Nachfrager. Dabei
geht es vor allem um Informationen wie Produktspezifikationen, Preise, Konditionen
oder rechtliche Fragen. Im Mittelpunkt steht die Frage, welche Produkte oder
Leistungen welches Anbieters kommen für die geplante Aufgabe in Betracht?
Aufgrund dieser Informationen können konkrete Kaufabsichten geäußert werden. Der
Marktplatzbetreiber sollte in dieser Phase die kostengünstige Informationsbeschaffung
und den Austausch von Informationen unterstützen.
Vereinbarungsphase (Aushandlung): In dieser Phase findet die eigentliche
Verhandlung statt, die im Erfolgsfalle mit einem Verkaufsvertrag endet.
Abwicklungsphase (Abwicklung): In der letzten Phase wird der Verkaufsvertrag
erfüllt, das Produkt bezahlt und die Leistung erbracht. Im Falle physischer Güter folgt
noch die logistische Abwicklung des Warentransports.
Anbieter
Nachfrager
Gebote
Vertragsabschluss
Transaktionsende
Informationsphase
Vereinbarungsphase
Abwicklungsphase

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
9
Damit lassen sich ­ bis auf die reale Begutachtung und die physische Übertragung
von Handelsobjekten ­ alle Funktionen einer Markttransaktion auf elektronische
Marktplätze verlagern.
Das Augenmerk dieser Arbeit beschränkt sich dabei auf die Informationsphase, in
welcher der Markplatzbetreiber die Marktplatzteilnehmer bei der Informationsbeschaffung
und dem gegenseitigen Informationsaustausch unterstützt. Dieses Vorhaben zur
Unterstützung der Informationsphase setzt die Integration von Suchtechnologien im
elektronischen Marktplatz voraus.
2.3 Ausrichtungen
Elektronische Marktplätze unterscheiden sich untereinander bezüglich Aufbau und
Ausrichtung. Diese Unterscheidung erfolgt nach der Ausrichtung des Angebotes, der
Branchenausrichtung, der angesprochenen Nutzergruppe, den verwendeten
Vermittlungsmechanismen sowie der angebotenen Funktionalitäten. Anhand dieser
Beschreibung lassen sich elektronische Marktplätze gewissen Marktplatztypen zuordnen.
2.3.1 Markt-, vertriebs- und einkaufsorientierte Ausrichtung
Marktplätze werden aus unterschiedlichen Interessen heraus errichtet. Sie können als
eine Lösung konzipiert werden, die verschiedenen Seiten bestimmte Vorteile einräumt
[Jcat2001a, S.5]: Eine marktorientierte Lösung versucht sowohl dem Anbieter als auch
dem Nachfrager Vorteile zu verschaffen, eine synonyme Bezeichnung ist eMarketplace.
Eine einkaufsorientierte Lösung versucht dagegen die Einkaufsmacht eines oder
mehrerer Konzerne zu bündeln, in dem die Produkte mehrerer Anbieter gebündelt
präsentiert werden - man spricht auch von eProcurement.
In der vertriebsorientierten Lösung bieten Unternehmen ihre Güter in personalisierter
Form über ihren eigenen Marktplatz an, es handelt sich um sogenannte eShopping
Systeme. Abbildung 2-2 grenzt die Ausrichtungsmöglichkeiten von Marktplätzen grafisch
gegeneinander ab.
Marktorientiert
Vertriebsorientiert
Einkaufsorientiert
Aufbau
Abbildung 2-2: Ausrichtungsmöglichkeiten von Marktplätzen

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
10
In dieser Arbeit wird die Integration von Suche in marktorientierten elektronischen
Marktplätzen behandelt, d.h. Marktplätze, in denen Lieferant und Kunde bzw. Anbieter
und Nachfrager gleichermaßen beteiligt sind und die Funktion des Marktbetreibers durch
eine unabhängige dritte Institution durchgeführt wird.
Im Folgenden sollen diese elektronischen Marktplätze nach ihrer vertikalen bzw.
horizontalen Ausrichtung unterschieden werden.
2.3.2 Vertikale versus horizontale Ausrichtung
Je nach Ausgestaltung der virtuellen Transaktionsvermittlung lassen sich
grundsätzlich zwei elektronische Marktplatzarten unterscheiden: zum einen vertikale
Marktplätze, die branchenspezifische Güter anbieten und zum anderen horizontale
Marktplätze, die Güter branchenübergreifend anbieten.
Horizontale Marktplätze sind auf bestimmte Produktgruppen ausgerichtet, die für
viele verschiedene Nutzergruppen und in mehreren Branchen von Bedeutung sind (z.B.
Büromaterial oder Computerhardware) [Koll2001, S.84]. Unter horizontalen Marktplätzen
werden somit Handelsplattformen verstanden, welche sich auf einen bestimmten Punkt der
Wertschöpfungskette für eine branchenübergreifende Nutzergruppe konzentrieren. Ein
Beispiel für einen horizontalen Marktplatz ist www.mercateo.com.
Vertikale Marktplätze werden auch als industriebasierte oder branchenspezifische
Marktplätze bezeichnet [Koll2001, S.82]. Sie konzentrieren sich auf die spezifischen
Bedürfnisse einer bestimmten Nutzergruppe und sind auf spezielle Branchen ausgerichtet.
Ziel ist die Abdeckung sämtlicher benötigter Güter entlang des Produktionsprozesses und
die Unterstützung der Kommunikations- und Handelsfunktionalitäten auf einer
gemeinsamen Plattform. Die auf vertikalen Marktplätzen angebotenen Vermittlungsdienste
werden vom Marktplatzbetreiber häufig durch zusätzliche spezifische Informationen
abgerundet. Diese Informationen reichen von weitergehenden Transaktionsinformationen
über technische Spezifikationen bis hin zu den in einschlägigen Fachzeitschriften
abgedruckten Inhalten. Durch diese Zusatzleistung wird die Markttransparenz für die
Teilnehmer insgesamt verbessert und die Nachfrageentscheidung unterstützt. Ein Beispiel
für einen vertikalen Marktplatz ist www.cc-chemplorer.com.
Langfristig sprechen Forschungsinstitute den vertikalen Marktplätzen das größte
Umsatzpotential zu, da sie eine qualifizierte Zielgruppe bedienen und so für diese
ausgewählte Zielgruppe ein optimiertes Angebot bieten können [ScSc2000, S.102]. Da die
Portalplattform von Praxispartner UP2GATE.com ebenfalls auf vertikale Marktplätze

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
11
abzielt, gehen in diese Arbeit daher die branchenspezifischen Merkmale von vertikalen
Marktplätzen ein.
2.3.3 Offene versus geschlossene Ausrichtung
Neben der branchenspezifischen Ausrichtung unterscheiden sich Marktplätze darin,
in wie weit sie welchen Teilnehmern Zutritt gewähren oder sich potenziellen Teilnehmern
öffnen. Man unterscheidet offene und geschlossene Marktplätze [Chri2001, S.106].
Unter offenen elektronischen Marktplätzen werden jene Marktplätze verstanden, die
für alle Anbieter oder Nachfrager zugänglich sind, die sich an die für die Nutzung
geltenden Regeln halten. Offene Marktplatzsysteme finden sich häufig im Bereich der
horizontalen Marktplätze.
Geschlossene Marktplatzsysteme beschränken dagegen den Zutritt. Diese
Beschränkungen können unternehmensbezogen, branchenbezogen, regional oder
nutzergruppenspezifisch begründet sein. Dabei werden den einzelnen Nutzergruppen
unterschiedliche Berechtigungen eingeräumt. Geschlossene Marktplatzsysteme finden sich
häufig im Bereich der vertikalen Marktplätze.
Auch bei den hier behandelten vertikalen Marktplätzen wird als Ausrichtung eine
geschlossene Benutzergruppe mit unterschiedlichen Berechtigungen vorausgesetzt.
2.3.4 Vermittlungsmechanismen
Innerhalb von Marktplätzen stehen verschiedene Mechanismen zur Abwicklung des
Handels zur Verfügung. Im Folgenden soll vorgestellt werden, auf welche Weise ein
Marktplatzbetreiber seine Vermittlungsleistung institutionalisieren kann. Es lassen sich
vereinfacht fünf kommerzielle Ausbaustufen der Marktplätze unterscheiden
[ScSc2000, S.98]:
1. Elektronische Kataloge: Die Grundlage für katalogbasierte Dienste bildet ein in einer
Datenbank aggregierter elektronischer Produktkatalog, der sich aus den Katalogen
verschiedener Produktanbieter zusammensetzt. Die Anbieter offerieren somit über den
Marktplatzbetreiber zusammen mit identischen, ergänzenden oder ähnlichen Produkten
anderer Anbieter in einem gemeinsamen elektronischen Katalog. Der Nachfrager sucht
nach dem von ihm gewünschten Produkt und erhält als Ergebnis seiner Suchanfrage
vom Marktplatzbetreiber eine Auswahlmenge passender Produkte. Durch die
Suchfunktion wird das Angebot transparent und vergleichbar gemacht. Dadurch wird

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
12
der Nachfrager in die Lage gesetzt, Konditionen zu vergleichen und die ausgewählten
Produkte elektronisch direkt beim Anbieter zu bestellen. Einige Marktplätze bieten den
Verkäufern zusätzlich die Einrichtung eigener Anbieter-Shops exklusiv mit ihren
Angeboten auf der Webseite an.
2. Schwarze Bretter: Als Ergänzung zu den oben aufgeführten drei Vermittlungsarten
können Anbieter oder Nachfrager analog zu Kleinanzeigen einzelne Angebote bzw.
Gesuche auf Webseiten veröffentlichen. So können z.B. Anbieter ihre Restposten
vermarkten.
3. Virtuelles Branchenbuch: In Form von auf Webseiten gehaltenen
Firmeninformationen können sich die Anbieter und ihre Produkte auf dem virtuellen
Marktplatz darstellen.
4. Elektronische Börse: die Funktionsweise der elektronischen Börse, auch Exchange
System genannt, orientiert sich an den von Wertpapierbörsen bekannten
Abstimmungsprozessen. Ein Anbieter kündigt an, ein Produkt verkaufen zu wollen,
wobei die Verkaufsangebote mit Mindestvorstellungen über den Preis und Angaben
über Produktmerkmale versehen werden. Die potenziellen Nachfrager richten ihr
Angebot dann an den Marktplatzbetreiber, der die Angaben prüft und sie in
anonymisierter Form an geeignete Transaktionspartner weiterleitet. Diese entscheiden
dann über Annahme bzw. Ablehnung des Angebotes.
5. Auktionen: Beim Auktionsprinzip kommt ein offener Preismechanismus zum Tragen,
d.h. einzelnen Kaufpreisgebote können von den Nachfragern gegenseitig überboten
werden. Das höchste Gebot muss abschließend vom Bieter akzeptiert werden. Die
Laufzeit einer Aktion ist zeitlich begrenzt.
Jedes dieser Vermittlungsmechanismen bringt seine eigenen Suchszenarien mit sich
und kann somit zum Teil zu unterschiedlichen Anforderungen führen. Diese Arbeit
beschränkt sich auf den Vermittlungsmechanismus elektronischer Katalog.
2.3.5 Funktionalitäten
Hier soll ein Überblick über die möglichen Funktionalitäten eines Marktplatzes
gegeben werden. Jeder elektronische Marktplatz basiert auf einer Hardwarearchitektur und
den darauf aufsetzenden Softwareplattformen. Die Softwareplattformen stellen den
Marktplatznutzern bestimmte Funktionalitäten zur Verfügung. Die möglichen Software-

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
13
Funktionalitäten elektronischer Marktplätze lassen sich in vier Module aufteilen
[ScSc2000, S.100-101]:
Commerce: Im Mittelpunkt elektronischer Marktplätze steht das Commerce-Modul,
welches die Anbahnung und Abwicklung kommerzieller Transaktionen zum Ziel hat.
Im elektronischen Produktkatalog werden hier die transaktionsnahen Informationen
bereitgestellt. Das Commerce-Modul bietet somit die Kernfunktionalität und ist in
jedem elektronischen Marktplatz enthalten.
Content: Vor allem vertikale Marktplätze bieten mittels eines Content-Moduls auch
Zugriff auf zusätzliche Informationen wie Fachpublikationen, Datenbanken,
Nachrichten, Analysen oder Kommentaren an. Auf die Interessen der Nutzer
zugeschnittene Inhalte sollen einerseits die Besuchsfrequenz und Verweildauer
innerhalb des Portals steigern und den Kunden bei Kaufentscheidungen gezielt
unterstützten.
Community: Ein weiterer Bereich, der durch den Aufbau einer virtuellen
Gemeinschaft innerhalb der Zielgruppe die Interaktion zwischen den teilnehmenden
Personen fördern soll, ist das Community-Modul. Typische Community-Funktionen
sind Diskussionsforen oder Experten-Chats.
Communications: Zusätzlich kann durch ein Communication-Modul mit Email und
SMS-Funktionalität die Kommunikation zwischen den Teilnehmern gefördert werden.
2.4 Abgrenzung des hier behandelten Marktplatztypen
Durch die Integration einer Suchtechnologie sollen die Marktteilnehmer innerhalb
der Informationsphase bei ihren kommerziellen Transaktionen unterstützt werden. Da sich
elektronische Marktplätze hinsichtlich ihrer Ausrichtungen und Funktionalitäten
unterscheiden können, ist es wichtig, die Rahmenbedingungen des Marktplatzes
einzugrenzen. Der zugrunde gelegte Marktplatztyp soll hier anhand seiner Ausrichtung und
Funktionalität beschrieben werden.
Bei den untersuchten Marktplatztypen handelt es sich um vertikale Marktplätze mit
marktorientiertem Aufbau. Es sind somit sowohl Anbieter als auch Nachfrager aktiv
beteiligt. Die vertikale Ausrichtung steht für Handelsplattformen, welche die gesamte
Wertschöpfungskette einer meist branchenspezifischen Nutzergruppe abdecken.
Die Handelslösung ist im Commerce-Modul auf die jeweilig adressierte Branche
ausgerichtet. Im Content-Modul werden branchenspezifische Zusatzinformationen

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
14
angeboten. Die Zusatzinformationen zeichnen sich durch qualitativ hochwertige Inhalte
mit potenziell relevantem Informationsgehalt aus. Ferner werden Community und
Communication Funktionalitäten geboten. Die ausgewählten
Nutzergruppen
charakterisieren sich üblicherweise als eine qualifizierte Zielgruppe mit fundierter
Branchenkenntnis.
Ferner wird ein geschlossenes Marktplatzsystem zugrunde gelegt. Für alle
Informationsangebote bestehen Benutzerberechtigungen, so dass einem Benutzer nicht
uneingeschränkt das gesamte Informationsangebot des Marktplatzes zur Verfügung steht,
sondern lediglich spezielle für ihn autorisierten Sichten auf die Informationen. Dadurch
wird die Menge der potenziell verfügbaren Informationen auf die autorisierten Bereiche
beschränkt.
Der im Commerce-Modul angebotene zentrale Vermittlungsmechanismus ist der
elektronische Produktkatalog. Zusätzlich werden Schwarze Bretter und Virtuelle
Branchenbücher geboten. In dieser Arbeit soll primär die Integration von Suche im
elektronischen Katalog und im Content-Modul untersucht werden, weshalb sich die
Ausführungen auf diese Komponenten beschränken. Weiterführende Betrachtungen
würden den Rahmen dieser Diplomarbeit sprengen.
Elektronische Börsen und Auktionen werden nicht geboten. Nachstehende Tabelle
fasst die für Suche relevanten Eigenschaften des hier behandelten Marktplatztypen
zusammen:
Eigenschaften des Marktplatz
Vertikal
Spezialisierte und branchenspezifische Lösungen
Geschlossener Benutzerkreis (Registrierung)
Berechtigungskonzept
Informationen sind Marktteilnehmern nur dann zugänglich,
wenn sie über entsprechende Berechtigungen verfügen
Zielgruppe
Qualifizierte Nutzergruppen mit fundierter Branchenkenntnis
Commerce
Aggregierter elektronischer Produktkatalog bündelt die
Kataloge verschiedener Produktanbieter zu einem
gemeinsamen Katalog
Anbieter-Shops mit exklusiven Anbieterkatalog
Content
Branchenspezifische
Informationen
Qualitativ hochwertige Inhalte mit branchenspezifischen
Informationsgehalt
Abbildung 2-3: Relevante Eigenschaften des behandelten Marktplatztypen

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
15
2.5 Beispielhafte Architektur
Jeder elektronische Marktplatz basiert auf einer Hardwarearchitektur und den darauf
aufsetzenden Softwareplattformen. Nachdem Ausrichtung und Eigenschaften soll
abschließend beispielhaft die Architektur solcher Marktplätzen beschrieben werden.
Abbildung 2-3 stellt die vereinfachte Architektur eines Marktplatzes dar, wie er
grundsätzlich technisch realisiert werden könnte [HeSc2000, S.1516]. Ausgehend von der
Hardwarearchitektur (obere Reihe) wird zum besseren Verständnis exemplarisch die
zugehörige Software und mögliche Hersteller aufgezeigt (untere Reihe).
Abbildung 2-4: Architektur eines elektronischen Marktplatzes [HeSc2000, S.1516]
Die Erläuterung der Abbildung von links: Um den Marktplatz vor unberechtigtem
Zugriff von außen auf das eigene Netzwerk und die Daten zu schützen, ist ein mehrstufiges
Firewall-System im Einsatz. Ein Load-Balancing-System überwacht den aufkommenden
Datentransfer und verteilt ihn auf mehrere Server, um so bestmögliche Zugriffszeiten zu
gewährleisten [Lint2001, S.156].
Web-Server halten die Daten für die Web-Präsentation (z.B. statisch in HTML oder
dynamisch als Java Server Pages) und dienen als Benutzerschnittstelle für die
Marktplatzteilnehmer. Die Programmanwendungen der einzelnen Module des
Marktplatzes laufen auf Applikations-Servern. Diese steuern auch den Zugriff auf die
Datenbasis. Die Datenbasis bilden relationale Datenbanken wie z.B. von Oracle oder
Microsoft. Der elektronische Produktkatalog, der die Datenstruktur für die Produktkataloge
der verschiedenen Anbieter aggregiert, z.B. von der Firma jCatalog, speichert die

KAPITEL 2 ­ ELEKTRONISCHE MARKTPLÄTZE
16
Produktdaten ebenfalls in einer relationalen Datenbank. Ferner können Daten auf File-
Servern wie z.B. das Windows Fileshare von Microsoft über Netzwerke zum Abruf
bereitgehalten werden.
Ein Transaction-Server als Middleware sorgt für fehlertolerante Prozessabwicklung
[Lint2001, S.157]. Durch eine weitere Firewall abgeschirmt kann die Anbindung an die
Warenwirtschafts-Systeme der Marktplatzteilnehmer erfolgen, z.B. durch das
Transaktionsformat XML, siehe hierzu Kapitel 3.2.1 - Strukturierte Daten in XML-
Dokumenten.
2.6 Zusammenfassung
Durch die Integration einer Suchtechnologie
sollen die im elektronischen Marktplatz
gehaltenen Informationen den Marktteilnehmern zugänglich gemacht werden. Die
exemplarisch dargestellten Architektur macht deutlich, was die Informationslandschaft der
betrachteten elektronischen Marktplätze auszeichnet: Eine Vielzahl physisch verteilter
Informationen liegt auf Web-Servern, File-Servern oder in relationalen Datenbanken.
Abhängig von Ort und Art der Datenhaltung ist mit unterschiedlichen Datentypen und
Datenformaten zu rechen.
Der Schlüssel zur Integration einer Suchtechnologie, d.h. dem Verfügbarmachen der
im Marktplatz gehaltenen Informationen, liegt demnach in den Daten. Die folgende
Analyse von Methoden zur Suche unterscheidet daher nach den verschiedenen Datenarten.
Ausgehend von den auf den Marktplätzen bestehenden Datenarten wird untersucht, welche
Methoden zur Suche der jeweiligen Daten und den darin gehaltenen Informationen zur
Verfügung stehen.

17
Teil I
Analyse von Methoden
zur Suche

KAPITEL 3 ­ DATA RETREIVAL
18
Teil I
In diesem Teil der Arbeit werden im Hinblick auf elektronische Marktplätze und den
zugrunde liegenden Portalplattformen Methoden zur Suche analysiert. Informationen
können grundsätzlich in drei verschiedenen Arten von Daten vorliegen: strukturierte
Daten, unstrukturierte und semi-strukturierte Daten [Sche1997, S.3]. Elektronische
Marktplätze aggregieren alle drei Datenarten, d.h. sowohl strukturierte als auch
unstrukturierte und semi-strukturierte Daten [Meta 2000, S.26]. Der Grad der
Strukturierung bezieht sich darauf, wie viel Bedeutung den Daten aufgrund ihrer Struktur
zugeordnet werden kann.
Abhängig davon, um welche Datenart es sich handelt, stehen
verschiedene Verfahren der Informationssuche zur Verfügung. In der Literatur wird daher
in Data Retrieval und Information Retrieval unterschieden [BaRi1999, S.15]. Während
Data Retrieval der Suche von strukturierten Daten dient, ist das Ziel von Information
Retrieval die Suche von unstrukturierten bzw. semi-strukturierten Daten. Bei der folgenden
Analyse von Methoden zur Suche wird daher ebenfalls die Ansätze Data Retrieval und
Information Retrieval unterschieden.
3 Data Retrieval
Im Folgenden werden Data Retrieval und strukturierte Daten definiert. Anschließend
werden in Kapitel 3.2 Möglichkeiten zur strukturierten Datenhaltung und deren Suche in
elektronischen Marktplätzen beschrieben. Eine Zusammenfassung in Kapitel 3.3 schließt
die Thematik Data Retrieval ab.
3.1 Definitionen im Data Retrieval
Zuerst wird der Begriff Data Retrieval anhand der Definitionen von Daten, Wissen
und Informationen definiert. Daten sind eine Folge von Zeichen, Lauten oder Bildern, die
auf Datenträgern gespeichert werden können. Bekommen die Daten eine dazugehörige
Semantik, also eine Bedeutung, spricht man von Wissen. Information ist schließlich
Wissen in einer konkreten Situation, welches zur Lösung eines Problems benötigt wird
[Weig2001a]. Data Retrieval definiert sich als die Suche von Wissen in Form von
strukturierten Daten [Chow2001, S.65].
Strukturierte Daten zeichnen sich dadurch aus,
dass die gehaltenen Daten über eine definierte Struktur und Semantik verfügen. Data
Retrieval bewegt sich somit auf der Stufe Wissen.

KAPITEL 3 ­ DATA RETREIVAL
19
3.2 Strukturierte Daten
Strukturierte Daten zeichnen sich dadurch aus, dass die gehaltenen Daten über eine
definierte Struktur und Semantik verfügen. Unter einer Datenstruktur versteht man ein
Schema, nach dem zusammengehörige Informationseinheiten organisiert sind. Die
Semantik beschreibt die Bedeutung der Daten [Webo2002]. Strukturierte Daten werden in
Datenfeldern gehalten, die so den semantischen Gehalt der Daten beschreiben. Die
strukturierten Daten können in elektronischen Marktplätzen in zwei Formen vorliegen: in
XML-Dokumenten und relationalen Datenbanken.
3.2.1 Strukturierte Daten in XML-Dokumenten
Es besteht die Möglichkeit, die Struktur und Semantik der Daten in Form von XML-
Dokumenten zu halten. XML (Extensible Markup Language) ist eine Untermenge der
Standard Generalised Markup Language (SGML). Als Metasprache beschreibt XML auf
Grundlage des Generic Coding die Daten anhand sogenannter Tags. Die auf Daten
angewandten Tags enthalten Informationen über die Struktur und Semantik der
Daten [Stei2000, S.636]. Folgendes Beispiel strukturierter Daten soll zeigen, wie die
Semantik und Struktur in XML-Dokumenten erreicht wird:
XML:
<Artikel>
<Warengruppe>
Papier
<Warengruppe>
<Artikelnummer>
3211-1122
</Artikelnummer>
</Artikel>
Abbildung 3-1: Erhalt von Struktur und Semantik in XML-Dokumenten
Der Zeichenkette
'3211-1122'
in Abbildung 3-1
kann man z.B. die Semantik
entnehmen, dass es sich um eine Artikelnummer handelt. Der Struktur ist zu entnehmen,
dass diese Artikelnummer zusammen mit einer Warengruppe einem Artikel zugeordnet ist.
XML dient jedoch auf den hier behandelten elektronischen Marktplätzen
ausschließlich der Datenübertragung. Als Transaktionsformat übernimmt es die wichtige
Aufgabe, die Semantik und Struktur der Daten
beim Transfer von außerhalb zur
Portalplattform sowie innerhalb zwischen den einzelnen Applikationen zu wahren. Die
Transaktionsformate bestimmen also die logische Anordnung der zu übertragenden Daten
[TuFe2001, S.13].

KAPITEL 3 ­ DATA RETREIVAL
20
Da XML hier nur als Transaktionsformat zur Verwendung kommt, d.h. keine
strukturierten Daten im XML-Format gespeichert werden, wird auf Methoden zur Suche in
XML-Dokumenten nicht weiter eingegangen.
3.2.2 Strukturierte Daten in Datenbanken
Für
die Datenhaltung der strukturierten Daten in Datenbanken werden vorwiegend
relationale Datenbanken verwendet. Eine relationale Datenbank besteht aus einer Reihe
von Datentabellen, deren einzelne Inhalte in bestimmten Relationen zueinander stehen
[Webo2002]. Dem Prinzip nach ist eine Datenbank also aus mehreren Tabellen aufgebaut,
deren Spalten Datenfeldern entsprechen und deren Zeilen die Datensätze sind. Die Daten
sind in den Datenfeldern organisiert, die einen bestimmten Typ an Information halten und
durch das Datenbankmanagementsystem separat adressierbar sind. Die Tabelle ,,Produkt"
könnte z.B. die Datenfelder ,,Produktname" und ,,Preis" beinhalten, die den Namen und
Preis von verschiedenen Produkten beschreiben. Technisch ist eine Datenbank somit eine
Datei bzw. eine Gruppe von Dateien, in denen Informationen in festgelegter Form
gespeichert werden [Stei1999, S.24].
Die Datenhaltung und den Zugriff auf die Daten steuert ein sogenanntes
Datenbankmanagementsystem (DBMS) [CoUs2002]. Suche in relationalen Datenbanken
erfolgt also über das Datenbankmanagementsystem. Jedes Datenfeld ist dabei durch das
Datenbankmanagementsystem adressierbar, so dass die in den Datenfeldern gespeicherten
Daten anhand exakt beschreibbarer Kriterien abgefragt werden können. Voraussetzung
dafür ist eine geeignete Abfragesprache wie z.B. die Standard Query Language (SQL). Die
Abbildung 3-2 zeigt, wie mit Hilfe der Abfragesprache SQL anhand der in den Relationen
und Datenfeldern repräsentierte Struktur und Semantik die gesuchten Informationen
eindeutig definiert werden können.
Abbildung 3-2: Suche über strukturierte Daten
Beispiel für eine Abfrage
durch SQL:
SELECT * FROM Artikel
WHERE Nummer='3211-1122'
Findet die gewünschten
Informationen zum Artikel
'3211-1122'
.
Artikel
Datenbank

KAPITEL 3 ­ DATA RETREIVAL
21
Über die für den Benutzer bereitgestellte Query-Sprache können also
Informationsbedürfnisse exakt formuliert werden. Es werden all die Objekte im
Datenbestand gefunden, welche die eindeutig definierten Bedingungen erfüllen.
3.3 Zusammenfassung
Strukturierte Daten werden in den hier behandelten elektronischen Marktplätzen also
ausschließlich in relationalen Datenbanken gehalten, da XML lediglich der
Datenübertragung dient. Data Retrieval ermöglicht durch eine für den Benutzer
bereitgestellte Query-Sprache das Finden von Objekten im strukturierten Datenbestand,
welche die klar definierten Bedingungen erfüllen. Data Retrieval führt also bei gleichem
Datenbestand und gleicher Abfrage auch bei unterschiedlichen
Datenbankmanagementsystemen immer zu der selben Ergebnismenge, da diese durch die
Struktur und Query-Syntax der Suchanfrage exakt definiert ist.
Die Schwierigkeit von Data Retrieval begrenzt sich daher auf die Auswahl einer
geeigneten relationalen Datenbank, da die Suche durch die im
Datenbankmanagementsystem integrierte Funktionalität vollzogen wird. Da für
elektronische Marktplätze unterstellt werden darf, dass die verwendeten relationalen
Datenbanken namhafter Hersteller über geeignete Suchfunktionalitäten verfügen, braucht
auf die Thematik Data Retrieval nicht weiter eingegangen zu werden.
Da strukturierte Daten und relationale Datenbanken jedoch fester Bestandteil
elektronsicher Marktplätze sind, fördert das Wissen über diese Grundlagen das Verständnis
für die folgenden Kapitel. Das nun folgende Kapitel 4 beschäftigt sich mit Information
Retrieval, d.h. der Suche über unstrukturierte und semi-strukturierte Daten.

KAPITEL 4 ­ INFORMATION RETRIEVAL
22
4 Information Retrieval
In Kapitel 4.1 wird Information Retrieval definiert und auf die daraus erwachsende
Herausforderung eingegangen. In Kapitel 4.2 werden die dem Information Retrieval
zugrunde liegenden unstrukturierten und in Kapitel 4.3 die semi-strukturierten Daten
beschriebenen. Ausgehend von dieser Grundlage wird in Kapitel 4.4 auf die Möglichkeiten
zur Realisierung von Suche eingegangen.
4.1 Definitionen im Information Retrieval
Das Ziel von Information Retrieval ist es, einen Bestand an unstrukturierten bzw.
semi-strukturierten Daten geeignet zu verwalten und auf Anfrage des Benutzers den Abruf
der gehaltenen Informationen zu ermöglichen. Dabei werden die Suchsysteme in Bezug
auf ihre Rolle im Prozess des Wissenstransfers von menschlichen Wissensproduzenten
zum Nachfrager von Informationen betrachtet. Menschliche Wissensproduzenten werden
im Folgenden als Autoren bezeichnet, Nachfrager von Informationen als Benutzer.
Information Retrieval definiert sich wie folgt:
,,Information Retrieval is concerned with the processes involved in the
representation, storage, searching and finding of information which is relevant
to a requirements for information desired by human users."[Ingw1992, S.49]
,,...wie aus einem vorab nur unscharf zu charakterisierenden Informationsbedarf
aus großen Datenbeständen die jeweils relevanten Informationen gefunden
werden können." [Knor1993, S.7]
Die Zitate machen deutlich, dass Anfrage und Ergebnismenge im Information
Retrieval, im Gegensatz zum Data Retrieval, nicht exakt definierbar sind. Vielmehr werden
im Information Retrieval die Informationsbedürfnisse als ,,vage Anfragen" an ,,unsicheres
Wissen" gerichtet werden. ,,Wage Anfragen sind dadurch gekennzeichnet, dass die
Antwort a priori nicht eindeutig definiert ist ... Die Unsicherheit des Wissens resultiert aus
der begrenzten Repräsentation von dessen Semantik" [FaIR1988, S.15]. Darüber hinaus ist
es möglich dass die gespeicherten Daten selbst unsicher oder unvollständig sind.
Da die Ergebnismenge nicht exakt definierbar ist, können nur potenziell relevante
Informationen angezeigt werden. Die Relevanz bezeichnet dabei den Grad der

KAPITEL 4 ­ INFORMATION RETRIEVAL
23
Übereinstimmung der inhaltlichen Aussage eines Dokuments mit den
Informationsbedürfnissen eines Benutzers [ApRM2001, S.8].
Die Darstellungsform des im Information Retrieval System gespeicherten Wissen ist
im Prinzip nicht beschränkt (z.B. Text, Bild, Ton, Video, etc.). In dieser Arbeit werden
jedoch ausschließlich Textdaten behandelt, d.h. die Suche über Bild, Ton und andere
Multimedia Daten wird nicht behandelt. Die dem Wissen zugrunde liegenden Daten
können in Dokumenten oder in Datenbanken gehalten werden. Ein Dokument definiert
sich als eine zusammengehörige Ansammlung von Daten, die neben Text auch Tabellen,
Grafiken und andere Objekte enthalten können [Webo2002]. Im Folgenden werden
unstrukturierte und semi-strukturierte Daten vorgestellt und die Ursachen für unsicheres
Wissen dargestellt. Auf die Problematik der vage definierten Anfragen wird in Kapitel 5
im Rahmen der Einführung in die ,,Suche durch Suchmaschinen" eingegangen.
4.2 Unstrukturierte Daten
Unstrukturierte Daten zeichnen sich dadurch aus, dass sie über keinerlei definierte
Struktur und Semantik verfügen. Ihnen kann somit zunächst keine Bedeutung zugeordnet
werden. Unstrukturierte Daten können in Dokumenten und in Datenbanken enthalten sein.
4.2.1 Unstrukturierte Daten in Dokumenten
Im Folgenden werden unstrukturierte Daten in Dokumenten behandelt. Dokumente
lassen sich in drei Bestandteile einteilen [Hent2001, S.192]:
· Daten
· Struktur
· Format
Die Daten stellen den Informationsgehalt des Dokuments dar. Sie enthalten die im
Dokument transportierten Informationen. Unter Daten werden in dieser Arbeit immer
ausschließlich Textdaten verstanden.
Der zweite Bestandteil eines Dokuments ist die Struktur. Im Gegensatz zur Struktur
bei strukturierten Daten (siehe Kapitel 3.2) besagt die Dokumentenstruktur im Falle
unstrukturierter Daten nichts über die Semantik der gehaltenen Informationen. Sie dient
lediglich dem Menschen zum Nachvollziehen des logischen Aufbaus der Informationen.
So besteht z.B. eine Diplomarbeit aus Kapiteln, diese gliedern sich in Absätze usw.

KAPITEL 4 ­ INFORMATION RETRIEVAL
24
Die Formatierung dient dazu, dem Menschen die Lesbarkeit von Daten und Struktur
zu erleichtern. So können z.B. Überschriften fett markiert und Text durch andere
Schriftarten hervorgehoben werden. Das Format dient somit ebenfalls lediglich der
Lesbarkeit für Menschen und enthält keine maschinenverwertbare Semantik.
Im Information Retrieval werden daher lediglich die Daten eines Dokuments für eine
Suche berücksichtigt. Beispiele für gebräuchliche Dokumentenformate sind die der
Microsoft Office Familie (Word, PowerPoint, Excel), Lotus Notes, Adobe PDF, PostScript
oder ASCII-Text (TXT).
4.2.2 Unstrukturierte Daten in Datenbanken
Sollen unstrukturierte Daten eines Dokuments in einer relationalen Datenbank
gespeichert werden tritt ein Problem auf. Wegen der fehlenden Struktur und Semantik
lassen sich die Daten nicht in verschiedene Datenfelder und Relationen aufschlüsseln.
Um unstrukturierte Daten dennoch in relationalen Datenbanken speichern zu können,
wird daher von Datenbanken eine sogenannte Volltext-Funktionalität geboten. Dabei
werden beliebig viele unstrukturierte Daten, ohne Aufteilung in verschiedene Datenfelder,
in einem einzigen Datenfeld gespeichert. Man spricht von sogenannten Volltext-
Containern. Mit Hilfe eines Volltext-Suchsystems kann dieser Datenbestand anhand
beliebiger Kriterien durchsucht werden [Stei1999, S.29].
Der Vorteil solcher Volltext-Datenbanken ist, dass sich die Daten auch dann
speichern und durchsuchen lassen, wenn sie nicht in ein strukturiertes Relationenschema
gebracht werden können. Der Nachteil ist allerdings, dass die so entstandenen Volltext-
Daten ohne die Aufteilung in Datenfelder ihre Struktur und Semantik verlieren und sich
nicht mehr über Data Retrieval abrufen lassen.
4.3 Semi-strukturierte Daten
In semi-strukturierten Daten sind neben unstrukturierten Daten auch strukturierte
Daten enthalten. Man spricht bei diesen strukturierten Daten von sogenannten Meta-Daten.
Meta-Daten enthalten Informationen über die Semantik der gehaltenen Daten [Webo2002].
4.3.1 Semi-strukturierte Daten in Dokumenten
Einige Dokumentenformate erlauben es, zusätzlich zum unstrukturierten
Dokumententext auch Meta-Daten zu definieren, welche die im unstrukturierten Text
gehaltenen Informationen beschreiben. Diese dienen der logischen Einordnung der

KAPITEL 4 ­ INFORMATION RETRIEVAL
25
Dokumente durch Menschen oder Maschinen. Beispiele sind Meta-Tags in HTML-
Dokumenten, Microsoft Office Properties oder Adobe XAP Data für PDF-Dokumente.
Die Anwendung semi-strukturierter Daten soll am Beispiel von HTML-Dokumenten
erläutert werden. Diese gliedern sich zum einen in einen Kopfteil
<head>
, der in
sogenannten Meta-Tags die strukturierten Daten enthält. Abbildung 4-1 zeigt beispielhaft
Meta-Daten im Kopfteil eines HTML-Dokuments.
Abbildung 4-1: Meta-Daten in einem HTML-Dokument [Münz2001]
Durch das Meta-Tag
,,author"
ist hier z.B. bei einer maschinellen Bearbeitung des
Dokuments ersichtlich, dass es sich bei der Zeichenkette
,,Rainer Wahnsinn"
um den
Autor des vorliegenden Dokuments handelt.
Im Rahmen der Strukturierung von Metadaten ist die Dublin Core Metadata Initiative
hervorzuheben. Diese Organisation entwickelt seit 1995 einen interoperablen Standard für
Meta-Daten zur Dokumentenbeschreibung [Dcmi2002].
Des weiteren sind im Hauptteil, dem
<body>
, die unstrukturierten Textdaten
enthalten. Die folgende Abbildung 4-2 zeigt auszugsweise die unstrukturierten Daten im
Hauptteil eines HTML-Dokuments.
Abbildung 4-2: Unstrukturierte Daten in einem HTML-Dokuments [Münz2001]
Zwischen den HTML-Tags befinden sich die eigentlichen Informationen: der Text.
Die HTML-Tags dienen lediglich der visuellen Gestaltung am Bildschirm. Bei einer
maschinellen Bearbeitung ist es somit z.B. nicht ersichtlich, dass es sich bei den
Zeichenketten
Google, Altavista, Fireball
um
,,Suchmaschinen"
handelt. Dies erkennt
nur ein Mensch.

KAPITEL 4 ­ INFORMATION RETRIEVAL
26
4.3.2 Semi-strukturierte Daten in Datenbanken
Um auch semi-strukturierte Daten in relationalen Datenbanken speichern zu können,
nutzen moderne Datenbanksysteme ein Mischsystem zwischen Volltext- und relationaler
Datenbank. Zu jedem Volltext-Datensatz können zusätzlich Datenfelder definiert werden,
die so die Semantik und Struktur von Meta-Daten bewahren. Z.B. kann der
<Body>
Text
einer HTML-Seite in einem Volltext-,,Container" gespeichert sein und die zugehörigen
Daten der Meta-Tags wie
,,author"
oder
,,keywords"
in separaten Datenfeldern.
Mit solchen Mischdatenbanken kann ein Benutzer sowohl nach festen Datenfeldern
als auch frei in den Texten suchen, die Suche wird dadurch erleichtert.
Nachdem mit der Beschaffenheit von unstrukturierten und semi-strukturierten Daten
die Ursache für unsicheres Wissen bezüglich der zu durchsuchenden Informationen
beschrieben worden sind, sollen nun die möglichen Methoden des Information Retrieval
vorgestellt werden.
4.4 Typen von Information Retrieval
Da sich in unstrukturierten bzw. semi-strukturierten Daten gehaltene Informationen
wegen fehlender bzw. unzureichender Struktur nicht exakt und eindeutig definieren lassen,
geschieht die Suche auf Basis von Retrieval-Heuristiken [Nava1998, S.2]. Anhand dieser
Heuristiken wird im Information Retrieval versucht, das Informationsbedürfnis des
Benutzers zu erkennen und auf potenziell relevante Informationen zu schließen.
Bei dem folgend behandelten Typen von Information Retrieval geht also es darum,
den Benutzer bei der Gewinnung von Information aus den unstrukturierten und semi-
strukturierten Daten zu unterstützen. Dazu sind grundsätzlich drei verschiedene Strategien
möglich [BaRi1999, S.5].
· Suchmaschinen: Dieser Ansatz versucht Informationsbedürfnisse der Benutzer direkt
aufgrund der gegebenen Datenbestände zu beantworten. Suchmaschinen reagieren auf
die Suchanfrage eines Benutzers. Bei Suchmaschinen handelt es sich dabei um
automatisch arbeitende Software, welche die Datenquellen des Intra-, Extra- bzw.
Internet durchsucht, um eine eigene Datenbasis anzulegen. Eingehende
Benutzerabfragen werden automatisch verarbeitet. Menschliche Eingriffe sind nur für
die Konfiguration der Software sowie für Aufbau und Konfiguration der Rechner
notwendig [Stei1999, S.25]. Durch Vergleich der Anfrage mit den Texten der

KAPITEL 4 ­ INFORMATION RETRIEVAL
27
Dokumentenkollektion, die dem Retrieval-System zur Verfügung steht, sucht es
Dokumente, die potenziell den Informationsbedarf des Benutzers decken. Information
Retrieval durch Suchmaschinen wird auch als klassische Suche bezeichnet. Eine
bekannte Internet-Suchmaschine ist z.B. www.Google.com.
· Kategorisierung: Eine weitere Herangehensweise ist es, die Daten so zu strukturieren,
dass die Suche nach Information erleichtert wird. Durch die Kategorisierung aller
Informationen eines Datenbestandes zu Gruppierungen von Dokumenten mit gleichen
oder ähnlichen Inhalten wird die Datenmenge so strukturiert, dass die Suche nach
Informationen erleichtert wird. Information Retrieval auf Basis von Kategorisierung
wird auch als Browsing bezeichnet. Browsing ist ein intuitives und interaktives
Verfahren um unklar definierte Informationsbedürfnisse zu befriedigen [LaTH1999,
S.179]. Es beruht darauf, dass der Benutzer für ihn relevante Informationen erkennt
sobald er durch Navigation auf sie stößt. Browsing bietet sich dann an, wenn ein
Benutzer Schwierigkeiten hat sein Informationsbedürfnis konkret zu benennen oder es
thematisch zu weit gefasst ist. Nachteile des Browsing sind, dass die
Informationsbeschaffung zeitaufwändiger ist als durch Suche, besonders wenn es sich
um große Informationsansammlungen handelt [LaTH1999, S.181]. Ein bekannter
Internet-Katalog ist z.B. www.Yahoo.com.
Diese beiden Verfahren versuchen ein im Augenblick bestehendes
Informationsbedürfnis des Benutzers zu befriedigen. Eine dritte Möglichkeit ist Filterung.
·
Filterung: Bei Filterung versorgen sogenannte Agenten den Benutzer über einen
längeren Zeitraum mit Dokumenten zu einem Thema, für das der Benutzer Interesse
bekundet hat. Ziel ist es hier, aus einer Datenmenge eine Vorauswahl zu treffen und
dem Benutzer gemäß seinem Interesse diese kleineren Teilmengen vorzustellen.
Wichtige Voraussetzung dafür ist die Erstellung von Benutzerprofilen, welche die
Interessen der Benutzer beschreiben [BaRi1999, S.23]. Agenten reagieren also nicht
auf Suchanfragen sondern filtern kontinuierlich über die Zeit die Dokumentenbestände
gemäß den in den Benutzerprofilen zu entnehmenden Informationswünschen. Die
Erstellung von Benutzerprofilen erfolgt, indem Benutzer explizit ihre Interessen
definieren und so ein eigenes Profil erstellen. Im Laufe der Zeit wird dann versucht,
durch automatische Auswertung des Benutzerverhaltens diese Profile zu verbessern.

KAPITEL 4 ­ INFORMATION RETRIEVAL
28
Information Retrieval bietet somit ein weites Feld, das nun eingegrenzt werden soll.
Die hier durchgeführte Analyse von Methoden zur Suche untersucht speziell Suche durch
Suchmaschinen. Der Grund dafür liegt zum einen darin, dass Suche durch Suchmaschinen
eine Basisfunktionalität für jedes Portal darstellt, die auf jeden Fall geboten werden sollte.
Ferner benötigen eine Suchmaschinen - verglichen mit Kategorisierung und Filterung - in
der Einführungsphase relativ geringen Konfigurationsaufwand und weisen einen hohen
Grad an Automatisierung auf. Einmal in einer Portalumgebung integriert und konfiguriert
ermöglichen Suchmaschinen vollautomatisiertes und weitgehend wartungsfreies Retrieval.
Kategorisierung von Portalinhalten stellt eine äußerst zukunftsweisende
Retrievalfunktionalität dar [Meta2000, S.
28]. Hauptkritikpunkt an Suche durch
Kategorisierung ist jedoch der noch geringe Grad an Automatisierung bei der Zuordnung
von Dokumenten zu den einzelnen Kategorien - sowohl in der Konfigurationsphase als
auch im Produktivbetrieb[Lubb2001, S 12]. Bei Marktplatzbetreibern müsste daher die
Bereitschaft bestehen, für die Einrichtung der Kategorien und das Supervising der
Korrekten Zuordnung der Dokumente entsprechende Mitarbeiter auszubilden oder
einzustellen [Meta2000, S. 28]. Diese Bereitschaft ist derzeit bei Praxispartner UP2GATE
nicht gegeben.
Für Filterung gilt ebenfalls als Hauptkritikpunkt der geringe Grad an
Automatisierung. Hier kommt jedoch erschwerend hinzu, dass zusätzlich vom Benutzer
anzulegende Benutzerprofile vorausgesetzt werden. Auf die Thematik Kategorisierung und
Filterung soll daher in dieser Arbeit nicht weiter eingegangen werden, da es den Rahmen
einer Diplomarbeit sprengen würde.
4.5 Zusammenfassung
Information Retrieval befasst sich mit der Suche über unstrukturierte und semi-
strukturierten Daten. Diese können in Dokumenten und Volltext- bzw. Mischdatenbanken
gehalten sein. Da sich bei Information Retrieval - im Gegensatz zu Data Retrieval - die
vom Benutzer gesuchten Informationen nicht eindeutig definieren lassen, sind die durch
Information Retrieval gefundenen Informationen bezogen auf das Informationsbedürfnis
eines Benutzers nur potenziell relevant. Dies bedeutet eine große Herausforderung an
Suchtechnologien. Mit Suchmaschinen folgt nun in Kapitel 5 eine Einführung in die
wichtigste Methode der Suche.

KAPITEL 5 ­ GRUNDLAGEN ZU SUCHMASCHINEN
29
5 Grundlagen zu Suchmaschinen
Im folgenden Kapitel 5.1 wird eine kurze Einführung in die Suche durch
Suchmaschinen gegeben. Das sich anschließende Kapitel 5.2 widmet sich dem
Suchprozess aus Benutzersicht und geht dabei auf allgemeine Eigenschaften der Benutzer
ein. Kapitel 5.3 behandelt Suche aus technischer Sicht und beschreibt die Komponenten
einer typischen Suchmaschinenarchitektur. Kapitel 5.4 gibt eine kurze Zusammenfassung
und einen Ausblick auf die folgenden Kapitel.
5.1 Einführung in die Suche durch Suchmaschinen
Bei Suche anhand von Suchmaschinen
formuliert der Benutzer eines Suchsystems
sein Informationsbedürfnis in Form einer Suchanfrage. Eine Suchanfrage bzw. Query
definiert sich wie folgt: Ein oder mehrere Wörtern, optional erweitert um zusätzliche vom
Suchsystem unterstützte Syntax, die an Stelle des Informationsbedürfnisses vom Benutzer
eingegeben werden [Rapp2002b]. Dies geschieht, indem sich der Benutzer eine Reihe von
Worten überlegt, die sein Informationsbedürfnis repräsentieren sollen. Diese gibt er in ein
Formularfeld ein und übermittelt den Query an die Suchmaschine.
Das Suchsystem bearbeitet die Suchanfrage, vergleicht die vom Benutzer gewählten
Wörter mit den Texten der im Suchsystem gehaltenen Dokumente und berechnet als
Ergebnis eine Trefferliste mit Dokumenten, die von der Suchmaschine als für den Benutzer
potenziell relevant eingeschätzt werden.
Voraussetzung für Suche durch Suchmaschinen ist, dass der Benutzer eine ungefähre
Vorstellung von den Informationen hat, die er sucht, und in Folge dessen in der Lage ist,
geeignete Suchwörter zu generieren. Folgende Situation verdeutlicht die Aufgabenstellung
einer Suchmaschine:
1. Autoren erstellen Dokumente mit Texten zu verschiedenen Themen. Aus Sicht einer
Suchmaschine handelt es sich dabei um eine Ansammlung von Wörtern.
2. Benutzer suchen nun Informationen zu einem Thema und drücken ihr
Informationsbedürfnis durch Suchbegriffe aus.
3. Das Suchsystem fungiert nun als Vermittler zwischen den Informationsbedürfnissen
der Benutzer und den Dokumenten. Dabei werden die Wörter der Suchanfrage mit den
Wörtern der Dokumente verglichen.

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2002
ISBN (eBook)
9783832466589
ISBN (Paperback)
9783838666587
DOI
10.3239/9783832466589
Dateigröße
1.5 MB
Sprache
Deutsch
Institution / Hochschule
Universität Augsburg – Wirtschafts und Sozialwissenschaften
Erscheinungsdatum
2003 (April)
Note
1,7
Schlagworte
suchmaschinen portale marktplätze search engine
Zurück

Titel: Analyse von Methoden zur Suche in Portalplattformen und deren technische Integration am Beispiel der Portalplattform Up2gate.com™
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
book preview page numper 26
book preview page numper 27
book preview page numper 28
book preview page numper 29
book preview page numper 30
book preview page numper 31
book preview page numper 32
book preview page numper 33
book preview page numper 34
book preview page numper 35
book preview page numper 36
book preview page numper 37
180 Seiten
Cookie-Einstellungen