Lade Inhalt...

Barrierefreie und thesaurusbasierte Suchfunktion für das Webportal der Stadt Nürnberg

©2007 Diplomarbeit 193 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Im Internetportal der Stadt Nürnberg wurde in einer vorausgehenden Diplomarbeit eine Suchmaschine auf Basis des Produktes e:IAS der Fa. empolis GmbH realisiert. Diese Lösung soll in verschiedenen Bereichen verbessert und erweitert werden.
Es sollen aussagekräftige Logfiles generiert und ausgewertet werden, insbesondere sollen die Auswertungen mit denen der vorhergehenden Suchlösung vergleichbar sein.
Bei der Ergebnispräsentation sollen die Erfordernisse der Barrierefreiheit beachtet werden und die vorhandenen Templates entsprechende Anpassung erfahren.
Die Lösung soll um Ansätze semantischer Suche erweitert werden. Es ist angedacht die vorhandene Synonymverwendung auszubauen und um Taxonomien zu einem Theasurus zu erweitern. Dabei sollen verschiedene Möglichkeiten untersucht werden und eine Möglichkeit, mindestens prototypisch, integriert werden. Inhaltsverzeichnis:Inhaltsverzeichnis:
Kurzfassung2
Inhaltsverzeichnis3
Abbildungsverzeichnis6
Tabellenverzeichnis8
Formelverzeichnis8
1.Motivation9
2.Grundlagen10
2.1Textbasierte Suche10
2.2Taxonomien und Thesauri13
2.2.1Was sind Taxonomien und Thesauri13
2.2.2Semantische Suche mittels Thesauri17
2.2.3Taxonomiebasierte Ähnlichkeitsmaße18
2.2.3.1Pfadlänge18
2.2.3.2Normalisierte Pfadlänge19
2.2.3.3Dichte des Zweigs19
2.2.3.4Extended gloss overlaps measure20
2.2.3.5Maß basierend auf Informationsgehaltswert des Konzepts20
2.2.3.6Maß basierend auf knoten- und kantenbasierten Techniken21
2.2.3.7Maß abgeleitet aus der Informationstheorie22
2.2.3.8Vergleich22
2.2.4RDF-basierte Thesaurusrepräsentation: SKOS23
2.3Barrierefreiheit von Webanwendungen30
2.3.1Allgemeine Regelungen31
2.3.2Rechtliche Regelungen33
3.Suchlösung der Stadt Nürnberg - der Ist-Stand34
3.1Abacho35
3.2E:IAS36
3.2.1Systemaufbau36
3.2.1.1Indexierung37
3.2.1.2Ergebnissauslieferung37
3.2.2Konfiguration38
3.2.3Such- und Indexierungsablauf38
3.2.4Verbesserungspotentiale44
4.Thesaurusbasierte Suche46
4.1Ist-Stand46
4.2Realisierte Systemerweiterungen46
4.2.1Ähnlichkeitsmaße in e:IAS46
4.2.1.1Taxonomieähnlichkeitsmaß: Taxonomie46
4.2.1.2Taxonomieähnlichkeitsmaß TaxonomiePfad51
4.2.2Mögliche Thesauri und Datenquellen52
4.2.2.1WikiSaurus in Wiktionary53
4.2.2.2OmegaWiki53
4.2.2.3OpenThesaurus54
4.2.2.4Getty Thesaurus of Geographic Names54
4.2.2.5Projekt Deutscher Wortschatz54
4.2.2.6HUGO55
4.2.2.7GEMET Thesaurus56
4.2.2.8Eurovoc Thesaurus57
4.2.3Beispielhafte Einbindung von […]

Leseprobe

Inhaltsverzeichnis


Stefan Wagner
Barrierefreie und thesaurusbasierte Suchfunktion für das Webportal der Stadt
Nürnberg
ISBN: 978-3-8366-0761-2
Druck Diplomica® Verlag GmbH, Hamburg, 2008
Zugl. Georg-Simon-Ohm-Fachhochschule Nürnberg, Nürnberg, Deutschland,
Diplomarbeit, 2007
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
© Diplomica Verlag GmbH
http://www.diplomica.de, Hamburg 2008
Printed in Germany

Kurzfassung
1
Kurzfassung
Im Internetportal der Stadt Nürnberg wurde in einer vorausgehenden Diplomarbeit
eine Suchmaschine auf Basis des Produktes e:IAS der Fa. empolis GmbH realisiert.
Diese Lösung soll in verschiedenen Bereichen verbessert und erweitert werden.
Es sollen aussagekräftige Logfiles generiert und ausgewertet werden, insbesondere
sollen die Auswertungen mit denen der vorhergehenden Suchlösung vergleichbar
sein.
Bei der Ergebnispräsentation sollen die Erfordernisse der Barrierefreiheit beachtet
werden und die vorhandenen Templates entsprechende Anpassung erfahren.
Die Lösung soll um Ansätze semantischer Suche erweitert werden. Es ist angedacht
die vorhandene Synonymverwendung auszubauen und um Taxonomien zu einem
Thesaurus zu erweitern. Dabei sollen verschiedene Möglichkeiten untersucht werden
und eine Möglichkeit, mindestens prototypisch, integriert werden.

Inhaltsverzeichnis
3
Inhaltsverzeichnis
Kurzfassung... 1
Inhaltsverzeichnis ... 3
Abbildungsverzeichnis ... 7
Tabellenverzeichnis ... 9
Formelverzeichnis... 9
1
Motivation ... 11
2
Grundlagen ... 13
2.1
Textbasierte Suche ... 13
2.2
Taxonomien und Thesauri ... 16
2.2.1 Was sind Taxonomien und Thesauri ... 16
2.2.2 Semantische Suche mittels Thesauri ... 22
2.2.3 Taxonomiebasierte Ähnlichkeitsmaße... 22
2.2.3.1 Pfadlänge ... 23
2.2.3.2 Normalisierte Pfadlänge ... 23
2.2.3.3 Dichte des Zweigs ... 24
2.2.3.4 Extended gloss overlaps measure... 24
2.2.3.5 Maß basierend auf Informationsgehaltswert des Konzepts ... 25
2.2.3.6 Maß basierend auf knoten- und kantenbasierten Techniken. 25
2.2.3.7 Maß abgeleitet aus der Informationstheorie ... 26
2.2.3.8 Vergleich... 27
2.2.4 RDF-basierte Thesaurusrepräsentation: SKOS... 27
2.3
Barrierefreiheit von Webanwendungen... 34
2.3.1 Allgemeine Regelungen ... 35
2.3.2 Rechtliche Regelungen ... 37
3
Suchlösung der Stadt Nürnberg ­ der Ist-Stand ... 39
3.1
Abacho... 40
3.2
E:IAS... 41
3.2.1 Systemaufbau... 41
3.2.1.1 Indexierung... 42
3.2.1.2 Ergebnissauslieferung ... 42
3.2.2 Konfiguration ... 43
3.2.3 Such- und Indexierungsablauf ... 43

Inhaltsverzeichnis
4
3.2.4 Verbesserungspotentiale ... 50
4
Thesaurusbasierte Suche ... 53
4.1
Ist-Stand... 53
4.2
Realisierte Systemerweiterungen... 53
4.2.1 Ähnlichkeitsmaße in e:IAS ... 53
4.2.1.1 Taxonomieähnlichkeitsmaß: Taxonomie... 54
4.2.1.2 Taxonomieähnlichkeitsmaß TaxonomiePfad ... 58
4.2.2 Mögliche Thesauri und Datenquellen... 60
4.2.2.1 WikiSaurus in Wiktionary ... 60
4.2.2.2 OmegaWiki ... 60
4.2.2.3 OpenThesaurus ... 61
4.2.2.4 Getty Thesaurus of Geographic Names... 61
4.2.2.5 Projekt Deutscher Wortschatz... 61
4.2.2.6 HUGO ... 62
4.2.2.7 GEMET Thesaurus ... 64
4.2.2.8 Eurovoc Thesaurus... 64
4.2.3 Beispielhafte Einbindung von Thesauri... 65
4.2.3.1 Ein XML-Thesaurus - Eurovoc ... 67
4.2.3.2 Ein SKOS-Thesaurus ­ GEMET ... 68
4.2.4 Gewichtung von Attributen und Synonymen ... 69
4.2.4.1 Gewichtswerte der Taxonomieähnlichkeit... 70
4.2.4.2 Änderung der Gewichtsfaktoren... 70
4.2.4.3 Berechnung der globalen Ähnlichkeit... 71
4.3
Analyse der Suchergebnisse... 74
5
Barrierefreie Präsentation der Suchergebnisse... 77
5.1
Ist-Stand... 77
5.2
Realisierte Systemerweiterung... 78
5.2.1 Zugriff auf die Ergebnisdaten ... 78
5.2.2 Aufbau der GUI ... 79
5.2.2.1 Verfügbare e:Script Tags ... 79
5.2.2.2 Gliederung der Seite ... 79
5.2.2.3 Umsetzung der Navigation... 81
5.2.3 Verwandte Links ... 86
6
Logdateiauswertung... 91
6.1
Ist-Stand... 91
6.1.1 Analyse des Benutzerverhaltens... 91
6.1.2 Anforderungen an die Logdateiauswertung ... 95
6.2
Realisierte Systemerweiterung... 95

Inhaltsverzeichnis
5
6.2.1 Erzeugung der Logdateien in e:IAS... 95
6.2.2 Datenschutz... 99
6.2.3 Umwandlung der Logdatei mit Shell-Skripten... 99
6.2.4 Prototyp einer Logdateianalyse in Perl ... 100
6.2.4.1 Sicherheit der Anwendung... 101
6.2.4.2 Datenbankstruktur ... 101
6.2.4.3 Einlesen der Logdateien... 103
6.2.4.4 Auswertung der Logdaten... 104
6.2.5 Stresstest... 109
7
Ausblick ... 111
Literaturverzeichnis ... 113
Anhang ... 117

Abbildungsverzeichnis
7
Abbildungsverzeichnis
Abbildung 1: Auszug aus dem Eurovc-Thesaurus... 19
Abbildung 2: Beziehung BF und BS ... 20
Abbildung 3: Beziehung UB und OB ... 20
Abbildung 4: Beziehung VB... 21
Abbildung 5: Beispiel für Maß basierend auf knoten- und kantenbasierten
Techniken ... 26
Abbildung 6: RDF-Graph... 28
Abbildung 7: Beispiel aus dem UK Archival Thesaurus (UKAT)... 29
Abbildung 8: Darstellung der SKOS Relationen ... 29
Abbildung 9: Darstellung von ,,skos:Conzept"... 30
Abbildung 10: RDF-Beispiel zu ,,skos:Concept"... 30
Abbildung 11: Graph zu prefLabel, altLabel und Sprachkennzeichnung ... 31
Abbildung 12: RDF-Syntax zu prefLabel, altLabel und Sprachkennzeichnung 31
Abbildung 13: ,,skos-changeNote" mit Verzweigung... 32
Abbildung 14: Ober- und Unterbegriffe mit SKOS ... 33
Abbildung 15: RDF-Repräsentation der Ober- und Unterbegriffe... 33
Abbildung 16: Systemaufbau e:IAS... 41
Abbildung 17: Grafischer Editor ,,Creator" ... 43
Abbildung 18: DataPipeline und InsertCasePipeline - Einfügen von Fällen in
den Index (Insert)... 44
Abbildung 19: Auszug aus dem Index ... 48
Abbildung 20: SuchPipeline - Passende Dokumente zu Anfragen finden
(Retrieval) ... 48
Abbildung 21: Ordnungsbaum im Model Manager des Creators... 54
Abbildung 22: Ähnlichkeitsmaß Taxonomie - Anfrage: Optimistisch, Fall:
Pesimistisch... 57
Abbildung 23: Ähnlichkeitsmaß Taxonomie ­ links: Anfrage: Pessimistisch,
Fall: Pesimistisch; rechts: Anfrage: Optimistisch, Fall: Optimistisch ... 57
Abbildung 24: Ähnlichkeitsmaß TaxonomiePfad - Ähnlichkeiten zu Knoten
K41 59
Abbildung 25: Beispielhafter Pfad der HUGO Navigation... 63
Abbildung 26: Analysemöglichkeit 1... 65
Abbildung 27: Analysemöglichkeit 2... 66
Abbildung 28: Benutzeroberfläche von Twinkle... 69
Abbildung 29: Ähnlichkeiten in der Eurovoc-Taxonomie ... 70
Abbildung 30: Vergleich der Suchergebnisse (Ausschnitt)... 75
Abbildung 31: Gliederung der Ergebnisseite ... 80
Abbildung 32: Ausgabe verschiedener Ergebnisse ... 81

Abbildungsverzeichnis
8
Abbildung 33: Aufbau der Navigation (Auszug für 4 Seiten) ... 83
Abbildung 34: Navigationslinks (ohne JavaScript) ... 84
Abbildung 35: Quelltextauszug für die dritte Navigationsseite ... 85
Abbildung 36: Navigationslinks (JavaScript) ... 86
Abbildung 37: Verwandte Links ... 87
Abbildung 38: Verwandte Links ­ Initialisierungsregel... 88
Abbildung 39: Verwandte Links - Altstadtfreunde (gekürzt) ... 89
Abbildung 40: Ausgabe der Verwandten Links ... 89
Abbildung 41: Verteilung der gesamten Anfragen pro Monat. Die Werte sind
normalisiert... 91
Abbildung 42: Altes Layout des Webportals der Stadt Nürnberg ... 92
Abbildung 43: Neues Layout des Webportals der Stadt Nürnberg... 92
Abbildung 44: Suchpipeline - links: ursprüngliche Anordnung, rechts: neue
Anordnung... 96
Abbildung 45: Regelsatz 1 (Vervollständigungsregeln) ... 97
Abbildung 46: Regelsatz 2 (Anpassungsregeln) ... 97
Abbildung 47: Logdatei von e:IAS... 98
Abbildung 48: Umgewandeltes Logfile... 100
Abbildung 49: Datenbankstruktur... 103
Abbildung 50: e:IAS Logfile-Auswertung... 105
Abbildung 51: Ausgabe der Suchwörter ... 106
Abbildung 52: Ausgabe der Suchphrasen... 107
Abbildung 53: Ausgabe von Daten zu Anfragehäufigkeit... 108

Tabellenverzeichnis
9
Tabellenverzeichnis
Tabelle 1: IDF-Werte ... 15
Tabelle 2: TF-Wert ... 15
Tabelle 3: TF/IDF-Werte... 15
Tabelle 4: Kürzel und Bezeichnungen in Thesauri ... 21
Tabelle 5: Datentypen der Attribute... 46
Tabelle 6: Attribute ... 47
Tabelle 7: Beispielhafte Anfragen und ihre Ähnlichkeitswerte... 56
Tabelle 8: Schlagwörter aus der HUGO Navigation ... 63
Tabelle 9: Dateien des eurovoc-Thesaurus... 67
Tabelle 10: Dateien des GEMET-Thesaurus... 68
Tabelle 11: Attribute, Gewichte und Ähnlichkeitsmaß ... 70
Tabelle 12: Lokale und Globale Ähnlichkeit (Relevanz) ... 73
Tabelle 13: Vergleich von Abacho und Empolis ... 76
Tabelle 14: Zusammenfassung der BIENE-Kriterien Auswertung ... 77
Tabelle 15: e:Script Tags ... 79
Tabelle 16: Top-Suchanfragen ... 94
Tabelle 17: Suchwörter mit wenigen Ergebnissen (<10 Ergebnisse im
Durchschnitt)... 94
Formelverzeichnis
Formel 1: Inverse Dokumenthäufigkeit des Terms i ... 14
Formel 2: Termfrequenz des Terms i im Dokument d ... 14
Formel 3: Pfadlänge ... 23
Formel 4: Normalisierte Pfadlänge ... 23
Formel 5: Extended gloss overlaps measure ... 24
Formel 6: Ähnlichkeitsmaß basierend auf Informationsgehalt ... 25
Formel 7: Ähnlichkeitsmaß basierend auf Knoten und Kanten... 25
Formel 8: Ähnlichkeitsmaß abgeleitet aus der Informationstheorie ... 26
Formel 9: Berechnung des globalen Maximums ... 72
Formel 10: Globales Maximum: Euklidischer Abstand nach Dokumentation... 72
Formel 11: Globales Maximum: Euklidischer Abstand ... 73

1 Motivation
11
1 Motivation
Das Schwerste: Immer wieder entdecken, was man ohnehin weiß.
1
In dem Webportal der Stadt Nürnberg ist Wissen zu vielen verschiedenen Themen
auf unzähligen Seiten gespeichert. Doch dieses Wissen ist nutzlos, wenn man es
nicht findet. Diese Diplomarbeit soll dazu beitragen, dass die Informationen, die ein
Besucher des Webportals sucht, von ihm auch gefunden werden.
Diese Arbeit baut auf der Diplomarbeit von Marek Ertel
2
auf und führt dessen Thema
weiter. Neben der produktiven Inbetriebnahme der Suchmaschine auf Basis des
Produktes e:IAS der Fa. empolis GmbH besteht die Arbeit aus drei Themen:
· Es sollen aussagekräftige Logfiles generiert und ausgewertet werden.
· Bei der Ergebnispräsentation sollen die Erfordernisse der Barrierefreiheit be-
achtet werden.
· Thesauri sollen die Lösung um Ansätze semantischer Suche erweitern.
1
Elias Canetti (1905 - 1994), Schriftsteller spanisch-jüdischer Herkunft
2
Siehe [Ertel2006]

2 Grundlagen
13
2 Grundlagen
Dieses Kapitel soll einige Grundlagen klären, die für die vorliegende Diplomarbeit
benötigt werden.
2.1 Textbasierte
Suche
Die einfachste Suchmöglichkeit, um passende Dokumente zu finden, ist der Ver-
gleich der Wörter in der Anfrage mit den Wörtern im Dokument; je mehr Wörter der
Anfrage im Dokument vorhanden sind, desto relevanter ist es für den Benutzer. Um
mehr Ergebnisse zu erzielen, können die Wörter vorher auf ihre Grundformen zu-
rückgeführt werden, so wird z. B. ,,ging" zu ,,gehen" und ,,Häuser" zu ,,Haus". Diesen
Vorgang nennt man Stemming.
Allerdings ist diese Methode zunächst nicht sehr gut geeignet, um die Relevanz ei-
nes Dokuments zu bestimmen, da beispielsweise nicht berücksichtigt wird, wie häufig
das gesuchte Wort allgemein im Sprachgebrauch vorkommt. So ist z. B. ,,nicht" das
16-häufigste Wort im Deutschen
3
, es wird also in vielen Dokumenten der Suchbasis
vorkommen und ist somit als Suchbegriff wesentlich schlechter geeignet als ein Wort,
das nur selten verwendet wird. Wie relevant ein Dokument als Ergebnis einer Suche
ist, hängt weiterhin sicher davon ab, wie häufig ein Suchbegriff in dem Dokument
enthalten ist.
Beide Überlegungen werden mit dem Suchverfahren TF/IDF (Term Frequency / In-
verted Document Frequency) verfolgt. Über die inverse Dokumenthäufigkeit (engl.
IDF) bekommt ein Term, also ein Wort, das nur in wenigen Dokumenten der Doku-
mentenbasis vorkommt, einen höheren Wert als ein Wort, das in vielen Dokumenten
der Dokumentenbasis erscheint. Formel 1 ist die dazugehörige Berechnungsfunktion,
sie kann reelle Werte größer Null annehmen.
3
Vgl. [Wortschatz]

2 Grundlagen
14
i
i
n
N
idf
log
=
mit N
Anzahl aller Dokumente
n
i
Anzahl der Dokumente die Term i beinhalten
Formel 1: Inverse Dokumenthäufigkeit des Terms i
Die Termfrequenz (TF) gibt die relative Häufigkeit eines Wortes bzw. Terms in einem
bestimmten Dokument an (siehe Formel 2). Sie kann Werte zwischen Null und Eins
annehmen.
4
d
l
l
d
i
d
i
freq
freq
tf
,
,
,
max
=
mit freq
i,d
Häufigkeit des Terms i im Dokument i
max
l
freq
l,d
Häufigkeit des häufigsten Terms l im Dokument i
Formel 2: Termfrequenz des Terms i im Dokument d
TF/IDF ist das Produkt aus Termfrequenz und inverser Dokumenthäufigkeit und so-
mit kann die Relevanz eines Dokuments zu einer Suchanfrage berechnet werden.
Folgendes Beispiel soll die Berechnung erläutern:
Das Dokument d
1
enthält die Wörter ,,Stadt Nürnberg", das zweite Dokument d
2
,,Stadt Schwabach" und das dritte (d
3
) ,,Landkreis Fürth". Zuerst werden die Terme in
Kleinbuchstaben umgewandelt und Umlaute durch ihre Umschreibung ersetzt. Da-
nach erfolgt die Berechnung der IDF-Werte (siehe Tabelle 1).
4
Vgl. [Ertel2006], Kapitel 2.4.2, S. 14 f

2 Grundlagen
15
i
idf
i
stadt
2
3
log = 0,176
schwabach
2
3
log = 0,176
fuerth
1
3
log = 0,477
nuernberg
1
3
log = 0,477
landkreis
1
3
log = 0,477
Tabelle 1: IDF-Werte
Ebenso werden die TF-Werte aller Terme berechnet (siehe Tabelle 2).
i
d
d1
d2
d3
stadt
1 1 0
schwabach
0 1 0
fuerth
0 0 1
nuernberg
1 0 0
landkreis
0 0 1
Tabelle 2: TF-Wert
Aus diesen Werten lassen sich dann die TF/IDF-Werte berechnen (siehe Tabelle 3),
die einzelnen Spalten der Tabelle lassen sich nun auch als Gewichtsvektor des je-
weiligen Dokuments lesen.
i
d
d
1
d
2
d
3
stadt
0,176 0,176 0
schwabach
0 0,477
0
fuerth
0 0 0,477
nuernberg
0,477 0
0
landkreis
0 0 0,477
Tabelle 3: TF/IDF-Werte
Wird nun eine Anfrage q mit dem Term ,,Stadt Nürnberg" übermittelt, wird wieder wie
oben der TF/IDF-Wert berechnet und als Anfragevektor bekommt man q = (0,176,
0,477, 0,0,0). Durch den direkten Vergleich sieht man, dass das Dokument d
2
exakt
der Anfrage entspricht, die Ähnlichkeit also 1 ist, zum Dokument d
3
besteht gar keine
Übereinstimmung, also eine Ähnlichkeit von 0 und zum Dokument d
1
besteht nur eine

2 Grundlagen
16
teilweise Ähnlichkeit. Würde man die Werte in eine Berechnungsfunktion für die Grö-
ße der Ähnlichkeit einsetzten, auf die hier nicht weiter eingegangen wird (eine abge-
wandelte Form des Kosinusmaßes), würde man eine 35-prozentige Ähnlichkeit erhal-
ten.
5
Diese Form der Relevanzbestimmung wurde in einer Vorgängerdiplomarbeit in die
e:IAS Suche integriert, die vorliegende Arbeit wird die Einbindung und Verwendung
von Thesauri zur Relevanzbestimmung untersuchen.
2.2 Taxonomien und Thesauri
2.2.1 Was sind Taxonomien und Thesauri
Ein Thesaurus, im Sinne der Information und Dokumentation, ist nach DIN 1463-1
6
(bzw. ISO 2788) Teil eines Informationsystems. Seine wesentlichen Anwendungen
lassen sich wie folgt darstellen:
Die wesentlichen Inhalte einer Wissensquelle werden mit einem Thesaurus deskri-
biert (erschlossen), dies geschieht durch die sogenannte Indexierung. Das Indexie-
rungsergebnis ist eine Liste natürlichsprachiger Wörter, die nicht frei wählbar sind,
sondern nach bestimmten Regeln einem Thesaurus entnommen werden müssen.
Bei dem Information Retrieval (Informationswiedergewinnung) dient der Thesaurus
der Suche nach relevanten Wissensquellen (Dokumenten), indem sich der Nutzer
der indexierten Wörter bedient. Da der Thesaurus diese Wörter gleichzeitig auch
miteinander in Beziehung setzt, kann dieses Beziehungsgeflecht auch als Suchhilfe
(Pfad) genutzt werden.
Thesauri werden immer auf Basis einer Wissenssammlung erstellt. Weltweit dürfte es
mehrere Tausend Thesauri geben, die alle auf bestimmte Fachgebiete ausgerichtet
sind. Der ,,Thesaurus Guide" verzeichnete 1993 rund 600 aktiv genutzte Thesauri in
unterschiedlichen natürlichen Sprachen
7
.
Ein Thesaurus enthält ein ,,kontrolliertes Vokabular", also eine eindeutige Benennung
für jeden Begriff (Deskriptor oder Schlagwort) ­ diese Benennung kann, wenn der
Thesaurus elektronisch verarbeitet wird, auch vollkommen abstrakt sein (z. B. eine
5
Vgl. [Ertel2006], Kapitel 2.4.2 S. 16 f
6
[DIN1463-1]
7
[Eurobrokers1992]

2 Grundlagen
17
laufende Nummer), deswegen spricht man hier auch von einem Konzept. Oft nimmt
man aber dennoch eine natürlichsprachige Vorzugsbezeichnung, den Deskriptor. Da
eine Eindeutigkeit in der natürlichen Sprache jedoch nicht gegeben ist, werden au-
ßerdem Äquivalenzrelationen eingefügt. So ist die Synonymie die Gleichheit oder
auch nur große Ähnlichkeit der Bedeutung von unterschiedlichen Wörtern. Zu einem
Deskriptor können also beliebig viele Synonyme in Beziehung gebracht werden.
Gleiches gilt für Wörter, die unterschiedliche Schreibweisen besitzen, hier werden
alle Möglichkeiten als Synonym-Beziehung angegeben; wichtig ist das insbesondere,
wenn man eine Wissensbasis indexieren will, in der Dokumente in neuer und alter
deutscher Rechtschreibung vorhanden sind. Auch Abkürzungen und eventuell Über-
setzungen können so behandelt werden.
Schwieriger wird es mit Homonymen oder Polysemen, also Wörtern, die verschiede-
ne Bedeutungen besitzen.
8
Hier werden die Wörter mehreren Deskriptoren zugeord-
net und gleichzeitig markiert, um ihre Mehrdeutigkeit anzuzeigen. Zur richtigen Ein-
ordnung eines Dokuments muss dann der Kontext angeschaut werden, was bei der
automatischen Verarbeitung Schwierigkeiten macht.
Daneben existieren noch hierarchische Relationen, um auf Hyponyme (Unterbegriffe)
und Hyperonyme (Oberbegriffe) zu verweisen. DIN 1463-1 unterscheidet dabei noch
zwischen generischer Relation, was als ,,eine hierarchische Relation zwischen zwei
Begriffen, von denen der untergeordnete Begriffe (Unterbegriff) alle Merkmale des
übergeordneten Begriffs (Oberbegriff) besitzt und zusätzlich mindestens ein weiteres
spezifizierendes Merkmal"
9
definiert wird und partitiver Relation, was als ,,eine hierar-
chische Relation zwischen zwei Begriffen, von denen der übergeordnete (weitere)
Begriff (Verbandsbegriff) einem Ganzen entspricht und der untergeordnete (engere)
Begriff (Teilbegriff) einen der Bestandteile dieses Ganzen repräsentiert"
10
beschrie-
ben wird.
Soll eine Beziehung beschrieben werden, die nicht den bisherigen Definitionen ent-
spricht, existiert noch die Assoziationsrelation, sie ist eine ,,zwischen Begriffen bzw.
ihren Bezeichnungen als wichtig erscheinende Relation, die weder eindeutig hierar-
8
Besitzen beide Wörter die selben etymologische Wurzeln, spricht man von Polysemie, diese Wörter
haben eine ähnliche Bedeutung (z. B. Pferd als Tier und Turngerät), andernfalls von Homonymie
(z. B. Bank als Sitzmöbel oder Kreditinstitut).
9
[DIN1463-1], Teil 1
10
ebenda

2 Grundlagen
18
chischer Natur ist, noch als äquivalent angesehen werden kann."
11
Diese schwammi-
ge Definition ist auch die Problematik dieser Beziehung. Sie kann zu einem Sammel-
becken geraten, in das alles hineingenommen wird, was in einem sehr weiten Sinn
mit dem Ausgangsbegriff zu tun hat. Oft entstehen dadurch sehr lange Reihen sol-
cher ,,verwandten Begriffe". Ein Thesaurus sollte aber nicht versuchen, alle mögli-
chen Zusammenhänge auszuweisen, in denen ein Begriff vorkommen kann. Der
Sinn dieser Relation ist vielmehr, ,,zusätzlich zur hierarchischen Struktur Querbezie-
hungen zu anderen, für die Formulierung des Sachverhaltesmöglicherweise geeigne-
ten Deskriptoren anzubieten"
12
.
11
ebenda
12
[Burkart2004], Kapitel B 2.1.4.4, Seite 149

2 Grundlagen
19
Abbildung 1: Auszug aus dem Eurovc-Thesaurus
In Abbildung 1 ist ein Auszug aus dem Eurovoc-Thesaurus abgebildet, dabei werden
die Beziehungen des Begriffs ,,Christentum", mit dem Konzeptbezeichner ,,5987" in
das Zentrum gestellt. In Tabelle 4 (Seite 21) sind die wichtigsten Bezeichnungen von
Relationen in Thesauri aufgeführt, im Folgenden werden die DIN-Bezeichnungen
näher erläutert.
Äquivalenzrelationen sollen immer reziprok dargestellt werden, es soll also nicht nur
vom Nicht-Deskriptor (z. B. Synonym) auf den Deskriptor verwiesen werden sondern

2 Grundlagen
20
auch vom Deskriptor zu allen seinen Nicht-Deskriptoren. Dafür stehen die Beziehun-
gen ,,Benutzt für" (BF) und ,,Benutze Synonym" (BS) (siehe Abbildung 2).
Deskriptor BF Nicht-Deskriptor - Samstag BF Sonnabend
Nicht-Deskriptor BS Deskriptor - Sonnabend BS Samstag
oder
5987 BF Christentum
Christentum BS 5987
Abbildung 2: Beziehung BF und BS
Die beiden Arten der hierarchischen Relationen werden von den meisten Thesauri in
einer allgemeinen hierarchischen Beziehungsart zusammengefasst. Die Beziehung
ist ebenfalls reziprok und wird mit Unterbegriff (UB) und Oberbegriff (OB) bezeichnet
(siehe Abbildung 3).
Oberbegriff UB Unterbegriff - Obstbaum UB Steinobstbaum
Unterbegriff OB Oberbegriff - Steinobstbaum OB Obstbaum
oder
5987 UB 5165
5165 OB 5987
Abbildung 3: Beziehung UB und OB
Auch die Assoziationsbeziehung sollte immer reziprok sein. Hier wird die Bezeich-
nung ,,Verwandter Begriff" (VB) benutzt. In Abbildung 4 wird die Beziehung am Bei-
spiel erläutert.

2 Grundlagen
21
Deskriptor 1 VB Deskriptor 2 - Obst VB Obstbaum
Deskriptor 2 VB Deskriptor 1 - Obstbaum VB Obst
oder
5987 VB 6545
6545 VB 5987
Abbildung 4: Beziehung VB
Spitzenbegriff (SB) steht schließlich für die Wurzel eine Thesaurus. Dabei kann ein
Thesaurus auch mehrere Teil-Thesauri umfassen, die jeweils einen eigenen Spit-
zenbegriff besitzen. Die Definition (D) liefert schließlich Informationen oder einen
Verwendungshinweis zu dem jeweiligen Begriff.
Thesauri ­ Kürzel und Bezeichnung
DIN 1463-1
ISO 2788
BF - Benutzt für
UF - Used for
BS - Benutze Synonym
USE/SYN Use synonym
OB - Oberbegriff
BT - Broader term
UB - Unterbegriff
NT - Narrower term
VB - Verwandter Begriff
RT - Related term
SB - Spitzenbegriff
TT - Top term
D ­ Definition
SN ­ Scope Note
Tabelle 4: Kürzel und Bezeichnungen in Thesauri
Etwas anders ist ein linguistischer Thesaurus aufgebaut. Statt Begriffen, die aus
bestimmten Themenfeldern stammen wie beim Dokumentations-Thesaurus, werden
hier Wörter mit ähnlicher und verwandter Bedeutung durch Verweise verknüpft. Auf
diese Art von Thesauri wird im Folgenden nicht weiter eingegangen.
Eine Taxonomie ist eine hierarchische Ordnung von Begriffen in einer Baumstruktur.
Ausgehend von einem Wurzelknoten werden in unserem Fall die Deskriptoren als
Knoten und die hierarchischen Beziehungen als Kanten eingefügt. Dabei entspricht
der Spitzenbegriff, solange der Thesaurus nur einen davon enthält, der Wurzel. Sind
mehrer Spitzenbegriffe im Thesaurus vorhanden, müssen ein abstrakter Wurzelkno-
ten und Kanten zu den einzelnen Spitzenbegriffen eingefügt werden. Die Taxonomie
selbst enthält nur die Deskriptoren und die Beziehungen ,,Oberbegriff" bzw. ,,Unter-
begriff", alle anderen Beziehungen müssen auf andere Weise abgebildet werden.

2 Grundlagen
22
2.2.2 Semantische Suche mittels Thesauri
Bei Suchanfragen, die an eine große und heterogene Suchbasis gestellt werden,
besteht dass Problem, das mit natürlicher Sprache, vor allem durch den Gebrauch
von Synonymen, ein und derselbe Sachverhalt durch verschiedenste Wortkombinati-
onen ausgedrückt werden kann. So besitzen etwa ,,Christentum" und ,,christliche
Kirchen" die gleiche Bedeutung, es werden aber unterschiedliche Worte verwendet.
Um in der Suchbasis alle Dokumente zu einem Thema zu finden, müsste der Anfra-
gende auch alle möglichen Synonyme zu seiner Anfrage ausprobieren.
Ein ähnliches Problem tritt auf, wenn in der Suchbasis keine Dokumente, die das
Wort oder eines seiner Synonyme enthalten, vorhanden sind. Dem Anfragenden
wäre dann unter Umständen auch geholfen, wenn er entweder etwas speziellere
oder etwas genereller Informationen zu seiner Frage bekommen würde. So können
bei einer Anfrage nach ,,Christentum" auch Dokumente die ,,Protestantismus" bzw.
das dazu gehörende Synonym ,,evangelische Kirche" enthalten, interessant sein.
Bei der Semantischen Suche, die auch Assoziativ- oder Synonym-Suche genannt
wird, versucht man, den Sinn eines Wortes, seine Semantik, zu erfassen und Asso-
ziationen zu Worten mit einer gleichen oder ähnlichen Bedeutung herzustellen. Damit
sollen die oben erläuterten Probleme gelöst werden.
Bei dem Aufnehmen der Dokumente in die Suchbasis werden zunächst die einzelnen
Wörter genommen und verglichen, ob sie im Thesaurus enthalten sind. Sind sie als
Synonymbegriff (Nicht-Deskriptor) vorhanden, werden sie durch den Hauptbegriff
(Deskriptor) ersetzt. Bei einer Suchanfrage werden die Wörter der Anfrage ebenfalls
durch ihren Hauptbegriff ersetzt und so können alle Dokumente zum Thema gefun-
den werden. Für die Behandlung der semantischen Ähnlichkeiten, die im Thesaurus
definiert sind, werden sogenannte Ähnlichkeitsmaße verwendet, diese werden im
folgenden Kapitel diskutiert.
2.2.3 Taxonomiebasierte Ähnlichkeitsmaße
Im Folgenden wird eine Auswahl semantischer Ähnlichkeitsmaße für Taxonomien
vorgestellt. Diese Maße werden verwendet, um zu einer Anfrage, die einem Knoten
in der Taxonomie zugeordnet wird, möglichst ähnliche andere Knoten zu finden, die
gespeicherten Fällen, also Dokumenten entsprechen.

2 Grundlagen
23
2.2.3.1 Pfadlänge
)
,
(
2
1
2
,
1
c
c
len
sim
c
c
=
mit
sim
c1,c2
Ähnlichkeit der Konzepte c
1
und c
2
len(c
1
,c
2
) Länge des kürzesten Pfades zwischen c
1
und c
2
Formel 3: Pfadlänge
Wenn alle Äste eines Baumes die gleiche Länge haben, dann ist die Anzahl der zwi-
schen zwei Knoten liegenden Kanten ein Maß für die Ähnlichkeit dieser beiden Kon-
zepte. Das Maß, das normalerweise genutzt wird, ist der kürzeste Pfad zwischen
ihnen.
13
Da für dieses Konzept aber eine ideale Taxonomie mit gleich langen Ästen
Vorraussetzung ist und Taxonomien, die auf der natürlichen Sprache basieren, diese
Vorraussetzung nicht erfüllen, ist dieses Ähnlichkeitsmaß für die weitere Betrachtung
nicht relevant.
Im Beispiel würde die Pfadlänge zwischen dem Konzept 5162 (Anglikanismus) und
5165 (Protestantismus) 2 betragen, genauso wie zwischen 5165 und 3257 (Religion).
2.2.3.2 Normalisierte Pfadlänge
D
c
c
len
sim
c
c
×
-
=
2
)
,
(
log
2
1
2
,
1
mit
D
maximale Tiefe der Taxonomie
Formel 4: Normalisierte Pfadlänge
Eine Abwandlung zu 2.2.3.1 ist die normalisierte Pfadlänge, dabei wird derselbe Wert
wie oben berechnet, das Ergebnis aber noch durch die doppelte maximale Tiefe der
Taxonomie geteilt und davon der negative Logarithmus genommen.
14
Da der Abstand
zweier Konzepte maximal so groß ist wie die doppelte maximale Tiefe, ist der Wert
immer größer oder gleich Null. Da dies aber an den Voraussetzungen nichts ändert,
ist auch dieses Maß nur für ausgeglichene Taxonomien relevant.
13
Vgl. [Rada1989], zitiert nach [McHale1998], Kapitel 1.1.1, S. 115
14
Vgl. [Chodorow1998]

2 Grundlagen
24
Nehmen wir eine Tiefe von 4 an, wobei die Wurzel auf der Ebene 0 liegt, dann ergibt
sich für eine Pfadlänge von 2 ein Ähnlichkeitswert von 0,30, also eine Ähnlichkeit von
30%.
2.2.3.3 Dichte des Zweigs
Das Benutzen der Dichte basiert auf der Beobachtung, dass Wörter, die sich in ei-
nem dichter ,,besiedelten" Teil der Hierarchie befinden, ähnlicher sind, als Wörter in
spärlich ,,besiedelten" Teilen.
15
Damit die Dichte ein sinnvolles Maß darstellt, muss
die Hierarchie nahezu komplett sein oder sie muss die Verteilung der Wörter in der
natürlichen Sprache widerspiegeln.
Wenn ein Thesaurus einen Zweig, zum Beispiel zu Schiffen, besitzt, der viel mehr
Worte als ein anderer Zweig, zum Beispiel für Blautöne, aufweist, hat der erste Zweig
zwar eine höhere Dichte, aber mehr Vergleiche sind nicht wirklich möglich. Nach
dieser Theorie wären sich ,,Kajak" und ,,Schlepper" wesentlich ähnlicher als ,,himmel-
blau" und ,,türkis". Es wird schnell klar, das dieser Vergleich nicht sinnvoll ist, ebenso
wenig wie die Aussage, dass ,,Kajak ähnlicher zu Schiff ist" als ,,türkis zu Blautö-
nen".
16
2.2.3.4 Extended gloss overlaps measure
))
(
),
(
(
2
2
2
1
2
,
1
c
R
c
R
score
sim
c
c
=
mit
R
Menge der semantischen Relationen des betrachteten Konzepts
score Funktion zur Berechnung der Überlappung zwischen zwei Konzeptdefi-
nitionen
Formel 5: Extended gloss overlaps measure
,,Gloss" steht hier für Fußnote oder Beschreibung des Konzepts, also für seine Defini-
tion im Thesaurus. Das Maß zählt die Wörter, die in den Definitionen beider Konzep-
te identisch sind, also ihre Überlappung. Das Ganze wird außerdem auf diejenigen
Konzepte erweitert, die Relationen zu den betrachteten Konzepten, deren Ähnlichkeit
15
Vgl. [Agirre1996], zitiert nach [McHale1998], Kapitel 1.1.2, S. 116
16
Vgl. [McHale1998], Kapitel 1.1.2, S. 119

2 Grundlagen
25
ermittelt werden soll, besitzen.
17
Dieses Ähnlichkeitsmaß scheint sehr interessant für
vorgefertigte Thesauri, die umfangreiche Definitionen enthalten, zu sein.
2.2.3.5 Maß basierend auf Informationsgehaltswert des Konzepts
)
(
log
2
,
1
1
2
,
c
c
lca
p
sim
c
c
-
=
mit lca
,,tiefste gemeinsame Vorgänger" (engl. ,,lowest common ancestor")
p(c)
relative Wahrscheinlichkeit des Konzepts c
-log p(c) der negative Logarithmus der Wahrscheinlichkeit (= Informations-
gehalt)
Formel 6: Ähnlichkeitsmaß basierend auf Informationsgehalt
Bei diesem Maß wird die Ähnlichkeit zweier Konzepte durch den Informationsgehal-
tes des Konzepts, das beide in der Taxonomie zusammenfasst, also den ,,tiefsten
gemeinsamen Vorgänger" (engl. ,,lowest common ancestor", LCA), bestimmt. Der
Informationsgehalt eines Konzepts basiert auf der Wahrscheinlichkeit mit der eine
Instanz des Konzepts vorkommt. Als Wahrscheinlichkeit wird die relative Häufigkeit
des Vorkommens jedes Konzepts in einem Textkorpus
18
hergenommen. Aus der
Formel folgt, dass häufig vorkommende Wörter einen niedrigeren Informationsgehalt
besitzen als selten vorkommende.
19
2.2.3.6 Maß basierend auf knoten- und kantenbasierten Techniken
))
,
(
(
2
2
1
)
(
)
(
2
,
2
1
1
c
c
lca
IC
IC
IC
dist
c
c
c
c
×
-
+
=
mit dist
c1,c2
semantische Distanz des Konzepts, steht hier für die Ähnlichkeit
IC
Informationsgehalt des Konzepts
)
(
log
)
(
c
p
IC
c
-
=
Formel 7: Ähnlichkeitsmaß basierend auf Knoten und Kanten
17
Vgl. [Banerjee2003]
18
Ein Korpus ist eine Sammlung von sprachlichen Äußerungen zur wissenschaftlichen Analyse. In
diesem Fall wurde das Brown Corpus verwendet, das an der Brown University gesammelt und
1964 veröffentlicht wurde. Es enthält fünfhundert, 1961 erschienene Texte in fünfzehn Kategorien
mit zusammen etwa einer Million Wörtern der englischen Sprache. Es war das erste allgemeine
und computerlesbare Korpus.
19
Vgl. [Resnik1995]

2 Grundlagen
26
Auch dieses Ähnlichkeitsmaß benutzt den Informationsgehalt eines Konzepts, um
daraus die Ähnlichkeit zu berechnen, allerdings wird hier zusätzlich die Pfadlänge,
die lokale Dichte, die Tiefe des Knotens in der Taxonomie und der Typ der Relation
mit einbezogen. Die Originalformel wird über zwei Parameter Alpha und Beta opti-
miert, die den Grad bestimmen, inwieweit die Tiefe des Knotens und der Dichte-
Faktor zu dem Kantengewichtsfaktor beitragen. Mit Alpha = 0 und Beta = 1 erhält
man obige Formel.
20
In Abbildung 5 ist ein Beispiel für die Wörter ,,number" und ,,limit" abgebildet, die über
das Konzept ,,magnitude" verbunden sind. Der Informationsgehalt aller Konzepte ist
bekannt; über die Formal ergibt sich ein Ähnlichkeitswert von 9,67.
Abbildung 5: Beispiel für Maß basierend auf knoten- und kantenbasierten Techni-
ken
21
2.2.3.7 Maß abgeleitet aus der Informationstheorie
)
(
log
)
(
log
))
,
(
(
log
2
2
1
2
1
2
,
1
c
p
c
p
c
c
lca
p
sim
c
c
+
×
=
Formel 8: Ähnlichkeitsmaß abgeleitet aus der Informationstheorie
Dieses Ähnlichkeitsmaß basiert auf der Idee, dass die Ähnlichkeit zwischen zwei
Konzepten A und B durch das Verhältnis zwischen dem Maß der Information, die
20
Vgl. [Jiang1997]
21
[Jiang1997]

2 Grundlagen
27
benötigt wird, um die Kommunalität (Gemeinsamkeit) von A und B zu bestimmen und
der Information, die benötigt wird, um A und B vollständig zu beschreiben, berechnet
werden kann. Der Informationsgehalt eines Konzepts wird wieder ähnlich wie oben
berechnet.
22
2.2.3.8 Vergleich
Bei der Vielzahl der Ähnlichkeitsmaße stellt sich die Frage, welche am besten für
einen speziellen Anwendungsfall geeignet ist. Eine Möglichkeit dies herauszufinden
ist der Vergleich der Methoden mit einem eingeschränkten Testfeld. Eine Auswahl
von Begriffen wird dabei zuerst von einer Gruppe von Menschen auf Synonymität
verglichen und auf einer Skala eingeordnet (z. B. 0 = komplett unterschiedlich, 4=
perfektes Synonym). Danach werden die Algorithmen angewandt und die Werte ver-
glichen.
23
Da in der Software e:IAS allerdings nur zwei eigenentwickelte Ähnlichkeitsmaße des
Unternehmens Empolis enthalten sind (siehe 4.2.1, Seite 53) ist eine Untersuchung
der Eignung der oben vorgestellten Ähnlichkeitsmaße nicht notwendig.
2.2.4 RDF-basierte Thesaurusrepräsentation: SKOS
SKOS steht für ,,Simple Knowledge Organisation System" und bedeutet frei übersetzt
,,einfaches System zur Organisation von Wissen". SKOS dient der Darstellung von
beliebigen Typen strukturierter kontrollierter Vokabulare, insbesondere von Thesauri
und Taxonomien. Es ist noch kein fertiger Standard, sondern wird gerade von einer
Gruppe des World Wide Web Consortiums (W3C) entwickelt und liegt seit November
2005 als Arbeitsentwurf
24
vor. Trotzdem gibt es bereits Thesauri in der SKOS Notati-
on und Programme, die diese Notation darstellen und verarbeiten können.
SKOS basiert auf RDF (Resource Description Framework), einer formalen Sprache
zur Beschreibung von Metadaten. Die Idee dahinter besagt, Ressourcen über ein-
deutige URIs
25
anzusprechen. So kann die Funktionalität von RDF auch über das
22
Vgl. [Lin1998]
23
Vgl. [McHale1998], Kapitel 2, S. 117 ff
24
[Miles2005]
25
URI heißt Uniform Resource Identifier, also ,,eindeutiger Bezeichner für Ressourcen". URIs sind in
der Form <Schema>:<Schema-spezifischer Teil> aufgebaut, ein Beispiel sind die Adressen von
Webseiten, z.B. http://www.trumpkin.de /

2 Grundlagen
28
Einbinden neuer Definitionen, die unter solch einer URI bereitgestellt sind, beliebig
erweitert werden ­ solch eine Erweiterung ist SKOS.
Das RDF-Modell besteht aus den drei Objekttypen: Ressource, Eigenschaftselement
und Objekt, die zusammen ein sogenanntes RDF-Tripel bilden. Man spricht auch von
Subjekt, Prädikat und Objekt die zusammen ein Statement darstellen. Das Standard-
beispiel dafür ist die Aussage ,,Der Titel der Webseite des W3C ist ,World Wide Web
Consortium'". Dabei ist der Ressourcenbezeichner, bzw. das Subjekt, noch nicht
eindeutig, nehmen wir also statt ,,Webseite des W3C" die URI http://www.w3c.org.
Dann ist die Aussage ,,http://www.w3c.org hat den Titel ,World Wide Web Consorti-
um'". Das Eigenschaftselement (Prädikat) stellt die Beziehung zwischen Ressource
und Objekt her und beschreibt diese, in unserem Beispiel als ,,hat den Titel". Das
Objekt beschreibt den Wert der Ressource, in dem Beispiel ,,World Wide Web Con-
sortium". Ein Objekt kann entweder ein Literal oder eine Ressource oder auch eine
leere Ressource sein. Als Graph schaut das Ganze dann wie in Abbildung 6 aus.
Hier wurde außerdem noch das Prädikat durch die eindeutig definierte Titel-Relation
der RDF-Erweiterung Dublin Core
26
ersetzt. Für mehr Informationen zu RDF sei auf
die Webseite der ,,RDF Core Working Group"
27
verwiesen.
Abbildung 6: RDF-Graph
28
In Abbildung 7 wird ein Auszug aus dem ,,UK Archival Thesaurus" (UKAT) dargestellt
und in Abbildung 8 die dazugehörige grafische Darstellung eines RDF-Graphen, der
das SKOS-Vokabular benutzt. Dabei steht jeder ausgefüllte Kreis für ein Konzept des
Thesaurus. Im Folgenden werden die wichtigsten Eigenschaften von SKOS erläutert,
soweit sie für Thesauri relevant sind.
26
Dublin Core Metadaten Initiative: http://dublincore.org/
27
http://www.w3.org/RDF/
28
Quelle: W3C-RDF-Validator http://www.w3.org/RDF/Validator/

2 Grundlagen
29
Term: Economic cooperation
Used For:
Economic co-operation
Broader terms:
Economic policy
Narrower terms:
Economic integration
European economic cooperation
European industrial cooperation
Industrial cooperation
Related terms:
Interdependence
Scope Note:
Includes cooperative measures in banking, trade, industry etc., between and
among countries.
Abbildung 7: Beispiel aus dem UK Archival Thesaurus (UKAT)
29
Abbildung 8: Darstellung der SKOS Relationen
30
29
Quelle: [MILES2005]
30
ebenda

2 Grundlagen
30
Mit der ,,skos:Concept" Klasse wird festgelegt, dass eine Ressource ein Konzept ist
(siehe Abbildung 9 und Abbildung 10).
Abbildung 9: Darstellung von ,,skos:Conzept"
31
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#">
<skos:Concept rdf:about="http://www.example.com/concepts#love"/>
</rdf:RDF>
Abbildung 10: RDF-Beispiel zu ,,skos:Concept"
32
Mit skos:prefLabel wird der Deskriptor, also die bevorzugte Bezeichnung, festgelegt
und mit skos:altLabel alternative Bezeichnungen, darunter fallen Synonyme und an-
dere Äquivalenzrelationen. Hier können auch mehrsprachige Bezeichnungen unter-
gebracht werden, dabei wird die Bezeichnung des Objekts in Apostrophzeichen ein-
geschlossen und ein At-Zeichen, gefolgt von der Sprachbezeichnung, angehängt.
Diese Sprachenkennzeichnung ist optional und kann auch bei anderen SKOS-
Elementen angefügt werden (siehe Abbildung 11 und Abbildung 12).
31
ebenda
32
ebenda

2 Grundlagen
31
Abbildung 11: Graph zu prefLabel, altLabel und Sprachkennzeichnung
33
<rdf:RDF
xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:skos="http://www.w3.org/2004/02/skos/core#">
<skos:Concept rdf:about="http://www.example.com/concepts#shrubs">
<skos:prefLabel xml:lang="en">shrubs</skos:prefLabel>
<skos:altLabel xml:lang="en">bushes</skos:altLabel>
<skos:prefLabel xml:lang="fr">arbuste</skos:prefLabel>
<skos:altLabel xml:lang="fr">buisson</skos:altLabel>
</skos:Concept>
</rdf:RDF>
Abbildung 12: RDF-Syntax zu prefLabel, altLabel und Sprachkennzeichnung
34
Mittels ,,skos:note" kann man allgemeine Hinweise und Dokumentationen einfügen,
die davon abgeleiteten Prädikate ,,skos:definition" und ,,skos:scopeNote" werden zum
einen für komplette Beschreibungen des beabsichtigten Begriffsinhaltes und zum
anderen für eine kurze Abgrenzung des Anwendungsbereichs des Konzepts ver-
wendet.

2 Grundlagen
32
Auch ,,skos:changeNote" ist von ,,skos:note" abgeleitet, es wird benutzt, um für admi-
nistrative Zwecke detailliert Änderungen am Konzept zu dokumentieren. In Abbildung
13 wird dieses Prädikat gleichzeitig mit der möglichen Verwendung von anderen
RDF-Erweiterungen gezeigt. Dabei ist ,,rdf:value" eine Erläuterung der Änderung,
,,dc:date" der Zeitpunkt der Änderung und ,,dc:creator" verweist auf die Person, die
die Änderung durchgeführt hat.
Abbildung 13: ,,skos-changeNote" mit Verzweigung
35
Die wichtigsten Beziehungen in einem Thesaurus sind die semantischen. In
,,skos:semanticRelation" wird festgelegt, dass Subjekt und Objekt jeweils Ressourcen
des Typs ,,skos:Concept" sind. Davon abgeleitet werden ,,skos:broader" und
,,skos:narrower", die die Beziehung Ober- bzw. Unterbegriff repräsentieren. Sie sind
zueinander invers und jeweils transitiv (siehe Abbildung 14 und Abbildung 15).
Die Assoziationsbeziehung wird über ,,skos:related", das ebenfalls von
,,skos:semanticRelation" abgeleitet ist, abgebildet, sie ist symmetrisch.
33
ebenda
34
ebenda
35
ebenda

2 Grundlagen
33
Abbildung 14: Ober- und Unterbegriffe mit SKOS
36
<rdf:RDF
xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:skos="http://www.w3.org/2004/02/skos/core#">
<skos:Concept rdf:about="http://www.example.com/concepts#mammals">
<skos:prefLabel>mammals</skos:prefLabel>
<skos:broader rdf:resource="http://www.example.com/concepts#animals"/>
</skos:Concept>
<skos:Concept rdf:about="http://www.example.com/concepts#animals">
<skos:prefLabel>animals</skos:prefLabel>
<skos:narrower rdf:resource="http://www.example.com/concepts#mammals"/>
</skos:Concept>
</rdf:RDF>
Abbildung 15: RDF-Repräsentation der Ober- und Unterbegriffe
37
36
ebenda
37
ebenda

2 Grundlagen
34
2.3 Barrierefreiheit von Webanwendungen
Barrierefreies Webdesign ist die Kunst Webanwendungen so zu gestalten, dass je-
der sie nutzen und lesen kann - insbesondere auch Menschen mit Behinderungen.
Für Sehbehinderte erweisen sich vor allem Nicht-Text-Elemente, wie grafisch darge-
stellter Text, Bilder, animierte GIFs, grafische Menüs oder Buttons als problematisch,
da sie über Programme, die die Webseite vorlesen (Screenreader) oder Braille-
Displays, die den Text in Blindenschrift darstellen, nicht angezeigt werden können.
Jemand, der nur farbenblind ist (also etwa jeder zehnte Mann), hat Probleme mit
Anweisungen wie ,,Klicken Sie auf den grünen Button". Und wenn nur Schwarz-Weiß-
Displays vorhanden sind, lässt sich eine Webseite die einen hohen Kontrast besitzt,
besser darstellen.
38
Mit einer motorischen Behinderung ist es schwierig konventionel-
le Eingabegeräte wie Tastatur oder Maus zu benutzen, stattdessen werden spezielle
Eingabegeräte zum Navigieren auf der Webseite eingesetzt. Damit diese funktionie-
ren, muss die Seite ohne Maus bedienbar sein. Für Hörgeschädigte ist hingegen
jede Art von Ton oder Sprache ein Hindernis, auch hier ist die Umsetzung der Me-
dien in Texte notwendig. Bei Menschen mit einer geistigen Behinderung ist die Mög-
lichkeit zum Navigieren in Webseiten stark von der Art und Schwere ihrer Behinde-
rung abhängig, wahrscheinlich wird es also nicht immer möglich sein eine Seite so zu
gestalten, dass sie für wirklich jeden Menschen zugänglich ist. Dennoch gibt es auch
hier ein paar Grundregeln, die man beachten sollte. Navigation und Layout sollten
möglichst klar und einfach gehalten sein, Texte sollten prägnant und in einer leicht
verständlichen Sprache verfasst werden und Skizzen und Illustrationen die Sachver-
halte erläutern und zum Verständnis beitragen, sollten eingesetzt werden.
Wenn man die eben angesprochenen Punkte bei der Gestaltung von Webseiten
beachtet, dann ist dies auch für Menschen hilfreich, deren Muttersprache nicht mit
der Sprache der Webseite übereinstimmt.
39
Darüber hinaus ist die Barrierefreiheit, die manchmal auch mit Zugänglichkeit oder
Accessibility bezeichnet wird, wichtig für alternative Anzeigegeräte, wie zum Beispiel
PDAs oder Handys, die eine besonders kleine Anzeige besitzen.
38
Vgl. [Metzmacher2006]
39
Vgl. [Cathomen2005]

2 Grundlagen
35
2.3.1 Allgemeine Regelungen
Es gibt von verschiedene Organisationen Normen und Handreichungen um ein
Webangebot barrierefrei zu erstellen, bzw. zu prüfen, ob es barrierefrei ist. Eine
grundsätzliche Voraussetzung ist der valide
40
Einsatz von HTML
41
und CSS
42
. Diese
Validität ist dann gegeben, wenn Seiten unabhängig von einem bestimmten Anzei-
gegerät sind. Die Spezialisierung auf bekannte Browser und ihre Eigenarten, wie z.
B. Internet Explorer, bei der Darstellung von Seiten stellt schon einen Verstoß gegen
dieses Prinzip dar, so dass Nutzer von alternativen Programmen, wie z. B. Mozilla
Firefox, die Seiten nicht fehlerlos dargestellt bekommen. Die Inhalt sollten unabhän-
gig von dem Layout ausgezeichnet sein, so das im HTML-Dokument nur die logische
Formatierung des Inhalts vorgenommen wird und das Layout komplett über CSS
gesteuert wird.
Das prominenteste Dokument, das Richtlinien für barrierefreie Webseiten enthält,
stellen die ,,Web Content Accessibility Guidelines
43
,, (WCAG 1.0) dar, die in den spä-
ten 90er Jahren des letzen Jahrhunderts entstanden sind und 1999 vom W3C als
Recommendation (Empfehlung) verabschiedet wurden.
Jedem Prüfpunkt der WCAG ist eine Priorität zwischen 1 und 3 zugeordnet. Dabei
bedeutet 1, dass ein Dokument diesen Punkt erfüllen muss, da sonst eine bestimmte
Nutzergruppe nicht auf die Informationen zugreifen kann. 2 bedeutet, dass ein Do-
kument diesen Punkt erfüllen soll, da es sonst für bestimmte Nutzer schwierig sein
kann auf die Information zuzugreifen, 3 bedeutet, dass ein Dokument diesen Punkt
erfüllen kann, andernfalls wird es für bestimmte Nutzergruppe ,,etwas schwierig" auf
die Informationen zuzugreifen. Ein Dokument kann nach der Prüfung eine Konformi-
tätsstufe von ,,A", über ,,Double-A", bis zu ,,Tripple-A" erhalten, je nachdem ob es alle
Prüfpunkte der Priorität 1, 2 oder 3 erfüllt. Sie enthält 14 Richtlinien mit insgesamt 59
Checkpunkten.
44
Durch den rasanten Fortschritt der Webtechnologie bedingt, galt die Richtlinie aber
bald als veraltet. Zur Zeit wird an einer Aktualisierung der Richtlinie gearbeitet

2 Grundlagen
36
(WCAG 2.0
45
) die seit 2006 den Status eines ,,Working Draft" (Arbeitsentwurf) besitzt.
Allerdings ist der Entwurf und die ganze Arbeitsgruppe sehr umstritten,
46
manche
Autoren reden davon, dass er in ,,den W3C-Zänkereien zu versinken droht"
47
.
Als einzige andere nennenswerte offizielle Spezifikation gibt es noch den sogenann-
ten Abschnitt 508 (Section 508) des Rehabilitation Act, den die Regierung der Verei-
nigten Staaten 1988 erweitert hat. Allerdings sind die relevanten Regeln der dazuge-
hörenden Ausführungsverordnung
48
auch an die WCAG angelehnt
49
. Dieses Regel-
werke für die Informationsangebote aller Bundesbehörden wurde außerdem auch in
deren Beschaffungsvorgaben aufgenommen und muss von allen Firmen erfüllt wer-
den, die an die Regierung der USA Waren oder Dienstleistungen verkaufen. Das
Regelwerk umfasst 16 Abschnitte mit insgesamt 34 Prüfpunkten.
Aus diesem Grund sind andere Richtlinien entstanden, die sich mehr an der Praxis
orientieren. Im deutschsprachigen Raum sind das vor allem die Kriterien des BIENE-
Awards
50
,
51
. Dieser Award wird seit 2003 für vorbildlich barrierefreie deutschsprachige
Webseiten vergeben.
Bei den Kriterien (siehe Anhang 1) gibt es zunächst Grundvoraussetzungen, dann
Prüfpunkte zu Lesbarkeit und inhaltlicher Erschließung, zu variabler Präsentation
(dass Bildern und ähnlichem eine textuelle Repräsentation zugeordnet ist), zu Navi-
gation, zum Aufbau des Internetangebots, zu Kompatibilität, zu Formularverarbei-
tung, zu komplexen Transaktionen, zu Datenschutz, zu Werbung, zu Downloads, zu
umfangreichen Datentabellen, zu komplexen Dokumenten, zu Multimedia und Spie-
len, zu Gebärdensprache-Filmen und zu leichter Sprache. Es sind 87 Kriterien ent-
40
W3C Validierungsdienst für HTML (und andere Markup-Sprachen): http://validator.w3.org/
und CSS: http://jigsaw.w3.org/css-validator/
41
Die Hypertext Markup Language ist eine Seitenbeschreibungssprache. Siehe Homepage der W3C
HTML Working Group mit den HTML-Standards: http://www.w3.org/html/
42
Cascading Style Sheets ist eine Formatierungssprache für strukturierte Dokumente. Siehe Home-
page der W3C CSS Working Group mit den CSS-Standards: http://www.w3.org/Style/CSS/
43
vgl. [Chisholm1999] bzw. [Chisholm1999de]
44
ebenda
45
[Caldwell2006]
46
Vgl. [Clark2006] bzw. [Clark2006de]
47
[Braun2007]
48
Siehe [Section508]
49
Vgl. [Section508], § 1194.22
50
Abkürzung: Barrierefreies Internet Eröffnet Neue Einsichten: http://www.biene-award.de/
51
BIENE-Award Kriterien: http://www.biene-award.de/award/kriterien/

2 Grundlagen
37
halten, die jeweils in eine unterschiedliche Anzahl von Einzelpunkten unterteilt sind,
so dass insgesamt 235 Prüfpunkte enthalten sind.
52
2.3.2 Rechtliche Regelungen
Im April 2002 trat auf Bundesebene das ,,Gesetz zur Gleichstellung behinderter Men-
schen"
53
(BGG) mit dem Ziel in Kraft, ,,die Benachteiligung von behinderten Men-
schen zu beseitigen und zu verhindern sowie die gleichberechtigte Teilhabe von
behinderten Menschen am Leben in der Gesellschaft zu gewährleisten und ihnen
eine selbstbestimmte Lebensführung zu ermöglichen"
54
. Dazu wurde auch die ,,Ver-
ordnung zur Schaffung barrierefreier Informationstechnik nach dem Behinderten-
gleichstellungsgesetz"
55
(BITV) erlassen. Die BITV enthält in einer Anlage eine nach
zwei Prioritäten gegliederte Liste mit Anforderungen und Bedingungen zur Realisie-
rung der Verordnung, die auf die W3C-Empfehlung WCAG 1.0 zurückgehen. Die
Regelungen des BGG und damit auch die der BITV gelten nur für die Dienststellen
des Bundes und sollten dort bis zum Jahre 2005 umgesetzt werden.
In Bayern trat im August 2003 das Bayerisches Behindertengleichstellungsgesetz
(BayBGG) in Kraft. Darin wird geregelt, dass unter anderem die öffentliche Stellen
und die Gemeinden des Freistaates Bayern ihre ,,Internet- und Intranetauftritte ...
schrittweise technisch so (gestalten sollen; Anm. d. Verf.), dass sie von behinderten
Menschen grundsätzlich uneingeschränkt genutzt werden können"
56
. Dazu wurde die
,,Bayerische Barrierefreie Informationstechnik-Verordnung"
57
(BayBITV) erlassen. In
ihr ist festgelegt, dass Webseiten so zu gestalten sind, dass sie die in der BITV unter
Priorität I aufgeführten Anforderungen erfüllen und, dass zentrale Navigations- und
Einstiegsangebote zusätzlich die unter Priorität II aufgeführten Anforderungen be-
rücksichtigen
58
. Allerdings ist die Umsetzung nur für staatliche Stellen bis 2012 vor-
geschrieben, Kommunen wird die Umsetzung lediglich empfohlen. Die Stadt Nürn-
berg versucht seit 2005 ihre Informationsangebote möglichst barrierefrei zu gestal-
ten.
52
Für ausführliche Literatur zu dem Thema sei auf [Clark2003] und [Pilgrim2002] verwiesen. Eine
kurze Zusammenstellung von Heuristiken bietet [Meiert2004].
53
[BGG2002]
54
[BGG2002], § 1
55
[BITV2002]
56
[BayBGG2003], Artikel 13, Absatz 1
57
[BayBITV2006]
58
[BayBITV2006], §2

2 Grundlagen
38
Da die Empfehlungen der WCAG 1.0 und damit die der BITV veraltet sind, und sie
für Kommunen nur eine Empfehlung darstellen, werden in dem späteren Kapitel zur
Barrierefreiheit im Wesentlichen die BIENE-Kriterien berücksichtigt.

3 Suchlösung der Stadt Nürnberg ­ der Ist-Stand
39
3
Suchlösung der Stadt Nürnberg ­ der Ist-Stand
Das Internetportal der Stadt Nürnberg besteht aus einem Hauptportal
59
, das in vier
Bereiche gegliedert ist und aus ca. 150 einzelnen Seiten besteht. Die Bereiche rich-
ten sich jeweils an eine bestimmte Interessensgruppe: ,,Stadt und Bürger" für Bürger
der Stadt, die Dienstleistungen der Ämter in Anspruch nehmen wollen. ,,Reiseziel
Nürnberg" bietet touristische Informationen zu Sehenswürdigkeiten, Übernachtungs-
möglichkeiten und zur Anreise. ,,Kultur und Freizeit" listet Angebote zu Kultur, Aus-
flugsziele, Gastronomie, Sport und Shopping auf und ,,Wirtschaft und Innovation"
bietet Informationen zu Wirtschaft, Arbeitsmarkt, Verkehr und Hochschullandschaft.
Die einzelnen Seiten des Portals bestehen meistens aus erläuternden Texten und
Links zu den spezifischen Seiten außerhalb des Hauptportals. Daneben existieren
sehr viele Einzelauftritte
60
von Dienststellen, Referaten und für spezielle Veranstal-
tungen, die vom Online-Büro der Stadt Nürnberg administriert werden.
Das Portal ist mit der Content-Management-Software (CMS) Imperia
61
der Imperia
AG realisiert. Ein Teil der Einzelauftritte sind sogenannte Miniwebs, diese werden
ebenfalls über Imperia gepflegt. Daneben werden vor allem ältere Einzelauftritte und
Angebote über ganz verschiedene Schnittstellen und Programme gepflegt. Diese
sollen nach und nach in Miniwebs umgewandelt werden. Darüber hinaus gibt es
noch externe Webseiten, die für die Besucher des Internetportals der Stadt Nürnberg
von Interesse sind, ein Beispiel ist die Seite des ,,Airport Nürnberg".
In einer vorhergehenden Diplomarbeit wurde die Suche in den Internetseiten, die bis
vor kurzem über einen externen Dienstleister (Abacho) durchgeführt wurde, auf ein
intern verwaltetes System (e:IAS) umgestellt, das jedoch erst im April 2007 komplett
freigeschaltet wurde. Diese Diplomarbeit befasst sich vor allem mit Verbesserungen
an dem neuen System.
59
http://www.nuernberg.de
60
In der aktuellen e:IAS Suche sind 116 einzelne Domains aufgelistet (April 2007)
61
http://www.imperia.net/

3 Suchlösung der Stadt Nürnberg ­ der Ist-Stand
40
3.1 Abacho
Bis zum 31. März 2007 wurden für Suchanfragen das Produkt ,,ABACHO site-
Search"
62
der ABACHO AG verwendet, einzelne Suchfunktionen, die nur Teile des
Webportals umfassten, wurden schon ab Dezember 2006 zu e:IAS migriert und frei-
geschaltet. ,,ABACHO siteSearch" ist kostenpflichtig; die Stadt Nürnberg musste für
die Nutzung monatliche Lizenzgebühren zahlen.
SiteSearch wird über eine Weboberfläche administriert. Hier kann man die URLs
festlegen, die der Spider durchsuchen soll, verschiedene HTML-Templates einrich-
ten, die das Aussehen der Ergebnisseiten festlegen sowie statistische Auswertun-
gen
63
ansehen.
Bei der Abacho-Suche waren 147 ,,Start URLs" definiert, teilweise waren sie doppelt
angelegt oder verschiedene Domains für dieselbe Seiten eingetragen. Für jede URL
kann der Zeichensatz der Zielseiten und die Anzahl der zu durchsuchenden Seiten
vorgegeben werden. So wurde bei externen Seiten
64
nur die Einstiegsseite durch-
sucht. Es können HTML-, TXT-, PDF- und Office-Dateiformate indexiert werden.
Auch eine Synonymwortliste ist bei Abacho vorhanden, die manuell gepflegt werden
muss. Hier waren 49 Synonymwortpaare eingetragen, die aus den statistischen Da-
ten gewonnen worden waren, indem nach oft gesuchten Begriffen, die wenig Ergeb-
nisse geliefert hatten, gefiltert worden war.
Um das Webangebot nur teilweise zu durchsuchen, sind 5 Templates eingerichtet,
die jeweils lediglich einzelne Bereiche durchsuchen (Teilsuche), außerdem ist je ein
Template für die Gesamtsuche in deutscher und englischer Sprache vorhanden.
Allerdings ist nur das Layout in der entsprechenden Sprache gehalten, eine Unter-
scheidung der Suchergebnisse nach Sprachen findet nicht statt.
Bei der statistischen Auswertung sind Grafiken und Zahlenwerte zur Verteilung der
Anfragen über einzelne Tage und Monate vorhanden, wobei allerdings nicht zwi-
schen Anfragen für die Gesamtsuche bzw. Teilsuche unterschieden werden kann.
Für Werbe- oder Informationszwecke ist die Funktion ,,Sponsored Links" eingerichtet.
Hier können zu bestimmten Schlagwörtern Links und Beschreibungen zu externen
Seiten angegeben werden. Diese Funktion wurde für 14 Verlinkungen genutzt, teil-
62
http://www.abacho.net/de/produkte/sitesearch.html
63
Siehe Kapitel 6.1.1, Seite 91, für eine Auswertung des Benutzerverhaltens
64
Z. B. http://www.gruene-stadtratsfraktion.nuernberg.de/ oder http://www.christkindlesmarkt.de/

3 Suchlösung der Stadt Nürnberg ­ der Ist-Stand
41
weise zahlen Unternehmen für die Platzierung der Links. Für weitere Informationen
zur Abacho-Suche sei auf die Diplomarbeit von Marek Ertel
65
verwiesen.
3.2 E:IAS
In der vorausgehenden Diplomarbeit wurde eine Suchmaschine auf Basis des Pro-
duktes ,,empolis:Information Access Suite" (e:IAS) der Fa. empolis GmbH realisiert.
Im Folgenden wird dargestellt, wie das System aufgebaut ist.
3.2.1 Systemaufbau
CaseProvider
Webserver
OrengeGate
Index
Konfigurations
-dateien
Prozessmanager
Webseite -
Ergebnis
Webseite -
Anfrage
startPM
Logfile
StorageHTTP
Prozessmanager
buildIndex
Webseiten
caseProvider
Indexierung
Ergebnisauslieferung
Abbildung 16: Systemaufbau e:IAS
65
Siehe [Ertel2006], Kapitel 4

3 Suchlösung der Stadt Nürnberg ­ der Ist-Stand
42
In Abbildung 16 erkennt man den grundsätzlichen Systemaufbau von e:IAS, dabei
sind die zwei Funktionen Indexierung und Ergebnissauslieferung in einer Grafik dar-
gestellt. Der linke Teil ist für die Indexierung der Internetseiten verantwortlich und der
rechte Teil für das Finden und Ausliefern der Suchergebnisse. Wenn auf den Index
zugegriffen wird, ist dieser gesperrt, daher kann immer nur ein Teil des Prozesses
aktiv sein, also entweder die Indexerstellung oder das Auslesen von Suchergebnis-
sen. Damit Suchanfragen trotzdem immer beantwortet werden können und es nicht
zu einer Ausfallzeit bei der Aktualisierung des Indexes kommt, ist das ganze System
doppelt vorhanden. Das komplette System ist in der Programmiersprache JAVA imp-
lementiert.
In der Abbildung sind die Prozesse als Rechtecke dargestellt, die Ellipsen stehen für
Shell-Skripte und die Dokumentensymbole für Dateien.
3.2.1.1 Indexierung
Die Indexierung wird über das BuildIndex-Skript angestoßen. Dieses startet das Ca-
seProvider-Skript, das wiederum einen internen Prozessmanager (PM) startet. Die-
ser Prozessmanager ist das Herzstück der Such- und Indexierfunktion. Beim Indexie-
ren steuert der Prozessmanager das StorageHTTP-Modul, das den eigentlichen
Spider darstellt, der die Webseiten besucht und die Daten an den Prozessmanager
übergibt, der diese dann im Index abspeichert.
3.2.1.2 Ergebnissauslieferung
Über das Skript ,,StartPM" wird der Prozessmanager gestartet. Um starten zu können
muss das Modul StorageHTTP laufen, das aber eigentlich nicht benötigt wird und
auch beendet werden könnte, wenn der Prozessmanager läuft. Eine Suchanfrage
wird von einem Benutzer an das OrengeGate-Modul geschickt, das über die CGI-
Schnittstelle
66
des Webservers angebunden ist. Das Modul schickt die Anfrage an
den Prozessmanager, der sie bearbeitet, die Ergebnisse aus dem Index holt und das
Ganze zurück an das OrengeGate-Modul schickt. Dieses liefert dann die Ergebnisse
als Webseite an den Benutzer zurück.
Die komplette Kommunikation zwischen den Modulen läuft über TCP/IP
67
.
66
CGI heißt ,,Common Gateway Interface" und ist ein Standard für den Datenaustausch zwischen
einem Webserver und dritter Software, die Anfragen bearbeitet.
67
TCP/IP steht für ,,Transmission Control Protocol / Internet Protocol", ein Standard in der Netzwerk-
technik.

3 Suchlösung der Stadt Nürnberg ­ der Ist-Stand
43
3.2.2 Konfiguration
Die Konfiguration von e:IAS wird über einen mitgelieferten grafischen Editor ausge-
führt, der sich Creator nennt und als Eclipse-Plugin ebenfalls in JAVA implementiert
ist. In Abbildung 17 ist der Pipeline-Editor abgebildet; theoretische ist es auch mög-
lich die XML-Konfigurationsdateien direkt zu editieren.
Abbildung 17: Grafischer Editor ,,Creator"
68
3.2.3 Such- und Indexierungsablauf
Die Software e:IAS benutzt ,,Fallbasiertes Schließen" (engl. case-based reasoning,
kurz CBR) um Informationen zu finden. Dabei werden die einzelnen Dokumente (z.
B. Webseiten) als Fälle in die Fallbasis, nämlich in den Index, eingefügt. Wenn eine
68
Quelle: e:IAS Creator

Details

Seiten
Erscheinungsform
Originalausgabe
Erscheinungsjahr
2007
ISBN (eBook)
9783836607612
DOI
10.3239/9783836607612
Dateigröße
3.6 MB
Sprache
Deutsch
Institution / Hochschule
Georg-Simon-Ohm-Hochschule Nürnberg – Informatik, Wirtschaftsinformatik
Erscheinungsdatum
2007 (Dezember)
Note
1,1
Schlagworte
nürnberg portal internet information retrieval barrierefreiheit suchmaschine webportal semantische suche
Produktsicherheit
Diplom.de
Zurück

Titel: Barrierefreie und thesaurusbasierte Suchfunktion für das Webportal der Stadt Nürnberg
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
book preview page numper 26
book preview page numper 27
book preview page numper 28
book preview page numper 29
book preview page numper 30
book preview page numper 31
book preview page numper 32
book preview page numper 33
book preview page numper 34
book preview page numper 35
book preview page numper 36
book preview page numper 37
book preview page numper 38
book preview page numper 39
book preview page numper 40
193 Seiten
Cookie-Einstellungen