Barrierefreie und thesaurusbasierte Suchfunktion für das Webportal der Stadt Nürnberg

Wagner, Stefan

Barrierefreie und thesaurusbasierte Suchfunktion für das Webportal der Stadt Nürnberg

Zusammenfassung

Inhaltsangabe:Einleitung:
Im Internetportal der Stadt Nürnberg wurde in einer vorausgehenden Diplomarbeit eine Suchmaschine auf Basis des Produktes e:IAS der Fa. empolis GmbH realisiert. Diese Lösung soll in verschiedenen Bereichen verbessert und erweitert werden.
Es sollen aussagekräftige Logfiles generiert und ausgewertet werden, insbesondere sollen die Auswertungen mit denen der vorhergehenden Suchlösung vergleichbar sein.
Bei der Ergebnispräsentation sollen die Erfordernisse der Barrierefreiheit beachtet werden und die vorhandenen Templates entsprechende Anpassung erfahren.
Die Lösung soll um Ansätze semantischer Suche erweitert werden. Es ist angedacht die vorhandene Synonymverwendung auszubauen und um Taxonomien zu einem Theasurus zu erweitern. Dabei sollen verschiedene Möglichkeiten untersucht werden und eine Möglichkeit, mindestens prototypisch, integriert werden. Inhaltsverzeichnis:Inhaltsverzeichnis:
Kurzfassung2
Inhaltsverzeichnis3
Abbildungsverzeichnis6
Tabellenverzeichnis8
Formelverzeichnis8
1.Motivation9
2.Grundlagen10
2.1Textbasierte Suche10
2.2Taxonomien und Thesauri13
2.2.1Was sind Taxonomien und Thesauri13
2.2.2Semantische Suche mittels Thesauri17
2.2.3Taxonomiebasierte Ähnlichkeitsmaße18
2.2.3.1Pfadlänge18
2.2.3.2Normalisierte Pfadlänge19
2.2.3.3Dichte des Zweigs19
2.2.3.4Extended gloss overlaps measure20
2.2.3.5Maß basierend auf Informationsgehaltswert des Konzepts20
2.2.3.6Maß basierend auf knoten- und kantenbasierten Techniken21
2.2.3.7Maß abgeleitet aus der Informationstheorie22
2.2.3.8Vergleich22
2.2.4RDF-basierte Thesaurusrepräsentation: SKOS23
2.3Barrierefreiheit von Webanwendungen30
2.3.1Allgemeine Regelungen31
2.3.2Rechtliche Regelungen33
3.Suchlösung der Stadt Nürnberg - der Ist-Stand34
3.1Abacho35
3.2E:IAS36
3.2.1Systemaufbau36
3.2.1.1Indexierung37
3.2.1.2Ergebnissauslieferung37
3.2.2Konfiguration38
3.2.3Such- und Indexierungsablauf38
3.2.4Verbesserungspotentiale44
4.Thesaurusbasierte Suche46
4.1Ist-Stand46
4.2Realisierte Systemerweiterungen46
4.2.1Ähnlichkeitsmaße in e:IAS46
4.2.1.1Taxonomieähnlichkeitsmaß: Taxonomie46
4.2.1.2Taxonomieähnlichkeitsmaß TaxonomiePfad51
4.2.2Mögliche Thesauri und Datenquellen52
4.2.2.1WikiSaurus in Wiktionary53
4.2.2.2OmegaWiki53
4.2.2.3OpenThesaurus54
4.2.2.4Getty Thesaurus of Geographic Names54
4.2.2.5Projekt Deutscher Wortschatz54
4.2.2.6HUGO55
4.2.2.7GEMET Thesaurus56
4.2.2.8Eurovoc Thesaurus57
4.2.3Beispielhafte Einbindung von […]

Leseprobe

Inhaltsverzeichnis

Stefan Wagner

Barrierefreie und thesaurusbasierte Suchfunktion für das Webportal der Stadt

Nürnberg

ISBN: 978-3-8366-0761-2

Druck Diplomica® Verlag GmbH, Hamburg, 2008

Zugl. Georg-Simon-Ohm-Fachhochschule Nürnberg, Nürnberg, Deutschland,

Diplomarbeit, 2007

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,

insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von

Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der

Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,

bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik

Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich

vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des

Urheberrechtes.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in

diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,

dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei

zu betrachten wären und daher von jedermann benutzt werden dürften.

Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können

Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die

Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine

Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.

http://www.diplomica.de, Hamburg 2008

Printed in Germany

Kurzfassung

Kurzfassung

Im Internetportal der Stadt Nürnberg wurde in einer vorausgehenden Diplomarbeit

eine Suchmaschine auf Basis des Produktes e:IAS der Fa. empolis GmbH realisiert.

Diese Lösung soll in verschiedenen Bereichen verbessert und erweitert werden.

Es sollen aussagekräftige Logfiles generiert und ausgewertet werden, insbesondere

sollen die Auswertungen mit denen der vorhergehenden Suchlösung vergleichbar

sein.

Bei der Ergebnispräsentation sollen die Erfordernisse der Barrierefreiheit beachtet

werden und die vorhandenen Templates entsprechende Anpassung erfahren.

Die Lösung soll um Ansätze semantischer Suche erweitert werden. Es ist angedacht

die vorhandene Synonymverwendung auszubauen und um Taxonomien zu einem

Thesaurus zu erweitern. Dabei sollen verschiedene Möglichkeiten untersucht werden

und eine Möglichkeit, mindestens prototypisch, integriert werden.

Inhaltsverzeichnis

Inhaltsverzeichnis

Kurzfassung... 1

Inhaltsverzeichnis ... 3

Abbildungsverzeichnis ... 7

Tabellenverzeichnis ... 9

Formelverzeichnis... 9

Motivation ... 11

Grundlagen ... 13

2.1

Textbasierte Suche ... 13

2.2

Taxonomien und Thesauri ... 16

2.2.1 Was sind Taxonomien und Thesauri ... 16

2.2.2 Semantische Suche mittels Thesauri ... 22

2.2.3 Taxonomiebasierte Ähnlichkeitsmaße... 22

2.2.3.1 Pfadlänge ... 23

2.2.3.2 Normalisierte Pfadlänge ... 23

2.2.3.3 Dichte des Zweigs ... 24

2.2.3.4 Extended gloss overlaps measure... 24

2.2.3.5 Maß basierend auf Informationsgehaltswert des Konzepts ... 25

2.2.3.6 Maß basierend auf knoten- und kantenbasierten Techniken. 25

2.2.3.7 Maß abgeleitet aus der Informationstheorie ... 26

2.2.3.8 Vergleich... 27

2.2.4 RDF-basierte Thesaurusrepräsentation: SKOS... 27

2.3

Barrierefreiheit von Webanwendungen... 34

2.3.1 Allgemeine Regelungen ... 35

2.3.2 Rechtliche Regelungen ... 37

Suchlösung der Stadt Nürnberg der Ist-Stand ... 39

3.1

Abacho... 40

3.2

E:IAS... 41

3.2.1 Systemaufbau... 41

3.2.1.1 Indexierung... 42

3.2.1.2 Ergebnissauslieferung ... 42

3.2.2 Konfiguration ... 43

3.2.3 Such- und Indexierungsablauf ... 43

Inhaltsverzeichnis

3.2.4 Verbesserungspotentiale ... 50

Thesaurusbasierte Suche ... 53

4.1

Ist-Stand... 53

4.2

Realisierte Systemerweiterungen... 53

4.2.1 Ähnlichkeitsmaße in e:IAS ... 53

4.2.1.1 Taxonomieähnlichkeitsmaß: Taxonomie... 54

4.2.1.2 Taxonomieähnlichkeitsmaß TaxonomiePfad ... 58

4.2.2 Mögliche Thesauri und Datenquellen... 60

4.2.2.1 WikiSaurus in Wiktionary ... 60

4.2.2.2 OmegaWiki ... 60

4.2.2.3 OpenThesaurus ... 61

4.2.2.4 Getty Thesaurus of Geographic Names... 61

4.2.2.5 Projekt Deutscher Wortschatz... 61

4.2.2.6 HUGO ... 62

4.2.2.7 GEMET Thesaurus ... 64

4.2.2.8 Eurovoc Thesaurus... 64

4.2.3 Beispielhafte Einbindung von Thesauri... 65

4.2.3.1 Ein XML-Thesaurus - Eurovoc ... 67

4.2.3.2 Ein SKOS-Thesaurus GEMET ... 68

4.2.4 Gewichtung von Attributen und Synonymen ... 69

4.2.4.1 Gewichtswerte der Taxonomieähnlichkeit... 70

4.2.4.2 Änderung der Gewichtsfaktoren... 70

4.2.4.3 Berechnung der globalen Ähnlichkeit... 71

4.3

Analyse der Suchergebnisse... 74

Barrierefreie Präsentation der Suchergebnisse... 77

5.1

Ist-Stand... 77

5.2

Realisierte Systemerweiterung... 78

5.2.1 Zugriff auf die Ergebnisdaten ... 78

5.2.2 Aufbau der GUI ... 79

5.2.2.1 Verfügbare e:Script Tags ... 79

5.2.2.2 Gliederung der Seite ... 79

5.2.2.3 Umsetzung der Navigation... 81

5.2.3 Verwandte Links ... 86

Logdateiauswertung... 91

6.1

Ist-Stand... 91

6.1.1 Analyse des Benutzerverhaltens... 91

6.1.2 Anforderungen an die Logdateiauswertung ... 95

6.2

Realisierte Systemerweiterung... 95

Inhaltsverzeichnis

6.2.1 Erzeugung der Logdateien in e:IAS... 95

6.2.2 Datenschutz... 99

6.2.3 Umwandlung der Logdatei mit Shell-Skripten... 99

6.2.4 Prototyp einer Logdateianalyse in Perl ... 100

6.2.4.1 Sicherheit der Anwendung... 101

6.2.4.2 Datenbankstruktur ... 101

6.2.4.3 Einlesen der Logdateien... 103

6.2.4.4 Auswertung der Logdaten... 104

6.2.5 Stresstest... 109

Ausblick ... 111

Literaturverzeichnis ... 113

Anhang ... 117

Abbildungsverzeichnis

Abbildungsverzeichnis

Abbildung 1: Auszug aus dem Eurovc-Thesaurus... 19

Abbildung 2: Beziehung BF und BS ... 20

Abbildung 3: Beziehung UB und OB ... 20

Abbildung 4: Beziehung VB... 21

Abbildung 5: Beispiel für Maß basierend auf knoten- und kantenbasierten

Techniken ... 26

Abbildung 6: RDF-Graph... 28

Abbildung 7: Beispiel aus dem UK Archival Thesaurus (UKAT)... 29

Abbildung 8: Darstellung der SKOS Relationen ... 29

Abbildung 9: Darstellung von ,,skos:Conzept"... 30

Abbildung 10: RDF-Beispiel zu ,,skos:Concept"... 30

Abbildung 11: Graph zu prefLabel, altLabel und Sprachkennzeichnung ... 31

Abbildung 12: RDF-Syntax zu prefLabel, altLabel und Sprachkennzeichnung 31

Abbildung 13: ,,skos-changeNote" mit Verzweigung... 32

Abbildung 14: Ober- und Unterbegriffe mit SKOS ... 33

Abbildung 15: RDF-Repräsentation der Ober- und Unterbegriffe... 33

Abbildung 16: Systemaufbau e:IAS... 41

Abbildung 17: Grafischer Editor ,,Creator" ... 43

Abbildung 18: DataPipeline und InsertCasePipeline - Einfügen von Fällen in

den Index (Insert)... 44

Abbildung 19: Auszug aus dem Index ... 48

Abbildung 20: SuchPipeline - Passende Dokumente zu Anfragen finden

(Retrieval) ... 48

Abbildung 21: Ordnungsbaum im Model Manager des Creators... 54

Abbildung 22: Ähnlichkeitsmaß Taxonomie - Anfrage: Optimistisch, Fall:

Pesimistisch... 57

Abbildung 23: Ähnlichkeitsmaß Taxonomie links: Anfrage: Pessimistisch,

Fall: Pesimistisch; rechts: Anfrage: Optimistisch, Fall: Optimistisch ... 57

Abbildung 24: Ähnlichkeitsmaß TaxonomiePfad - Ähnlichkeiten zu Knoten

K41 59

Abbildung 25: Beispielhafter Pfad der HUGO Navigation... 63

Abbildung 26: Analysemöglichkeit 1... 65

Abbildung 27: Analysemöglichkeit 2... 66

Abbildung 28: Benutzeroberfläche von Twinkle... 69

Abbildung 29: Ähnlichkeiten in der Eurovoc-Taxonomie ... 70

Abbildung 30: Vergleich der Suchergebnisse (Ausschnitt)... 75

Abbildung 31: Gliederung der Ergebnisseite ... 80

Abbildung 32: Ausgabe verschiedener Ergebnisse ... 81

Abbildungsverzeichnis

Abbildung 33: Aufbau der Navigation (Auszug für 4 Seiten) ... 83

Abbildung 34: Navigationslinks (ohne JavaScript) ... 84

Abbildung 35: Quelltextauszug für die dritte Navigationsseite ... 85

Abbildung 36: Navigationslinks (JavaScript) ... 86

Abbildung 37: Verwandte Links ... 87

Abbildung 38: Verwandte Links Initialisierungsregel... 88

Abbildung 39: Verwandte Links - Altstadtfreunde (gekürzt) ... 89

Abbildung 40: Ausgabe der Verwandten Links ... 89

Abbildung 41: Verteilung der gesamten Anfragen pro Monat. Die Werte sind

normalisiert... 91

Abbildung 42: Altes Layout des Webportals der Stadt Nürnberg ... 92

Abbildung 43: Neues Layout des Webportals der Stadt Nürnberg... 92

Abbildung 44: Suchpipeline - links: ursprüngliche Anordnung, rechts: neue

Anordnung... 96

Abbildung 45: Regelsatz 1 (Vervollständigungsregeln) ... 97

Abbildung 46: Regelsatz 2 (Anpassungsregeln) ... 97

Abbildung 47: Logdatei von e:IAS... 98

Abbildung 48: Umgewandeltes Logfile... 100

Abbildung 49: Datenbankstruktur... 103

Abbildung 50: e:IAS Logfile-Auswertung... 105

Abbildung 51: Ausgabe der Suchwörter ... 106

Abbildung 52: Ausgabe der Suchphrasen... 107

Abbildung 53: Ausgabe von Daten zu Anfragehäufigkeit... 108

Tabellenverzeichnis

Tabellenverzeichnis

Tabelle 1: IDF-Werte ... 15

Tabelle 2: TF-Wert ... 15

Tabelle 3: TF/IDF-Werte... 15

Tabelle 4: Kürzel und Bezeichnungen in Thesauri ... 21

Tabelle 5: Datentypen der Attribute... 46

Tabelle 6: Attribute ... 47

Tabelle 7: Beispielhafte Anfragen und ihre Ähnlichkeitswerte... 56

Tabelle 8: Schlagwörter aus der HUGO Navigation ... 63

Tabelle 9: Dateien des eurovoc-Thesaurus... 67

Tabelle 10: Dateien des GEMET-Thesaurus... 68

Tabelle 11: Attribute, Gewichte und Ähnlichkeitsmaß ... 70

Tabelle 12: Lokale und Globale Ähnlichkeit (Relevanz) ... 73

Tabelle 13: Vergleich von Abacho und Empolis ... 76

Tabelle 14: Zusammenfassung der BIENE-Kriterien Auswertung ... 77

Tabelle 15: e:Script Tags ... 79

Tabelle 16: Top-Suchanfragen ... 94

Tabelle 17: Suchwörter mit wenigen Ergebnissen (<10 Ergebnisse im

Durchschnitt)... 94

Formelverzeichnis

Formel 1: Inverse Dokumenthäufigkeit des Terms i ... 14

Formel 2: Termfrequenz des Terms i im Dokument d ... 14

Formel 3: Pfadlänge ... 23

Formel 4: Normalisierte Pfadlänge ... 23

Formel 5: Extended gloss overlaps measure ... 24

Formel 6: Ähnlichkeitsmaß basierend auf Informationsgehalt ... 25

Formel 7: Ähnlichkeitsmaß basierend auf Knoten und Kanten... 25

Formel 8: Ähnlichkeitsmaß abgeleitet aus der Informationstheorie ... 26

Formel 9: Berechnung des globalen Maximums ... 72

Formel 10: Globales Maximum: Euklidischer Abstand nach Dokumentation... 72

Formel 11: Globales Maximum: Euklidischer Abstand ... 73

1 Motivation

1 Motivation

Das Schwerste: Immer wieder entdecken, was man ohnehin weiß.

In dem Webportal der Stadt Nürnberg ist Wissen zu vielen verschiedenen Themen

auf unzähligen Seiten gespeichert. Doch dieses Wissen ist nutzlos, wenn man es

nicht findet. Diese Diplomarbeit soll dazu beitragen, dass die Informationen, die ein

Besucher des Webportals sucht, von ihm auch gefunden werden.

Diese Arbeit baut auf der Diplomarbeit von Marek Ertel

auf und führt dessen Thema

weiter. Neben der produktiven Inbetriebnahme der Suchmaschine auf Basis des

Produktes e:IAS der Fa. empolis GmbH besteht die Arbeit aus drei Themen:

· Es sollen aussagekräftige Logfiles generiert und ausgewertet werden.

· Bei der Ergebnispräsentation sollen die Erfordernisse der Barrierefreiheit be-

achtet werden.

· Thesauri sollen die Lösung um Ansätze semantischer Suche erweitern.

Elias Canetti (1905 - 1994), Schriftsteller spanisch-jüdischer Herkunft

Siehe [Ertel2006]

2 Grundlagen

2 Grundlagen

Dieses Kapitel soll einige Grundlagen klären, die für die vorliegende Diplomarbeit

benötigt werden.

2.1 Textbasierte

Suche

Die einfachste Suchmöglichkeit, um passende Dokumente zu finden, ist der Ver-

gleich der Wörter in der Anfrage mit den Wörtern im Dokument; je mehr Wörter der

Anfrage im Dokument vorhanden sind, desto relevanter ist es für den Benutzer. Um

mehr Ergebnisse zu erzielen, können die Wörter vorher auf ihre Grundformen zu-

rückgeführt werden, so wird z. B. ,,ging" zu ,,gehen" und ,,Häuser" zu ,,Haus". Diesen

Vorgang nennt man Stemming.

Allerdings ist diese Methode zunächst nicht sehr gut geeignet, um die Relevanz ei-

nes Dokuments zu bestimmen, da beispielsweise nicht berücksichtigt wird, wie häufig

das gesuchte Wort allgemein im Sprachgebrauch vorkommt. So ist z. B. ,,nicht" das

16-häufigste Wort im Deutschen

, es wird also in vielen Dokumenten der Suchbasis

vorkommen und ist somit als Suchbegriff wesentlich schlechter geeignet als ein Wort,

das nur selten verwendet wird. Wie relevant ein Dokument als Ergebnis einer Suche

ist, hängt weiterhin sicher davon ab, wie häufig ein Suchbegriff in dem Dokument

enthalten ist.

Beide Überlegungen werden mit dem Suchverfahren TF/IDF (Term Frequency / In-

verted Document Frequency) verfolgt. Über die inverse Dokumenthäufigkeit (engl.

IDF) bekommt ein Term, also ein Wort, das nur in wenigen Dokumenten der Doku-

mentenbasis vorkommt, einen höheren Wert als ein Wort, das in vielen Dokumenten

der Dokumentenbasis erscheint. Formel 1 ist die dazugehörige Berechnungsfunktion,

sie kann reelle Werte größer Null annehmen.

Vgl. [Wortschatz]

2 Grundlagen

idf

log

mit N

Anzahl aller Dokumente

Anzahl der Dokumente die Term i beinhalten

Formel 1: Inverse Dokumenthäufigkeit des Terms i

Die Termfrequenz (TF) gibt die relative Häufigkeit eines Wortes bzw. Terms in einem

bestimmten Dokument an (siehe Formel 2). Sie kann Werte zwischen Null und Eins

annehmen.

freq

max

mit freq

i,d

Häufigkeit des Terms i im Dokument i

max

freq

l,d

Häufigkeit des häufigsten Terms l im Dokument i

Formel 2: Termfrequenz des Terms i im Dokument d

TF/IDF ist das Produkt aus Termfrequenz und inverser Dokumenthäufigkeit und so-

mit kann die Relevanz eines Dokuments zu einer Suchanfrage berechnet werden.

Folgendes Beispiel soll die Berechnung erläutern:

Das Dokument d

enthält die Wörter ,,Stadt Nürnberg", das zweite Dokument d

,,Stadt Schwabach" und das dritte (d

) ,,Landkreis Fürth". Zuerst werden die Terme in

Kleinbuchstaben umgewandelt und Umlaute durch ihre Umschreibung ersetzt. Da-

nach erfolgt die Berechnung der IDF-Werte (siehe Tabelle 1).

Vgl. [Ertel2006], Kapitel 2.4.2, S. 14 f

2 Grundlagen

idf

stadt

log = 0,176

schwabach

log = 0,176

fuerth

log = 0,477

nuernberg

log = 0,477

landkreis

log = 0,477

Tabelle 1: IDF-Werte

Ebenso werden die TF-Werte aller Terme berechnet (siehe Tabelle 2).

stadt

1 1 0

schwabach

0 1 0

fuerth

0 0 1

nuernberg

1 0 0

landkreis

0 0 1

Tabelle 2: TF-Wert

Aus diesen Werten lassen sich dann die TF/IDF-Werte berechnen (siehe Tabelle 3),

die einzelnen Spalten der Tabelle lassen sich nun auch als Gewichtsvektor des je-

weiligen Dokuments lesen.

stadt

0,176 0,176 0

schwabach

0 0,477

fuerth

0 0 0,477

nuernberg

0,477 0

landkreis

0 0 0,477

Tabelle 3: TF/IDF-Werte

Wird nun eine Anfrage q mit dem Term ,,Stadt Nürnberg" übermittelt, wird wieder wie

oben der TF/IDF-Wert berechnet und als Anfragevektor bekommt man q = (0,176,

0,477, 0,0,0). Durch den direkten Vergleich sieht man, dass das Dokument d

exakt

der Anfrage entspricht, die Ähnlichkeit also 1 ist, zum Dokument d

besteht gar keine

Übereinstimmung, also eine Ähnlichkeit von 0 und zum Dokument d

besteht nur eine

2 Grundlagen

teilweise Ähnlichkeit. Würde man die Werte in eine Berechnungsfunktion für die Grö-

ße der Ähnlichkeit einsetzten, auf die hier nicht weiter eingegangen wird (eine abge-

wandelte Form des Kosinusmaßes), würde man eine 35-prozentige Ähnlichkeit erhal-

ten.

Diese Form der Relevanzbestimmung wurde in einer Vorgängerdiplomarbeit in die

e:IAS Suche integriert, die vorliegende Arbeit wird die Einbindung und Verwendung

von Thesauri zur Relevanzbestimmung untersuchen.

2.2 Taxonomien und Thesauri

2.2.1 Was sind Taxonomien und Thesauri

Ein Thesaurus, im Sinne der Information und Dokumentation, ist nach DIN 1463-1

(bzw. ISO 2788) Teil eines Informationsystems. Seine wesentlichen Anwendungen

lassen sich wie folgt darstellen:

Die wesentlichen Inhalte einer Wissensquelle werden mit einem Thesaurus deskri-

biert (erschlossen), dies geschieht durch die sogenannte Indexierung. Das Indexie-

rungsergebnis ist eine Liste natürlichsprachiger Wörter, die nicht frei wählbar sind,

sondern nach bestimmten Regeln einem Thesaurus entnommen werden müssen.

Bei dem Information Retrieval (Informationswiedergewinnung) dient der Thesaurus

der Suche nach relevanten Wissensquellen (Dokumenten), indem sich der Nutzer

der indexierten Wörter bedient. Da der Thesaurus diese Wörter gleichzeitig auch

miteinander in Beziehung setzt, kann dieses Beziehungsgeflecht auch als Suchhilfe

(Pfad) genutzt werden.

Thesauri werden immer auf Basis einer Wissenssammlung erstellt. Weltweit dürfte es

mehrere Tausend Thesauri geben, die alle auf bestimmte Fachgebiete ausgerichtet

sind. Der ,,Thesaurus Guide" verzeichnete 1993 rund 600 aktiv genutzte Thesauri in

unterschiedlichen natürlichen Sprachen

Ein Thesaurus enthält ein ,,kontrolliertes Vokabular", also eine eindeutige Benennung

für jeden Begriff (Deskriptor oder Schlagwort) diese Benennung kann, wenn der

Thesaurus elektronisch verarbeitet wird, auch vollkommen abstrakt sein (z. B. eine

Vgl. [Ertel2006], Kapitel 2.4.2 S. 16 f

[DIN1463-1]

[Eurobrokers1992]

2 Grundlagen

laufende Nummer), deswegen spricht man hier auch von einem Konzept. Oft nimmt

man aber dennoch eine natürlichsprachige Vorzugsbezeichnung, den Deskriptor. Da

eine Eindeutigkeit in der natürlichen Sprache jedoch nicht gegeben ist, werden au-

ßerdem Äquivalenzrelationen eingefügt. So ist die Synonymie die Gleichheit oder

auch nur große Ähnlichkeit der Bedeutung von unterschiedlichen Wörtern. Zu einem

Deskriptor können also beliebig viele Synonyme in Beziehung gebracht werden.

Gleiches gilt für Wörter, die unterschiedliche Schreibweisen besitzen, hier werden

alle Möglichkeiten als Synonym-Beziehung angegeben; wichtig ist das insbesondere,

wenn man eine Wissensbasis indexieren will, in der Dokumente in neuer und alter

deutscher Rechtschreibung vorhanden sind. Auch Abkürzungen und eventuell Über-

setzungen können so behandelt werden.

Schwieriger wird es mit Homonymen oder Polysemen, also Wörtern, die verschiede-

ne Bedeutungen besitzen.

Hier werden die Wörter mehreren Deskriptoren zugeord-

net und gleichzeitig markiert, um ihre Mehrdeutigkeit anzuzeigen. Zur richtigen Ein-

ordnung eines Dokuments muss dann der Kontext angeschaut werden, was bei der

automatischen Verarbeitung Schwierigkeiten macht.

Daneben existieren noch hierarchische Relationen, um auf Hyponyme (Unterbegriffe)

und Hyperonyme (Oberbegriffe) zu verweisen. DIN 1463-1 unterscheidet dabei noch

zwischen generischer Relation, was als ,,eine hierarchische Relation zwischen zwei

Begriffen, von denen der untergeordnete Begriffe (Unterbegriff) alle Merkmale des

übergeordneten Begriffs (Oberbegriff) besitzt und zusätzlich mindestens ein weiteres

spezifizierendes Merkmal"

definiert wird und partitiver Relation, was als ,,eine hierar-

chische Relation zwischen zwei Begriffen, von denen der übergeordnete (weitere)

Begriff (Verbandsbegriff) einem Ganzen entspricht und der untergeordnete (engere)

Begriff (Teilbegriff) einen der Bestandteile dieses Ganzen repräsentiert"

beschrie-

ben wird.

Soll eine Beziehung beschrieben werden, die nicht den bisherigen Definitionen ent-

spricht, existiert noch die Assoziationsrelation, sie ist eine ,,zwischen Begriffen bzw.

ihren Bezeichnungen als wichtig erscheinende Relation, die weder eindeutig hierar-

Besitzen beide Wörter die selben etymologische Wurzeln, spricht man von Polysemie, diese Wörter

haben eine ähnliche Bedeutung (z. B. Pferd als Tier und Turngerät), andernfalls von Homonymie

(z. B. Bank als Sitzmöbel oder Kreditinstitut).

[DIN1463-1], Teil 1

ebenda

2 Grundlagen

chischer Natur ist, noch als äquivalent angesehen werden kann."

Diese schwammi-

ge Definition ist auch die Problematik dieser Beziehung. Sie kann zu einem Sammel-

becken geraten, in das alles hineingenommen wird, was in einem sehr weiten Sinn

mit dem Ausgangsbegriff zu tun hat. Oft entstehen dadurch sehr lange Reihen sol-

cher ,,verwandten Begriffe". Ein Thesaurus sollte aber nicht versuchen, alle mögli-

chen Zusammenhänge auszuweisen, in denen ein Begriff vorkommen kann. Der

Sinn dieser Relation ist vielmehr, ,,zusätzlich zur hierarchischen Struktur Querbezie-

hungen zu anderen, für die Formulierung des Sachverhaltesmöglicherweise geeigne-

ten Deskriptoren anzubieten"

ebenda

[Burkart2004], Kapitel B 2.1.4.4, Seite 149

2 Grundlagen

Abbildung 1: Auszug aus dem Eurovc-Thesaurus

In Abbildung 1 ist ein Auszug aus dem Eurovoc-Thesaurus abgebildet, dabei werden

die Beziehungen des Begriffs ,,Christentum", mit dem Konzeptbezeichner ,,5987" in

das Zentrum gestellt. In Tabelle 4 (Seite 21) sind die wichtigsten Bezeichnungen von

Relationen in Thesauri aufgeführt, im Folgenden werden die DIN-Bezeichnungen

näher erläutert.

Äquivalenzrelationen sollen immer reziprok dargestellt werden, es soll also nicht nur

vom Nicht-Deskriptor (z. B. Synonym) auf den Deskriptor verwiesen werden sondern

2 Grundlagen

auch vom Deskriptor zu allen seinen Nicht-Deskriptoren. Dafür stehen die Beziehun-

gen ,,Benutzt für" (BF) und ,,Benutze Synonym" (BS) (siehe Abbildung 2).

Deskriptor BF Nicht-Deskriptor - Samstag BF Sonnabend

Nicht-Deskriptor BS Deskriptor - Sonnabend BS Samstag

oder

5987 BF Christentum

Christentum BS 5987

Abbildung 2: Beziehung BF und BS

Die beiden Arten der hierarchischen Relationen werden von den meisten Thesauri in

einer allgemeinen hierarchischen Beziehungsart zusammengefasst. Die Beziehung

ist ebenfalls reziprok und wird mit Unterbegriff (UB) und Oberbegriff (OB) bezeichnet

(siehe Abbildung 3).

Oberbegriff UB Unterbegriff - Obstbaum UB Steinobstbaum

Unterbegriff OB Oberbegriff - Steinobstbaum OB Obstbaum

oder

5987 UB 5165

5165 OB 5987

Abbildung 3: Beziehung UB und OB

Auch die Assoziationsbeziehung sollte immer reziprok sein. Hier wird die Bezeich-

nung ,,Verwandter Begriff" (VB) benutzt. In Abbildung 4 wird die Beziehung am Bei-

spiel erläutert.

2 Grundlagen

Deskriptor 1 VB Deskriptor 2 - Obst VB Obstbaum

Deskriptor 2 VB Deskriptor 1 - Obstbaum VB Obst

oder

5987 VB 6545

6545 VB 5987

Abbildung 4: Beziehung VB

Spitzenbegriff (SB) steht schließlich für die Wurzel eine Thesaurus. Dabei kann ein

Thesaurus auch mehrere Teil-Thesauri umfassen, die jeweils einen eigenen Spit-

zenbegriff besitzen. Die Definition (D) liefert schließlich Informationen oder einen

Verwendungshinweis zu dem jeweiligen Begriff.

Thesauri Kürzel und Bezeichnung

DIN 1463-1

ISO 2788

BF - Benutzt für

UF - Used for

BS - Benutze Synonym

USE/SYN Use synonym

OB - Oberbegriff

BT - Broader term

UB - Unterbegriff

NT - Narrower term

VB - Verwandter Begriff

RT - Related term

SB - Spitzenbegriff

TT - Top term

D Definition

SN Scope Note

Tabelle 4: Kürzel und Bezeichnungen in Thesauri

Etwas anders ist ein linguistischer Thesaurus aufgebaut. Statt Begriffen, die aus

bestimmten Themenfeldern stammen wie beim Dokumentations-Thesaurus, werden

hier Wörter mit ähnlicher und verwandter Bedeutung durch Verweise verknüpft. Auf

diese Art von Thesauri wird im Folgenden nicht weiter eingegangen.

Eine Taxonomie ist eine hierarchische Ordnung von Begriffen in einer Baumstruktur.

Ausgehend von einem Wurzelknoten werden in unserem Fall die Deskriptoren als

Knoten und die hierarchischen Beziehungen als Kanten eingefügt. Dabei entspricht

der Spitzenbegriff, solange der Thesaurus nur einen davon enthält, der Wurzel. Sind

mehrer Spitzenbegriffe im Thesaurus vorhanden, müssen ein abstrakter Wurzelkno-

ten und Kanten zu den einzelnen Spitzenbegriffen eingefügt werden. Die Taxonomie

selbst enthält nur die Deskriptoren und die Beziehungen ,,Oberbegriff" bzw. ,,Unter-

begriff", alle anderen Beziehungen müssen auf andere Weise abgebildet werden.

2 Grundlagen

2.2.2 Semantische Suche mittels Thesauri

Bei Suchanfragen, die an eine große und heterogene Suchbasis gestellt werden,

besteht dass Problem, das mit natürlicher Sprache, vor allem durch den Gebrauch

von Synonymen, ein und derselbe Sachverhalt durch verschiedenste Wortkombinati-

onen ausgedrückt werden kann. So besitzen etwa ,,Christentum" und ,,christliche

Kirchen" die gleiche Bedeutung, es werden aber unterschiedliche Worte verwendet.

Um in der Suchbasis alle Dokumente zu einem Thema zu finden, müsste der Anfra-

gende auch alle möglichen Synonyme zu seiner Anfrage ausprobieren.

Ein ähnliches Problem tritt auf, wenn in der Suchbasis keine Dokumente, die das

Wort oder eines seiner Synonyme enthalten, vorhanden sind. Dem Anfragenden

wäre dann unter Umständen auch geholfen, wenn er entweder etwas speziellere

oder etwas genereller Informationen zu seiner Frage bekommen würde. So können

bei einer Anfrage nach ,,Christentum" auch Dokumente die ,,Protestantismus" bzw.

das dazu gehörende Synonym ,,evangelische Kirche" enthalten, interessant sein.

Bei der Semantischen Suche, die auch Assoziativ- oder Synonym-Suche genannt

wird, versucht man, den Sinn eines Wortes, seine Semantik, zu erfassen und Asso-

ziationen zu Worten mit einer gleichen oder ähnlichen Bedeutung herzustellen. Damit

sollen die oben erläuterten Probleme gelöst werden.

Bei dem Aufnehmen der Dokumente in die Suchbasis werden zunächst die einzelnen

Wörter genommen und verglichen, ob sie im Thesaurus enthalten sind. Sind sie als

Synonymbegriff (Nicht-Deskriptor) vorhanden, werden sie durch den Hauptbegriff

(Deskriptor) ersetzt. Bei einer Suchanfrage werden die Wörter der Anfrage ebenfalls

durch ihren Hauptbegriff ersetzt und so können alle Dokumente zum Thema gefun-

den werden. Für die Behandlung der semantischen Ähnlichkeiten, die im Thesaurus

definiert sind, werden sogenannte Ähnlichkeitsmaße verwendet, diese werden im

folgenden Kapitel diskutiert.

2.2.3 Taxonomiebasierte Ähnlichkeitsmaße

Im Folgenden wird eine Auswahl semantischer Ähnlichkeitsmaße für Taxonomien

vorgestellt. Diese Maße werden verwendet, um zu einer Anfrage, die einem Knoten

in der Taxonomie zugeordnet wird, möglichst ähnliche andere Knoten zu finden, die

gespeicherten Fällen, also Dokumenten entsprechen.

2 Grundlagen

2.2.3.1 Pfadlänge

)

(

len

sim

mit

sim

c1,c2

Ähnlichkeit der Konzepte c

und c

len(c

) Länge des kürzesten Pfades zwischen c

und c

Formel 3: Pfadlänge

Wenn alle Äste eines Baumes die gleiche Länge haben, dann ist die Anzahl der zwi-

schen zwei Knoten liegenden Kanten ein Maß für die Ähnlichkeit dieser beiden Kon-

zepte. Das Maß, das normalerweise genutzt wird, ist der kürzeste Pfad zwischen

ihnen.

Da für dieses Konzept aber eine ideale Taxonomie mit gleich langen Ästen

Vorraussetzung ist und Taxonomien, die auf der natürlichen Sprache basieren, diese

Vorraussetzung nicht erfüllen, ist dieses Ähnlichkeitsmaß für die weitere Betrachtung

nicht relevant.

Im Beispiel würde die Pfadlänge zwischen dem Konzept 5162 (Anglikanismus) und

5165 (Protestantismus) 2 betragen, genauso wie zwischen 5165 und 3257 (Religion).

2.2.3.2 Normalisierte Pfadlänge

len

sim

)

(

log

mit

maximale Tiefe der Taxonomie

Formel 4: Normalisierte Pfadlänge

Eine Abwandlung zu 2.2.3.1 ist die normalisierte Pfadlänge, dabei wird derselbe Wert

wie oben berechnet, das Ergebnis aber noch durch die doppelte maximale Tiefe der

Taxonomie geteilt und davon der negative Logarithmus genommen.

Da der Abstand

zweier Konzepte maximal so groß ist wie die doppelte maximale Tiefe, ist der Wert

immer größer oder gleich Null. Da dies aber an den Voraussetzungen nichts ändert,

ist auch dieses Maß nur für ausgeglichene Taxonomien relevant.

Vgl. [Rada1989], zitiert nach [McHale1998], Kapitel 1.1.1, S. 115

Vgl. [Chodorow1998]

2 Grundlagen

Nehmen wir eine Tiefe von 4 an, wobei die Wurzel auf der Ebene 0 liegt, dann ergibt

sich für eine Pfadlänge von 2 ein Ähnlichkeitswert von 0,30, also eine Ähnlichkeit von

30%.

2.2.3.3 Dichte des Zweigs

Das Benutzen der Dichte basiert auf der Beobachtung, dass Wörter, die sich in ei-

nem dichter ,,besiedelten" Teil der Hierarchie befinden, ähnlicher sind, als Wörter in

spärlich ,,besiedelten" Teilen.

Damit die Dichte ein sinnvolles Maß darstellt, muss

die Hierarchie nahezu komplett sein oder sie muss die Verteilung der Wörter in der

natürlichen Sprache widerspiegeln.

Wenn ein Thesaurus einen Zweig, zum Beispiel zu Schiffen, besitzt, der viel mehr

Worte als ein anderer Zweig, zum Beispiel für Blautöne, aufweist, hat der erste Zweig

zwar eine höhere Dichte, aber mehr Vergleiche sind nicht wirklich möglich. Nach

dieser Theorie wären sich ,,Kajak" und ,,Schlepper" wesentlich ähnlicher als ,,himmel-

blau" und ,,türkis". Es wird schnell klar, das dieser Vergleich nicht sinnvoll ist, ebenso

wenig wie die Aussage, dass ,,Kajak ähnlicher zu Schiff ist" als ,,türkis zu Blautö-

nen".

2.2.3.4 Extended gloss overlaps measure

))

(

score

sim

mit

Menge der semantischen Relationen des betrachteten Konzepts

score Funktion zur Berechnung der Überlappung zwischen zwei Konzeptdefi-

nitionen

Formel 5: Extended gloss overlaps measure

,,Gloss" steht hier für Fußnote oder Beschreibung des Konzepts, also für seine Defini-

tion im Thesaurus. Das Maß zählt die Wörter, die in den Definitionen beider Konzep-

te identisch sind, also ihre Überlappung. Das Ganze wird außerdem auf diejenigen

Konzepte erweitert, die Relationen zu den betrachteten Konzepten, deren Ähnlichkeit

Vgl. [Agirre1996], zitiert nach [McHale1998], Kapitel 1.1.2, S. 116

Vgl. [McHale1998], Kapitel 1.1.2, S. 119

2 Grundlagen

ermittelt werden soll, besitzen.

Dieses Ähnlichkeitsmaß scheint sehr interessant für

vorgefertigte Thesauri, die umfangreiche Definitionen enthalten, zu sein.

2.2.3.5 Maß basierend auf Informationsgehaltswert des Konzepts

)

(

log

lca

sim

mit lca

,,tiefste gemeinsame Vorgänger" (engl. ,,lowest common ancestor")

p(c)

relative Wahrscheinlichkeit des Konzepts c

-log p(c) der negative Logarithmus der Wahrscheinlichkeit (= Informations-

gehalt)

Formel 6: Ähnlichkeitsmaß basierend auf Informationsgehalt

Bei diesem Maß wird die Ähnlichkeit zweier Konzepte durch den Informationsgehal-

tes des Konzepts, das beide in der Taxonomie zusammenfasst, also den ,,tiefsten

gemeinsamen Vorgänger" (engl. ,,lowest common ancestor", LCA), bestimmt. Der

Informationsgehalt eines Konzepts basiert auf der Wahrscheinlichkeit mit der eine

Instanz des Konzepts vorkommt. Als Wahrscheinlichkeit wird die relative Häufigkeit

des Vorkommens jedes Konzepts in einem Textkorpus

hergenommen. Aus der

Formel folgt, dass häufig vorkommende Wörter einen niedrigeren Informationsgehalt

besitzen als selten vorkommende.

2.2.3.6 Maß basierend auf knoten- und kantenbasierten Techniken

))

(

)

(

)

(

lca

dist

mit dist

c1,c2

semantische Distanz des Konzepts, steht hier für die Ähnlichkeit

Informationsgehalt des Konzepts

)

(

log

)

(

Formel 7: Ähnlichkeitsmaß basierend auf Knoten und Kanten

Vgl. [Banerjee2003]

Ein Korpus ist eine Sammlung von sprachlichen Äußerungen zur wissenschaftlichen Analyse. In

diesem Fall wurde das Brown Corpus verwendet, das an der Brown University gesammelt und

1964 veröffentlicht wurde. Es enthält fünfhundert, 1961 erschienene Texte in fünfzehn Kategorien

mit zusammen etwa einer Million Wörtern der englischen Sprache. Es war das erste allgemeine

und computerlesbare Korpus.

Vgl. [Resnik1995]

2 Grundlagen

Auch dieses Ähnlichkeitsmaß benutzt den Informationsgehalt eines Konzepts, um

daraus die Ähnlichkeit zu berechnen, allerdings wird hier zusätzlich die Pfadlänge,

die lokale Dichte, die Tiefe des Knotens in der Taxonomie und der Typ der Relation

mit einbezogen. Die Originalformel wird über zwei Parameter Alpha und Beta opti-

miert, die den Grad bestimmen, inwieweit die Tiefe des Knotens und der Dichte-

Faktor zu dem Kantengewichtsfaktor beitragen. Mit Alpha = 0 und Beta = 1 erhält

man obige Formel.

In Abbildung 5 ist ein Beispiel für die Wörter ,,number" und ,,limit" abgebildet, die über

das Konzept ,,magnitude" verbunden sind. Der Informationsgehalt aller Konzepte ist

bekannt; über die Formal ergibt sich ein Ähnlichkeitswert von 9,67.

Abbildung 5: Beispiel für Maß basierend auf knoten- und kantenbasierten Techni-

ken

2.2.3.7 Maß abgeleitet aus der Informationstheorie

)

(

log

)

(

log

))

(

log

lca

sim

Formel 8: Ähnlichkeitsmaß abgeleitet aus der Informationstheorie

Dieses Ähnlichkeitsmaß basiert auf der Idee, dass die Ähnlichkeit zwischen zwei

Konzepten A und B durch das Verhältnis zwischen dem Maß der Information, die

Vgl. [Jiang1997]

[Jiang1997]

2 Grundlagen

benötigt wird, um die Kommunalität (Gemeinsamkeit) von A und B zu bestimmen und

der Information, die benötigt wird, um A und B vollständig zu beschreiben, berechnet

werden kann. Der Informationsgehalt eines Konzepts wird wieder ähnlich wie oben

berechnet.

2.2.3.8 Vergleich

Bei der Vielzahl der Ähnlichkeitsmaße stellt sich die Frage, welche am besten für

einen speziellen Anwendungsfall geeignet ist. Eine Möglichkeit dies herauszufinden

ist der Vergleich der Methoden mit einem eingeschränkten Testfeld. Eine Auswahl

von Begriffen wird dabei zuerst von einer Gruppe von Menschen auf Synonymität

verglichen und auf einer Skala eingeordnet (z. B. 0 = komplett unterschiedlich, 4=

perfektes Synonym). Danach werden die Algorithmen angewandt und die Werte ver-

glichen.

Da in der Software e:IAS allerdings nur zwei eigenentwickelte Ähnlichkeitsmaße des

Unternehmens Empolis enthalten sind (siehe 4.2.1, Seite 53) ist eine Untersuchung

der Eignung der oben vorgestellten Ähnlichkeitsmaße nicht notwendig.

2.2.4 RDF-basierte Thesaurusrepräsentation: SKOS

SKOS steht für ,,Simple Knowledge Organisation System" und bedeutet frei übersetzt

,,einfaches System zur Organisation von Wissen". SKOS dient der Darstellung von

beliebigen Typen strukturierter kontrollierter Vokabulare, insbesondere von Thesauri

und Taxonomien. Es ist noch kein fertiger Standard, sondern wird gerade von einer

Gruppe des World Wide Web Consortiums (W3C) entwickelt und liegt seit November

2005 als Arbeitsentwurf

vor. Trotzdem gibt es bereits Thesauri in der SKOS Notati-

on und Programme, die diese Notation darstellen und verarbeiten können.

SKOS basiert auf RDF (Resource Description Framework), einer formalen Sprache

zur Beschreibung von Metadaten. Die Idee dahinter besagt, Ressourcen über ein-

deutige URIs

anzusprechen. So kann die Funktionalität von RDF auch über das

Vgl. [Lin1998]

Vgl. [McHale1998], Kapitel 2, S. 117 ff

[Miles2005]

URI heißt Uniform Resource Identifier, also ,,eindeutiger Bezeichner für Ressourcen". URIs sind in

der Form <Schema>:<Schema-spezifischer Teil> aufgebaut, ein Beispiel sind die Adressen von

Webseiten, z.B. http://www.trumpkin.de /

2 Grundlagen

Einbinden neuer Definitionen, die unter solch einer URI bereitgestellt sind, beliebig

erweitert werden solch eine Erweiterung ist SKOS.

Das RDF-Modell besteht aus den drei Objekttypen: Ressource, Eigenschaftselement

und Objekt, die zusammen ein sogenanntes RDF-Tripel bilden. Man spricht auch von

Subjekt, Prädikat und Objekt die zusammen ein Statement darstellen. Das Standard-

beispiel dafür ist die Aussage ,,Der Titel der Webseite des W3C ist ,World Wide Web

Consortium'". Dabei ist der Ressourcenbezeichner, bzw. das Subjekt, noch nicht

eindeutig, nehmen wir also statt ,,Webseite des W3C" die URI http://www.w3c.org.

Dann ist die Aussage ,,http://www.w3c.org hat den Titel ,World Wide Web Consorti-

um'". Das Eigenschaftselement (Prädikat) stellt die Beziehung zwischen Ressource

und Objekt her und beschreibt diese, in unserem Beispiel als ,,hat den Titel". Das

Objekt beschreibt den Wert der Ressource, in dem Beispiel ,,World Wide Web Con-

sortium". Ein Objekt kann entweder ein Literal oder eine Ressource oder auch eine

leere Ressource sein. Als Graph schaut das Ganze dann wie in Abbildung 6 aus.

Hier wurde außerdem noch das Prädikat durch die eindeutig definierte Titel-Relation

der RDF-Erweiterung Dublin Core

ersetzt. Für mehr Informationen zu RDF sei auf

die Webseite der ,,RDF Core Working Group"

verwiesen.

Abbildung 6: RDF-Graph

In Abbildung 7 wird ein Auszug aus dem ,,UK Archival Thesaurus" (UKAT) dargestellt

und in Abbildung 8 die dazugehörige grafische Darstellung eines RDF-Graphen, der

das SKOS-Vokabular benutzt. Dabei steht jeder ausgefüllte Kreis für ein Konzept des

Thesaurus. Im Folgenden werden die wichtigsten Eigenschaften von SKOS erläutert,

soweit sie für Thesauri relevant sind.

Dublin Core Metadaten Initiative: http://dublincore.org/

http://www.w3.org/RDF/

Quelle: W3C-RDF-Validator http://www.w3.org/RDF/Validator/

2 Grundlagen

Term: Economic cooperation

Used For:

Economic co-operation

Broader terms:

Economic policy

Narrower terms:

Economic integration

European economic cooperation

European industrial cooperation

Industrial cooperation

Related terms:

Interdependence

Scope Note:

Includes cooperative measures in banking, trade, industry etc., between and

among countries.

Abbildung 7: Beispiel aus dem UK Archival Thesaurus (UKAT)

Abbildung 8: Darstellung der SKOS Relationen

Quelle: [MILES2005]

ebenda

2 Grundlagen

Mit der ,,skos:Concept" Klasse wird festgelegt, dass eine Ressource ein Konzept ist

(siehe Abbildung 9 und Abbildung 10).

Abbildung 9: Darstellung von ,,skos:Conzept"

<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:skos="http://www.w3.org/2004/02/skos/core#">

<skos:Concept rdf:about="http://www.example.com/concepts#love"/>

</rdf:RDF>

Abbildung 10: RDF-Beispiel zu ,,skos:Concept"

Mit skos:prefLabel wird der Deskriptor, also die bevorzugte Bezeichnung, festgelegt

und mit skos:altLabel alternative Bezeichnungen, darunter fallen Synonyme und an-

dere Äquivalenzrelationen. Hier können auch mehrsprachige Bezeichnungen unter-

gebracht werden, dabei wird die Bezeichnung des Objekts in Apostrophzeichen ein-

geschlossen und ein At-Zeichen, gefolgt von der Sprachbezeichnung, angehängt.

Diese Sprachenkennzeichnung ist optional und kann auch bei anderen SKOS-

Elementen angefügt werden (siehe Abbildung 11 und Abbildung 12).

ebenda

2 Grundlagen

Abbildung 11: Graph zu prefLabel, altLabel und Sprachkennzeichnung

<rdf:RDF

xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#

xmlns:skos="http://www.w3.org/2004/02/skos/core#">

<skos:Concept rdf:about="http://www.example.com/concepts#shrubs">

<skos:prefLabel xml:lang="en">shrubs</skos:prefLabel>

<skos:altLabel xml:lang="en">bushes</skos:altLabel>

<skos:prefLabel xml:lang="fr">arbuste</skos:prefLabel>

<skos:altLabel xml:lang="fr">buisson</skos:altLabel>

</skos:Concept>

</rdf:RDF>

Abbildung 12: RDF-Syntax zu prefLabel, altLabel und Sprachkennzeichnung

Mittels ,,skos:note" kann man allgemeine Hinweise und Dokumentationen einfügen,

die davon abgeleiteten Prädikate ,,skos:definition" und ,,skos:scopeNote" werden zum

einen für komplette Beschreibungen des beabsichtigten Begriffsinhaltes und zum

anderen für eine kurze Abgrenzung des Anwendungsbereichs des Konzepts ver-

wendet.

2 Grundlagen

Auch ,,skos:changeNote" ist von ,,skos:note" abgeleitet, es wird benutzt, um für admi-

nistrative Zwecke detailliert Änderungen am Konzept zu dokumentieren. In Abbildung

13 wird dieses Prädikat gleichzeitig mit der möglichen Verwendung von anderen

RDF-Erweiterungen gezeigt. Dabei ist ,,rdf:value" eine Erläuterung der Änderung,

,,dc:date" der Zeitpunkt der Änderung und ,,dc:creator" verweist auf die Person, die

die Änderung durchgeführt hat.

Abbildung 13: ,,skos-changeNote" mit Verzweigung

Die wichtigsten Beziehungen in einem Thesaurus sind die semantischen. In

,,skos:semanticRelation" wird festgelegt, dass Subjekt und Objekt jeweils Ressourcen

des Typs ,,skos:Concept" sind. Davon abgeleitet werden ,,skos:broader" und

,,skos:narrower", die die Beziehung Ober- bzw. Unterbegriff repräsentieren. Sie sind

zueinander invers und jeweils transitiv (siehe Abbildung 14 und Abbildung 15).

Die Assoziationsbeziehung wird über ,,skos:related", das ebenfalls von

,,skos:semanticRelation" abgeleitet ist, abgebildet, sie ist symmetrisch.

ebenda

2 Grundlagen

Abbildung 14: Ober- und Unterbegriffe mit SKOS

<rdf:RDF

xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#

xmlns:skos="http://www.w3.org/2004/02/skos/core#">

<skos:Concept rdf:about="http://www.example.com/concepts#mammals">

<skos:prefLabel>mammals</skos:prefLabel>

<skos:broader rdf:resource="http://www.example.com/concepts#animals"/>

</skos:Concept>

<skos:Concept rdf:about="http://www.example.com/concepts#animals">

<skos:prefLabel>animals</skos:prefLabel>

<skos:narrower rdf:resource="http://www.example.com/concepts#mammals"/>

</skos:Concept>

</rdf:RDF>

Abbildung 15: RDF-Repräsentation der Ober- und Unterbegriffe

ebenda

2 Grundlagen

2.3 Barrierefreiheit von Webanwendungen

Barrierefreies Webdesign ist die Kunst Webanwendungen so zu gestalten, dass je-

der sie nutzen und lesen kann - insbesondere auch Menschen mit Behinderungen.

Für Sehbehinderte erweisen sich vor allem Nicht-Text-Elemente, wie grafisch darge-

stellter Text, Bilder, animierte GIFs, grafische Menüs oder Buttons als problematisch,

da sie über Programme, die die Webseite vorlesen (Screenreader) oder Braille-

Displays, die den Text in Blindenschrift darstellen, nicht angezeigt werden können.

Jemand, der nur farbenblind ist (also etwa jeder zehnte Mann), hat Probleme mit

Anweisungen wie ,,Klicken Sie auf den grünen Button". Und wenn nur Schwarz-Weiß-

Displays vorhanden sind, lässt sich eine Webseite die einen hohen Kontrast besitzt,

besser darstellen.

Mit einer motorischen Behinderung ist es schwierig konventionel-

le Eingabegeräte wie Tastatur oder Maus zu benutzen, stattdessen werden spezielle

Eingabegeräte zum Navigieren auf der Webseite eingesetzt. Damit diese funktionie-

ren, muss die Seite ohne Maus bedienbar sein. Für Hörgeschädigte ist hingegen

jede Art von Ton oder Sprache ein Hindernis, auch hier ist die Umsetzung der Me-

dien in Texte notwendig. Bei Menschen mit einer geistigen Behinderung ist die Mög-

lichkeit zum Navigieren in Webseiten stark von der Art und Schwere ihrer Behinde-

rung abhängig, wahrscheinlich wird es also nicht immer möglich sein eine Seite so zu

gestalten, dass sie für wirklich jeden Menschen zugänglich ist. Dennoch gibt es auch

hier ein paar Grundregeln, die man beachten sollte. Navigation und Layout sollten

möglichst klar und einfach gehalten sein, Texte sollten prägnant und in einer leicht

verständlichen Sprache verfasst werden und Skizzen und Illustrationen die Sachver-

halte erläutern und zum Verständnis beitragen, sollten eingesetzt werden.

Wenn man die eben angesprochenen Punkte bei der Gestaltung von Webseiten

beachtet, dann ist dies auch für Menschen hilfreich, deren Muttersprache nicht mit

der Sprache der Webseite übereinstimmt.

Darüber hinaus ist die Barrierefreiheit, die manchmal auch mit Zugänglichkeit oder

Accessibility bezeichnet wird, wichtig für alternative Anzeigegeräte, wie zum Beispiel

PDAs oder Handys, die eine besonders kleine Anzeige besitzen.

Vgl. [Metzmacher2006]

Vgl. [Cathomen2005]

2 Grundlagen

2.3.1 Allgemeine Regelungen

Es gibt von verschiedene Organisationen Normen und Handreichungen um ein

Webangebot barrierefrei zu erstellen, bzw. zu prüfen, ob es barrierefrei ist. Eine

grundsätzliche Voraussetzung ist der valide

Einsatz von HTML

und CSS

. Diese

Validität ist dann gegeben, wenn Seiten unabhängig von einem bestimmten Anzei-

gegerät sind. Die Spezialisierung auf bekannte Browser und ihre Eigenarten, wie z.

B. Internet Explorer, bei der Darstellung von Seiten stellt schon einen Verstoß gegen

dieses Prinzip dar, so dass Nutzer von alternativen Programmen, wie z. B. Mozilla

Firefox, die Seiten nicht fehlerlos dargestellt bekommen. Die Inhalt sollten unabhän-

gig von dem Layout ausgezeichnet sein, so das im HTML-Dokument nur die logische

Formatierung des Inhalts vorgenommen wird und das Layout komplett über CSS

gesteuert wird.

Das prominenteste Dokument, das Richtlinien für barrierefreie Webseiten enthält,

stellen die ,,Web Content Accessibility Guidelines

,, (WCAG 1.0) dar, die in den spä-

ten 90er Jahren des letzen Jahrhunderts entstanden sind und 1999 vom W3C als

Recommendation (Empfehlung) verabschiedet wurden.

Jedem Prüfpunkt der WCAG ist eine Priorität zwischen 1 und 3 zugeordnet. Dabei

bedeutet 1, dass ein Dokument diesen Punkt erfüllen muss, da sonst eine bestimmte

Nutzergruppe nicht auf die Informationen zugreifen kann. 2 bedeutet, dass ein Do-

kument diesen Punkt erfüllen soll, da es sonst für bestimmte Nutzer schwierig sein

kann auf die Information zuzugreifen, 3 bedeutet, dass ein Dokument diesen Punkt

erfüllen kann, andernfalls wird es für bestimmte Nutzergruppe ,,etwas schwierig" auf

die Informationen zuzugreifen. Ein Dokument kann nach der Prüfung eine Konformi-

tätsstufe von ,,A", über ,,Double-A", bis zu ,,Tripple-A" erhalten, je nachdem ob es alle

Prüfpunkte der Priorität 1, 2 oder 3 erfüllt. Sie enthält 14 Richtlinien mit insgesamt 59

Checkpunkten.

Durch den rasanten Fortschritt der Webtechnologie bedingt, galt die Richtlinie aber

bald als veraltet. Zur Zeit wird an einer Aktualisierung der Richtlinie gearbeitet

2 Grundlagen

(WCAG 2.0

) die seit 2006 den Status eines ,,Working Draft" (Arbeitsentwurf) besitzt.

Allerdings ist der Entwurf und die ganze Arbeitsgruppe sehr umstritten,

manche

Autoren reden davon, dass er in ,,den W3C-Zänkereien zu versinken droht"

Als einzige andere nennenswerte offizielle Spezifikation gibt es noch den sogenann-

ten Abschnitt 508 (Section 508) des Rehabilitation Act, den die Regierung der Verei-

nigten Staaten 1988 erweitert hat. Allerdings sind die relevanten Regeln der dazuge-

hörenden Ausführungsverordnung

auch an die WCAG angelehnt

. Dieses Regel-

werke für die Informationsangebote aller Bundesbehörden wurde außerdem auch in

deren Beschaffungsvorgaben aufgenommen und muss von allen Firmen erfüllt wer-

den, die an die Regierung der USA Waren oder Dienstleistungen verkaufen. Das

Regelwerk umfasst 16 Abschnitte mit insgesamt 34 Prüfpunkten.

Aus diesem Grund sind andere Richtlinien entstanden, die sich mehr an der Praxis

orientieren. Im deutschsprachigen Raum sind das vor allem die Kriterien des BIENE-

Awards

. Dieser Award wird seit 2003 für vorbildlich barrierefreie deutschsprachige

Webseiten vergeben.

Bei den Kriterien (siehe Anhang 1) gibt es zunächst Grundvoraussetzungen, dann

Prüfpunkte zu Lesbarkeit und inhaltlicher Erschließung, zu variabler Präsentation

(dass Bildern und ähnlichem eine textuelle Repräsentation zugeordnet ist), zu Navi-

gation, zum Aufbau des Internetangebots, zu Kompatibilität, zu Formularverarbei-

tung, zu komplexen Transaktionen, zu Datenschutz, zu Werbung, zu Downloads, zu

umfangreichen Datentabellen, zu komplexen Dokumenten, zu Multimedia und Spie-

len, zu Gebärdensprache-Filmen und zu leichter Sprache. Es sind 87 Kriterien ent-

W3C Validierungsdienst für HTML (und andere Markup-Sprachen): http://validator.w3.org/

und CSS: http://jigsaw.w3.org/css-validator/

Die Hypertext Markup Language ist eine Seitenbeschreibungssprache. Siehe Homepage der W3C

HTML Working Group mit den HTML-Standards: http://www.w3.org/html/

Cascading Style Sheets ist eine Formatierungssprache für strukturierte Dokumente. Siehe Home-

page der W3C CSS Working Group mit den CSS-Standards: http://www.w3.org/Style/CSS/

vgl. [Chisholm1999] bzw. [Chisholm1999de]

ebenda

[Caldwell2006]

Vgl. [Clark2006] bzw. [Clark2006de]

[Braun2007]

Siehe [Section508]

Vgl. [Section508], § 1194.22

Abkürzung: Barrierefreies Internet Eröffnet Neue Einsichten: http://www.biene-award.de/

BIENE-Award Kriterien: http://www.biene-award.de/award/kriterien/

2 Grundlagen

halten, die jeweils in eine unterschiedliche Anzahl von Einzelpunkten unterteilt sind,

so dass insgesamt 235 Prüfpunkte enthalten sind.

2.3.2 Rechtliche Regelungen

Im April 2002 trat auf Bundesebene das ,,Gesetz zur Gleichstellung behinderter Men-

schen"

(BGG) mit dem Ziel in Kraft, ,,die Benachteiligung von behinderten Men-

schen zu beseitigen und zu verhindern sowie die gleichberechtigte Teilhabe von

behinderten Menschen am Leben in der Gesellschaft zu gewährleisten und ihnen

eine selbstbestimmte Lebensführung zu ermöglichen"

. Dazu wurde auch die ,,Ver-

ordnung zur Schaffung barrierefreier Informationstechnik nach dem Behinderten-

gleichstellungsgesetz"

(BITV) erlassen. Die BITV enthält in einer Anlage eine nach

zwei Prioritäten gegliederte Liste mit Anforderungen und Bedingungen zur Realisie-

rung der Verordnung, die auf die W3C-Empfehlung WCAG 1.0 zurückgehen. Die

Regelungen des BGG und damit auch die der BITV gelten nur für die Dienststellen

des Bundes und sollten dort bis zum Jahre 2005 umgesetzt werden.

In Bayern trat im August 2003 das Bayerisches Behindertengleichstellungsgesetz

(BayBGG) in Kraft. Darin wird geregelt, dass unter anderem die öffentliche Stellen

und die Gemeinden des Freistaates Bayern ihre ,,Internet- und Intranetauftritte ...

schrittweise technisch so (gestalten sollen; Anm. d. Verf.), dass sie von behinderten

Menschen grundsätzlich uneingeschränkt genutzt werden können"

. Dazu wurde die

,,Bayerische Barrierefreie Informationstechnik-Verordnung"

(BayBITV) erlassen. In

ihr ist festgelegt, dass Webseiten so zu gestalten sind, dass sie die in der BITV unter

Priorität I aufgeführten Anforderungen erfüllen und, dass zentrale Navigations- und

Einstiegsangebote zusätzlich die unter Priorität II aufgeführten Anforderungen be-

rücksichtigen

. Allerdings ist die Umsetzung nur für staatliche Stellen bis 2012 vor-

geschrieben, Kommunen wird die Umsetzung lediglich empfohlen. Die Stadt Nürn-

berg versucht seit 2005 ihre Informationsangebote möglichst barrierefrei zu gestal-

ten.

Für ausführliche Literatur zu dem Thema sei auf [Clark2003] und [Pilgrim2002] verwiesen. Eine

kurze Zusammenstellung von Heuristiken bietet [Meiert2004].

[BGG2002]

[BGG2002], § 1

[BITV2002]

[BayBGG2003], Artikel 13, Absatz 1

[BayBITV2006]

[BayBITV2006], §2

2 Grundlagen

Da die Empfehlungen der WCAG 1.0 und damit die der BITV veraltet sind, und sie

für Kommunen nur eine Empfehlung darstellen, werden in dem späteren Kapitel zur

Barrierefreiheit im Wesentlichen die BIENE-Kriterien berücksichtigt.

3 Suchlösung der Stadt Nürnberg der Ist-Stand

Suchlösung der Stadt Nürnberg der Ist-Stand

Das Internetportal der Stadt Nürnberg besteht aus einem Hauptportal

, das in vier

Bereiche gegliedert ist und aus ca. 150 einzelnen Seiten besteht. Die Bereiche rich-

ten sich jeweils an eine bestimmte Interessensgruppe: ,,Stadt und Bürger" für Bürger

der Stadt, die Dienstleistungen der Ämter in Anspruch nehmen wollen. ,,Reiseziel

Nürnberg" bietet touristische Informationen zu Sehenswürdigkeiten, Übernachtungs-

möglichkeiten und zur Anreise. ,,Kultur und Freizeit" listet Angebote zu Kultur, Aus-

flugsziele, Gastronomie, Sport und Shopping auf und ,,Wirtschaft und Innovation"

bietet Informationen zu Wirtschaft, Arbeitsmarkt, Verkehr und Hochschullandschaft.

Die einzelnen Seiten des Portals bestehen meistens aus erläuternden Texten und

Links zu den spezifischen Seiten außerhalb des Hauptportals. Daneben existieren

sehr viele Einzelauftritte

von Dienststellen, Referaten und für spezielle Veranstal-

tungen, die vom Online-Büro der Stadt Nürnberg administriert werden.

Das Portal ist mit der Content-Management-Software (CMS) Imperia

der Imperia

AG realisiert. Ein Teil der Einzelauftritte sind sogenannte Miniwebs, diese werden

ebenfalls über Imperia gepflegt. Daneben werden vor allem ältere Einzelauftritte und

Angebote über ganz verschiedene Schnittstellen und Programme gepflegt. Diese

sollen nach und nach in Miniwebs umgewandelt werden. Darüber hinaus gibt es

noch externe Webseiten, die für die Besucher des Internetportals der Stadt Nürnberg

von Interesse sind, ein Beispiel ist die Seite des ,,Airport Nürnberg".

In einer vorhergehenden Diplomarbeit wurde die Suche in den Internetseiten, die bis

vor kurzem über einen externen Dienstleister (Abacho) durchgeführt wurde, auf ein

intern verwaltetes System (e:IAS) umgestellt, das jedoch erst im April 2007 komplett

freigeschaltet wurde. Diese Diplomarbeit befasst sich vor allem mit Verbesserungen

an dem neuen System.

http://www.nuernberg.de

In der aktuellen e:IAS Suche sind 116 einzelne Domains aufgelistet (April 2007)

http://www.imperia.net/

3 Suchlösung der Stadt Nürnberg der Ist-Stand

3.1 Abacho

Bis zum 31. März 2007 wurden für Suchanfragen das Produkt ,,ABACHO site-

Search"

der ABACHO AG verwendet, einzelne Suchfunktionen, die nur Teile des

Webportals umfassten, wurden schon ab Dezember 2006 zu e:IAS migriert und frei-

geschaltet. ,,ABACHO siteSearch" ist kostenpflichtig; die Stadt Nürnberg musste für

die Nutzung monatliche Lizenzgebühren zahlen.

SiteSearch wird über eine Weboberfläche administriert. Hier kann man die URLs

festlegen, die der Spider durchsuchen soll, verschiedene HTML-Templates einrich-

ten, die das Aussehen der Ergebnisseiten festlegen sowie statistische Auswertun-

gen

ansehen.

Bei der Abacho-Suche waren 147 ,,Start URLs" definiert, teilweise waren sie doppelt

angelegt oder verschiedene Domains für dieselbe Seiten eingetragen. Für jede URL

kann der Zeichensatz der Zielseiten und die Anzahl der zu durchsuchenden Seiten

vorgegeben werden. So wurde bei externen Seiten

nur die Einstiegsseite durch-

sucht. Es können HTML-, TXT-, PDF- und Office-Dateiformate indexiert werden.

Auch eine Synonymwortliste ist bei Abacho vorhanden, die manuell gepflegt werden

muss. Hier waren 49 Synonymwortpaare eingetragen, die aus den statistischen Da-

ten gewonnen worden waren, indem nach oft gesuchten Begriffen, die wenig Ergeb-

nisse geliefert hatten, gefiltert worden war.

Um das Webangebot nur teilweise zu durchsuchen, sind 5 Templates eingerichtet,

die jeweils lediglich einzelne Bereiche durchsuchen (Teilsuche), außerdem ist je ein

Template für die Gesamtsuche in deutscher und englischer Sprache vorhanden.

Allerdings ist nur das Layout in der entsprechenden Sprache gehalten, eine Unter-

scheidung der Suchergebnisse nach Sprachen findet nicht statt.

Bei der statistischen Auswertung sind Grafiken und Zahlenwerte zur Verteilung der

Anfragen über einzelne Tage und Monate vorhanden, wobei allerdings nicht zwi-

schen Anfragen für die Gesamtsuche bzw. Teilsuche unterschieden werden kann.

Für Werbe- oder Informationszwecke ist die Funktion ,,Sponsored Links" eingerichtet.

Hier können zu bestimmten Schlagwörtern Links und Beschreibungen zu externen

Seiten angegeben werden. Diese Funktion wurde für 14 Verlinkungen genutzt, teil-

http://www.abacho.net/de/produkte/sitesearch.html

Siehe Kapitel 6.1.1, Seite 91, für eine Auswertung des Benutzerverhaltens

Z. B. http://www.gruene-stadtratsfraktion.nuernberg.de/ oder http://www.christkindlesmarkt.de/

3 Suchlösung der Stadt Nürnberg der Ist-Stand

weise zahlen Unternehmen für die Platzierung der Links. Für weitere Informationen

zur Abacho-Suche sei auf die Diplomarbeit von Marek Ertel

verwiesen.

3.2 E:IAS

In der vorausgehenden Diplomarbeit wurde eine Suchmaschine auf Basis des Pro-

duktes ,,empolis:Information Access Suite" (e:IAS) der Fa. empolis GmbH realisiert.

Im Folgenden wird dargestellt, wie das System aufgebaut ist.

3.2.1 Systemaufbau

CaseProvider

Webserver

OrengeGate

Index

Konfigurations

-dateien

Prozessmanager

Webseite -

Ergebnis

Webseite -

Anfrage

startPM

Logfile

StorageHTTP

Prozessmanager

buildIndex

Webseiten

caseProvider

Indexierung

Ergebnisauslieferung

Abbildung 16: Systemaufbau e:IAS

Siehe [Ertel2006], Kapitel 4

3 Suchlösung der Stadt Nürnberg der Ist-Stand

In Abbildung 16 erkennt man den grundsätzlichen Systemaufbau von e:IAS, dabei

sind die zwei Funktionen Indexierung und Ergebnissauslieferung in einer Grafik dar-

gestellt. Der linke Teil ist für die Indexierung der Internetseiten verantwortlich und der

rechte Teil für das Finden und Ausliefern der Suchergebnisse. Wenn auf den Index

zugegriffen wird, ist dieser gesperrt, daher kann immer nur ein Teil des Prozesses

aktiv sein, also entweder die Indexerstellung oder das Auslesen von Suchergebnis-

sen. Damit Suchanfragen trotzdem immer beantwortet werden können und es nicht

zu einer Ausfallzeit bei der Aktualisierung des Indexes kommt, ist das ganze System

doppelt vorhanden. Das komplette System ist in der Programmiersprache JAVA imp-

lementiert.

In der Abbildung sind die Prozesse als Rechtecke dargestellt, die Ellipsen stehen für

Shell-Skripte und die Dokumentensymbole für Dateien.

3.2.1.1 Indexierung

Die Indexierung wird über das BuildIndex-Skript angestoßen. Dieses startet das Ca-

seProvider-Skript, das wiederum einen internen Prozessmanager (PM) startet. Die-

ser Prozessmanager ist das Herzstück der Such- und Indexierfunktion. Beim Indexie-

ren steuert der Prozessmanager das StorageHTTP-Modul, das den eigentlichen

Spider darstellt, der die Webseiten besucht und die Daten an den Prozessmanager

übergibt, der diese dann im Index abspeichert.

3.2.1.2 Ergebnissauslieferung

Über das Skript ,,StartPM" wird der Prozessmanager gestartet. Um starten zu können

muss das Modul StorageHTTP laufen, das aber eigentlich nicht benötigt wird und

auch beendet werden könnte, wenn der Prozessmanager läuft. Eine Suchanfrage

wird von einem Benutzer an das OrengeGate-Modul geschickt, das über die CGI-

Schnittstelle

des Webservers angebunden ist. Das Modul schickt die Anfrage an

den Prozessmanager, der sie bearbeitet, die Ergebnisse aus dem Index holt und das

Ganze zurück an das OrengeGate-Modul schickt. Dieses liefert dann die Ergebnisse

als Webseite an den Benutzer zurück.

Die komplette Kommunikation zwischen den Modulen läuft über TCP/IP

CGI heißt ,,Common Gateway Interface" und ist ein Standard für den Datenaustausch zwischen

einem Webserver und dritter Software, die Anfragen bearbeitet.

TCP/IP steht für ,,Transmission Control Protocol / Internet Protocol", ein Standard in der Netzwerk-

technik.

3 Suchlösung der Stadt Nürnberg der Ist-Stand

3.2.2 Konfiguration

Die Konfiguration von e:IAS wird über einen mitgelieferten grafischen Editor ausge-

führt, der sich Creator nennt und als Eclipse-Plugin ebenfalls in JAVA implementiert

ist. In Abbildung 17 ist der Pipeline-Editor abgebildet; theoretische ist es auch mög-

lich die XML-Konfigurationsdateien direkt zu editieren.

Abbildung 17: Grafischer Editor ,,Creator"

3.2.3 Such- und Indexierungsablauf

Die Software e:IAS benutzt ,,Fallbasiertes Schließen" (engl. case-based reasoning,

kurz CBR) um Informationen zu finden. Dabei werden die einzelnen Dokumente (z.

B. Webseiten) als Fälle in die Fallbasis, nämlich in den Index, eingefügt. Wenn eine

Quelle: e:IAS Creator

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2007
ISBN (eBook): 9783836607612
DOI: 10.3239/9783836607612
Dateigröße: 3.6 MB
Sprache: Deutsch
Institution / Hochschule: Georg-Simon-Ohm-Hochschule Nürnberg – Informatik, Wirtschaftsinformatik
Erscheinungsdatum: 2007 (Dezember)
Note: 1,1
Schlagworte: nürnberg portal internet information retrieval barrierefreiheit suchmaschine webportal semantische suche
Produktsicherheit: Diplom.de

Autor

Stefan Wagner (Autor:in)

Barrierefreie und thesaurusbasierte Suchfunktion für das Webportal der Stadt Nürnberg

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Details

Autor

Stefan Wagner (Autor:in)