Entwurf und Implementierung eines Publikationsarchives

Brodski, Mark

Entwurf und Implementierung eines Publikationsarchives

Zusammenfassung

Inhaltsangabe:Einleitung:
Der Austausch zwischen Wissenschaftlern, insbesondere auf internationaler Ebene, ist für die erfolgreiche Etablierung neuer Forschungsergebnisse unerlässlich. Eine Veröffentlichung dient nicht nur der Dokumentation von Ergebnissen oder dem Nachweis der Priorität, sie ermöglicht erst deren breite fachliche Diskussion. Zu den wichtigsten Publikationsformen gehören Buch- und Zeitschriftenartikel sowie Konferenzbeiträge.
Die von Wissenschaftlern publizierten Ergebnisse ihrer eigenen Arbeit bauen auf den Werken Dritter auf oder zitieren diese als Information- oder Meinungsquellen. Um die fachlichen Errungenschaften des Verfassers zu bewerten oder seine Schlussfolgerungen nachzuvollziehen, ist für den Leser oft der Rückgriff auf die Originalwerke notwendig, die sich seinerseits auf Arbeiten anderer Wissenschaftler beziehen. Der Umfang auf diese Weise entstehender Sammlungen von Veröffentlichungen wächst mit einer geometrischen Progression, so dass man leicht den Überblick darüber verlieren kann. Durch die Verwendung von webbasierten Werkzeugen kann die Verwaltung und Nutzung dieser Publikationsarchive erleichtert werden.
Ziel der Arbeit ist die Entwicklung eines Internet-basierten Publikationsarchives, das die Speicherung sowie Verwaltung von wissenschaftlichen Werken in digitaler Form unterstützt und Bibliotheksfunktionen, vor allem Such- und Veröffentlichungsfunktionen, zur Verfügung stellt.

Gang der Untersuchung:
Nach dieser Anleitung, in der die Motivation zu dieser Arbeit sowie die allgemeine Funktionalität digitaler Publikationsarchive behandelt wird, werden Metadaten als datentechnische Grundlage derartiger Archive präsentiert, einige ihrer wichtigsten Formate vorgestellt und deren Eigenschaften miteinander verglichen.
Im dritten Kapitel werden unterschiedliche fachliche und technische Möglichkeiten der Realisierung eines digitalen Publikationsarchives diskutiert: Formate und langfristige digitale Archivierung von Publikationen, Erschließung durch Metadaten sowie vielfältige Retrieval-Varianten. Im Kap. 4 werden bereits existierende Software-Lösungen im Bereich der Archivierung von wissenschaftlichen Publikationen vorgestellt.
Kapitel 5 enthält die Anforderungen an das im Rahmen dieser Arbeit zu entwickelnde Softwareprodukt. Im sich anschließenden Kapitel wird das Datenmodell der Anwendung konzipiert und im Kapitel 7 die Technologie für ihre Realisierung ausgewählt sowie die wichtigsten Anwendungsfälle […]

Leseprobe

Inhaltsverzeichnis

1 Einführung
1.1 Grundlagen und Ziele dieser Arbeit
1.2 Digitale Publikationsarchive und ihre Funktionalität
1.2.1 Archivierung
1.2.2 Erschließung
1.2.3 Information Retrieval
1.2.4 Bereitstellung
1.3 Aufbau der Arbeit

2 Metadaten für die Beschreibung von Informationsressourcen
2.1 BibTeX
2.2 Dublin Core
2.3 DOI
2.4 ONIX
2.5 Export- und Austausch-Formate

3 Archivierung und Retrieval in Publikationsarchiven
3.1 Metadaten-Speicherung und -Recherche
3.1.1 Suchgebiete und Vergleichsmethoden
3.1.2 Relevanz und Sortierung von Suchergebnissen
3.1.3 Metadaten im Plaintext
3.1.4 Meta-Angaben in HTML
3.1.5 XML-Dateien
3.1.6 Relationale Datenbanken
3.1.7 XML-Datenbanken
3.2 Archivieren von Publikationen
3.2.1 Publikationen-Dateiformate
3.2.2 Speicherbedarf
3.2.3 Speicherverwaltung
3.2.4 Volltext-Suche in Publikationen

4 Bestehende Softwarelösungen für öffentliche Publikationsarchive
4.1 Archive für wissenschaftliche Publikationen
4.2 Software für Publikationsarchive
4.2.1 MONARCH
4.2.2 OPUS
4.2.3 MILESS / MyCoRe
4.2.4 ePubWU
4.3 Unterschiede und Gemeinsamkeiten

5 Anforderungskatalog
5.1 Funktionale Anforderungen
5.1.1 Archivierung
5.1.2 Erschließung
5.1.3 Information Retrieval
5.1.4 Bereitstellung
5.1.5 Benutzerführung
5.2 Fachliche Anforderungen
5.2.1 Metadaten
5.2.2 Layout
5.2.3 Evaluierung und Dokumentation
5.3 Technische Anforderungen
5.3.1 Portabilität
5.3.2 Konfigurierbarkeit
5.3.3 Erweiterbarkeit

6 Konzeption eines digitalen Publikationsarchives
6.1 Metadaten
6.1.1 Felder
6.1.2 Gruppierung der Felder
6.1.3 Reihenfolge von Feldern und Gruppen
6.1.4 Kategorien der Ressourcen
6.1.5 Metadaten-Konfiguration des digitalen Publikationsarchivs
6.2 Datenmodell

7 Fachentwurf von PubArc
7.1 Technologiewahl
7.1.1 Softwarearchitektur
7.1.2 Anwendung- und Geschäftslogik
7.2 Metadaten und Publikationsdateien
7.2.1 Metadaten
7.2.2 Publikationsdateien
7.3 Use Cases
7.4 Relevanz der Suchergebnisse
7.4.1 Direktsuche
7.4.2 Volltext-Suche
7.4.3 Erweiterte Suche
7.5 Externe Schnittstellen
7.6 Administration

8 Implementierung von PubArc
8.1 Installationsanleitung
8.1.1 Voraussetzungen
8.1.2 Hilfspakete
8.1.3 Pfade anpassen
8.1.4 Dateien kopieren
8.2 Programmierhandbuch
8.2.1 Entwicklungsumgebung
8.2.2 Java-Pakete und –Klassen
8.2.3 Konfiguration der Metadaten
8.2.4 Formulare und Corporate Design
8.2.5 Andere Sourcen des Projekts
8.2.6 Datenhaltung
8.2.7 Suchalgorithmus
8.2.8 Exportformate
8.3 Anwender-Handbuch
8.3.1 Publikationen im Archiv suchen
8.3.2 Metadaten und Publikationen exportieren
8.3.3 Sich als privilegiert authentifizieren
8.3.4 Publikation archivieren
8.3.5 Publikation aktualisieren oder löschen

9 Evaluation
9.1 Praktischer Einsatz
9.2 Test der Umsetzung gegenüber den Anforderungen
9.2.1 Umsetzung funktionaler Anforderungen
9.2.2 Umsetzung fachlicher Anforderungen
9.2.3 Umsetzung technischer Anforderungen

10 Zusammenfassung und Ausblick
10.1 Nächste Entwicklungsschritte
10.2 Zusammenfassung

Literaturverzeichnis

Erklärung

Abbildungsverzeichnis

Abb. 2.1 Metadaten im BibTeX-Format

Abb. 2.2 Metadaten im DOI-Format ([IDF 2004])

Abb. 2.3 Dublin-Core-Metadaten in OAI-PMH ([Lagoze et al., 2004])

Abb. 3.1 OPUS-Metasuche (Quelle: OPUS-Homepage, http://elib.uni-stuttgart.de/opus/gemeinsame_suche.php)

Abb. 3.2 HTML-Meta-Angaben ([Münz 2005a])

Abb. 3.3 MyCoRe-Architektur und Komponenten ([Degenhardt 2003])

Abb. 3.4 Volltext-Recherche über Google (MONARCH-Homepage http://archiv.tu-chemnitz.de/)

Abb. 4.1 Publikationsarchive und verwendete Software-Lösungen in Deutschland ([Scholze 2005])

Abb. 4.2 Eingabe-Formular von MONARCH ([MONARCH-Homepage])

Abb. 4.3 OPUS-Systemarchitektur ([Scholze 2004])

Abb. 4.4 Suche im MILESS System ([MILESS-Homepage])

Abb. 6.1 Datenmodell des digitalen Publikationsarchives

Abb. 7.1 Dreischichtenarchitektur von PubArc

Abb. 7.2 Anwendungs- und Geschäftslogik sowie Datenbestandhaltung von PubArc

Abb. 7.3 Use-Case-Diagramm von PubArc

Abb. 8.1 Package de.pubarc.bean

Abb. 8.2 Package de.pubarc.element

Abb. 8.3 Package de.pubarc.collection

Abb. 8.4 Suchmaske von PubArc

Abb. 8.5 Anzeige der Suchergebnisse in PubArc

Abb. 8.6 Kennwort-Eingabe und –Änderung in PubArc

Abb. 8.7 Publikationstyp-Auswahl in PubArc

Abb. 8.8 Eingabe-Formular für Publikationen

Abb. 8.9 Anzeige der Suchergebnisse für privilegierte Anwender

Tabellenverzeichnis

Tab. 2.1 Element-Gruppen im Dublin Core Metadata Set ([Weibel et al, 1998])

Tab. 2.2 Spezifikation von DOI-Metadaten ([IDF 2004])

Tab. 3.1 Arten und Beispiele von Metadaten-Suchfunktionen

Tab. 3.2 Typen der Publikation-Dateien ([Münz 2005b])

Tab. 7.1 PubArc-Kategorien und ihre Feldsätze

Tab. 9.1 Vergleich von Software-Lösungen für digitale Publikationsarchive

1 Einführung

1.1 Grundlagen und Ziele dieser Arbeit

Der Austausch zwischen Wissenschaftlern, insbesondere auf internationaler Ebene, ist für die erfolgreiche Etablierung neuer Forschungsergebnisse unerlässlich. Eine Veröffentlichung dient nicht nur der Dokumentation von Ergebnissen oder dem Nachweis der Priorität, sie ermöglicht erst deren breite fachliche Diskussion. Zu den wichtigsten Publikationsformen gehören Buch- und Zeitschriftenartikel sowie Konferenzbeiträge.

Die von Wissenschaftlern publizierten Ergebnisse ihrer eigenen Arbeit bauen auf den Werken Dritter auf oder zitieren diese als Information- oder Meinungsquellen. Um die fachlichen Errungenschaften des Verfassers zu bewerten oder seine Schlussfolgerungen nachzuvollziehen, ist für den Leser oft der Rückgriff auf die Originalwerke notwendig, die sich seinerseits auf Arbeiten anderer Wissenschaftler beziehen. Der Umfang auf diese Weise entstehender Sammlungen von Veröffentlichungen wächst mit einer geometrischen Progression, so dass man leicht den Überblick darüber verlieren kann. Durch die Verwendung von webbasierten Werkzeugen kann die Verwaltung und Nutzung dieser Publikationsarchive erleichtert werden.

Ziel der Arbeit ist die Entwicklung eines Internet-basierten Publikationsarchives, das die Speicherung sowie Verwaltung von wissenschaftlichen Werken in digitaler Form unterstützt und Bibliotheksfunktionen, vor allem Such- und Veröffentlichungsfunktionen, zur Verfügung stellt.

1.2 Digitale Publikationsarchive und ihre Funktionalität

Die moderne Informationstechnologie hat neue Wissensträger in die Welt gebracht – elektronische (digitale) Dokumente. Die Ressourcen für Information und künstlerische Ausdrucksweisen, die zunehmend in digitaler Form produziert, verbreitet, genutzt und erhalten werden, bilden damit ein neues Vermächtnis – das digitale Erbe ([UNESCO 2003]).

Ein digitales Archiv ist ein Datenpool, der elektronische Dokumente vor dem Hintergrund ihrer Verfügbarkeit, Sicherung der Qualität und Zugriffs- und Suchstrategien verwaltet ([Prenn and Wrede, 2002]). Obwohl technische Voraussetzungen für solche Datensammlungen erst wenige Jahre existieren, sind die Funktionen, die von einer solchen Sammlung zur Verfügung gestellt werden sollen, keineswegs neu, sondern seit Hunderten oder sogar Tausenden von Jahren der Menschheit bekannt. Diese Funktionalität muss eine Publikation auf dem Grossteil ihres Lebenszyklus begleiten und folgende Tätigkeiten unterstützen:

- Archivierung;
- Erschließung;
- Information Retrieval;
- Bereitstellung.

Eine Papierbibliothek ist ein Dienstleistungsunternehmen mit der Aufgabe, Bücher und andere Medien den Benutzern anzubieten. Bei einem Archiv steht dagegen die langfristige Aufbewahrung und Erfassung an erster Stelle. Dieser Unterschied wird bei digitalen Sammlungen weitgehend nivelliert, so dass die Bezeichnungen Digitalarchiv (digital archive) und digitale Bibliothek (digital library) in der Literatur mehr oder weniger synonym verwendet werden. Sie werden eher über aufzubewahrende Formate auseinander gehalten: Die Sammlungen von Photo-, Video- und Tonmaterialien werden öfter Digitalarchiv und die von Textdokumenten digitale Bibliothek genannt. Ein digitales Publikationsarchiv fällt bestimmt in die zweite Kategorie, daher könnte seine Bezeichnung etwas verwirrend sein.

1.2.1 Archivierung

Die Fähigkeit des Menschen zur Kultur ist eine seiner wichtigsten Eigenschaften und hängt mit der Möglichkeit zusammen, Wissen nicht nur persönlich und direkt zu übermitteln, sondern auch über den Raum zu verteilen und über die Zeit hinweg zu bewahren.

Als Wissensträger wurden in den verschiedenen Epochen organische oder anorganische Stoffe wie Stein, Papyrus, Tierhaut und Papier verwendet. Bibliotheken und Archive dienen seit Jahrtausenden der Erhaltung von Dokumenten mit bleibendem wissenschaftlichem, künstlerischem oder gesellschaftlichem Wert für künftige Generationen ([Borghoff et al, 2003], S. V, 3). Durch Archivierung wird die unveränderbare, langzeitige Aufbewahrung von Informationen gewährleistet.

Die technologische Revolution führt dazu, dass digitale Dokumente immer mehr die Rolle der Papierdokumente beim Aufbewahren und Vermitteln von Wissen übernehmen. Nach Angaben der British Library ([Christensen 2005]), wird die Mehrheit der britischen Schriftdokumente bis zum Jahr 2020 in elektronischer Form abrufbar sein. Rund 90 Prozent der neu publizierten Werke werden bis dahin in digitaler Form erhältlich sein, aber nur die Hälfte davon soll noch in gedruckter Form erscheinen. 2020 sollen nur zehn Prozent der neu publizierten Titel auch in der Druckausgabe erhältlich sein.

Im Gegensatz zu Steintafeln und alten Folianten zeichnen sich digitale Medien durch für die Langzeitarchivierung anscheinend ideale Eigenschaften aus ([Borghoff et al, 2003], S. 4):

- Bitfolgen lassen sich über längere Zeiträume ohne Informationsverlust aufbewahren;
- zur Verfügung stehende Speicherkapazität steigt sehr schnell, schon heute können umfangreiche Nachschlagewerke oder große Dokumentensammlungen auf einer CD oder DVD untergebracht werden.

Leider sind Probleme, die die Digitalisierung der Archive mit sich bringt, ebenfalls beträchtlich. Sie beruhen auf der Tatsache, dass elektronische Datenträger für Menschen nicht unmittelbar, sondern nur indirekt mit Hilfe eines geeigneten Computersystems lesbar sind.

Der schnelle Technologiewandel führt aber dazu, dass Computersysteme, ihre technischen und Software-Komponenten, mit deren Hilfe ein elektronisches Dokument hergestellt oder in die digitale Form überführt wurde, bereits nach wenigen Jahren nicht nur veraltet sind, sondern oft einfach nicht mehr zur Verfügung stehen. Riesige Datenbestände wären dadurch nicht mehr lesbar und damit wertlos. Erste Lösungen dieses ernst zu nehmenden Problems liegen in der regelmäßigen Erneuerung von Datenträgern, der Migration veralteter Formate und der Emulation von Interpretationsplattformen mit moderner Hard- und Software.

1.2.2 Erschließung

Es reicht nicht, Informationen nur aufzubewahren, sie müssen zur weiteren Verwendung nutzbar gemacht werden. In Bibliotheken und anderen Dokumentationseinrichtungen geschieht es durch Katalogisierung, also die Registrierung von bibliographischen und archivarischen Daten von Büchern oder Dokumenten in einem Katalog oder einer Kartothek. Die Verwaltung der auf diese Weise gewonnenen Daten (auch Metadaten genannt) wird so organisiert, dass eine Recherche im Katalog ein schnelles Auffinden von Primärwerken (Bücher oder Dokumenten) möglich macht.

In der Zeit von Zettelkatalogen wurden für jedes Buch mehrere Registrierkarten ausgefüllt, die dann in Karteien unterschiedlicher Systematik (alphabetische und thematische) eingefügt wurden. Nach Einführung von Datenbanken ist die doppelte Arbeit nicht mehr notwendig, einmal erfasste Metadaten lassen sich beliebig sortieren.

Die Erschließung von Werken in einem digitalen Publikationsarchiv erfolgt mittels eines Computer-Eingabeformulars, entweder von einem Bibliotheksmitarbeiter direkt in die Anwendung oder vom Verfasser des Werkes selbst über das Web. Die Fehlerquote kann im Vergleich zu Zettel-Katalogisierung erheblich gesenkt werden, da die Metadaten bei der Eingabe automatisch auf Vollständigkeit und Konsistenz geprüft und/oder teilweise aus dem Volltext generiert werden können.

1.2.3 Information Retrieval

Das Problem, zu einem (wissenschaftlichen) Thema die „richtigen“ Informationen zu finden, ist auch weder neu, noch auf elektronische Medien beschränkt. Dazu gibt es eine ganze Reihe verschiedener Herangehensweisen ([Ferber 2003, S. 4-6]: Man kann

- jemanden fragen, der sich auskennt (Befragung von Experten);
- ein Buch oder einen Tagungsband über das Thema suchen;
- Literaturverweise in Büchern und Artikeln weiterverfolgen;
- in einer thematisch geordneten Bibliographie oder Sammlung nachsehen (Bibliotheksrecherche);
- in einer elektronischen Literaturdatenbank oder einem digitalen Publikationsarchiv suchen;
- mit Hilfe von Übersichtsseiten oder Suchmaschinen im Internet recherchieren.

Nur die letzten zwei Methoden sind dem digitalen Zeitalter zu verdanken, die anderen sind seit Jahrhunderten bekannt. Die digitale Revolution bedeutete aber einen Quantensprung im Information Retrieval: Das, was früher Tage oder Wochen dauerte und nicht immer klappte – einen qualifizierten Experten zum Thema zu finden oder ein Buch in einer Bibliothek zu bestellen – kann heute problemlos erledigt sein: Sekundenschnell können nicht nur elektronische Kataloge, sondern auch der gesamte Inhalt digitaler Dokumente durchsucht werden.

In einem digitalen Publikationsarchiv können verschiedene Information-Retrieval-Verfahren ihre Anwendung finden – von der einfachen Einzelfeld-Suche bis zu komplexen korpusbasierten Algorithmen. Der gesuchte Begriff wird vom Benutzer in einem Computer-Formular eingegeben; die Metadaten der erschlossenen Publikationen werden durchsucht und zu jeder Publikation ihre Relevanz bezüglich der Anfrage berechnet – entweder als binärer Wert (1-relevant, 0-irrelevant) oder als eine nicht-negative dem Übereinstimmungsgrad proportionale Zahl, nach der dann Suchergebnisse für die Anzeige sortiert werden können.

Ein Publikationsarchiv steht nicht allein im luftleeren Raum, es gibt bereits jede Menge davon (allein an deutschen Hochschulen mehr als 70) und sie werden immer mehr. Man kann nicht von einem Anwender erwarten, dass er bei seiner Recherche alle Archive abklappert. Der Benutzer hat aber Möglichkeiten, auch schneller sein Ziel zu erreichen:

- eine Metasuche über mehrere Publikationsarchive zu starten. Viele Universitäten haben ihre Datenbanken vernetzt; die Metadaten der einzelnen Archive werden in einer standardisierten Form exportiert, um den Aufbau von übergeordneten Katalogen zu ermöglichen;
- eine Internet-Suchmaschine mit der Suche zu beauftragen, z. B. die auf wissenschaftliche Publikationen spezialisierte Google Scholar ([Mayr and Walter, 2005]). Jede Suchmaschine kann aber nur die Werke finden, die im Internet publiziert und von diesem System bereits indiziert wurden. Dynamische Inhalte und die mit beschränkten Zugriffsrechten können dabei nicht erfasst werden.
- eine Internet-Metasuchmaschine zu starten, die mehrere Suchsysteme gleichzeitig ansprechen und deren Ergebnisse zusammenführen kann. Dabei wird im allgemeinen Fall die Menge der Suchergebnisse größer, ihre mittlere Relevanz aber kleiner.

1.2.4 Bereitstellung

Die Bereitstellung des Buchbestandes für die Ausleihe und/oder für die Vor-Ort-Nutzung ist eine der wichtigsten Aufgaben einer (Papier-)Bibliothek. Im weitesten Sinne bedeutet bereits die Veröffentlichung von Forschungsergebnissen ihre Bereitstellung, sie macht eine wissenschaftliche Arbeit öffentlich verfügbar - für eine unabhängige Bewertung, für die Zitierung in anderen Werken oder für eine fachliche Diskussion. Ein Werk kann auf unterschiedlichen Wegen in die Öffentlichkeit gestellt werden:

- über einen Verlag als Buch oder Broschur ausgegeben;
- als Artikel in einer Zeitschrift gedruckt;
- auf einer Konferenz präsentiert usw.

Die Veröffentlichung in einer Literaturdatenbank, einem öffentlich zugänglichen Publikationsarchiv oder einfach auf einem Internet-Server sind neue Publizierungsformen, die modernen Technologien zu verdanken sind.

Die Vorteile einer digitalen Publizierung liegen auf der Hand: Die Bereitstellung von digitalen Inhalten ist über Computernetze rasch zu jedem Punkt der Erde möglich. Das übliche Problem einer Bücherei, in der ein im Bestand befindliches und im Katalog gefundenes Buch dem Kunden nicht zur Verfügung gestellt werden kann, da es bereits von einem anderen Leser ausgeliehen wurde, kann man vergessen, da die Bitfolgen sich beliebig oft kopieren lassen. Die Veröffentlichung von wissenschaftlichen Werken in Papierform dauert Wochen und Monate, verursacht immense Kosten und wird oft gerade dann vollendet, wenn die in ihm beschriebenen Forschungsergebnisse bereits veraltet sind. Eine digitale Publikation erfolgt sekundenschnell, quasi zum Nulltarif und ist ab sofort im Netz verfügbar.

Die lange Kette Verlag – Druckerei - Buchhandel (Bibliothek) entfällt. Leider sind damit auch einige Nachteile verbunden, da die Vorbewertung von einer unabhängigen Stelle, die Textredaktion und sogar die Fehlerkorrektur auf der Strecke bleiben können. Man gewinnt viel an Aktualität, aber nicht unbedingt an Qualität von veröffentlichten Werken.

Die Bereitstellungsfunktion wird von einem webbasierten digitalen Archiv insoweit erfüllt, dass es den Zugriff auf die gespeicherten Publikationsdateien über das Internet (oder innerhalb eines Intranets) gewährleistet. Die Aufgabe der Präsentation eines Werkes, also seiner Anzeige auf dem Bildschirm, wird vom Browser übernommen – einem Programm, das auf dem Rechner des Anwenders installiert wurde. Dabei kann es passieren, dass dieses oder jenes Format von der lokalen Software nicht unterstützt wird und eine Plugin-Nachinstallation erforderlich ist.

1.3 Aufbau der Arbeit

Nach dieser Anleitung, in der die Motivation zu dieser Arbeit sowie die allgemeine Funktionalität digitaler Publikationsarchive behandelt wird, werden Metadaten als datentechnische Grundlage derartiger Archive präsentiert, einige ihrer wichtigsten Formate vorgestellt und deren Eigenschaften miteinander verglichen.

Im dritten Kapitel werden unterschiedliche fachliche und technische Möglichkeiten der Realisierung eines digitalen Publikationsarchives diskutiert: Formate und langfristige digitale Archivierung von Publikationen, Erschließung durch Metadaten sowie vielfältige Retrieval-Varianten. Im Kap. 4 werden bereits existierende Software-Lösungen im Bereich der Archivierung von wissenschaftlichen Publikationen vorgestellt.

Kapitel 5 enthält die Anforderungen an das im Rahmen dieser Arbeit zu entwickelnde Softwareprodukt. Im sich anschließenden Kapitel wird das Datenmodell der Anwendung konzipiert und im Kapitel 7 die Technologie für ihre Realisierung ausgewählt sowie die wichtigsten Anwendungsfälle beschrieben.

Kapitel 8 enthält die technische Dokumentation der realisierten Anwendung: die Installationsanleitung, das Programmier- und das Anwender-Handbuch, Kapitel 9 - den Bericht über den praktischen Einsatz der Software und den Test der Umsetzung gegenüber den Anforderungen.

Anschließend werden die möglichen zukünftigen Weiterentwicklungen vorgeschlagen und die Ergebnisse der Arbeit zusammengefasst.

2 Metadaten für die Beschreibung von Informationsressourcen

Informationsressourcen werden mit Hilfe von strukturierten Daten beschrieben und dadurch besser auffindbar gemacht. Diese strukturierten Daten werden Metadaten oder Metainformationen genannt. Bei den zu beschreibenden Ressourcen kann es sich um traditionelle Datensammlungen handeln wie z. B. eine Bücherei: Die Kartothek der Bücherei ist eine Sammlung von Metadaten des Buchbestandes. Der Begriff Metadaten findet aber vor allem im Zusammenhang mit modernen elektronischen Informationssystemen seine Anwendung. Nach dem Entstehen von XML als universelle Datenbeschreibungssprache ist so etwas wie ein Boom zu beobachten. Es werden Dutzende neuer XML-basierter Metadaten-Formate kreiert - für Geodaten, Bioprodukte, chemische Substanzen, Buchhaltung usw.

Einige der z. Zt. für die Beschreibung von wissenschaftlichen Publikationen verwendeten Metadaten-Formate werden in diesem Kapitel behandelt und miteinander verglichen - mit dem Ziel, eine für die zu entwickelnde Publikationsarchiv-Software geeignete Konfiguration der Metadaten zu finden. Dabei werden folgende Formate zum Vergleich herangezogen:

- BibTeX, ein altes Standard-Format für Literaturangaben;
- Dublin Core, das am weitestem bei Publikationsarchiven verbreitete Metadaten-Format;
- DOI, das Format für die eindeutige und permanente Identifikation digitaler Objekte;
- ONIX, das Datenformat zum Austausch von bibliographischen und Produkt-Daten im Buchhandel.

2.1 BibTeX

Das vom Patashnik 1985 eingeführte Metadaten-Format wurde für das gleichnamige Programm zur Erstellung von Literaturangaben und -verzeichnissen in LaTeX Dokumenten entwickelt. Seitdem ist es zum Standard für die Beschreibung von bibliographischen Angaben geworden und wird bei Tausenden von Bibliotheken weltweit eingesetzt. Da LaTeX besonders im naturwissenschaftlichen und mathematischen Bereich weit verbreitet ist, wurde BibTeX von Anfang an in erster Linie auf die Beschreibung von wissenschaftlichen Publikationen orientiert. Die größte in Deutschland online verfügbare bibliographische Sammlung wissenschaftlicher Publikationen im Bereich Informatik (DBLP) speichert z. B. ihre Metadaten in einem BibTeX-ähnlichen Format ([Ley 1997]).

Da das Format noch in der Vor-XML-Zeit entwickelt wurde, sind seine Metadaten in der beschreibenden Form spezifiziert ([Patashnik 1988]). Die Beschreibung von BibTeX ist aber klar strukturiert und leicht verständlich, was für die späteren Formatentwicklungen mit ihren XML-Schema-Spezifikationen nicht unbedingt zutrifft.

Felder

In der BibTeX-Spezifikation sind folgende 24 Felder aufgelistet und beschrieben:

- address - Adresse des Verlegers oder der Institution,
- annote – Anmerkung,
- author - Verfasser der Publikation,
- booktitle – Titel des zitierten Buches,
- chapter – Nummer des Kapitels,
- crossref – Datenbank-Schlüssel des Eintrags,
- edition – Auflage des Buches,
- editor - Name des Redakteurs,
- howpublished – Verlegervermerk,
- institution – Betreiber-Institution,
- journal – Titel der Zeitschrift,
- key – zusätzlicher Sortierschlüssel,
- month – Erscheinungsmonat,
- note – Zusatzinformation,
- number – Nummer (einer Zeitschrift oder die lfd. Nummer der Publikation in einer Serie)
- organization – Name der Organisation / des Veranstalters einer Konferenz,
- pages – Seitennummer (einzeln oder als Wertbereich),
- publisher – Verleger,
- school – Name der (Hoch-)Schule,
- series – Name der Serie,
- title – Titel,
- type –Zusatzfeld zur Kennzeichnung eines besonderen Publikationstyps,
- volume – Band,
- year - Erscheinungsjahr.

Gruppierung der Felder

Eine thematische Gruppierung der Felder ist nicht vorgesehen.

Kategorien von Ressourcen

Die Menge aller zur Archivierung zugelassenen Publikationen kann in mehrere paarweise disjunkte Teilmengen zerlegt werden. Jede Publikation wird klassifiziert, d. h. für sie wird in BibTeX die passende Kategorie (entry typ) ausgewählt. Die Liste der verfügbaren Kategorien wird in der Spezifikation festgeschrieben und beinhaltet folgende Einträge:

- article – Zeitungs- oder Zeitschriftenartikel ,
- book – Buch mit Angabe des Verlegers,
- booklet – ein gedrucktes und gebundenes Werk ohne Angabe des Verlegers,
- inbook - Kapitel/Teil einer Monographie,
- incollection - Teil einer Monographie mit eigener Überschrift,
- inproceedings (conference) – Konferenzbeitrag ,
- manual - technische Dokumentation ,
- mastersthesis – Masterarbeit ,
- misc – Sonstige s,
- phdthesis – Dissertation ,
- proceedings – Konferenzbericht ,
- techreport – Forschungsbericht ,
- unpublished – Preprint .

Für jede Kategorie sind Felder aufgelistet, die für die Publikationen dieser Kategorie ausgefüllt werden müssen (required fields) bzw. können (optional fields). So sind z. B. für einen Zeitschriftenartikel die Felder Autor, Titel, Zeitschrift, Jahr obligatorisch und Band, Nummer, Seiten, Monat, Anmerkung optional. Variable Feldsätze je nach Kategorie verkürzen die Durchschnittsmenge der Metadaten pro Publikation.

Abbildung in dieser Leseprobe nicht enthalten

Abb.2.1 Metadaten im BibTeX-Format

2.2 Dublin Core

Die Dublin Core Metadata Initiative (DCMI) nahm seinen Anfang auf der 2. Internationalen World Wide Web Conference in Chicago im Oktober 1994 und beim Workshop für die Metadaten-Semantik im März nächsten Jahres in Dublin/Ohio (daher der Name) ([DCMI 2005]). Im interdisziplinären Konsens zwischen Wissenschaftlern und Bibliothekaren ist das Model seitdem gewachsen und wird kontinuierlich weiterentwickelt. Zur weltweiten Verbreitung des Formates hat sicherlich seine Akzeptanz als Quasi-Standard für die Beschreibung von Meta-Angaben in HTML-Seiten beigetragen ([Münz 2005a]). Zurzeit ist es auch das populärste Metadaten-Format für digitale Publikationsarchive, es wird bei ihnen sowohl intern als auch für den Austausch von bibliographischen Informationen miteinander aktiv verwendet.

Das Metadaten-Modell von Dublin Core ist bewusst einfach gehalten, um den Produzenten von Dokumenten Möglichkeit zu geben, entsprechende Metadaten selber zu generieren, ohne dabei auf teure Verfahren mit geschultem Personal zurückgreifen zu müssen. Diese Eigenschaft, die sehr zur Popularität des Formats beigetragen hatte, wird zunehmend kritisiert. Kritiken bemängeln vor allem die Ungenauigkeit der Definitionen sowie die willkürliche Aufteilung von Elementen in kontent-, exemplar- und rechtebezogene ([Rust 1998]).

Felder

Der Dublin Core Metadata Element Set (offizieller Name, verkürzt DCMES) besteht aus 15 fest definierten Feldern (Elemente) ([ANSI/NISO 2001]):

- Title – Titel der Ressource,
- Creator – Verfasser,
- Subject – Schlagwörter,
- Description – Abstrakt, Inhaltsbeschreibung,
- Publisher – Herausgeber,
- Contributor – Mitwirkender,
- Date – Datum,
- Type – Typ der Ressource,
- Format – Datenformat der Ressource,
- Identifier – Identifikator (URL, ISBN, ISSN…),
- Source – Quellenangabe,
- Language – Sprache,
- Relation – Referenz zu einer anderen Ressource,
- Coverage – räumliche und/oder zeitliche Beschreibung,
- Rights – Copyright-Bedingungen.

Die begrenzte Anzahl von Elementen scheint ein Merkmal der Einfachheit des Formats zu sein, damit ist es leider nicht getan. Es gibt noch eine weitere Spezifikation ([DCMI 2005, Section 3]). Sie beinhaltet

- zusätzliche Elemente wie z. B. audience (Zielgruppe);
- so genannte Qualifikatoren (element refinements), die einzelne Elemente präzisieren.

So werden z. B. für das Element Coverage die Qualifikatoren spatial (räumlich) und temporal (zeitlich) spezifiziert. Das bedeutet, dass dieses Feld in den Metadaten in dreien Varianten vorkommen kann – einmal unqualifiziert als Coverage und in den Formen Coverage.spatial und Coverage.temporal.

Damit steigt die Anzahl der Elemente auf 18 und zusammen mit Qualifikatoren (momentan 33) auf 51. Jedes Feld ist wiederholbar und optional, was sowohl als Vor- als auch als Nachteil des Formats interpretiert werden kann: Dabei stellt z. B. eine Leermenge eine gültige Metadaten-Beschreibung im Dublin-Core-Format.

Gruppierung der Felder

DCMS-Elemente sind in drei thematische Abteilungen aufgeteilt: Kontent, geistiges Eigentum und Exemplar (Tab. 2.1).

Abbildung in dieser Leseprobe nicht enthalten

Tab.2.1 Element-Gruppen im Dublin Core Metadata Set ([Weibel et al, 1998])

Möglichkeit der Element-Wiederholung und das Qualifikatoren-Konzept führen dazu, dass auch ein Element kein unteilbares Teilchen mehr darstellt, sondern zusammen mit allen Wiederholungen und dazugehörigen Qualifikatoren eine eigene Gruppe bilden kann.

Kategorien von Ressourcen

Die Kategorien (types) der Ressourcen sind in [DCMI 2005, Section 5] beschrieben, und zwar folgende:

- Collection – Kollektion (eine Menge von Ressourcen),
- Dataset – Datenmenge (z. B. eine Datenbank),
- Event – Ereignis (z. B. eine Konferenz),
- Image – Bild (z. B. ein Photo),
- InteractiveResource (z. B. ein Web-Chat),
- MovingImage – bewegtes Bild (Unterkategorie von Image, z. B. ein Video),
- PhysicalObject – physikalisches Objekt (z. B. eine Skulptur),
- Service (z. B. ein Photokopier-Service),
- Software (z. B. ein C++-Programm),
- Sound – Ton (z. B. eine Audio-CD),
- StillImage – statisches Bild (Unterkategorie von Image, z. B. eine Zeichnung),
- Text (z. B. ein Buch).

Die variablen Feldsätze für verschiedene Kategorien (wie in BibTeX) sind in Dublin Core nicht vorgesehen.

2.3 DOI

DOI steht für Digital Object Identifier und dient eindeutiger permanenter Identifikation digitaler Objekte. Digitale Objekte im Web werden über ihren primären Zugriffmechanismus (z. B. http) mit einem URL (Uniform Resource Locator) adressiert. Diese Adresse kann sich sehr schnell ändern, damit wäre das Objekt nicht mehr auffindbar. Der DOI kennzeichnet nicht den Ort, auf dem ein digitales Objekt momentan abgelegt ist, sondern identifiziert das Objekt selbst. Das DOI-System sorgt dafür, dass das so identifizierte Objekt auf seinem aktuellen Ort gefunden werden kann. Der Betreiber des DOI-Systems ist die IDF (The Internationale DOI Foundation). Das DOI-System hat seinen Ursprung in der für NCSTL (Networked Computer Science Technical Reference Library) entwickelten und 1994 implementierten Anwendung ([IDF 2004]).

Um einen DOI zuweisen zu können, benötigt die IDF bzw. eine ihrer Registrationsagenturen (Registration Agency) Informationen über das Dokument bzw. den Kontent, für den der Verleger einen DOI registrieren lassen möchte, - die Metadaten, die in einem eigenen Format vorliegen sollen. Der von der IDF autorisierte Satz enthält nur wenige Felder, die dazu dienen, eine Publikation eindeutig zu identifizieren; die Registrationsagenturen erweitern ihn für eigene Zwecke. Einige Kritiker aus dem Bibliothekswesen bemangeln die Tatsache, dass die gegenwärtig angewendeten Metadaten-Sets nicht den Anforderungen der Library Community entsprechen, da sie vorrangig für die Anwender aus dem eCommerce konzipiert wurden. Aus diesem Grund sei es notwendig, ein Metadaten Application Profile "DOIs for Archiving" zu erarbeiten ([Schroeder 2002]).

Abbildung in dieser Leseprobe nicht enthalten

Tab.2.2 Spezifikation von DOI-Metadaten ([IDF 2004]) Felder

Die DOI Kernel Metadata Declaration ([IDF 2004]) spezifiziert nur sieben Hauptfelder (data elements) für die Beschreibung von Ressourcen:

- DOI,
- resourceIdentifier,
- structuralType,
- mode,
- resourceType,
- resourceName und
- principalAgent.

Das Feld principalAgent besitzt noch drei Unterfelder: agentName, agentIdentifier und agentRole. Die Felder resourceIdentifier, resourceName, agentName und agentIdentifier besitzen ein obligatorisches Attribut type (Typ des Identifikators bzw. des Namen), und das Feld resourceName kann zusätzlich noch ein Attribut primaryLanguage (Hauptsprache des Namen) haben (Tab. 2.2, Abb. 2.2). In der Spezifikation sind die möglichen Ausprägungen für die Felder structuralType und mode sowie für alle type-Attribute festgelegt.

Gruppierung der Felder

Die Felder von DOI-Metadaten können, wie bei Dublin Core, wiederholbar sein – mit mehreren Werten für das Element selbst und/oder für seine Attribute, z. B. Identifikatoren der Ressource für ISSN und ISBN oder ihr Name in verschiedenen Sprachen. Damit stellt ein Element mit allen Wiederholungen und Attributen eine eigene Gruppe dar. Das komplexe Feld principalAgent bildet die Obergruppe, die alle Elemente der Gruppen agentName, agentIdentifier und agentRole beinhaltet.

Abbildung in dieser Leseprobe nicht enthalten

Abb.2.2 Metadaten im DOI-Format ([IDF 2004])

Kategorien von Ressourcen

Das Kategorien-Konzept von IDF hat sich im Laufe der Zeit geändert. Am Anfang berücksichtigte es sowohl eine vorgeschriebene Liste von möglichen Kategorien (als Ausprägungen des Elements DOIGenre) als auch variable Sätze je nach Kategorie ([Paskin and Rust, 1999]). Leider gehört das Element DOIGenre nicht mehr zu Kernel-Metadaten (s. oben).

Die momentan aktuellste Spezifikation ([IDF 2004]) beinhaltet gleich drei Felder, nach denen die zu beschreibenden Information-Ressourcen klassifiziert werden können: structuralType, mode und resourceType. Die möglichen Ausprägungen der beiden ersten sind genau aufgelistet (s. Tab. 2.2), die von resourceType sind von IDF nicht autorisiert und müssen von DOI-Registrationsagenturen definiert und registriert werden.

2.4 ONIX

Die ONIX (Online Information eXchange) Metadatenvorschrift wurde 1999 von der American Association of Publishers (AAP) in erster Linie für den Internet-Buchhandel entwickelt. Das Ziel war, ausführliche Buchinformationen online in einem lesbaren Format zur Verfügung zu stellen. Das Format wurde von Verlagen, bibliographischen Agenturen, Bibliotheken und dem Präsenzbuchhandel gut aufgenommen. Seit 2003 ist ONIX Standardformat der deutschen Buchbranche zum Austausch von bibliographischen Daten und zusätzlichen Produktinformationen. Als Betreiber des Formats fungiert EDItEUR – eine internationale Dachorganisation für Standardisierung im Buchhandel mit Sitz in London.

Felder, Gruppierung

Das Werk ([EDItEUR 2005]) beinhaltet momentan 483 Felder (!), mit deren Hilfe ein Produkt beschrieben werden kann. Die Felder sind in 26 Gruppen aufgeteilt - von PR.1 (Record reference number, type and source) bis PR.26 (Sales promotion information). Innerhalb der Gruppen sind einige Felder in Untergruppen (composites) zusammengefasst, die entweder einer höher stehenden Untergruppe oder der Gruppe selbst unterstellt sind. Manche Untergruppen sind wiederholbar, was die Hierarchie nicht einfacher macht.

Die Herkunft des ONIX-Formates ist deutlich an seinen Metadaten abzulesen. Außer bibliographischer Angaben beinhalten sie Felder und Gruppen sowohl für komplette Handelsinformationen wie Lieferbarkeit, Preise, Vertriebsrechte als auch für Marketinginformationen wie Titelbilder, Textproben, Autorenportraits und –biographien, Rezensionen, Audiosequenzen usw., die vor allem für Internet-Buchhändler interessant sind, die keine Möglichkeit haben, das Buch selbst dem Kunden zu präsentieren.

Kategorien von Ressourcen

Die Kategorienliste des ONIX-Formats ist leider nur drei Einträge lang. Ursprünglich für eine einzige Kategorie Buch (Book) angelegt (inzwischen wurde sie in Product umbenannt), wurde das Metadaten-Modell zusätzlich für Fortsetzungsartikel (Series) erweitert, die auf zwei Ebenen beschrieben werden - die ganze Artikel-Serie als Main Serie und jedes einzelne Artikel als Subserie.

Jede Kategorie besitzt einen eigenen Feldsatz, wobei die Feldsätze der Main Serie und der Subserie Untermengen des Product-Feldsatzes sind.

Dass ein so umfangreicher Standard so wenige Kategorien beschreibt, kann man ebenfalls mit seiner Entstehungsgeschichte erklären. Die zu beschreibende Einheit ist für den Buchhandel ein Produkt - etwas, was man anfassen, liefern und – das Wichtigste – verkaufen kann. Das kann ein Buch, ein Video oder auch eine Zeitschrift sein – als einzelne Ausgabe (Subserie) oder als Jahresabo (Main Serie). Ein wissenschaftlicher Artikel oder ein Konferenzbeitrag wird dagegen in der Regel in einem Sammelband gedruckt publiziert, kann nicht einzeln verkauft und folglich nicht von ONIX erfasst werden.

2.5 Export- und Austausch-Formate

Einige Institutionen und Open-Archiv-Communities verwenden eigene Formate für die Beschreibung von Metadaten. Dabei wird das Rad nicht immer ganz neu erfunden: Es wird eins der existierenden Standardformate als Grundlage genommen und auf eigene Bedürfnisse angepasst – momentan ist es überwiegend Dublin Core, dessen unscharfe Feld-Definitionen zu solchen Veränderungen nahezu einladen. Ob solche proprietären und der Systematik des Formats meistens widersprechenden Erweiterungen dem Standard dienen oder schaden, sei dahingestellt.

Hier werden nur einige derartiger Formate genannt, in denen mehrere Publikationsarchive ihre Metadaten exportieren. Durch Metadatenaustausch werden wissenschaftliche Publikationsarchive unabhängig von der verwendeten Software virtuell zusammengeführt (Stichwort Interoperabilität). Diese Daten können an einer zentralen Stelle (Depotbibliothek) gesammelt und z. B. für den Aufbau eines übergeordneten Katalogs verwendet werden.

OAI –PMH (Open Archives Initiative)

OAI-PMH akzeptiert Metadaten einer Publikation in verschiedenen Formaten, dabei ist ein Metadaten-Satz im Dublin-Core-Format ohne Qualifikatoren obligatorisch, alle anderen Sätze – optional ([Lagoze et al., 2004], Abb. 2.3).

ETD-MS (Networked Digital Library of Theses and Dissertations)

Der Satz von 13 Dublin-Core-Elementen (ohne Source und Relation) mit zugehörigen Qualifikatoren wurde um ein neues Feld thesis.degree mit Qualifikatoren name, level, discipline und grantor ergänzt ( [Atkins et al., 2001] ).

Abbildung in dieser Leseprobe nicht enthalten

Abb.2.3 Dublin-Core-Metadaten in OAI-PMH ( [Lagoze et al., 2004])

XMetaDiss (Die Deutsche Bibliothek)

Der Metadatensatz im Rahmen der Dublin-Core-Struktur wurde um das Metadatenset ETD-MS, um Metadaten zur Langzeitarchivierung auf Basis der New Zealand’s National Library Preservation Metadata und um ein eigenes Set zur Erfassung von personenbezogenen Daten (XMetaPers) erweitert. Außerdem wurde die type-Liste von Dublin Core mit der eigenen Publikationsgattung ElectronicThesisandDissertation ( für Dissertationen und Habilitationen) ergänzt ( [Korb et al., 2004] ).

3 Archivierung und Retrieval in Publikationsarchiven

In diesem Kapitel werden die unterschiedlichen Möglichkeiten der langfristigen Speicherung und Erschließung digitaler Publikationen betrachtet. Die dabei verwendeten Dokument-Formate sowie Retrieval-Varianten werden ebenfalls diskutiert.

3.1 Metadaten-Speicherung und -Recherche

Metadaten sind auch Daten, und wie alle Daten sollten sie erfasst, gespeichert und gefunden werden können. Die Metadaten der digitalen Archive werden normalerweise über ein Formular vom Autor online oder von einem Bibliothek-Mitarbeiter direkt in die Anwendung eingegeben. Die Anwendungen legen die Metadaten entweder direkt im Dateisystem oder in Datenbanken ab. Die Auswahl der Art und des Formates der Speicherung wird aufgrund der ans System gestellten Anforderungen bezüglich der Suchgeschwindigkeit getroffen.

3.1.1 Suchgebiete und Vergleichsmethoden

Jede Metadaten-Suchfunktion kann nach zwei wichtigsten Kriterien klassifiziert werden, und zwar: a) Suchgebiet (welche Felder werden durchsucht?) und

b) Vergleichsmethode (wie werden Metadaten-Werte mit dem Suchwert verglichen?).

Nach Suchgebiet wird z. B. Einzelfeld-, Mehrfeld- und Freitext-Suche unterschieden, wobei die Mehrfeld-Suche mit Hilfe von booleschen Operatoren spezifiziert werden kann. Bei der Freitext-Suche wird der Suchbegriff mit den Werten aller Textfelder der Metadaten verglichen.

Nach Vergleichsmethode kann man exakte, unscharfe und Teilwort-Suchfunktionen unterscheiden. Bei der exakten Suche muss der Suchbegriff buchstabengenau eingegeben werden und mit dem Metadaten-Wert übereinstimmen; bei der Teilwort-Suche mit einem Substring des Wertes; und die unscharfe Suche ist in bestimmten Grenzen fehlertolerant: Der Wert wird als mit Suchbegriff übereinstimmend erklärt, auch wenn es z. B. genau einen Buchstaben in abweichender Schreibung oder ein Zeichen mehr oder ein Zeichen weniger gibt ([Fessler et al., 2004]). Die Teilwort-Suche ist oft als Trunkierung (Wortstammsuche) realisiert.

Einige Arten von Suchfunktionen sind in der Tab. 3.1 an konkreten Beispielen erläutert. Die Tabelle erhebt keinen Anspruch auf Vollständigkeit, eine ausführliche Beschreibung verschiedener Information-Retrieval-Methoden findet man in [Ferber 2003].

Abbildung in dieser Leseprobe nicht enthalten

Tab.3.1 Arten und Beispiele von Metadaten-Suchfunktionen

Noch eine Suchfunktion lässt sich nicht nach oben vorgegebenen Kriterien klassifizieren. Sie heißt Metasuche, bedeutet aber nicht nur Suche über Metadaten, sondern auch Recherche in mehreren digitalen Archiven. So eine Funktion wurde von OPUS-Entwicklern (s. Kap. 4) implementiert und erlaubt, nach Publikationen in z. Zt. 52 Archiven von deutschen Universitäten, Fachhochschulen und Bibliotheks-Verbünden zu recherchieren (Abb. 3.1). Die gemeinsame Schnittstelle basiert auf Dublin-Core-Metadaten.

3.1.2 Relevanz und Sortierung von Suchergebnissen

In [Ferber 2003] wird folgende Definition zu dem Begriff der Relevanz gegeben:

„Die Relevanz eines Dokuments für eine Anfrage ist eine Relation r:D×Q->R, wobei D={d1,...,dm} die Menge der Dokumente, Q die Menge der Anfragen und R eine Menge von Wahrheitswerten, im Allgemeinen die Menge {0,1}, ist.“

Diese Definition erlaubt leider nur die binäre Antwort auf die Frage, gehört dieses Dokument zur Menge der Suchergebnisse oder nicht (relevant/irrelevant). Nur relevante Ergebnisse werden dem Suchenden angezeigt.

Fast alle Archiv-Anwendungen stellen auch mehrere Optionen für die Sortierung der Suchergebnisse. Anwender haben die Wahl, die nach ihrem Suchbegriff gefundenen Publikationen chronologisch (die neuesten zuerst) und/oder alphabetisch nach dem Titel oder dem Verfasser sortieren zu lassen. Interessanter, aber auch schwieriger zu realisieren, ist die Sortierung nach der Relevanz der Treffer zur Suchabfrage (Ranking). Um solche Sortierung zu ermöglichen, sollte die oben aufgeführte Definition der Relevanz modifiziert werden:

Abbildung in dieser Leseprobe nicht enthalten

Abb.3.1 OPUS-Metasuche (Quelle: OPUS-Homepage, http://elib.uni-stuttgart.de/opus/gemeinsame_suche.php)

Anstatt der schwarz-weißer Logik (entweder ein Treffer oder kein Treffer) werden auch Grautöne dazwischen zugelassen und mit einer Note bewertet (qualifiziert). Die Relation R wird dann nicht als {0,1}, sondern z. B. als Menge aller nichtnegativen reellen ( R + ) oder ganzen ( N+ ) Zahlen definiert. Für irrelevante Werte (mit Relevanz=0) ändert sich nichts, sie bleiben wie bisher außen vor; die relevanten können aber in der absteigenden Reihenfolge ihrer Relevanzwerte angezeigt werden.

Ist z. B. der gesuchte Wort mehrfach im Abstract der Publikation vorhanden, wird diese Position besser bewertet als bei einem Einzeltreffer, volle Übereinstimmung des Suchbegriffes mit einem Metadaten-Wert ist relevanter als nur mit einem Teil des Wertes usw. Besonders wichtig ist die Sortierung nach Relevanz bei großen Archiven, wo die Ergebnisliste bei einigen Suchbegriffen Hunderte Positionen aufweisen kann.

3.1.3 Metadaten im Plaintext

Die Bedeutung der bei der Erschließung von Publikationen abgespeicherten Metadaten (ihre Semantik) wird durch im Kap. 2 beschriebene spezielle Metadaten-Formate vorgegeben. Die Form, in der diese Informationen abgelegt sind (die Syntax), wird durch allgemeine Dokumentenformate wie Plaintext, HTML oder XML beschrieben.

Die ursprünglichste aller Dateiformate – eine reine Textdatei, mit ASCII- oder in der letzten Zeit mit Unicode-Zeichen. Die Metadaten im BibTeX-Format sind einfache Plaintext-Daten und werden gewöhnlich in ASCII-Dateien mit der Endung bib abgespeichert (Abb. 2.1).

Die Suchmöglichkeiten in Plaintext-Metadaten sind begrenzt, für die Feldsuche muss der ganze Inhalt durchforstet werden. Andererseits wird die Volltext-Suche relativ einfach realisiert.

[...]

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2005
ISBN (eBook): 9783832491130
ISBN (Paperback): 9783838691138
DOI: 10.3239/9783832491130
Dateigröße: 2.6 MB
Sprache: Deutsch
Institution / Hochschule: FernUniversität Hagen – Informatik
Erscheinungsdatum: 2005 (November)
Note: 1,3
Schlagworte: archiv metadaten retrieval suchergebnis speicherung
Produktsicherheit: Diplom.de

Autor

Mark Brodski (Autor:in)

Entwurf und Implementierung eines Publikationsarchives

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Inhaltsverzeichnis

1 Einführung

1.1 Grundlagen und Ziele dieser Arbeit

1.2 Digitale Publikationsarchive und ihre Funktionalität

1.2.1 Archivierung

1.2.2 Erschließung

1.2.3 Information Retrieval

1.2.4 Bereitstellung

1.3 Aufbau der Arbeit

2 Metadaten für die Beschreibung von Informationsressourcen

2.1 BibTeX

2.2 Dublin Core

2.3 DOI

2.4 ONIX

2.5 Export- und Austausch-Formate

3 Archivierung und Retrieval in Publikationsarchiven

3.1 Metadaten-Speicherung und -Recherche

3.1.1 Suchgebiete und Vergleichsmethoden

3.1.2 Relevanz und Sortierung von Suchergebnissen

3.1.3 Metadaten im Plaintext

Details

Autor

Mark Brodski (Autor:in)