Die Implementierung eines automatischen Indexierungsverfahrens am Beispiel der deutschen Zentralbibliothek für Wirtschaftswissenschaften
Zusammenfassung
Where is the information we have lost in data? (Stefan Gradmann).
Die immer stärker wahrnehmbare Transformation von einer fordistisch geprägten Gesellschaftsordnung hin zu einer postindustriellen Informations- bzw. Wissensgesellschaft, verursacht durch einen immer rasanteren technologischen Fortschritt, stellt den Produktionsfaktor Information, welcher originär ein öffentliches Gut darstellt, in den Mittelpunkt sozioökonomischer Entwicklungsprozesse. Informationen sind eine entscheidende Basis zur Wissensgenerierung, weil sie dessen Konstituierung erst ermöglichen. Doch selbst der generelle Zugriff auf Informationen sichert weder einen strukturierten Zugang zu dieser noch das Verstehen derselben. Die Ursachen hierfür liegen in der anwachsenden digitalen Datenflut begründet, in der die Informationen zunehmend für immer zu verschwinden scheinen, quasi ertrinken. Niemand ist nach heutigem Sachstand in der Lage, alle digitalen Daten bzw. Informationen gedanklich zu erfassen, zu verstehen und zueinander in Beziehung zu setzen. Eine strukturierte und normierte Erschließung digitaler Dokumente ist deshalb ein entscheidender Aspekt der Zugänglichkeit und Handhabbarkeit von Informationen. Dieser auch in der Zukunft sicherlich noch zunehmende Problemdruck erfordert immer dringlicher eine qualitative Informationsstrukturierung.
Eine zentrale Rolle in diesem Informationsfindungsprozess kann dem aktuell im Entstehen befindlichen Semantic Web zugesprochen werden. Aufbauend auf ontologiebasierten Metadaten, werden semantische Relationen zwischen den verschiedenen WWW-Inhalten und den darin enthaltenen Informationen hergestellt, um eine bessere Wiederauffindbarkeit durch entsprechende Suchmaschinen (Information Retrieval) zu gewährleisten. Dies setzt vor allem ein kontrolliertes Vokabular voraus. Mit dem Standard-Thesaurus-Wirtschaft (STW) der Deutschen Zentralbibliothek für Wirtschaftswissenschaften Leibniz Informationszentrum Wirtschaft (ZBW) steht zur Inhaltserschließung von wirtschaftswissenschaftlichen Webinhalten ein entsprechendes Begriffssystem zur Verfügung. Seit April 2009 ist der STW auch als Semantic-Web-Anwendung STW-Online im Netz zu finden und kann dort von jedermann heruntergeladen und zur Erschließung wirtschaftswissenschaftlicher Informationen genutzt werden. Durch diese semantische Einbindung eines domänenspezifischen, kontrollierten Vokabulars wird die wirtschaftswissenschaftliche Sacherschließung in […]
Leseprobe
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
2 Forschungsstand
2.1 Überblicks- und theoretische Arbeiten
2.2 Evaluierungsverfahren I: Retrievaltests
2.3 Evaluierungsverfahren II: Indexierungskonsistenz
2.3.1 Manuelle Sacherschließung
2.3.2 Manuelle vs. automatische Sacherschließung
2.4 Evaluierungsverfahren III: Sonstige
2.5 Evaluierung des MindServer
3 Methode, Daten, Messverfahren
3.1 Der MindServer als statistisches Verfahren
3.2 Datenlage und Stichprobenumfang
3.3 Zum Messverfahren: Die Evaluierung der Indexierungsqualität
4 Ergebnisse
4.1 Indexierungskonsistenz
4.2 Indexierungstiefe
4.2.1 Indexierungsbreite
4.2.2 Indexierungsspezifität
4.3 Indexierungseffektivität
4.4 Belegungsbilanz
4.5 Referentenauswertung
5 Fazit
Literaturverzeichnis
Anhang
Abbildungsverzeichnis
Abbildung 1: Indexierungsgütekriterien
Abbildung 2: Analysedimensionen
Abbildung 3: Anzahl der Dokumente pro Indexierungskonsistenzintervall
Abbildung 4: Durchschnittliche Indexierungsbreite pro Dokumentenintervall, Trainingsset
Abbildung 5: Durchschnittliche Indexierungsbreite pro Dokumentenintervall, Testset
Abbildung 6: Korrelation zwischen Indexierungsbreite (automatisches Verfahren) und Indexierungskonsistenz
Abbildung 7: Vergabehäufigkeit: manuelles vs. automatisches Verfahren
Abbildung 8: Zentrale intervenierende Variablen: qualitative Bewertung Trainingsset
Abbildung 9: Zentrale intervenierende Variablen: qualitative Bewertung Testsset
Abbildung 10: Referentenauswertung Trainingsset (Auszug): Kategorisierung der intervenierenden Variablen
Abbildung 11: Referentenauswertung Testset (Auszug): Kategorisierung der intervenierenden Variablen
Tabellenverzeichnis
Tabelle 1: Indexierungsspezifität Trainingsset
Tabelle 2: Indexierungseffektivität der Gesamtstichprobe
Tabelle 3: Vergabehäufigkeit absolut und in %
Tabelle 4: Evaluierung automatischer Indexierungsverfahren – eine Forschungsstandsübersicht
Tabelle 5: Berechnung der Indexierungskonsistenz anhand der für ein Dokument vergebenen manuellen und automatischen Schlagwörter (Indexierungsbreite) und deren Übereinstimmung, Trainingsset (Auszug)
Tabelle 6: Dokumentenanzahl (absolut) pro Indexierungskonsistentwert (0-100%)
Tabelle 7: Indexierungsbreite Testset (Auszug)
Tabelle 8: Indexierungsspezifität Trainingsset (Auszug)
Tabelle 9: Indexierungsspezifität Testset (Auszug)
Tabelle 10: Indexierungseffektivität: automatisches vs. manuelles Verfahren, Trainings- und Testset (Auszug)
Tabelle 11: Vergabehäufigkeit: automatisches Verfahren (Auszug)
Tabelle 12 Vergabehäufigkeit: manuelles Verfahren (Auszug)
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
Where is the information we have lost in data? (Stefan Gradmann)[1]
Die immer stärker wahrnehmbare Transformation von einer fordistisch geprägten Gesellschaftsordnung hin zu einer postindustriellen Informations- bzw. Wissensgesellschaft, verursacht durch einen immer rasanteren technologischen Fortschritt, stellt den Produktionsfaktor Information, welcher originär ein öffentliches Gut darstellt (Kuhlen 2005: 1), in den Mittelpunkt sozioökonomischer Entwicklungsprozesse (vgl. Nohr 2005: 11). Informationen sind eine entscheidende Basis zur Wissensgenerierung, weil sie dessen Konstituierung erst ermöglichen. Doch selbst der generelle Zugriff auf Informationen sichert weder einen strukturierten Zugang zu dieser noch das Verstehen derselben (vgl. Gradmann 2008). Die Ursachen hierfür liegen in der anwachsenden digitalen Datenflut begründet, in der die Informationen zunehmend für immer zu verschwinden scheinen, quasi „ertrinken“ (Puzicha 2009: 1, vgl. Schneider 2008: 9). Niemand ist nach heutigem Sachstand in der Lage, alle digitalen Daten bzw. Informationen gedanklich zu erfassen, zu verstehen und zueinander in Beziehung zu setzen (Gradmann 2008: 5). Eine strukturierte und normierte Erschließung digitaler Dokumente[2] ist deshalb ein entscheidender Aspekt der Zugänglichkeit und Handhabbarkeit von Informationen. Dieser auch in der Zukunft sicherlich noch zunehmende Problemdruck erfordert immer dringlicher eine qualitative Informationsstrukturierung.
Eine zentrale Rolle in diesem Informationsfindungsprozess kann dem aktuell im Entstehen befindlichen Semantic Web[3] zugesprochen werden. Aufbauend auf ontologiebasierten Metadaten, werden semantische Relationen zwischen den verschiedenen WWW-Inhalten und den darin enthaltenen Informationen hergestellt, um eine bessere Wiederauffindbarkeit durch entsprechende Suchmaschinen (Information Retrieval) zu gewährleisten. Dies setzt vor allem ein kontrolliertes Vokabular voraus (Weller 2009). Mit dem Standard-Thesaurus-Wirtschaft (STW) der Deutschen Zentralbibliothek für Wirtschaftswissenschaften – Leibniz Informationszentrum Wirtschaft (ZBW) steht zur Inhaltserschließung von wirtschaftswissenschaftlichen Webinhalten ein entsprechendes Begriffssystem zur Verfügung.[4] Seit April 2009 ist der STW auch als Semantic-Web-Anwendung – „STW-Online“[5] – im Netz zu finden und kann dort von jedermann heruntergeladen und zur Erschließung wirtschaftswissenschaftlicher Informationen genutzt werden (vgl. Neubert 2009).[6] Durch diese semantische Einbindung eines domänenspezifischen, kontrollierten Vokabulars wird die wirtschaftswissenschaftliche Sacherschließung in einen „webbasierten Informationsraum“ (Gradmann 2009) integriert. Automatische Indexierungsverfahren eröffnen hier der traditionellen bibliothekarischen Sacherschließung in der ZBW neue Anwendungsmöglichkeiten. Aufbauend auf den Erfahrungen und Ergebnissen im Rahmen der automatischen Indexierung von Onlinedokumenten, ist es denkbar, dass über eine entsprechende Deskriptorenzuweisung mittelfristig auch digitale Inhalte aus anderen, ZBW-fremden Datenbanken unter einer einheitlichen Suchoberfläche miteinander semantisch verbunden werden. Heterogene Webinhalte werden somit einer homogenen, strukturierten Suchmöglichkeit zugeführt (Information Retrieval).
Mit Bezug auf die DIN 31 623-1 werden unter der Indexierung, die auch als Verschlagwortung oder Sacherschließung bezeichnet wird (vgl. Bertram 2005: 67), alle Methoden und Verfahren subsumiert, die genormte Metadaten (Schlagwörter, Notationen) einem Dokument zuweisen, um dessen inhaltliche Erschließung und Wiederauffindbarkeit zu gewährleisten (Nohr 2005: 24, vgl. Knorz 2004: 181). Dieser Sacherschließungsprozess verläuft immer zweistufig: Zunächst geht es in einem ersten Schritt um das Verstehen des Textes (Inhaltsanalyse), anschließend wird der erkannte Inhalt durch Zuweisung sprachlicher Elemente aus einem normierten Konzeptraum (Thesaurus, Klassifikation) entsprechend abgebildet (vgl. Nohr 2004: 216).
Die Indexierung kann in zwei Verfahren unterschieden werden: einerseits in die manuelle (oder intellektuelle) Indexierung, die als klassische Variante der Sacherschließung heutzutage noch in vielen Bibliotheken Anwendung findet (vgl. Nohr 2004: 25). Auf der anderen Seite findet sich die automatische (oder maschinelle) Indexierung. Bei dieser Variante der Sacherschließung erfolgt die Inhaltsanalyse in einem automatischen Verfahren. Das Resultat sind entweder den Inhalt repräsentierende, reine Stichwörter – dies wird als Extrationsverfahren bezeichnet – oder entsprechende Schlagwörter, die aus einem kontrollierten Vokabular, z. B. Thesaurus oder Klassifikation, entnommen werden – darunter werden Additionsverfahren subsumiert (Oberhauser/Labner 2003: 306, Nohr 2005: 216). Automatische Extraktionsverfahren weisen generell eine höhere Indexierungskonsistenz auf, während Additionsverfahren ein umfassendes „Verständnis“ der Indexierungssoftware für das jeweilige Fachgebiete erfordern (Luckhardt 2010, vgl. Knorz 2004: 183). Wie im weiteren Verlauf dieser Arbeit noch ausführlich dargestellt, findet in der ZBW bei der Indexierung von digitalen Dokumenten ein Additionsverfahren Anwendung.[7]
Automatische Indexierungsverfahren, die seit den 1990iger Jahren im deutschsprachigen Raum verstärkt konzipiert und mit unterschiedlichem Erfolg in der Praxis eingesetzt worden sind (u. a. MILOS I und II, AUTINDEX, KASCADE, OSIRIS), haben sich in den letzten Jahren entsprechend weiterentwickelt und werden heutzutage als sinnvolle, unter dem Gesichtspunkt des zukünftig zu erwartenden digitalen Publikationsaufkommens zudem als einzig gangbare Alternative zur manuellen Inhaltserschließung angesehen (u. a. Oberhauser/Labner 2003: 3, Siegmüller 2007: 8).
In den Jahren 2005-2009 wurden in der ZWB jedes Jahr im Mittel rund 13.300 ausschließlich als Onlineausgabe vorliegende Arbeitspapiere katalogisiert. Zusätzlich existieren zahlreiche Parallelausgaben, gerade im Periodikabereich (Zeitschriften, Working Paper, Jahrbücher), die einer maschinellen Indexierung zugeführt werden können. Weiterhin ist der Trend zu reinen Onlineausgaben aus den Erfahrungen der täglichen Bibliotheksarbeit heraus ungebrochen. Die zu verzeichnende, stetige und überproportionale Zunahme an (ausschließlich) elektronisch vorhandenen Dokumenten, bei gleichzeitig stagnierenden bzw. knapper werdenden personellen Ressourcen, erschwert eine flächendeckende, vor allem aber zeitnahe und qualitativ hinreichende Sacherschließung der eingehenden Literatur (vgl. Hübner/Groth 2004: 2, Stock 2000: 172). Damit einher erodiert die für die Zukunft immer wichtiger werdende inhaltliche Strukturierung von Information(en), weil es weder für den Einzelnen noch eine Gruppe, sei es innerhalb der ZBW oder im Bibliotheksverbund (hier: GBV), möglich ist, diese Vielzahl an Informationen gedanklich zu erfassen und entsprechend zu strukturieren (vgl. Gradmann 2008). Zudem ist die manuelle Sacherschließung nicht skalierbar (Puzicha 2009: 10), denn mit steigenden Eingabemengen (= zunehmender Bestand an Onlinedokumenten) steigt proportional auch der personelle Ressourcenbedarf an Indexierern, wenn der Qualitätsstandard beim Indexieren nicht gesenkt werden soll.
Die Anwendung automatisierter Verfahren ergibt sich nicht nur aus der gerade beschriebenen quantitativen Notwendigkeit, die Unumgänglichkeit resultiert zudem aus der Anwendungsdiskrepanz des STW. Die Erschließung von digitalen und analogen Dokumenten auf Basis eines kontrollierten Vokabulars und unter Anwendung von Sacherschließungsregeln (s. ZBW 2007) wird momentan ausschließlich manuell von entsprechend ausgebildeten FachreferentInnen[8] nach Lektüre der eingehenden Literatur vorgenommen. Aufgrund der Tatsache, dass Indexierung ein genuin subjektiver Prozess ist (Xu 2007: 18), der von zahlreichen persönlichen Faktoren abhängig ist (u. a. Qualifikation, Tagesform, Medium), ergeben sich zwischen der Anwendungstheorie (Sacherschließungsregeln) des STW und der Indexierungspraxis selbstverständlich Heterogenitäten. Zum einen zwischen den einzelnen Indexaten eines Sacherschließers und zum anderen auch auf der Metaebene in Bezug auf die Sacherschließung des Bestandes allgemein. Hier kann eine maschinelle Indexierung helfen, die bestehenden Unterschiede zu nivellieren, und zu einer homogeneren Erschließung des Bestandes beitragen (vgl. Lingelbach-Hupfauer/Laute 2009: 50).
In dieser Masterarbeit wird die Implementierung eines automatischen Indexierungsverfahrens am Beispiel der ZBW dargestellt. Zentraler Aspekt der folgenden Kapitel und deren Ausführungen ist die qualitative Bewertung bzw. Evaluierung der maschinellen Sacherschließungsergebnisse.[9] Es geht zentral darum, die automatisch generierten Ergebnisse mit Hilfe eines kontrollierten Vokabulars in ein ontologiebasiertes Begriffssystem, hier den STW, einzuordnen. Dieses soll helfen, digitale Dokumente nicht nur sprachoberflächlich – im Sinne einer Kataloganreicherung mit Hilfe ermittelter Keywords – zu beschreiben, sondern auf die Bedeutungsebene von Inhalten abzuzielen (vgl. Nohr 2005: 25).[10] Es werden demnach mit den zugewiesenen Deskriptoren qualitative Metadaten geschaffen, die den digitalen Inhalten der jeweiligen Dokumente einen informatorischen Mehrwert zuweisen (= Additionsverfahren) (vgl. Stock/Stock 2008: 349). Diese Fokussierung auf die Bedeutungsebene führt dazu, dass das vorhandene Information-Retrieval (OPAC) nicht nur eine Datenanreicherung erfährt, sondern dass darüber hinaus auch die informationsstrukturierenden Vorteile eines Thesaurus ausgenutzt werden.[11] Erst die Verbindung von Inhalts- und Bedeutungsebene der digitalen Dokumente durch eine automatische Indexierung unter Zugrundelegung des STW ermöglicht eine Einbindung dieser ins Semantic Web. Durch den Einsatz maschineller Verfahren kann die ZBW auch in Zukunft sicherstellen, dass die stetig zunehmende Anzahl digitaler Dokumente einer zeitnahen, flächendeckenden, qualitativ hochwertigen und konsistenten inhaltlichen Erschließung zugeführt werden.
Donnerstag, 17. 09. 200Aktuelles
Mit der verstärkten Erprobung maschineller Sacherschließungsverfahren Mitte der 1990iger Jahre wuchs auch die Zahl der darauf aufbauenden Untersuchungen und Veröffentlichungen. Zahlreiche Fallstudien aus dem Bibliotheks- und Informationssektor verdeutlichen die Aktualität dieser Thematik (u. a. Baum 2005, Leder 2002, Mittelbach/Probst 2006, Schek 2005, Sachse 1998, Schiffer 2007, Schwarz 2004). In den vorliegenden Arbeiten sind qualitative Aspekte von maschineller Indexierung immer, in unterschiedlicher Art und Weise, Analysegegenstand gewesen, sei es im Rahmen eines Vor- und Nachteilvergleiches (siehe Hübner/Groth 2004) oder um die Möglichkeiten und Grenzen dieser Verfahren deutlicher herauszuarbeiten (Mittelbach/Probst 2006).
Diese Masterarbeit ist gleichfalls als Fallstudie angelegt, deren zentrales Merkmal eine umfassende Beschreibung eines spezifischen Gegenstandes darstellt. Hierbei werden die Teile eines Gegenstands durch die starke personalisierte Fokussierung auf denselbigen umfassend dargestellt und zueinander in Beziehung gesetzt (vgl. Nohlen/Schultze 2005: 239ff.). Es gilt demnach, im Rahmen dieser Arbeit, das Typische am Einsatz eines automatischen Sacherschließungsverfahrens am Beispiel der ZBW als weltweit größter Spezialbibliothek für wirtschaftswissenschaftliche Literatur herauszuarbeiten. Der Schwerpunkt liegt hierbei auf der Evaluierung des automatischen Indexierungsverfahrens unter qualitativen Gesichtspunkten.
In diesem Zusammenhang wird dieser Masterarbeit analytisch folgende forschungsleitende Hypothese zugrunde gelegt: Die automatische Indexierung digitaler Dokumente wird sich in Bezug auf die Indexierungsqualität den manuellen Sacherschließungsergebnissen annähern, ohne ihnen völlig zu entsprechen.[12] Hierbei stellen die im späteren Verlauf dieser Arbeit dargestellten Indexierungsergebnisse des automatischen Sacherschließungsverfahrens die abhängige Variable dar. Als unabhängige Variablen werden folgende Erklärungsfaktoren herangezogen (in Anlehnung an Lancaster 2003, Stock/Stock 2008: 355): die Anzahl der übereinstimmenden Deskriptoren auf Dokumentenebene (= Indexierungskonsistenz), die Anzahl der verwendeten Deskriptoren (= Indexierungsbreite), der Umfang und die Hierarchie des STW-Vokabulars (= Indexierungsspezifität), die Trennschärfe der Deskriptoren im zugrunde gelegten Datensatz (= Indexierungseffektivität), die Erfassung von Haupt- vs. Randthemen (goal/sub-goal-Problem), die Fokussierung auf sinntragende Dokumentelemente (Abstract, Titel, Keywords) sowie domänenspezifische Aspekte.[13]
Die zentrale, diese Masterarbeit begleitende Fragestellung lautet: Führt der Einsatz eines automatischen Indexierungsverfahrens einerseits zu einer qualitativ hochwertigen Sacherschließung und erfolgt in Bezug auf den gesamten Bestand andererseits eine konsistente Informationserschließung und -strukturierung der digitalen Dokumente? Für den empirischen Teil dieser Masterarbeit lassen sich daraus folgende, erkenntnisleitende Unterfragen ableiten: Ist eine maschinelle Indexierung unter Zuhilfenahme eines kontrollierten, polyhierarchischen Vokabulars, wie des STW, generell möglich, oder können mit diesem Verfahren nur klassifikatorische Ergebnisse i. S. flacher Begriffshierarchien (vgl. SWD, JEL, DDC) erzielt werden? Wie viele Deskriptoren werden von der Indexierungssoftware pro Dokument generiert und welche hierarchische Position haben diese im Thesaurusbaum? Sind die vom automatischen Verfahren durchschnittlich vergebenen Deskriptoren, auch wenn sie nur einen Ausschnitt aus dem gesamten Thesaurusbaum (mit seinen ca. 6.000 Begriffen) darstellen, nicht ausreichend, um ein Dokument umfassend zu beschreiben, weil sie dem manuellen Indexierungsverhalten nahekommen, das gleichfalls nur einen Teil der möglichen Begriffe benutzt (vgl. Zipf’s law[14] )? Wie gestaltet sich darauf aufbauend dann die Trennschärfe der einzelnen Deskriptoren im Hinblick auf ihr Vorkommen im gesamten Datensatz? Werden die Hauptthemen als zentrale Inhalte der einzelnen Dokumente durch die Indexierungssoftware erfasst und inwieweit werden Randthemen auch abgebildet (goal-/sub-goal-Problem)? Welche Rolle spielen sinntragende Dokumententeile (Titel, Abstract, Keywords) für das Indexierungsergebnis? Können domänenspezifische Muster innerhalb und zwischen den Indexaten erkannt werden? Inwieweit kann die im Rahmen eines Additionsverfahrens in der ZBW eingesetzte automatische Sacherschließung den scheinbar unüberbrückbaren Widerspruch zwischen intellektueller und automatischer Sacherschließung, der sich aus den jeweiligen Vorgehensweisen und qualitativen Ansprüchen ergibt, ein Stück weit auflösen?[15]
Gemäß dem Charakter einer Fallstudie und der Tatsache, dass die Bibliotheks- und Informationswissenschaft eine praxisnahe und problemorientierte Wissenschaft ist, basiert diese Masterarbeit, aufbauend auf einer umfassenden Auswertung der Sekundärliteratur (theoretischer und empirischer Forschungsstand), vor allem auf der qualitativen Bewertung der maschinell erzeugten Indexierungsergebnisse anhand der zugrunde gelegten und im Methodenkapitel noch ausführlich dargestellten Evaluierungsmaße.
Die Ergebnisevaluierung automatischer Indexierungsverfahren erfolgt üblicherweise mit einem Retrievaltest, bei dem Recall[16] und Precision[17] bestimmt werden (Rapke 2001: 321, vgl. Salton/Mc Gill 1983). Der mit dieser Methode verbundene Aufwand (beispielhaft Sachse et al. 1998) und die dabei auftretenden methodischen Probleme[18] haben, in Bezug auf die Evaluierung automatischer Verfahren, „über lange Zeit hinweg spekulative Antworten auf der Basis lokaler Kriterien zugelassen“ (Knorz 2004: 186). Beispielhaft hierfür sind die Ergebnisse des AUTINDEX-Projektes am damaligen HWWA (siehe Haller et al. 2001) und die Studie von Helmbrecht-Schaar (2007) zur Klassifizierung von Textdokumenten.
Gleichwohl existiert für die Bewertung der Indexierungsgüte bzw. -qualität ein besser handhabbares Kriterienset (vgl. Stock 2000: 82, Bürkholz 1997: 17): die Indexierungsbreite, die Indexierungstiefe, bestehend aus den Maßen Indexierungsbreite und -spezifität, sowie die Indexierungskonsistenz.[19] Gerade die Indexierungskonsistenz ist ein starkes Messinstrument (Medelyan 2005: 10), wenn es, wie im Rahmen dieser Arbeit, zu evaluieren gilt, inwieweit eine automatische Indexierungssoftware auf Basis eines Thesaurus qualitativ hinreichend funktionieren kann. Die Indexierungskonsistenz stellt hierbei einen kombinierten Recall-Precision-Wert dar, der bestimmt, wie viele der manuell vorgegebenen Deskriptoren von der Indexierungssoftware eigentlich hätten gefunden werden müssen (Recall) und wie präzise bzw. genau diese letztendlich sind (Precision).
Wie im Folgenden gezeigt werden soll, erreicht die maschinelle Sacherschließung in Bezug auf die Güte des Indexierungsergebnisses einen durchschnittlichen Indexierungskonsistenzwert von 36 %. Hinsichtlich der Indexierungsbreite vergibt das automatische Verfahren im Vergleich zum manuellen Indexieren mehr Deskriptoren pro Dokument, diese sind jedoch unspezifischer und somit auch weniger trennscharf.
Basierend auf den in der Einleitung getätigten grundlegenden Annahmen und der geschilderten Herangehensweise, ergibt sich für den weiteren Verlauf dieser Arbeit folgende Gliederung:
Im 2. Kapitel erfolgt eine kritische Würdigung des Forschungsstandes. Hierbei werden vor allem die bisherigen Evaluierungsansätze automatischer Indexierungsverfahren dargestellt und deren Ergebnisse herausgestellt. Zuerst für diejenigen Untersuchungen, die Retrievaltests ihren Analysen zugrunde gelegt haben. Anschließend werden die Ergebnisse von zentralen Indexierungskonsistenzstudien aufgeführt, einerseits im Vergleich von manuellen Sacherschließungsverfahren untereinander und andererseits in der Gegenüberstellung von manueller und automatischer Indexierung. Weiterhin wird auf den Forschungsstand zur Evaluierung der in der ZBW zum Einsatz kommenden Indexierungssoftware MindServer eingegangen.
Im 3. Kapitel wird zunächst die Funktionsweise des MindServer-Ansatzes kurz erläutert und in den theoretischen Kontext automatischer Sacherschließungsverfahren eingeordnet. Weiterhin werden die Datenlage und der Stichprobenumfang dargestellt und erläutert. Im Anschluss daran werden das Messverfahren und dessen Evaluierungsmaße zur Bestimmung der Indexierungsqualität vorgestellt und die vorgenommenen Anpassungen an den vorliegenden Untersuchungsgegenstand begründet.
Im 4. Kapitel erfolgt die Darstellung der empirischen Ergebnisse auf Basis der im vorangegangenen Kapitel aufgeführten und definierten Variablen. Zuerst für die berechneten Indexierungskonsistenzwerte und im Anschluss daran für die Maße Indexierungstiefe, als Kombination aus Indexierungsbreite und -spezifität sowie die Indexierungseffektivität. Abschluss der Ergebnisdarstellung bilden die Resultate zur Belegungsbilanz des STW und diejenigen Aussagen, die einer qualitativen Analyse seitens der FachreferentInnen zugrunde liegen.
Im 5. Kapitel werden die Analyseergebnisse anhand der aufgestellten Hypothese und forschungsleitenden Fragestellung abschließend diskutiert und in den allgemeinen Kontext – die Implementierung automatischer Indexierungsverfahren in bibliotheksbezogenen Anwendungen und deren Bewertung unter qualitativen Gesichtspunkten – in Beziehung gesetzt. Weiterhin werden die Grenzen und Schwächen der getroffenen Annahmen und Ergebnisse diskutiert. Den Abschluss bildet ein Ausblick, welche Forschungsmöglichkeiten aus dem Ergebniskontext heraus sich für weiterführende Studien ergeben.
2 Forschungsstand
Mit dem Aufkommen und dem breiten Einsatz automatischer Verfahren im Rahmen der Sacherschließung von Dokumenten stehen diese im Wettstreit mit der manuellen Indexierung um das bessere Indexierungsergebnis (vgl. Nohr 2004: 216). Für die maschinellen Ansätze gilt es zu beweisen, dass sie gleiche oder bessere Resultate erzielen, wohingegen die intellektuellen Ansätze wiederum bemüht sind, ihre Position im Rahmen einer strukturierten Sacherschließung zu verteidigen, indem sie gleichfalls diese Beweise zu erbringen versuchen.
Dieses Kapitel arbeitet den umfangreichen Forschungsstand in Bezug auf den eben beschriebenen Vergleich auf. Dabei gilt es aufzuzeigen, welchen Evaluierungsansatz die einzelnen Arbeiten wählen, welche Stärken und Schwächen die unterschiedlichen Herangehensweisen aufweisen und zu welchem Ergebnis sie letztendlich kommen.[20] Zuerst werden überblicksbezogene und theoretische Analysen dargestellt, danach folgt eine Darlegung und kritische Bewertung von Resultaten entsprechender Retrievaltests, anschließend werden Analysen, die die Indexierungskonsistenz berechnen, aufgeführt und deren Ergebnisse miteinander verglichen, um zuletzt Untersuchungen zu beleuchten, die den MindServer als automatisches Sacherschließungsverfahren zu bewerten versuchen.
2.1 Überblicks- und theoretische Arbeiten
Neben theoretisch angelegten Ausführungen finden sich im deutschsprachigen Raum zahlreiche deskriptiv ausgerichtete Überblicksarbeiten, die auf Stärken-Schwächen-Analysen beruhen und keine eigenen Forschungsdaten erheben und auswerten.
Einen pointierten Überblick über die Vor- und Nachteile automatischer Indexierungsverfahren liefert Siegmüller (2007). Anhand der Projekte MILOS/KASKADE[21], OSIRIS[22], IntelligentCAPTURE/AUTINDEX[23] und FAST Data Search[24] stellt sie die technische Plattform, die Erweiterbarkeit (Skalierbarkeit), die Modularität, den Support, den Workflow, die Datenhaltung und die Softwarebasis der aufgeführten Anwendungen im Bibliotheksbereich vergleichend dar. Die Quintessenz des dargestellten Vergleiches mündet in der Aussage, dass automatische Verfahren nicht die Qualität der manuellen Sacherschließung erreichen, diese aber sehr wohl das vorhandene Datenmaterial für ein Information-Retrieval entsprechend aufbereiten können, um das Suchergebnis zu verbessern (ebd.: 97).
Mit einer kleineren Fallzahl, welche gleichfalls die Anwendungen MILOS/KASCADE, OSIRIS und AUTINDEX als Analysebasis zugrunde legt, arbeitet Pusl (2005). Durch die Fokussierung auf die Beweggründe zum Einsatz automatischer Verfahren, die Datenbasis, den Workflow, die technischen Rahmenbedingungen, die Implementierungsprobleme, die jeweiligen Retrievalergebnisse und den aktuellen Projektstand, werden umfassend die Stärken und Schwächen der untersuchten Verfahren dargestellt. Die zentralen bewertenden Aussagen zu den Ergebnissen des vorgenommenen Vergleiches gleichen denen Siegmüllers (2007). Der Einsatz maschineller Indexierungsverfahren wird grundsätzlich empfohlen, letztlich aber aus quantitativen Aspekten heraus (Datenflut) und weniger aus qualitativen Gründen (vgl. Pusl 2005: 108-122).
Mit einer qualitativen Einschätzung von MILOS und IntelligentCAPTURE stellen auch Mittelbach und Probst (2006) zwei bekannte automatische Indexierungsverfahren ins Zentrum ihrer Untersuchung. In einer Stärken-Schwächen-Analyse zielt der vorgenommene Vergleich vor allem auf die Bestimmung und Bewertung der Diskrepanz zwischen dem Informationsbedürfnis des Nutzers einerseits, welches sich in einer formulierten Suchanfrage konkretisiert, und andererseits dem Informationsgehalt des formell und intellektuell erschlossenen Titels. Basierend darauf wird der Einsatz im Rahmen der Freien Universität Berlin diskutiert (ebd.: 67ff.). Zudem wird eine Kosten-Nutzen-Analyse (Ressourceneinsatz) durchgeführt. Letztlich bleiben die qualitativen Bewertungen und Empfehlungen vage und münden in der Aussage, dass „nur bei kombinierter Anwendung intellektueller Erschließungsmethoden und automatischer Indexierungsverfahren optimale Suchergebnisse zu erzielen sind“ (ebd.: 73).[25]
Einen Vergleich verschiedener maschineller Indexierungsverfahren unter software- und retrievalbezogenen Gesichtspunkten mit einer anschließenden kurzen qualitativen Einschätzung liefert auch Schwarz (2004). In der Gegenüberstellung dreier Softwareprodukte werden zentrale Implementierungsaspekte von automatischen Sacherschließungsverfahren im Rahmen einer Fallstudie (Lenzing AG, Österreich) analysiert. Die Vorteile eines Einsatzes dieser Verfahren werden in der Verbesserung des Verhältnisses zwischen formulierter Suchanfrage und bestehendem Dokumenteninhalt gesehen („vocabulary problem“)[26]. Weitere Vorteile liegen nach Schwarz gleichfalls in der Skalierbarkeit (Erweiterungsfähigkeit), in der Einsparung personeller Ressourcen (Kosten-Nutzen-Analyse) sowie in der Einbindung heterogener digitaler Inhalte unter einer Suchoberfläche.
In einer älteren Studie vergleicht Bürkholz (1997) den Entwicklungsstand der Anwendungen PASSAT[27], MILOS und AIR/PHYS[28]. Im Einzelnen werden der Funktionsumfang, die Systembesonderheiten, der Indexierungsablauf, die Erfahrungen der Anwender dargestellt und eine abschließende Systembewertung vorgenommen. Im Fazit wird die Anwendung im bibliothekarischen Kontext als „sinnvolle Lösung“ (ebd.: 42) angesehen, um die manuelle Sacherschließung zu ergänzen (semi-automatischer Ansatz).
Im Fokus von theoretischen Abhandlungen, die sich automatischen Sacherschließungsverfahren zuwenden und keine empirische Überprüfung der getätigten Annahmen vorlegen, stehen vor allem informationstheoretische Aspekte dieser Verfahren und deren Übertragung in softwarespezifische Lösungen. Hauer (2000) zeigt zum Beispiel für das Projekt AUTINDEX, wie das eingesetzte statistische Verfahren die eingespielten Daten bearbeitet und anschließend die Ergebnisse mit Hilfe eines Thesaurus entsprechend abbildet. Lepsky und Vorhauer (2006) legen mit der Open-Source-Software LINGO[29] ein linguistisches Verfahren ihrer theoretischen Abhandlung über die automatische Indexierung deutschsprachiger Dokumente zugrunde. Hierbei untersuchen sie vor allem die Softwarefunktionalität (Grundform-, Muster-, Kompositaerkennung) hinsichtlich der Anforderungen an Datenbasis und Einsatzmöglichkeiten. Eine informatikbezogene Darstellung der Funktionsweise automatischer Sacherschließungsverfahren und deren software- und retrievalspezifischer Anforderungen findet sich in Manning et al. (2008).
2.2 Evaluierungsverfahren I: Retrievaltests
Retrievaltests, in denen die Maße Recall (Vollzähligkeitsrate) und Precision (Präzisionsrate) bestimmt werden, nehmen eine herausragende Rolle ein, wenn es darum geht, die Performance automatischer Sacherschließungsverfahren zu evaluieren. Gerade bei umfangreichen Datensätzen bzw. Titelmengen ist diese Art der Qualitätsmessung sinnvoll.[30] In diesem Unterkapitel sollen exemplarisch die Ergebnisse von durchgeführten, die Qualität automatischer Indexierungsansätze bewertenden Retrievaltests dargestellt und deren Einflussfaktoren kontrastiert werden.
Im Rahmen einer Diplomarbeit untersucht Rapke (2001) die Funktionsweise von zwei grundsätzlich unterschiedlich ausgerichteten automatischen Verfahren – einerseits einem statistischen Ansatz und andererseits einem Mustererkennungsverfahren –, für die jeweils Recall und Precision im Vergleich zur manuellen Sacherschließung ermittelt werden. Während das statistische Verfahren einen Recall-Wert von 74 % und einen Precision-Wert von 57 % erreicht, liegt die Performance des Mustererkennungsverfahrens bei 56 % bzw. 32 %. Im Vergleich hierzu erreicht die manuelle Erschließung einen Recall-Wert von 75 % und einen Precision-Wert von 73 % (ebd.: 332). Die Gründe in dieser Diskrepanz sieht Rapke (ebd.: 335-337) u. a. in der bestehenden Vagheit zwischen der Suchanfrage einerseits und dem Dokumenteninhalt andererseits sowie in der Schwierigkeit maschineller Verfahren hinsichtlich der Kompositazerlegung und Eigennamenerkennung.
Für die Indexierungssoftware AUTINDEX vergleichen Nübel/Schmidt (2003) automatische und maschinelle Indexierungsergebnisse. Mit Hilfe eines Retrievaltests wird die Abbildung der automatisch generierten Indexierungsergebnisse in Form von Thesaurusbegriffen evaluiert.[31] Die Recallwerte liegen zwischen 26 % (bilinguale Indexierung, deutsch-englisch) und 37 % (monolinguale Indexierung, englisch). Im Bereich der Precision werden Werte zwischen 61 % (monolinguale Indexierung, deutsch) und 37 % (monolinguale Indexierung, englisch) erreicht. Leider finden sich für die zu erklärenden Variablen keine Angaben hinsichtlich der intervenierenden Variablen (Erklärungsfaktoren). Ähnlich oberflächlich verbleibt auch die Analyse von Schek (2005), in der zwar die ermittelten Recall-Werte (75 % bzw. >90 %) für das eingesetzte automatische Indexierungsverfahren aufgeführt werden, die gleichfalls interessanten Precision-Werte aber nicht. Zudem finden sich auch hier keine Hinweise zu möglichen Erklärungsfaktoren.
Die Arbeit von Oberhauser und Labner (2003) ist ein weiteres typisches Beispiel für einen Evaluierungsansatz, der versucht, die Vagheit/Lücke zwischen einerseits der Suchanfrage und andererseits den formell und intellektuell erschlossenen Datensätzen zu bestimmen (= unabhängige Variable). In drei Retrievaltests, denen unterschiedliche Annahmen bezüglich dieser Lücke zugrunde liegen, nimmt die Anzahl der gefundenen Titel zu. Der Recall steigt im ersten Test um 32 % (Precision 91 %), im zweiten Test um 55 % (Precision 56 %) und im dritten Test um 32 % (Precision 84 %) (ebd.: 11-16). Ebenso wie bei Nübel/Schmidt (2003) und Schek (2005) werden keine Erklärungsfaktoren aufgezeigt.
Einen anderen Evaluierungsansatz, gleichwohl unter Anwendung eines Retrievaltests, zeigt die Diplomarbeit von Leder (2002). Auf Basis eines linguistischen Verfahrens (MILOS) werden die Indexierungsergebnisse manueller und automatischer Sacherschließungsansätze gegenübergestellt. Der Einsatz der Automatik liefert einen Anstieg des mittleren Recall von 54 % auf 93 %, im Gegenzug sinkt die Precision von 78 % auf 69 % (ebd.: 36). Erklärungsfaktoren werden in der Wörterbuchpflege (neue Wörter, Synonyme etc.) aufgeführt und in den Stellschrauben des automatischen Verfahrens gesehen (z. B. Fehler in der Dekomposition von Wörtern) (ebd.: 35). Als Fazit wird eine gewinnbringende Verbindung von intellektuellen und automatischen Sacherschließungsverfahren in semi-automatischer Form vorgeschlagen.
Sachse et al. (1998) zeigen in einer älteren Arbeit, dass die Retrievalergebnisse durch den Einsatz eines automatischen Indexierungsverfahrens (hier MILOS) zu einem erhöhten Recall-Wert von 92 % und mehr führen, unter Inkaufnahme eines Rückgangs der Precision (79 % bzw. 74 %) (ebd.: 37). Die aufgezeigten Erklärungsfaktoren liegen einerseits in den Stellschrauben des eingesetzten automatischen Systems, z. B. in der Grundformermittlung, der Kompositazerlegung und der Derivation, begründet sowie andererseits in der Wörterbuchpflege des linguistischen Verfahrens (ebd.).[32]
Die dargestellten Retrievaltests als Messverfahren zur Bestimmung der Indexierungsgüte haben gezeigt, dass sich bei automatischen Sacherschließungsverfahren grundsätzlich die Zahl der gefundenen Titel bei einer Suchanfrage erhöht (Recall-Anstieg), während die Precision demgegenüber immer abnimmt, aber in vertretbarem Ausmaße, wie vielfach betont worden ist. Die aufgeführten Arbeiten haben weiterhin, allerdings nur teilweise, mögliche Erklärungsfaktoren dargestellt, die vor allem im Bereich der software- bzw. verfahrensspezifischen Stellschrauben (z. B. Kompositazerlegung, Wörterbuchpflege) zu verorten sind.
2.3 Evaluierungsverfahren II: Indexierungskonsis-tenz
Die Berechnung der Indexierungskonsistenz als Gütekriterium maschineller Indexierungs-ergebnisse nimmt, im Vergleich zu den bekannten Evaluierungsmaßen von Retrievaltests, gleichfalls eine prominente Stellung ein, wenn manuelle und automatische Sacherschließungsverfahren gegenübergestellt werden. Gerade bei der Bewertung von mittelgroßen Fallzahlen[33] kommt dieses Qualitätsmaß zum Einsatz.
Die Indexierungskonsistenz kann grundsätzlich in folgende Kategorien eingeteilt werden: erstens die Inter-Indexier-Konsistenz. Hierbei werden die Ergebnisse verschiedener Indexierer – hierzu zählen auch Gegenüberstellungen von manuellen vs. automatischen Sacherschließungsergebnissen – miteinander verglichen (siehe Stock 2000: 83, Lancaster 2003: 68). Zweitens die Intra-Indexer-Konsistenz, bei der die Ergebnisse eines Indexierers zur selben Vorlage, aber zu unterschiedlichen Zeitpunkten gegenübergestellt werden. Drittens die Indexer-Anfrager-Konsistenz. Darunter werden Analysen subsumiert, die sich der Lücke zwischen der formell und inhaltlich erschlossenen Vorlage einerseits und der gestellten Suchanfrage des Nutzers als konkretisiertes Informationsbedürfnis andererseits zuwenden und diese entsprechend untersuchen (vgl. Stock 1993: 150).[34]
Die folgenden Ausführungen geben den Forschungsstand von wichtigen und aktuellen Indexierungskonsistenzanalysen wieder. Neben den reinen Konsistenzwerten sind hierbei vor allem die aufgezeigten Erklärungsfaktoren für das Zustandekommen der jeweiligen Ergebnisse von Interesse und werden entsprechend herausgestellt. Zunächst wird auf die Einflussfaktoren der Indexierungskonsistenz zwischen manuellen Indexierern eingegangen (= manuelle Inter-Indexer-Konsistenz), um anschließend auf konsistenzbezogene Vergleiche zwischen manuellen und automatischen Sacherschließungsverfahren zu fokussieren (manuell/automatische Inter-Indexer-Konsistenz).
Es überrascht nicht, dass, wenn der eigentliche Vorgang des Indexierens zuweilen als Kunst charakterisiert wird (Stock/Stock 2008: 345), hinsichtlich der Qualitäten der Ergebnisse heftige Diskurse entbrennen können, so dass Studien zu dem Ergebnis kommen, dass „indexers do not always agree on the choice of keywords representating the contents of the same document“. (Bertrand/Cellier 1995: 459). Während dieser Fakt, wie noch zu sehen sein wird, in zahlreichen Arbeiten immer wieder herausgestellt wird und offensichtlich unstrittig ist, so unterschiedlich sind jedoch demgegenüber die aufgezeigten Erklärungsansätze dieses Phänomens.
2.3.1 Manuelle Sacherschließung
Die Ursachen für eine geringe manuelle Inter-Indexer-Konsistenz liegen, um einen ersten Erklärungsansatz zu nehmen, in der Kognition der Indexierer bzw. der Indexiererinnen begründet. Deren Wissen[35] bildet eine intellektuelle Basis, um im Rahmen einer sogenannten Indexierungsstrategie, d. h. dem konkreten Arbeitsablauf des Indexierens, zur Anwendung zu gelangen (Bertrand/Cellier 1995: 460). Die Indexierungskonsistenz zwischen manuellen Indexierern variiert diesem Ansatz nach zwischen 62 % für das Fachgebiet Wirtschaftswissenschaften und 55,1 % für das Fachgebiet Psychologie. Eine Aufteilung in Experten vs. Laien ergab Werte von 64,9 % bzw. 53,4 % und somit – wenig überraschend – eine höhere Konsistenz zwischen den erfahrenen Indexierern (ebd.: 464). Dies ist, wenn die Indexierungsstrategie als ein zentraler Erklärungsfaktor angesehen wird, auf eine unterschiedliche Indexierungbreite der einzelnen Indexate zurückzuführen (im Mittel wurden 4,48 Terme pro Dokument vergeben)[36] und auf die vorhandene Struktur des Thesaurus, im konkreten Falle vor allem die Aktualität und Kontrolle des vorhandenen Vokabulars.
Zu ähnlichen Ergebnissen kommen auch David und Giroux (1995), die eine Inter-Indexer-Konsistenz von 45 % für alle Deskriptoren und 66 % für die jeweils zuerst aufgeführten Deskriptoren feststellen (ebd. 7). Der gleichfalls in der kognitiven Psychologie zu verortende Erklärungsansatz fokussiert ebenso auf das strategische Verhalten der IndexiererInnen im Rahmen der Sacherschließung als Problem lösender Prozess:
With experts, for example, it can be assumed that with experience comes the assimilation of general rules and norms, knowledge relative to the particular work context, knowledge of the domain, etc., all of which leads to the development of a goal structure and sub-goals different from that of other indexers. (ebd.: 3, Hervorhebung durch T. G.).
Gerade die Diskrepanz zwischen Hauptthemen („goal“) und Randthemen („sub-goal“) wird in den nachfolgenden Studien immer wieder als ein zentraler Faktor für die Veränderung der Inter-Indexer-Konsistenz angesehen. So auch bei Saarti (2002). Gerade weiche Themen, „so called soft or abstract sciences, especially for fictional material“ (ebd.: 50), beeinflussen durch die Vielzahl an möglichen Deskriptoren eine konsistente Sacherschließung zwischen manuellen IndexiererInnen. Der Konsistenzwert für die Experten (Bibliothekare) liegt bei 77,1 %, während die Laien (Bibliotheksbenutzer) im Vergleich dazu nur 56,3 % erreichen. Weitere intervenierende Variablen stellen die Granulariät des Thesaurus dar (Vergabe Ober-, Unter-, verwandter Begriffe) sowie die Fokussierung der Indexierer auf sinntragende Dokumentelemente, wie Titel, Abstract, Einleitung (ebd.: 61).
Die Gegenüberstellung der Indexierungsergebnisse von Experten im Vergleich zu denen von Laien durch Bildung von entsprechenden Versuchs- und Kontrollgruppen ist ein oft anzutreffendes Untersuchungsdesign, um den Mehrwert normierter Sacherschließung näher zu bestimmen. Während die Ergebnisse von Experten sich tendenziell annähern (vgl. David/Giroux 1995, Saarti 2002), ohne jedoch völlig übereinzustimmen, variiert die Konsistenz zwischen Laien naturgemäß stärker, wie die Arbeit von Kipp und Campbell (2006) aufzeigt. In der Studie, die auf manuelle Sacherschließungsergebnisse durch Laien im Rahmen von Social Tagging[37] fokussiert, kommen sie zu dem Ergebnis, dass nutzergenerierte Schlagwörter (oder Tags) ohne die Zuhilfenahme eines kontrollierten Vokabulars naturgemäß so unterschiedlich sind, dass eine Evaluierung der Indexierungskonsistenz in Form eines konkreten Wertes nicht möglich ist (ebd.: 2). Eine stattdessen vorgenommene Kategorisierung (Clusterung) der vorliegenden Tags führt zu dem Ergebnis, dass Web-2.0-Begriffe (u. a. blog, wiki) sowie Zeitangaben am häufigsten vergeben werden. Ohne kontrolliertes Vokabular halten sich Laien eng an den Textinhalt, um häufig vorkommende oder an prominenter Stelle auftretende Wörter zu extrahieren.[38] Auch Lancaster (2003: 73) zeigt diesen Aspekt in einem Experiment, in dem die Inter-Indexer-Konsistenz beim freien Indexieren generell höher ist als unter Anwendung eines entsprechenden Thesaurus.
Die Varianz freier Sacherschließung durch Laien verdeutlicht gleichfalls die Studie von Olson und Wolfram (2005, 2007), welche gleichfalls Indexierungskonsistenzen zwischen Laien im Rahmen des Social Tagging untersuchen: „[…] over a reasonably large number of people, consistency in identifying key concepts is small.” (Ebd: 2005: 3). Die Gründe liegen, wie bei Kipp und Campell (2006) bereits dargestellt, in der Natur der Sache:[39] Je höher die Anzahl der Indexierer, die einen bestimmten Dokumenteninhalt verschlagworten sollen, desto stärker variieren die Ergebnisse. Wenn selbst die Kernthemen eines Dokuments de facto mit unterschiedlichen Worten beschrieben werden (können),[40] kommt es verständlicherweise gerade bei den peripheren Aspekten zu einer noch größeren Inkonsistenz (Olson/Wolfram 2005: 1).[41]
Einen Lösungsansatz hierzu zeigen Stubbs et al. (1999) auf. Durch eine Erhöhung der Indexierungsbreite kann die Indexierungskonsistenz zwischen manuellen Indexaten gesteigert werden.[42] Im ersten Sample lag der Konsistenzwert bei 29 % bei Indexierungsbreiten von 2-30 Begriffen. Im zweiten Sample konnte der Konsistenzwert durch die durchschnittliche Vergabe von 18-24 Deskriptoren mit einem Anstieg auf 60 % erheblich gesteigert werden (ebd.: 65). Dieses Ergebnis ist aber nur auf statistische Effekte zurückzuführen und kann als nicht überzeugend für den praktischen Einsatz im Rahmen bibliothekarischer Sacherschließung angesehen werden. Für den Bereich der Sacherschließung durch Laien, z. B. via Tagging, mag dies ein Lösungsansatz sein, für das Terrain professioneller Indexierung ist dieser nicht geeignet.[43]
Die Ergebnisse von Tonta (1991), der die Inter-Indexierer-Konsistenz zwischen Bibliothekaren der British Library und der Library of Congress miteinander vergleicht, relativieren die Resultate von Kipp/Campbell (2006) und Wolfram/Olson (2005, 2007) ein Stück weit. Während bei einer unterschiedlichen Indexierungsbreite die Inter-Indexierer-Konsistenz Werte von 16 % (exakte Übereinstimmung) und 36 % (partielle Übereinstimmung) aufweist, liegen die Zahlen bei einer identischen Indexatbreite bei 14 % bzw. 41 % (Tonta 1991: 4-5).
Auch Watermann (1997) vergleicht die Inter-Indexierer-Konsistenz zwischen Bibliothekaren unter Rückgriff auf zwei Anwender des STW, das ifo-Institut und das damaligen HWWA. Als durchschnittlicher Konsistenzwert wurden 31 % ermittelt, die auf eine unterschiedliche Indexierungspolitik der beiden Institutionen (ebd.: 17ff.) sowie eine divergierende Indexierungsbreite zwischen den einzelnen Indexaten zurückzuführen sind (ebd.: 43). Als abschließende Bewertung wird die Inter-Indexierungs-Konsistenz beider STW-Anwender als „dürftig und desolat“ (ebd.: 43) beschrieben.
Demgegenüber ermittelt Leininger (2000) durchschnittlich höhere Inter-Indexer-Konsistenzwerte. Je nach zugrunde gelegter Formel liegt die ermittelte Konsistenz zwischen manuellen Indexaten bei 50,4 % bzw. 60,83 %. Eine differenzierte Analyse der Verschlagwortung von Kern- bzw. Randthemen ergab, dass die Indexierungskonsistenz zurückgeht, wenn nur die ersten Schlagworte miteinander verglichen werden. Hier tritt wieder das goal/sub-goal-Problem manueller Indexierungsverfahren deutlich hervor: „[…] the central concepts addressed can be reliably found in the indexing of a record as a whole.” (Ebd.: 7).
Einen anderen Erklärungsansatz von geringen Inter-Indexer-Konsistenzen zeigt Iivonen (1990) auf. Der zugrunde gelegte organisationstheoretische Ansatzpunkt legt den Fokus auf die Umwelt des Indexierungsprozesses: „[…], a library as an indexing environment, proves to be a very complex whole, where numerous factors influence each other.“ (Ebd.: 259). Die geringen Konsistenzwerte – je nach Testsituation liegen sie bei 8 %, 22,4 % und 30,6 % (ebd.: 261) – haben ihre Ursache in zahlreichen Faktoren: der Indexierungsbreite, der Gewichtung zentraler/peripherer Themen (goal/sub-goal-Problem), der Indexierungspolitik (Indexierungsregeln), der Aktualität der angewandten Dokumentationssprache, der Thesaurushierarchie (Vergabe von Ober- statt Unterbegriffen) und der Vergabe offensichtlich falscher Terme (ebd.: 262-263). Diese intervenierenden Variablen sehen auch Reich und Biever (1991) als ursächlich für unterschiedliche Inter-Indexer-Konsistenzen an.[44] Die ermittelten Konsistenzwerte liegen in ihrer Untersuchung je nach Sample bei 24 % bzw. 45 % (ebd.: 338). Zusätzlich wird der Indexierungstiefe und hier insbesondere der Indexierungsspezifität entscheidender, konsistenzbezogener Einfluss zugeschrieben: „Depth of indexing may play an additional role inasmuch as it may influence the choice of terms“ (ebd.: 340).
[...]
[1] Erste Konsultation zum Seminar „Wissensmanagement-Systeme und Data-Mining“, 25.10.2008, Humboldt-Universität Berlin.
[2] Zur Kontroverse über den Dokumentenbegriff siehe z. B. Buckland (1998) oder Pédauque (2003). In dieser Arbeit wird im Folgenden von einem weiten Dokumentenbegriff ausgegangen.
[3] Die heutzutage oft zu findende Kennzeichnung des Semantic Web als „Web 3.0“ wird in dieser Arbeit nicht verwendet, weil „Web 3.0“ eher einen Marketingausdruck darstellt (ähnlich „Bibliothek 2.0“, „E-Learning 2.0“ usw.) und zudem eine Linearität in der Webentwicklung unterstreicht, die in der Form nicht konstatiert werden kann (vgl. Gradmann 2009).
[4] Unter einem Thesaurus wie dem STW wird ein terminologisch kontrolliertes und genormtes Begriffssystem, bestehend aus konsistent hierarchischen Bezeichnungen (oder Deskriptoren), verstanden, das umfassend ein Wissenschaftsgebiet, in diesem Falle die Betriebswirtschafts- und Volkswirtschaftslehre, abdecken bzw. beschreiben kann (vgl. Nohr 2005: 26, Brühl 2005: 16, Burkhart 2004: 141). Dies wird durch eine möglichst vollständige Erfassung der Synonyme, eine besondere Kennzeichnung der Homonyme und Polyseme und durch die Verwendung von Vorzugsbezeichnungen erreicht, die den jeweiligen Deskriptor definieren (Panyr 2006: 142). Im Gegensatz zur Schlagwortnormdatei ist durch die Anwendung des STW eine stringentere Tiefenerschließung eines Fachgebietes möglich. Weiterhin schaffen Thesauri, im Gegensatz zu entsprechenden Klassifikationssystemen, einen natürlichsprachigen Zugang zu Informationen (vgl. Stock 2000: 76).
[5] Siehe: http://zbw.eu/stw/versions/latest/about (Version 8.04, Zugriff: 12.04.10).
[6] Der ursprüngliche STW ist 1995-1997 für die Anwendung in bestimmten wissenschaftlichen Einrichtungen entwickelt worden (HWWA, ZBW, IFO, GBI) (vgl. Stock 2000: 84). Die Online-Version zielt auf eine breitere Nutzung ab. Erste Nutzerstudien zeigen eine internationale Anwendung (Schwerpunkt: Deutschland, USA, Großbritannien), hauptsächlich im Hochschulbereich (18 %), in IT-Firmen (15 %) und im Informationssektor (9 %).
[7] Während automatische Sacherschließungsverfahren ohne manuellen Eingriff ablaufen können, findet in der ZBW ein semiautomatisches Verfahren Anwendung. Hierbei werden maschinell erstellte Schlagwörter anschließend manuell überprüft und gegebenenfalls angepasst (vgl. Bertram 2005: 98).
[8] Werden keine Personenbezeichnungen verwendet, die beide Geschlechter mit einschließen, z. B. aus Gründen der besseren Lesbarkeit, so schließt dies selbstverständlich das andere Geschlecht jeweils mit ein.
[9] Technische Fragen (Anforderungen und Anpassungsprobleme auf Basis der EDV-Infrastruktur) oder ökonomische Aspekte (Effizienzbetrachtungen i. S. v. Kosten-Nutzen-Analysen) sind nicht Gegenstand dieser Arbeit.
[10] Während eine Klassifikation (siehe bspw. JEL) eher auf einer allgemeineren Ebene verbleibt (z. B. Spieltheorie, Industriepolitik), versucht ein Thesaurus differenzierter zu erschließen (dynamische Spieltheorie, Bergbaupolitik).
[11] Beispielsweise kann das automatische Verfahren zwar die Wörter „Müller“ oder „Essen“ generieren, aber erst die Kontextualisierung dieser Information in semantischen Beziehungssystemen wie dem STW ermöglicht eine zielgerichtete Suche, z. B. im Falle von „Essen“ nach der Stadt oder den Nahrungsmitteln. Während momentan der Nutzer diesen Gedankengang bei der Suchanfrage berücksichtigen muss, kann das Semantic Web dies erkennen und automatisch umsetzen.
[12] Die Indexierungssoftware soll durch die Vorgabe bereits erschlossener Dokumente so trainiert werden, dass sie dem durchschnittlichen Indexierungsverhalten einer heterogenen Indexierergruppe (Anzahl, Qualifikation) entspricht. Es ist zu erwarten, dass Indexierungsfehler Einzelner durch die Gruppe eher ausgeglichen werden. Gleichzeitig können systematische Verwerfungen, d. h. Fehler, die von vielen Personen gemacht werden, die Maschine natürlich auch fehltrainieren.
[13] Nicht in Betracht kommen folgende Erklärungsfaktoren, die Lancaster (2003: 70ff.) zusätzlich aufführt: kontrolliertes vs. freies Vokabular (mit dem STW kommt ein kontrolliertes Vokabular zum Einsatz), der Objektcharakter (hier: überwiegend Working Paper), die Terminologie (hier: Wirtschaftswissenschaften), die Indexierungshilfsmittel und der Umfang des zu indexierenden Dokuments. Stellschrauben der eingesetzten Indexierungssoftware (z. B. Titel-/Abstractgewichtung, Lerndokumentenanzahl) bleiben wegen des momentanen Projektcharakters des automatischen Verfahrens an der ZBW gleichfalls unberücksichtigt. Hier bieten sich entsprechende Anschlussstudien an.
[14] Diese Gesetzmäßigkeit geht auf G.K. Zipf zurück. Hiernach existiert „eine konstante Beziehung zwischen dem Rang eines Wortes in einer Häufigkeitsliste und der Frequenz, mit der dieses Wort in einem Text vorkommt“ (Nohr 2004: 217). Eine ausführliche Beschreibung gibt Nohr (2005: 5f.).
[15] Siehe hierzu u. a. Nohr (2004: 216).
[16] Der Recall bestimmt die Wahrscheinlichkeit, dass ein Dokument aus einer Grundgesamtheit (Bestand) bei einer Suchanfrage auch tatsächlich gefunden wird (Oberhauser 2005: 32). Nach Stock (2007: 556): „Quotient aus der Anzahl der gefundenen relevanten Dokumentationseinheiten und der Gesamtzahl der relevanten Dokumente in einer Datenbank.“
[17] Die Precision bestimmt die Genauigkeit des Ergebnisses, d. h., wie viele der gefundenen Dokumente stimmen mit der Intention der Suchanfrage überein (Oberhauser 2005: 32). Nach Stock (2007: 556): „Quotient aus der Anzahl der gefundenen relevanten Dokumentationseinheiten und aller gefundener Datensätze (also einschließlich des Ballastes).“
[18] Ein zentrales Problem für die Berechnung des „Recall“ (Vollzähligkeitsrate) ist die genaue Bestimmung der Grundgesamtheit. Im Falle des ZBW-OPAC’s müsste aus den vorliegenden 4,4 Mio. Medieneinheiten für eine Suchanfrage die Anzahl der relevanten Dokumente bekannt sein, was nicht zu ermitteln ist (ähnlich Holl 2009: 60). Weitere Anwendungsprobleme zeigen Sachse et al. (1998), Knorz (2004: 187) oder Lewandowski (2005: 145-148).
[19] Zur genauen Berechnung siehe Kapitel 3.3.
[20] Die jeweilige Datenbasis und der zugrunde gelegte Gegenstand der Untersuchung (z. B. Bibliothek, Pressedokumentation) sind in der Tabelle 4 (im Anhang) zusammenfassend dargestellt. Gleiches gilt für den Evaluierungsansatz, die konkreten Ergebnisse und die Erklärungsfaktoren (= unabhängige Variablen).
[21] Beides DFG-geförderte Projekte der Universitäts- und Landesbibliothek Düsseldorf in den 1990iger Jahren. MILOS I und das Nachfolgeprojekt MILOS II waren linguistische Verfahren, während das Anschlussprojekt KASCADE einen statistischen Ansatz verfolgte (vgl. Siegmüller 2007: 68ff.).
[22] Gleichfalls ein von der DFG gefördertes Projekt an der Universitätsbibliothek Osnabrück im Zeitraum 1996-1999. Es handelt sich um ein statistisches Verfahren (vgl. Siegmüller 2007: 75ff.).
[23] Dieses Verfahren wurde am IAI in Saarbrücken im Zeitraum 1999-2002 entwickelt, vereint statistische und linguistische Komponenten und wurde anschließend in zahlreichen Informationseinrichtungen getestet (vgl. Siegmüller 2007: 84, siehe auch Pusl 2005: 97ff. oder Nübel/Schmidt 2003).
[24] An der Universitätsbibliothek Bielefeld im Jahre 2004 gestartetes Projekt. Neben einem statistischen Ansatz kann auch eine linguistische Komponente in Form von Wörterbüchern zugeschaltet werden (vgl. Siegmüller 2007: 90ff.).
[25] Dieser Vorschlag entspricht einem semi-automatischen Sacherschließungsverfahren.
[26] Vgl. Holls (2009: 65) Aussagen zur Suchtermerweiterung und der Vagheit zwischen Suchanfrage einerseits und dem kontrollierten Vokabular andererseits.
[27] Dieses automatische Indexierungsverfahren wurde bereits 1968 von der Firma Siemens entwickelt und stellt einen wörterbuchbasierten Ansatz dar (vgl. Bürkholz 1997: 18ff.).
[28] Ein in den 1970iger Jahren an der TH Darmstadt entwickeltes statistisches Verfahren, das in den 1980iger Jahren im Fachinformationszentrum Karlsruhe getestet worden ist (vgl. Bürkholz 1997: 34ff.).
[29] Eine ausführliche Darstellung findet sich in Gödert und Lepsky (2008) bzw. in Schiffer (2007). Die Software kann unter http://www.lex-lingo.de/ (Zugriff: 12.04.10) abgerufen werden.
[30] Siehe Tabelle 4 im Anhang.
[31] Gleichzeitig erfolgt auch eine Berechnung von Recall und Precision für aus einem flacheren Thesaurus generierte Klassifikationsergebnisse (siehe Nübel/Schmidt 2003: 96-97).
[32] Zu dem gleichen Ergebnis kommt auch Baum (2005). Z. B. steigt durch eine Kompositazerlegung der Recall für einen Suchbegriff um 400 %, unter Anstieg der Precision (von 72 % auf 84 %) (ebd.: 33). Ähnliches wird für die Dekomposition und die Anreicherung mit Synonymen festgestellt.
[33] Siehe Tabelle 4 im Anhang.
[34] Eine ausführliche Darstellung findet sich in Cooper (1969) oder Fugman (1992). Ein aktuelles Beispiel für eine Analyse zur Indexer-Anfrager-Konsistenz stellt die Arbeit von Holl (2009) dar.
[35] Hierzu zählen nicht nur die generelle Vertrautheit eines Sacherschließers mit dem jeweiligen Fachgebiet, z. B. durch ein Hochschulstudium des betreffenden Faches, sondern auch der Erfahrungsschatz, welcher in jahrelanger Anwendung eines kontrollierten Vokabulars entsteht.
[36] Es unterbleibt eine Korrelation zwischen Indexierungsbreite und -konsistenz, um zu eindeutigen Aussagen hinsichtlich deren Zusammenhangs zu gelangen.
[37] Hierbei werden Inhalte im WWW durch die Nutzer mit entsprechenden Metadaten (= Tags) beschrieben (vgl. Semantic Web Company 2010).
[38] In gleicher Art und Weise arbeiten auch statistische Indexierungsverfahren.
[39] Olson und Wolfram (2007) sprechen von „[…] nature of consistency or inconsistency.“ (Ebd.: 602).
[40] Z. B. der Begriff Indexierung, welcher auch als Sacherschließung oder Verschlagwortung bezeichnet werden kann.
[41] Vgl. das goal/sub-goal-Problem bei David/Giroux (1995: 3).
[42] Zu diesem Ergebnis gelangen auch Neshat und Horri (2006: 67): „[…] whenever the number of assigned terms increases, the probability of consistency decreases.”
[43] Dies würde für eine Annäherung manueller mit automatischer Sacherschließung bedeuten, dass beide Verfahren nur möglichst viele Begriffe vergeben, um somit die mögliche Schnittmenge zu erhöhen.
[44] Es wird nach thesaurusspezifischen Faktoren (Hierarchie/Granularität) und nicht thesaurusspezifischen Faktoren (Indexierungspolitik, Gewichtung zentraler/peripherer Themen) unterschieden.