Attributierung und Klassifikation von Objekten im Medienarchiv

Hammerschmidt, Beda Christoph

Attributierung und Klassifikation von Objekten im Medienarchiv

von Beda Christoph Hammerschmidt (Autor:in)

Zusammenfassung

Inhaltsangabe:Gang der Untersuchung:
In dieser Diplomarbeit soll ein System entworfen, beschrieben und prototypisch implementiert werden, welches die Klassifikation und Attributierung von Objekten eines Archivs (Medienarchivs) oder einer Datenbank ermöglicht.
Für die Implementierung wird das bestehende Medienarchiv der Universität zu Lübeck verwendet.
Im ersten Kapitel dieser Arbeit wird der Vorgang der Klassifikation erklärt und verschiedene Klassifikationsmodelle werden anhand von Beispielen aus der Medizin erklärt und analysiert.
Im zweiten Kapitel werden Attribute erst allgemein dargestellt und dann im dritten Kapitel in allgemeiner Form mittels XML und XML-Schema defniert.
Das vierte Kapitel beschreibt, wie sich Klassifikationssysteme und deren Inhalte formal in XML beschreiben lassen.
Im fünften und sechsten Kapitel wird die Architektur motiviert und beschrieben. Die Implementierung erfolgt in Java. Kernpunkt der Architektur sind Wrapper die die Klassifikationssysteme umschliessen und dynamische individuelle Datenstrukturen in einer relationalen Datenbank anlegen. Die Tabellen werden automatisch generiert. Alle Anfragen auf die Datenbank werden vom Wrapper gekapselt, der eine abstrakte High-Level Schnittstelle bietet.
Das letzte Kapitel bewertet das System, misst Zeiten und zeigt mögliche Erweiterungen auf.

Inhaltsverzeichnis:Inhaltsverzeichnis:
Einleitung1
1.Klassifikation und Klassifikationssysteme in der Medizin2
1.1Klassifikation2
1.2Modelle eines Klassifikationssystems4
1.2.1Eindimensionales, hierarchisches Systemmodell4
1.2.2Multidimensionales, multiaxiales Systemmodell8
1.2.3Referentielles Systemmodell11
1.2.4Weitere Ansätze für Systemmodelle14
2.Attribute als Metadaten16
2.1Bestehende Ansätze16
2.1.1Dublin Core Set16
3.Attribute für das Medienarchiv, attributierte Klassifikationssysteme19
3.1Definition eines Attributes19
3.1.1Atomare Attribute21
3.1.2Nichtatomare Attribute21
3.2Klassifikationssysteme mit Attributen22
3.2.1Motivation22
3.2.2Attribute und Klassen22
3.2.3Eigenschaften24
4.Formale Beschreibung von Klassifikationssystemen und deren Inhalt25
4.1XML und XML-Schema26
4.1.1Beschreibung26
4.1.2Validierung28
4.2Beschreibung des Aufbaus eines Klassifikationssystems30
4.3Beschreibung des Inhaltes36
4.4Darstellung von Attributen40
4.4.1Attribut-Schema40
4.4.2Attribute und Klassen40
4.4.3Attribut-Muster41
5.Einführung in die Implementierung des Klassifikations- und […]

Leseprobe

Inhaltsverzeichnis

ID 5595

Hammerschmidt, Beda Christoph: Attributierung und Klassifikation von Objekten im

Medienarchiv / Beda Christoph Hammerschmidt - Hamburg: Diplomica GmbH, 2002

Zugl.: Lübeck, Universität, Diplomarbeit, 2002

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die

der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen,

der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der

Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung,

vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im

Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der

Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich

vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des

Urheberrechtes.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem

Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche

Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten

wären und daher von jedermann benutzt werden dürften.

Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht

vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die Autoren oder

Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.

verbliebene fehlerhafte Angaben und deren Folgen.

Diplomica GmbH

http://www.diplom.de, Hamburg 2002

Printed in Germany

Inhaltsverzeichnis

Einleitung

1 Klassifikation und Klassifikationssysteme in der Medizin

1.1

Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Modelle eines Klassifikationssystems . . . . . . . . . . . . . .

1.2.1

Eindimensionales, hierarchisches Systemmodell . . . .

1.2.2

Multidimensionales, multiaxiales Systemmodell . . . .

1.2.3

Referentielles Systemmodell . . . . . . . . . . . . . . .

1.2.4

Weitere Ans¨atze f¨

ur Systemmodelle

. . . . . . . . . .

2 Attribute als Metadaten

2.1

Bestehende Ans¨atze . . . . . . . . . . . . . . . . . . . . . . .

2.1.1

Dublin Core Set . . . . . . . . . . . . . . . . . . . . .

3 Attribute f¨

ur das Medienarchiv, attributierte Klassifikati-

onssysteme

3.1

Definition eines Attributes . . . . . . . . . . . . . . . . . . . .

3.1.1

Atomare Attribute . . . . . . . . . . . . . . . . . . . .

3.1.2

Nichtatomare Attribute . . . . . . . . . . . . . . . . .

3.2

Klassifikationssysteme mit Attributen . . . . . . . . . . . . .

3.2.1

Motivation . . . . . . . . . . . . . . . . . . . . . . . .

3.2.2

Attribute und Klassen . . . . . . . . . . . . . . . . . .

3.2.3

Eigenschaften . . . . . . . . . . . . . . . . . . . . . . .

4 Formale Beschreibung von Klassifikationssystemen und de-

ren Inhalt

4.1

XML und XML-Schema . . . . . . . . . . . . . . . . . . . . .

4.1.1

Beschreibung . . . . . . . . . . . . . . . . . . . . . . .

4.1.2

Validierung . . . . . . . . . . . . . . . . . . . . . . . .

4.2

Beschreibung des Aufbaus eines Klassifikationssystems . . . .

4.3

Beschreibung des Inhaltes . . . . . . . . . . . . . . . . . . . .

4.4

Darstellung von Attributen . . . . . . . . . . . . . . . . . . .

4.4.1

Attribut-Schema . . . . . . . . . . . . . . . . . . . . .

4.4.2

Attribute und Klassen . . . . . . . . . . . . . . . . . .

4.4.3

Attribut-Muster . . . . . . . . . . . . . . . . . . . . .

5 Einf¨

uhrung in die Implementierung des Klassifikations- und

Attributierungssystems

5.1

Vorhandene Infrastruktur - Medienarchiv - Virtuelle Diaschiene 43

5.1.1

Medienarchiv Montana . . . . . . . . . . . . . . . . . .

5.1.2

Virtuelle Diaschiene . . . . . . . . . . . . . . . . . . .

5.2

Anforderungen an das Klassifikations- und Attributierungs-

system . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.3

Verwendete Technologien . . . . . . . . . . . . . . . . . . . .

5.3.1

Programmiersprache Java . . . . . . . . . . . . . . . .

5.3.2

JDOM, Java Document Object Model . . . . . . . . .

5.3.3

Datenbank MySQL . . . . . . . . . . . . . . . . . . . .

5.4

Verwendete Muster . . . . . . . . . . . . . . . . . . . . . . . .

5.4.1

Singleton . . . . . . . . . . . . . . . . . . . . . . . . .

5.4.2

Abstrakte Fabrik . . . . . . . . . . . . . . . . . . . . .

5.4.3

Stellvertreter / Proxy . . . . . . . . . . . . . . . . . .

5.4.4

Vermittler / Mediator . . . . . . . . . . . . . . . . . .

5.4.5

Zustand . . . . . . . . . . . . . . . . . . . . . . . . . .

iii

6 Architektur und Implementierung

6.1

Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2

Attributtypen . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.3

Speicherung der Attribute mit Werten . . . . . . . . . . . . .

6.4

Datenmodell MySQLAttributeStore . . . . . . . . . . . . . .

6.4.1

Entity Relationship Modell . . . . . . . . . . . . . . .

6.4.2

Modell in Tabellen-Form . . . . . . . . . . . . . . . . .

6.5

Speicherung von Attributmustern . . . . . . . . . . . . . . . .

6.6

Benutzeroberfl¨achen f¨

ur Attribute

. . . . . . . . . . . . . . .

6.6.1

Swing . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.6.2

Dynamisches Erzeugen der Komponenten . . . . . . .

6.6.3

Validierung der Eingabe . . . . . . . . . . . . . . . . .

6.7

Datenstruktur eines Klassifikationssystems . . . . . . . . . . .

6.7.1

Wrapper . . . . . . . . . . . . . . . . . . . . . . . . . .

6.7.2

Einf¨

ugen des Inhaltes . . . . . . . . . . . . . . . . . .

6.7.3

Attributierte Klassifikationssysteme . . . . . . . . . .

6.7.4

Persistenz der Wrappers . . . . . . . . . . . . . . . . .

6.8

Benutzeroberfl¨ache eines Klassifikationssystems . . . . . . . .

6.9

Klassifikationsvorgang . . . . . . . . . . . . . . . . . . . . . .

6.10 Generieren des individuellen XSchema-Dokuments . . . . . .

6.10.1 Wrapper und XSchemaCreator . . . . . . . . . . . . .

6.11 Aktivit¨atsdiagramm . . . . . . . . . . . . . . . . . . . . . . .

6.12 Weitere Module . . . . . . . . . . . . . . . . . . . . . . . . . .

6.12.1 Architektur¨

ubersicht . . . . . . . . . . . . . . . . . . .

6.12.2 Schnittstellen . . . . . . . . . . . . . . . . . . . . . . .

6.12.3 Vermittler / Mediator . . . . . . . . . . . . . . . . . .

6.13 Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.13.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . .

6.13.2 Suche in Attributen . . . . . . . . . . . . . . . . . . .

6.13.3 Implementierung . . . . . . . . . . . . . . . . . . . . .

6.13.4 Such-Grammatik . . . . . . . . . . . . . . . . . . . . .

7 Bewertung und Ausblick

7.1

Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.1.1

Messungen . . . . . . . . . . . . . . . . . . . . . . . .

7.1.2

Architektur . . . . . . . . . . . . . . . . . . . . . . . .

7.1.3

Verbinden des Systems mit einem Archiv . . . . . . .

7.1.4

Suche . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.1.5

Benutzeroberfl¨ache . . . . . . . . . . . . . . . . . . . .

7.1.6

Rechte . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.1.7

Navigation durch Klassifikationssystem . . . . . . . .

Literaturverzeichnis

Einleitung

In dieser Diplomarbeit soll ein System entworfen, beschrieben und prototy-

pisch implementiert werden, welches die Klassifikation und Attributierung

von Objekten eines Medienarchivs erm¨oglicht.

Ein Medienarchiv ist ein System zur zentralen Speicherung von Me-

dienobjekten. Das Speichern und Laden von Objekten ist von entfernten

Rechnern ¨

uber das Netzwerk m¨oglich.

Medienobjekte sind digitale Medien, d.h. Dateien, die z.B. Bilder oder

Filme in verschiedenen Formaten beinhalten. Die Medienobjekte sind im

Archiv wie in einem Dateisystem hierarchisch in Verzeichnissen angeordnet.

F¨

ur die Implementierung wird das bestehende Medienarchiv der Uni-

versit¨at zu L¨

ubeck [11] verwendet.

Im ersten Kapitel dieser Arbeit wird der Vorgang der Klassifikation

erkl¨art und verschiedene Modell werden anhand von Beispielen erkl¨art und

analysiert.

Im zweiten Kapitel werden Attribute erst allgemein dargestellt und dann

im dritten Kapitel in f¨

ur diese Arbeit konkreter Form definiert.

Das vierte Kapitel beschreibt, wie sich Klassifikationssystem und deren

Inhalt formal in XML beschreiben lassen.

Im f¨

unften und sechsten Kapitel wird die Architektur motiviert und

beschrieben.

Das letzte Kapitel bewertet das System und zeigt m¨ogliche Erweiterungen

auf.

Kapitel 1

Klassifikation und

Klassifikationssysteme in der

Medizin

1.1

Klassifikation

Bei der Erfassung von medizinischen Daten, z.B Diagnosen oder der Inhalts-

beschreibung von Bildern besteht in der Regel grosse Freiheit. Nicht jeder

Anwender benutzt dieselben Begriffe; Synonyme f¨

uhren zu uneinheitlichen

Beschreibungen. Die Begriffe Hepatitis und Leberentz¨

undung haben dieselbe

semantische Bedeutung. Ein unterschiedlicher Satzbau bei Volltextbe-

schreibungen erschwert zudem eine computergest¨

utzte Auswertung, so dass

das Wiederfinden von Daten schwierig und unzuverl¨assig ist, wenn unbe-

kannt ist, mit welchem Begriff das gesuchte Datenobjekt beschrieben wurde.

Ordungssysteme (Dokumentationssprachen) sollen die sprachlichen Freihei-

ten einschr¨anken und gleichen Sachverhalten gleiche Begriffe zuordnen.

Klassifikationssysteme sind eine Form eines Ordnungssystems und be-

ruhen auf dem Prinzip der Klassenbildung. Die Vereinigung aller Klassen

soll das zu beschreibende Wissensgebiet m¨oglichst vollst¨andig abdecken.

Die Klassen untereinander sind paarweise disjunkt.

Die realen Objekte des Wissensgebietes werden anhand eines oder

mehrerer Merkmale in disjunkte Teilmengen (Klassen) eingeteilt. Jedem

Objekt sollte eine Klasse zugeordnet werden. Jede Klasse ist mit einem

eindeutigen Schl¨

ussel versehen - dem Code der Klasse. Zwischen Code und

Klasse findet also eine eineindeutige Abbildung statt. Die Kodierung der

Kapitel 1

Klassen erleichtert die computergest¨

utzte Auswertung erheblich, da nur

nach dem eindeutigen Code und nicht nach Volltextbeschreibungen gesucht

werden muss.

Eine Hierarchisierung von Klassen erm¨oglicht Sichten auf das Wis-

sensgebiet unterschiedlicher Granularit¨at, d.h. eine Verfeinerung eines

Begriffes durch Subklassen wird erm¨oglicht. Die Klassen sind hierarchisch

geordnet, d.h. sie sind zueinander ¨

uber- bzw. untergeordnet. Dabei werden

die Merkmale ¨

ubergeordneter Klassen beibehalten und weiterverfeinert. So

enth¨alt eine Unterklasse alle Merkmale der Oberklassen sowie mindestens

ein zus¨atzliches Merkmal.

Das selbe Wissensgebiet kann aus verschiedenen Blickwinkeln betrachtet

werden. Ein Klassifikationssystem, das f¨

ur medizinische Diagnosen ent-

wickelt wurde, eignet sich m¨oglicherweise schlecht f¨

ur die Abrechnung

von Krankheitsf¨allen. G¨angige Klassifikationssysteme besitzen einen Blick-

winkel; es gibt nicht das Klassifikationssystem f¨

ur ein Wissensgebiet, was

folgendes Zitat verdeutlicht:

Klassifikation ist eine Methode der Verallgemeinerung. Die Be-

nutzung verschiedener Klassifikationen kann daher vorteilhaft

sein, und jeder, ob Arzt, Pathologe oder Jurist, hat von seinem

Standpunkt aus das Recht, die Krankheiten und Todesursachen

so zu klassifizieren, wie es ihm zur Erleichterung und zur Erlan-

gung allgemeing¨

ultiger Ergebnisse am geeignetsten erscheint.

Zitat, William Farr, 1856, Mitbegr¨

under des Vorl¨

aufers des ICD

Definition eines Klassifikationssystem nach DIN 32 705

Der Vollst¨andigkeit halber ist hier die Definition eines Klassifikationssy-

stems nach der DIN aufgef¨

uhrt.

Ein Klassifikationssystem ist die strukturierte Darstellung von Klassen

und der zwischen ihnen bestehenden Begriffsbeziehungen.

Eine Klasse ist die Zusammenfassung derjenigen Begriffe, die mindestens

Kapitel 1

ein identisches Merkmal (Klassem) haben.

Ein Klassem (oder klassifikatorisches Merkmal) ist dasjenige Merkmal

von Begriffen, das zur Bildung einer Klasse benutzt wird und diese von anderen

Klassen unterscheidet.

Jede Klasse muss verbal durch eine Klassenbenennung bezeichnet wer-

den.

Eine Notation ist eine nach bestimmten Regeln gebildete Zeichenfolge,

die eine Klasse (Systemstelle) repr¨asentiert und deren Stellung im systemati-

schen Zusammenhang abbildet.

1.2

Modelle eines Klassifikationssystems

Im folgenden Abschnitt sollen verschiedene Modelle von Klassifikationssy-

stemen vorgestellt und ihre Eigenschaften analysiert werden.

Ein Modell ist eine dem Klassifikationssystem zugrunde liegende Architek-

tur, die die Anordnung von Klassen und Hierarchien beschreibt.

Deutschsprachige

Informationen

g¨angigen

Klassifikationssystemen

finden sich beim "Deutschen Institut f¨

ur Medizinische Dokumentation und

Information" [13].

1.2.1

Eindimensionales, hierarchisches Systemmodell

Die Klassen, die Stellvertreter f¨

ur inhaltliche Begriffe sind, werden einfach

aneinandergereiht. Benachbarte Klassen, die inhaltlich ¨ahnlich sind, k¨onnen

zusamengefasst werden und bilden eine ¨

ubergeordnete Hierarchie. Ver-

wandte Hierarchien k¨onnen ebenfalls zu neuen ¨

ubergeordneten Hierarchien

zusammengefasst werden. Durch diesen Vorgang entsteht ein Baum.

Hierarchien sind Baumknoten, Klassen sind Bl¨atter des Baumes.

Kapitel 1

Beispiel:

Im Beispiel wird die Krankheit Enzephalitis (varicella zoster) syste-

Erkrankungen

Bakterielle Erkrankungen Viruskrankheiten

...

Virale EnzephalitisVirale Augenerkrankungen

...

Enzephalitis, varicella zoster

Enzephalitis, Herpes simplex

matisch klassifiziert. Sie ist eine durch Viren ausgel¨oste Erkrankung. Die

hervorgehobenen Knoten im Baum sollen den Pfad zur Krankheit aufzeigen.

Von der Wurzel zu den Bl¨attern findet eine Verfeinerung des inhalt-

liches Begriffes statt, d.h ein Blatt beinhaltet alle Eigenschaften aller

ubergeordneten Hierarchien (Baumknoten). Die Krankheiten im Beispiel

sind die Bl¨atter des Baumes.

Die Knoten im Baum gruppieren lediglich Bl¨atter und Baumknoten

zusammen. Die M¨achtigkeit des Klassifikationssystems ist nicht geringer,

wenn nur die Bl¨atter aufgez¨ahlt werden. Der Komfort beim Klassifizieren

w¨are jedoch geringer, da dann keine inhaltlich orientierte Navigation zu

den Klassen erfolgen kann.

Auf den ersten Blick erscheint das Klassifikationssystem - dargestellt als

Baum - zweidimensional, da es ¨

uber vertikale und horizontale Richtungen

verf¨

ugt. Die Klassen (Begriffe) befinden sich jedoch auf unterster Ebene als

Blattknoten im Baum; die vertikale Richtung erm¨oglich durch schrittweise

Verfeinerung das Auffinden der gesuchten Klasse. W¨aren diese Hierarchien

nicht vorhanden, so w¨are das Auffinden wesentlich schwieriger, da die

gesamte Liste (der Blattknoten) durchsucht werden m¨

usste. Die Aussage-

kraft w¨are jedoch nicht geringer, da i.A. nur die Bl¨atter eine Aussage bilden.

Noch deutlicher wird die Eindimensionalit¨at des Modells, wenn man

sich das Klassifikationssystem als Koordinatensystem vorstellt und eine

Klasse als Koordinatenangabe. Die Klasse, die durch einen Identifier

eindeutig beschrieben ist, entspricht einer eindimensionalen Koordinate.

Kapitel 1

Das eindimensionale, hierarchische Modell besitzt folgende Nachteile:

Die Anzahl der beschreibbaren Begriffe entspricht genau der Anzahl

der Klassen. Kombinationen von Begriffen sind nicht m¨oglich. Beim

hierarchischen Modell wird die Ausdrucksf¨ahigkeit einer Kombination

nur erreicht, wenn alle ben¨otigten Kombinationen aufgez¨ahlt werden,

was die Anzahl der Klassen jedoch exponentiell erh¨oht.

Es wird oft derselbe semantische Begriff durch mehrere Klassen re-

pr¨asentiert; z.B. m¨

usste eine Mittelohrentz¨

undung bei Entz¨

undungen

aber auch bei Erkrankungen der Ohren aufgez¨ahlt werden. Es herscht

folglich Redundanz.

Es ist n¨otig, ein oberstes Unterscheidungsmerkmal auszuw¨ahlen, wel-

ches die oberste Hierarchie (die Wurzel des Baumes) darstellt. Dies

kann in vielen F¨allen nur willk¨

urlich durchgef¨

uhrt werden und den

Klassifikationsvorgang erschweren.

Beispiel : International Classification of Diseases (ICD)

Der ICD[36] reicht zur¨

uck auf eine Klassifikation der Todesursachen in

England, die von William Farr um 1850 entwickelt wurde.

Der ICD wurde mehrfach revidiert und liegt seit 1989 in der zehnten

Revision (ICD-10) vor. Von Revision zu Revision wurden das System

erweitert, d.h. neue Hierarchien wurden eingef¨

uhrt und Klassen in mehrere

Klassen separiert.

Der ICD-10 ist eine monohierachische meist 4-stellige Klassifikation,

d.h dass der Hierarchiebaum 4 Ebenen besitzt. Der eindeutige Code einer

Klasse wird von den Stellen gebildet und setzt sich aus den verfolgten

Pfaden im Baum zusammen. Durch den 4-stelligen Code einer Klasse kann

man also vom Wurzelknoten bis zum Blatt navigieren, da der Code die

Pfadangabe ist.

Je mehr Stellen ein Code besitzt, um so genauer wird die Aussage.

Jede weitere Ebene pr¨azisiert die Krankheit.

Der ICD-10 besitzt 21 Kapitel (1. Stelle), 216 Krankheitsgruppen (2.

Kapitel 1

Stelle), 2036 Krankheitsklassen mit 3-stelligem Code und 12161 Krank-

heitsklassen mit 4-stelligem Code.

Der ICD findet Verwendung zur Codierung von Krankheitsdiagnosen,

zur statistischen Auswertung, wie z.B. der Bestimmung von Pr¨avalenz und

Inzidenz einer Krankheit innerhalb einer Bev¨olkerung. Der ICD wird von

der Weltgesundheitsorganisation (WHO) erstellt.

Die Nachteile eines eindimensionalen System k¨onnen anhand des ICD-10

veranschaulicht werden.

Im ICD gibt es 21 Hierarchien auf oberster Ebene. Kapitel I besch¨aftigt sich

mit Infektionen, Kapitel VIII mit Erkrankungen der Ohren. Es gibt jedoch

Krankheiten, wie z.B. Infektionen an den Ohren, die sich nicht eindeutig

einer der beiden Kapitel zuordnen lassen. Der Vollst¨andigkeit halber, muss

eine solche Krankheit mehrmals in den betroffenen Hierarchien wiederholt

werden, was jedoch der Eindeutigkeit der Begriffe bzw. der Klassen wider-

spricht und die Anzahl der Klassen drastisch erh¨oht. Dieselbe Krankheit

bekommt zwei verschiedene Codes, da jeder Code einer unterschiedlichen

Pfadangabe entspricht.

Bei der Suche tritt das Problem auf, dass alle Codes f¨

ur diese Krankheit

als Suchbegriff einzugeben sind, um wirklich alle betroffenen Objekte zu

finden.

Kapitel 1

1.2.2

Multidimensionales, multiaxiales Systemmodell

Im Gegensatz zum eindimensionalen Modell, dass mit n Klassen nur n

unterscheidliche Begriffe des Wissensgebietes darstellt, kann das multi-

dimensionale Klassifikationsmodell durch Kombinationen der n Klassen

erheblich mehr Begriffe bilden.

Die Klassen werden in verschiedenen Dimensionen (Achsen) angeord-

net. Die Achsen sind so gew¨ahlt, dass sie verschienene Begriffsmerkmale

repr¨asentieren; z.B. kann eine Achse K¨orperregionen repr¨asentieren und

eine zweite Erkankungen.

Beispiel:

Folgendes sehr einfaches Klassifikationssystem mit zwei Dimensionen

bzw. Achsen stellt dies dar. Die Achsen entsprechen den Baumknoten in

der ersten Ebene, also den Kindern des Wurzelknotens. Sie sind in der

Abbildung hervorgehoben dargestellt.

Eine Klasse entspricht einem (bis zu) m-dimensionalen Punkt oder Gebiet in

dem durch m Achsen aufgespannten m-dimensionalen Koordinatensystem.

Die Klassen, die in den Hierarchien angeordnet sind, entsprechen einer

eindimensionalen Angabe. Sie bilden die Grundlage um Klassen aus Klassen

zusammenzusetzen. Wenn eine zusammengesetzte Klasse weniger als m

Klassen pro Achse enth¨alt, so stellt sie ein Gebiet im Koordinatensystem

dar. ¨

Uber die verbleibenden Achsen, die nicht in durch eine Koordinaten-

angabe selektiert werden, kann keine Ausage getroffen werden.

Die Anzahl der Achsen - also die Anzahl der Verzweigungen vom

Wurzelknoten - entspricht der Dimension des Systems.

Im obigen Beispiel ist m = 2. Eine m¨ogliche Koordinate in unserem

Beispiel w¨are (Ohr, Entz¨

undung). Zu bemerken ist der Unterschied zum

Kapitel 1

eindimensionalen Modell, bei dem eine Angabe ausreichte, um eine Klasse

zu beschreiben. Das Kombinieren von Klassen ist im eindimensionalen

Modell nicht m¨oglich.

Innerhalb einer Achse werden die Begriffe wie im hierarchischen Mo-

dell aufgez¨ahlt. Auch hier ist es m¨oglich durch eine Hierarchisierung die

Begriffe in Ober- und Untergruppen einzuteilen, um den Klassifikationsvor-

gang zu vereinfachen.

Das eindimensionale hierarchische Modell entspricht also einem multidi-

mensionalen Modell mit nur einer Achse, damit ist das multidimensionale

Modell m¨achtiger in seiner Ausdrucksf¨ahigkeit und das eindimensionale

Modell ist ein Spezialfall des mehrdimensionalen Modells.

Da ein Begriff durch eine Kombination von Klassen dargestellt wird,

lassen sich mit n Klassen mehr als n Begriffe kodieren. Die Anzahl darstell-

barer Begriffe entspricht der Anzahl der Kombinationsm¨oglichkeiten der

Klassen und ergibt sich aus der Multiplikation der Anzahl der Klassen in

den verschiedenen Achsen

Beipiel:

Ein 3-dimensionales System mit jeweils 8 Klassen pro Achse besitzt 8 · 8 · 8

= 512 darstellbare Zust¨ande.

Um dieselbe Aussagekraft zu besitzen muss ein eindimensionales Sy-

stem alle 512 Zust¨ande einzeln aufz¨ahlen und w¨are dadurch ¨

uberfrachtet

und unhandlich.

Beispiel: Systematic Nomenclature of Medicine: SNOMED

Der SNOMED[18] in der Version 2.0 ist ein multidimensionales Klassifikati-

onssystem mit folgenden 7 Achsen.

M-Achse (Morphology): welche Gewebs¨anderung ist bemerkbar ?

E-Achse (Etiology): was ist die Ursache ?

T-Achse (Topology): Welcher Ort ist betroffen ?

F-Achse (Function): Welche K¨orperfunktion ist betroffen ?

D-Achse (Disease): Bei welcher Krankheit ?

P-Achse (Procedure): Welche Massnahme ist zu ergreifen ?

Kapitel 1

J-Achse (Job): Welche T¨atigkeit ¨

ubt der Betroffene aus ?

F¨

ur die Beschreibung eines Zustandes reicht ein einzelner Code nicht mehr

aus. Stattdessen wird eine bis zu 7-dimensionale Angabe, die je einen (oder

mehrere) Werte pro Achse enth¨alt als Code interpretiert.

Beispiel: Der Code (TX2000, M40000, E30000, J63230) inidiziert eine

durch Viren verursachte Enzephalitis bei einem Waldarbeiter. Dieses

Beispiel ist [15] entnommen.

Der Code besteht aus 4 Klassenidentifiern, die Klassen in 4 verschie-

denen Achsen identifizieren. Die vierkoordinaten beschreiben ein vier-

dimensionales Gebiet im 7-dimensionalen Raum des Klassifikationssystem

. ¨

Uber die anderen Achsen und ihre Bedeutung macht der Code keine

Angaben.

Nachteile des multidimensionalen Systemmodells

Das multidimen-

sionale System hat folgende Nachteile, die jedoch i.A tolerierbar sind:

Es erlaubt Kombinationen von Begriffen (Koordinaten), die irrelevant

oder sinnlos sind. Im SNOMED ist es m¨oglich auf der Achse der Ursa-

chen eine Fraktur mit einer Grippe auf der Achse der Krankheiten zu

kombinieren, obwohl diese Kombination keine sinnvolle Angabe dar-

stellt.

Begriffe, die in mehreren Achsen relevant sind, m¨

ussen in allen rele-

vanten Achsen wiederholt werden (s. Bsp. referentielles Modell unten).

Wie im eindimensionalen Modell muss ein oberstes Unterscheidungs-

merkmal f¨

ur die Bezeichnung der Achsen gew¨ahlt werden. Insbe-

sondere kann die Anzahl der Achsen erh¨oht werden, um die Aus-

drucksm¨achtigkeit zu erh¨ohen; in diesem Fall steigen jedoch auch die

Anzahl irrelevanter Kombinationsm¨oglichkeiten und der Klassifikati-

onsvorgang wird aufwendiger. Zuviele Achsen machen das System un-

handlich, zuwenige machen es unscharf.

Kapitel 1

1.2.3

Referentielles Systemmodell

Das Referentielle Systemmodell entspricht dem oben vorgestellten mehrdi-

mensionalen Modell mit dem Unterschied, dass innerhalb der Bl¨atter des

Baumes nicht die Begriffe aufgef¨

uhrt sind, sondern Verweise (Referenzen)

auf die Begriffe. Die Begriffe selbst werden separat in einer Liste aufgef¨

uhrt.

Der Name referentielles Modell wurde f¨

ur diese Arbeit gew¨ahlt, da es das

einzige Modell ist, welches mit Referenzen arbeitet.

Dieser auf den ersten Blick unwichtig erscheinende Unterschied erm¨oglicht

jedoch, dass derselbe Begriff aus verschiedenen Hierarchien aus refereniert

werden kann.

Beispiel:

Der Begriff Nase kann in den Hierarchien K¨

orperregionen und Gewebe

auftreten, da die Nase als Gewebe sowie als K¨orperregion interpretiert

werden kann. Im einfachen hierarchischen Modell ohne Referenzen muss

der Begriff Nase in beiden Achsen wiederholt werden.

Bei der Suche nach Objekten, die mit Nase klassifiziert worden sind,

m¨

usste sich der Suchende entscheiden, ob er nach Nase als Gewebe oder als

K¨

orperregion suchen m¨ochte.

Gewebe (A,1)

K¨orperregionen (B,2)

...

Nase (C,3)

...

Nase (D,3)

...

Goblet-Zellen (E,4) Olfakt. Rezeptoren (F,5)

Gewebe, ...

K¨orperregionen, ...

Nase,

A specialized structure that serves as an organ of the sense of smell as well as part of

the respiratory system; the term includes both the external nose and the nasal cavity.

Goblet-Zellen, ...

Olfaktorische Rezeptoren, ...

Kapitel 1

Ausgehend von einem Begriff sind die untergeordneten Begriffe abh¨angig

von der Interpretation des Begriffes. Nase als K¨orperregion ist ein scharfer

Begriff, der keine Verfeinerung bedarf; Nase als Gewebe ist jedoch grob; die

an der Nase beteiligten Gewebe, z.B. Sinneszellen werden dem Begriff Nase

in der Achse Gewebe untergeordnet.

Aus Sicht der Informatik wird ein solches System durch einen Baum

repr¨asentiert. Dieser Baum hat in den Knoten zwei Eintr¨age:

Der erste Eintrag ist ein Identifier f¨

ur den Knoten.

Der zweite Eintrag ist die Referenz auf eine lineare Liste von Begriffen.

Ein Begriff kann somit mehrfach referenziert werden, d.h. dieselbe

Referenz findet sich an mehreren Stellen im Baum. Diese Knoten sind dann

werte- bzw. inhaltsgleich.

Die Navigation in Richtung der Bl¨atter ausgehend von einem Begriff

erfordert die Wahl der Hierarchie oder Achse, in dem der Begriff auftritt;

d.h. die Kinder eines Begriffes sind nicht eindeutig. Eindeutig werden sie

durch die Wahl des Baumknotens.

Es gibt in diesem Modell keinen Unterschied zwischen Hierarchien und

Klassen. Im Beispiel ist der Begriff Nase als K¨orperregion eine Klasse

(Blatt), im Falle eines Gewebes jedoch auch eine Hierarchie (Baumknoten),

da weiter verzweigt werden kann.

Die Struktur des Systems ist weiterhin ein Baum. Auch wenn zwei Knoten

denselben Inhalt besitzen ist es nicht sinnvoll diese Knoten zu vereinigen

und somit einen Graph zu schaffen, denn die Nachfolger eines Knotens

sind abh¨angig von der Interpretation des Begriffs. Nase als Region hat im

Gegensatz zur Interpretation als Gewebe keine Nachfolger. Durch einen

Graphen ohne Referenzen ist dieses nicht ausdr¨

uckbar.

Beispiel: Medical Subject Headings: MeSH

Der MeSH[25] wird von der National Library of Medicine der USA heraus-

gegeben und ist multidimensional strukturiert. Er findet Verwendung u.a.

f¨

ur die Inhaltsbeschreibung von Dokumenten des Medline Archives[24] . Die

in den Dokumenten beschriebenen Krankheiten, Forschungsergebnisse, etc.

werden anhand der Begriffe des MeSH kodiert, um eine leistungsf¨ahige Su-

che zu erm¨oglichen.

Die MeSH Tree Structure umfasst 15 Kategorien (Achsen), die in weitere

Subkategorien (Hierarchien) eingeteilt sind.

Kapitel 1

A-Achse: Anatomy

B-Achse: Organism

C-Achse: Diseases

etc.

In der MeSH Annotated List werden die im MeSH Tree Structure referen-

zierten Begriffe ohne weitere Sortierung alphabetisch aufgez¨ahlt. Hier sind

aufgelistet

Die Hauptschlagw¨orter (Main Headings)

Synonyme

Subheadings (Qualifier), die die Main Headings n¨aher qualifizieren

Zus¨atzliche Bezeichnungen (z.B. in deutscher Sprache)

Querverweise, etc.

Eigenschaften des referentiellen Systemmodells

Das referentielle Modell behebt einen Nachteil der vorher beschriebenen Mo-

delle: semantisch gleiche Begriffe werden nun nicht mehr durch mehrere dis-

junkte Klassen repr¨asentiert.

Die weiteren Eigenschaften des multidimensionalen Modells bleiben erhal-

ten.

Kapitel 1

1.2.4

Weitere Ans¨

atze f¨

ur Systemmodelle

Im folgenden werden zwei weitere Modelle kurz vorgestellt, die die Nachteile

der vorherigen Modelle beheben sollen. Diese Modelle werden in der Praxis

nicht eingesetzt, obwohl ihre Ausdruckst¨arke gr¨oßer ist und sie Fehlklassifi-

kationen vermeiden.

Da die verwendeten Klassifikationssysteme historisch gewachsen sind, ist es

sehr schwer neue Systeme und insbesondere neue Modelle einzuf¨

uhren. Die

Modellbeschreibungen sind [30] entnommen.

Das multifokale Modell

Kennzeichend f¨

ur das multidimensionale Modell mit n Achsen ist, dass

diese Achsen alle an einem Punkt ansetzen. Diesen Punkt k¨onnte man den

Ursprung eines n-dimensionalen Koordinatensystems bezeichnen. Hieraus

resultiert jedoch direkt, dass jeder Punkt im Raum als Klasse zul¨assig ist.

Jedoch sind wie oben viele Kombinationen (Punkte) ohne Sinn, da sie keine

realen Objekte repr¨asentieren.

Das multifokale Modell erlaubt es, dass die Achsen nicht denselben Ur-

sprung haben m¨

ussen. Ein kleines Beispiel soll dies verdeutlichen:

Beispiel:

Eine Achse des Systems beinhaltet Krankheiten, u.a. wird eine Fraktur

(Knochenbruch) des Unterarms aufgez¨ahlt. Um einen offenen von einem

geschlossenen Bruch zu unterscheiden, m¨

ussten beide Varianten einzeln

aufgez¨ahlt werden. Dies macht jedoch i.A. keinen Sinn: wenn jemand alle

Br¨

uche auswerten m¨ochte, muss er nach allen Varianten eines Bruches

suchen, da jede Variante eines Bruches eine eigene durch eine separate

Klasse repr¨asentierte Krankheit darstellt.

Um dies zu vermeiden, kann eine weitere Achse eingef¨

uhrt werden,

die nur aus den beiden Begriffen offen und geschlossen besteht. Im multidi-

mensionalen Modell ist ein Begriff dieser Achse mit jedem Begriff der ersten

Achse kombinierbar, was zu Kombinationen wie beispielsweise einer offenen

bzw. geschlossenen Mittelohrentz¨

undung f¨

uhren kann, die sinnlos sind.

Im multifokalen Modell treffen nicht alle Achsen zentral aufeinander,

sondern die Achsen haben ihren Ursprung bei bestimmten Begriffen. Diese

Begriffe sind der Focus also der Ursprung f¨

ur die Achsen. Eine Achse kann

ihren Ursprung bei mehreren Begriffen besitzen.

Im Beispiel w¨

urde die Achse mit den Begriffen offen und geschlossen ihren

Ursprung bei den Krankheiten UnterarmFraktur, OberarmFraktur, und

weiteren Frakturen haben.

Kapitel 1

Die freie Kombinierbarkeit wird eingeschr¨ankt, da Kombinationen nur

bei bestimmten Klassen zugelassen werden. Sinnlose Kombinationen

und somit Fehlklassifikationen werden vermieden. Der Aufwand bei der

Erstellung des Inhaltes des Klassifikationssystems ist jedoch h¨oher, da

alle sinnvollen Kombinationen erkannt werden m¨

ussen. Es gibt keine

medizinischen Klassifikationssysteme, die auf diesem Modell aufbauen und

in der Praxis eingesetzt werden.

Das multipunktuelle Modell

Die bisherigen Modelle haben alle Begriffe (Klassen) als disjunkt aufgefasst.

Dies wird insbesondere medizinischen Erkrankungen, die h¨aufig als Syn-

drome, d.h. als gleichzeitiges Erscheinen mehrerer Erkrankungen auftreten,

nicht gerecht. Eine Unterarmfraktur, bestehend aus der Fraktur der Elle

und der Speiche ist disjunkt zu einem einfachen Bruch der Elle oder der

Speiche. Bei Auswertungen f¨

uhrt dies zu Problemen, da eine Suche nach

Frakturen der Speiche einen Bruch des Unterarmes nicht einschliesst.

Das multipunktuelle Modell erweitert die bestehende Modelle, die

unipunktuell sind, um die Aggregation: eine Klasse kann sich aus mehreren

anderen Klassen zusammensetzen. Mengen von Begriffen k¨onnen zusam-

mengestellt werden und bilden gemeinsam einen neuen Begriff.

Das blosse Zusammenfassen der Klassen - also eine Mehrfachselektion beim

Klassifikationsvorgang - besitzt nicht dieselbe Ausdrucksst¨arke:

Beispielsweise sei eine Krankheit K

durch eine Ursache U

verur-

sacht, sowie eine Krankheit K

durch die Ursache U

. Die Klasse C

setze

sich zusammen aus dem Tupel (K

) die Klasse C

aus (K

Ein Medienobjekt sei nach beiden Klassen C

und C

klassifiziert.

W¨aren nur die beteiligten Klassen K

, U

und U

mit dem Objekt

verbunden, so w¨

urde dies bedeuten, dass das Objekt ebenfalls mit den

Kombinationen (K

) sowie (K

) klassifiziert wurde, da das gesamte

Kreuzprodukt der beteiligten Klassen relevant ist.

Auch f¨

ur dieses Modell gibt es kein Beispiel in der Praxis.

Kapitel 2

Attribute als Metadaten

Attribute stellen neben der

Klassifikation eine zweite M¨oglichkeit dar,

Informationen ¨

uber Objekte, also Metadaten, anzulegen.

Attribute erm¨oglichen im Gegensatz zur Klassifikation die Erfassung

von freien Informationen, wie z.B. Inhaltsbeschreibungen im Freitextfor-

mat. Eine Inhaltsbeschreibung durch Klassifikation vorzunehmen, bedeutet,

dass jeder m¨ogliche Inhalt durch eine Klasse repr¨asentiert sein muss. Dies

kann nur f¨

ur grobe Beschreibungen ausreichen.

2.1

Bestehende Ans¨

atze

2.1.1

Dublin Core Set

Das Dublin Core Set[16] ist eine 1995 beschriebene Liste von 15 (zuerst 13)

Datenelementen, die f¨

ur die Beschreibung vom Dokumenten, haupts¨achlich

von Texten im Internet, genutzt werden sollen. Dublin Core ist ein interna-

tionaler Standard f¨

ur Metadaten. Die 15 Attribute sind u.a.:

dc:title Der Titel des Dokuments

dc:creator Der Autor des Dokuments

dc:subject Schlagworte und Stichworte, die das Dokument inhaltlich

erschliessen

dc:description Inhaltliche Beschreibung durch fortlaufenden Text

ohen syntaktische Regeln oder vordefinierte Begriffe

dc:date Erstellungsdatum des Dokuments

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2002
ISBN (eBook): 9783832455958
ISBN (Paperback): 9783838655956
DOI: 10.3239/9783832455958
Dateigröße: 2.3 MB
Sprache: Deutsch
Institution / Hochschule: Universität zu Lübeck – unbekannt
Erscheinungsdatum: 2002 (Juli)
Note: 1,3
Schlagworte: klassifikationssysteme java medizin datenbank
Produktsicherheit: Diplom.de

Autor

Beda Christoph Hammerschmidt (Autor:in)