Lade Inhalt...

Attributierung und Klassifikation von Objekten im Medienarchiv

©2002 Diplomarbeit 101 Seiten

Zusammenfassung

Inhaltsangabe:Gang der Untersuchung:
In dieser Diplomarbeit soll ein System entworfen, beschrieben und prototypisch implementiert werden, welches die Klassifikation und Attributierung von Objekten eines Archivs (Medienarchivs) oder einer Datenbank ermöglicht.
Für die Implementierung wird das bestehende Medienarchiv der Universität zu Lübeck verwendet.
Im ersten Kapitel dieser Arbeit wird der Vorgang der Klassifikation erklärt und verschiedene Klassifikationsmodelle werden anhand von Beispielen aus der Medizin erklärt und analysiert.
Im zweiten Kapitel werden Attribute erst allgemein dargestellt und dann im dritten Kapitel in allgemeiner Form mittels XML und XML-Schema defniert.
Das vierte Kapitel beschreibt, wie sich Klassifikationssysteme und deren Inhalte formal in XML beschreiben lassen.
Im fünften und sechsten Kapitel wird die Architektur motiviert und beschrieben. Die Implementierung erfolgt in Java. Kernpunkt der Architektur sind Wrapper die die Klassifikationssysteme umschliessen und dynamische individuelle Datenstrukturen in einer relationalen Datenbank anlegen. Die Tabellen werden automatisch generiert. Alle Anfragen auf die Datenbank werden vom Wrapper gekapselt, der eine abstrakte High-Level Schnittstelle bietet.
Das letzte Kapitel bewertet das System, misst Zeiten und zeigt mögliche Erweiterungen auf.

Inhaltsverzeichnis:Inhaltsverzeichnis:
Einleitung1
1.Klassifikation und Klassifikationssysteme in der Medizin2
1.1Klassifikation2
1.2Modelle eines Klassifikationssystems4
1.2.1Eindimensionales, hierarchisches Systemmodell4
1.2.2Multidimensionales, multiaxiales Systemmodell8
1.2.3Referentielles Systemmodell11
1.2.4Weitere Ansätze für Systemmodelle14
2.Attribute als Metadaten16
2.1Bestehende Ansätze16
2.1.1Dublin Core Set16
3.Attribute für das Medienarchiv, attributierte Klassifikationssysteme19
3.1Definition eines Attributes19
3.1.1Atomare Attribute21
3.1.2Nichtatomare Attribute21
3.2Klassifikationssysteme mit Attributen22
3.2.1Motivation22
3.2.2Attribute und Klassen22
3.2.3Eigenschaften24
4.Formale Beschreibung von Klassifikationssystemen und deren Inhalt25
4.1XML und XML-Schema26
4.1.1Beschreibung26
4.1.2Validierung28
4.2Beschreibung des Aufbaus eines Klassifikationssystems30
4.3Beschreibung des Inhaltes36
4.4Darstellung von Attributen40
4.4.1Attribut-Schema40
4.4.2Attribute und Klassen40
4.4.3Attribut-Muster41
5.Einführung in die Implementierung des Klassifikations- und […]

Leseprobe

Inhaltsverzeichnis


ID 5595
Hammerschmidt, Beda Christoph: Attributierung und Klassifikation von Objekten im
Medienarchiv / Beda Christoph Hammerschmidt - Hamburg: Diplomica GmbH, 2002
Zugl.: Lübeck, Universität, Diplomarbeit, 2002
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die
der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen,
der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der
Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung,
vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im
Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der
Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem
Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche
Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten
wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht
vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die Autoren oder
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.
verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2002
Printed in Germany

Inhaltsverzeichnis
Einleitung
1
1 Klassifikation und Klassifikationssysteme in der Medizin
2
1.1
Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Modelle eines Klassifikationssystems . . . . . . . . . . . . . .
4
1.2.1
Eindimensionales, hierarchisches Systemmodell . . . .
4
1.2.2
Multidimensionales, multiaxiales Systemmodell . . . .
8
1.2.3
Referentielles Systemmodell . . . . . . . . . . . . . . .
11
1.2.4
Weitere Ans¨atze f¨
ur Systemmodelle
. . . . . . . . . .
14
2 Attribute als Metadaten
16
2.1
Bestehende Ans¨atze . . . . . . . . . . . . . . . . . . . . . . .
16
2.1.1
Dublin Core Set . . . . . . . . . . . . . . . . . . . . .
16
3 Attribute f¨
ur das Medienarchiv, attributierte Klassifikati-
onssysteme
19
3.1
Definition eines Attributes . . . . . . . . . . . . . . . . . . . .
19
3.1.1
Atomare Attribute . . . . . . . . . . . . . . . . . . . .
21
3.1.2
Nichtatomare Attribute . . . . . . . . . . . . . . . . .
21
3.2
Klassifikationssysteme mit Attributen . . . . . . . . . . . . .
22
3.2.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . .
22
3.2.2
Attribute und Klassen . . . . . . . . . . . . . . . . . .
22
3.2.3
Eigenschaften . . . . . . . . . . . . . . . . . . . . . . .
24
i

ii
4 Formale Beschreibung von Klassifikationssystemen und de-
ren Inhalt
25
4.1
XML und XML-Schema . . . . . . . . . . . . . . . . . . . . .
26
4.1.1
Beschreibung . . . . . . . . . . . . . . . . . . . . . . .
26
4.1.2
Validierung . . . . . . . . . . . . . . . . . . . . . . . .
28
4.2
Beschreibung des Aufbaus eines Klassifikationssystems . . . .
30
4.3
Beschreibung des Inhaltes . . . . . . . . . . . . . . . . . . . .
36
4.4
Darstellung von Attributen . . . . . . . . . . . . . . . . . . .
40
4.4.1
Attribut-Schema . . . . . . . . . . . . . . . . . . . . .
40
4.4.2
Attribute und Klassen . . . . . . . . . . . . . . . . . .
40
4.4.3
Attribut-Muster . . . . . . . . . . . . . . . . . . . . .
41
5 Einf¨
uhrung in die Implementierung des Klassifikations- und
Attributierungssystems
43
5.1
Vorhandene Infrastruktur - Medienarchiv - Virtuelle Diaschiene 43
5.1.1
Medienarchiv Montana . . . . . . . . . . . . . . . . . .
43
5.1.2
Virtuelle Diaschiene . . . . . . . . . . . . . . . . . . .
45
5.2
Anforderungen an das Klassifikations- und Attributierungs-
system . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
5.3
Verwendete Technologien . . . . . . . . . . . . . . . . . . . .
47
5.3.1
Programmiersprache Java . . . . . . . . . . . . . . . .
47
5.3.2
JDOM, Java Document Object Model . . . . . . . . .
49
5.3.3
Datenbank MySQL . . . . . . . . . . . . . . . . . . . .
50
5.4
Verwendete Muster . . . . . . . . . . . . . . . . . . . . . . . .
51
5.4.1
Singleton . . . . . . . . . . . . . . . . . . . . . . . . .
51
5.4.2
Abstrakte Fabrik . . . . . . . . . . . . . . . . . . . . .
53
5.4.3
Stellvertreter / Proxy . . . . . . . . . . . . . . . . . .
54
5.4.4
Vermittler / Mediator . . . . . . . . . . . . . . . . . .
55
5.4.5
Zustand . . . . . . . . . . . . . . . . . . . . . . . . . .
55

iii
6 Architektur und Implementierung
56
6.1
Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
6.2
Attributtypen . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
6.3
Speicherung der Attribute mit Werten . . . . . . . . . . . . .
58
6.4
Datenmodell MySQLAttributeStore . . . . . . . . . . . . . .
61
6.4.1
Entity Relationship Modell . . . . . . . . . . . . . . .
61
6.4.2
Modell in Tabellen-Form . . . . . . . . . . . . . . . . .
63
6.5
Speicherung von Attributmustern . . . . . . . . . . . . . . . .
65
6.6
Benutzeroberfl¨achen f¨
ur Attribute
. . . . . . . . . . . . . . .
66
6.6.1
Swing . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
6.6.2
Dynamisches Erzeugen der Komponenten . . . . . . .
69
6.6.3
Validierung der Eingabe . . . . . . . . . . . . . . . . .
70
6.7
Datenstruktur eines Klassifikationssystems . . . . . . . . . . .
71
6.7.1
Wrapper . . . . . . . . . . . . . . . . . . . . . . . . . .
71
6.7.2
Einf¨
ugen des Inhaltes . . . . . . . . . . . . . . . . . .
74
6.7.3
Attributierte Klassifikationssysteme . . . . . . . . . .
75
6.7.4
Persistenz der Wrappers . . . . . . . . . . . . . . . . .
75
6.8
Benutzeroberfl¨ache eines Klassifikationssystems . . . . . . . .
77
6.9
Klassifikationsvorgang . . . . . . . . . . . . . . . . . . . . . .
78
6.10 Generieren des individuellen XSchema-Dokuments . . . . . .
80
6.10.1 Wrapper und XSchemaCreator . . . . . . . . . . . . .
80
6.11 Aktivit¨atsdiagramm . . . . . . . . . . . . . . . . . . . . . . .
81
6.12 Weitere Module . . . . . . . . . . . . . . . . . . . . . . . . . .
82
6.12.1 Architektur¨
ubersicht . . . . . . . . . . . . . . . . . . .
82
6.12.2 Schnittstellen . . . . . . . . . . . . . . . . . . . . . . .
82
6.12.3 Vermittler / Mediator . . . . . . . . . . . . . . . . . .
83
6.13 Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
6.13.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . .
83
6.13.2 Suche in Attributen . . . . . . . . . . . . . . . . . . .
84
6.13.3 Implementierung . . . . . . . . . . . . . . . . . . . . .
84
6.13.4 Such-Grammatik . . . . . . . . . . . . . . . . . . . . .
85

iv
7 Bewertung und Ausblick
88
7.1
Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
7.1.1
Messungen . . . . . . . . . . . . . . . . . . . . . . . .
88
7.1.2
Architektur . . . . . . . . . . . . . . . . . . . . . . . .
90
7.1.3
Verbinden des Systems mit einem Archiv . . . . . . .
90
7.1.4
Suche . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
7.1.5
Benutzeroberfl¨ache . . . . . . . . . . . . . . . . . . . .
90
7.1.6
Rechte . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
7.1.7
Navigation durch Klassifikationssystem . . . . . . . .
91
Literaturverzeichnis
94

Einleitung
In dieser Diplomarbeit soll ein System entworfen, beschrieben und prototy-
pisch implementiert werden, welches die Klassifikation und Attributierung
von Objekten eines Medienarchivs erm¨oglicht.
Ein Medienarchiv ist ein System zur zentralen Speicherung von Me-
dienobjekten. Das Speichern und Laden von Objekten ist von entfernten
Rechnern ¨
uber das Netzwerk m¨oglich.
Medienobjekte sind digitale Medien, d.h. Dateien, die z.B. Bilder oder
Filme in verschiedenen Formaten beinhalten. Die Medienobjekte sind im
Archiv wie in einem Dateisystem hierarchisch in Verzeichnissen angeordnet.
ur die Implementierung wird das bestehende Medienarchiv der Uni-
versit¨at zu L¨
ubeck [11] verwendet.
Im ersten Kapitel dieser Arbeit wird der Vorgang der Klassifikation
erkl¨art und verschiedene Modell werden anhand von Beispielen erkl¨art und
analysiert.
Im zweiten Kapitel werden Attribute erst allgemein dargestellt und dann
im dritten Kapitel in f¨
ur diese Arbeit konkreter Form definiert.
Das vierte Kapitel beschreibt, wie sich Klassifikationssystem und deren
Inhalt formal in XML beschreiben lassen.
Im f¨
unften und sechsten Kapitel wird die Architektur motiviert und
beschrieben.
Das letzte Kapitel bewertet das System und zeigt m¨ogliche Erweiterungen
auf.
1

Kapitel 1
Klassifikation und
Klassifikationssysteme in der
Medizin
1.1
Klassifikation
Bei der Erfassung von medizinischen Daten, z.B Diagnosen oder der Inhalts-
beschreibung von Bildern besteht in der Regel grosse Freiheit. Nicht jeder
Anwender benutzt dieselben Begriffe; Synonyme f¨
uhren zu uneinheitlichen
Beschreibungen. Die Begriffe Hepatitis und Leberentz¨
undung haben dieselbe
semantische Bedeutung. Ein unterschiedlicher Satzbau bei Volltextbe-
schreibungen erschwert zudem eine computergest¨
utzte Auswertung, so dass
das Wiederfinden von Daten schwierig und unzuverl¨assig ist, wenn unbe-
kannt ist, mit welchem Begriff das gesuchte Datenobjekt beschrieben wurde.
Ordungssysteme (Dokumentationssprachen) sollen die sprachlichen Freihei-
ten einschr¨anken und gleichen Sachverhalten gleiche Begriffe zuordnen.
Klassifikationssysteme sind eine Form eines Ordnungssystems und be-
ruhen auf dem Prinzip der Klassenbildung. Die Vereinigung aller Klassen
soll das zu beschreibende Wissensgebiet m¨oglichst vollst¨andig abdecken.
Die Klassen untereinander sind paarweise disjunkt.
Die realen Objekte des Wissensgebietes werden anhand eines oder
mehrerer Merkmale in disjunkte Teilmengen (Klassen) eingeteilt. Jedem
Objekt sollte eine Klasse zugeordnet werden. Jede Klasse ist mit einem
eindeutigen Schl¨
ussel versehen - dem Code der Klasse. Zwischen Code und
Klasse findet also eine eineindeutige Abbildung statt. Die Kodierung der
2

Kapitel 1
3
Klassen erleichtert die computergest¨
utzte Auswertung erheblich, da nur
nach dem eindeutigen Code und nicht nach Volltextbeschreibungen gesucht
werden muss.
Eine Hierarchisierung von Klassen erm¨oglicht Sichten auf das Wis-
sensgebiet unterschiedlicher Granularit¨at, d.h. eine Verfeinerung eines
Begriffes durch Subklassen wird erm¨oglicht. Die Klassen sind hierarchisch
geordnet, d.h. sie sind zueinander ¨
uber- bzw. untergeordnet. Dabei werden
die Merkmale ¨
ubergeordneter Klassen beibehalten und weiterverfeinert. So
enth¨alt eine Unterklasse alle Merkmale der Oberklassen sowie mindestens
ein zus¨atzliches Merkmal.
Das selbe Wissensgebiet kann aus verschiedenen Blickwinkeln betrachtet
werden. Ein Klassifikationssystem, das f¨
ur medizinische Diagnosen ent-
wickelt wurde, eignet sich m¨oglicherweise schlecht f¨
ur die Abrechnung
von Krankheitsf¨allen. G¨angige Klassifikationssysteme besitzen einen Blick-
winkel; es gibt nicht das Klassifikationssystem f¨
ur ein Wissensgebiet, was
folgendes Zitat verdeutlicht:
Klassifikation ist eine Methode der Verallgemeinerung. Die Be-
nutzung verschiedener Klassifikationen kann daher vorteilhaft
sein, und jeder, ob Arzt, Pathologe oder Jurist, hat von seinem
Standpunkt aus das Recht, die Krankheiten und Todesursachen
so zu klassifizieren, wie es ihm zur Erleichterung und zur Erlan-
gung allgemeing¨
ultiger Ergebnisse am geeignetsten erscheint.
Zitat, William Farr, 1856, Mitbegr¨
under des Vorl¨
aufers des ICD
Definition eines Klassifikationssystem nach DIN 32 705
Der Vollst¨andigkeit halber ist hier die Definition eines Klassifikationssy-
stems nach der DIN aufgef¨
uhrt.
Ein Klassifikationssystem ist die strukturierte Darstellung von Klassen
und der zwischen ihnen bestehenden Begriffsbeziehungen.
Eine Klasse ist die Zusammenfassung derjenigen Begriffe, die mindestens

Kapitel 1
4
ein identisches Merkmal (Klassem) haben.
Ein Klassem (oder klassifikatorisches Merkmal) ist dasjenige Merkmal
von Begriffen, das zur Bildung einer Klasse benutzt wird und diese von anderen
Klassen unterscheidet.
Jede Klasse muss verbal durch eine Klassenbenennung bezeichnet wer-
den.
Eine Notation ist eine nach bestimmten Regeln gebildete Zeichenfolge,
die eine Klasse (Systemstelle) repr¨asentiert und deren Stellung im systemati-
schen Zusammenhang abbildet.
1.2
Modelle eines Klassifikationssystems
Im folgenden Abschnitt sollen verschiedene Modelle von Klassifikationssy-
stemen vorgestellt und ihre Eigenschaften analysiert werden.
Ein Modell ist eine dem Klassifikationssystem zugrunde liegende Architek-
tur, die die Anordnung von Klassen und Hierarchien beschreibt.
Deutschsprachige
Informationen
zu
g¨angigen
Klassifikationssystemen
finden sich beim "Deutschen Institut f¨
ur Medizinische Dokumentation und
Information" [13].
1.2.1
Eindimensionales, hierarchisches Systemmodell
Die Klassen, die Stellvertreter f¨
ur inhaltliche Begriffe sind, werden einfach
aneinandergereiht. Benachbarte Klassen, die inhaltlich ¨ahnlich sind, k¨onnen
zusamengefasst werden und bilden eine ¨
ubergeordnete Hierarchie. Ver-
wandte Hierarchien k¨onnen ebenfalls zu neuen ¨
ubergeordneten Hierarchien
zusammengefasst werden. Durch diesen Vorgang entsteht ein Baum.
Hierarchien sind Baumknoten, Klassen sind Bl¨atter des Baumes.

Kapitel 1
5
Beispiel:
Im Beispiel wird die Krankheit Enzephalitis (varicella zoster) syste-
Erkrankungen
Bakterielle Erkrankungen Viruskrankheiten
...
Virale EnzephalitisVirale Augenerkrankungen
...
Enzephalitis, varicella zoster
Enzephalitis, Herpes simplex
matisch klassifiziert. Sie ist eine durch Viren ausgel¨oste Erkrankung. Die
hervorgehobenen Knoten im Baum sollen den Pfad zur Krankheit aufzeigen.
Von der Wurzel zu den Bl¨attern findet eine Verfeinerung des inhalt-
liches Begriffes statt, d.h ein Blatt beinhaltet alle Eigenschaften aller
¨
ubergeordneten Hierarchien (Baumknoten). Die Krankheiten im Beispiel
sind die Bl¨atter des Baumes.
Die Knoten im Baum gruppieren lediglich Bl¨atter und Baumknoten
zusammen. Die M¨achtigkeit des Klassifikationssystems ist nicht geringer,
wenn nur die Bl¨atter aufgez¨ahlt werden. Der Komfort beim Klassifizieren
w¨are jedoch geringer, da dann keine inhaltlich orientierte Navigation zu
den Klassen erfolgen kann.
Auf den ersten Blick erscheint das Klassifikationssystem - dargestellt als
Baum - zweidimensional, da es ¨
uber vertikale und horizontale Richtungen
verf¨
ugt. Die Klassen (Begriffe) befinden sich jedoch auf unterster Ebene als
Blattknoten im Baum; die vertikale Richtung erm¨oglich durch schrittweise
Verfeinerung das Auffinden der gesuchten Klasse. W¨aren diese Hierarchien
nicht vorhanden, so w¨are das Auffinden wesentlich schwieriger, da die
gesamte Liste (der Blattknoten) durchsucht werden m¨
usste. Die Aussage-
kraft w¨are jedoch nicht geringer, da i.A. nur die Bl¨atter eine Aussage bilden.
Noch deutlicher wird die Eindimensionalit¨at des Modells, wenn man
sich das Klassifikationssystem als Koordinatensystem vorstellt und eine
Klasse als Koordinatenangabe. Die Klasse, die durch einen Identifier
eindeutig beschrieben ist, entspricht einer eindimensionalen Koordinate.

Kapitel 1
6
Das eindimensionale, hierarchische Modell besitzt folgende Nachteile:
·
Die Anzahl der beschreibbaren Begriffe entspricht genau der Anzahl
der Klassen. Kombinationen von Begriffen sind nicht m¨oglich. Beim
hierarchischen Modell wird die Ausdrucksf¨ahigkeit einer Kombination
nur erreicht, wenn alle ben¨otigten Kombinationen aufgez¨ahlt werden,
was die Anzahl der Klassen jedoch exponentiell erh¨oht.
·
Es wird oft derselbe semantische Begriff durch mehrere Klassen re-
pr¨asentiert; z.B. m¨
usste eine Mittelohrentz¨
undung bei Entz¨
undungen
aber auch bei Erkrankungen der Ohren aufgez¨ahlt werden. Es herscht
folglich Redundanz.
·
Es ist n¨otig, ein oberstes Unterscheidungsmerkmal auszuw¨ahlen, wel-
ches die oberste Hierarchie (die Wurzel des Baumes) darstellt. Dies
kann in vielen F¨allen nur willk¨
urlich durchgef¨
uhrt werden und den
Klassifikationsvorgang erschweren.
Beispiel : International Classification of Diseases (ICD)
Der ICD[36] reicht zur¨
uck auf eine Klassifikation der Todesursachen in
England, die von William Farr um 1850 entwickelt wurde.
Der ICD wurde mehrfach revidiert und liegt seit 1989 in der zehnten
Revision (ICD-10) vor. Von Revision zu Revision wurden das System
erweitert, d.h. neue Hierarchien wurden eingef¨
uhrt und Klassen in mehrere
Klassen separiert.
Der ICD-10 ist eine monohierachische meist 4-stellige Klassifikation,
d.h dass der Hierarchiebaum 4 Ebenen besitzt. Der eindeutige Code einer
Klasse wird von den Stellen gebildet und setzt sich aus den verfolgten
Pfaden im Baum zusammen. Durch den 4-stelligen Code einer Klasse kann
man also vom Wurzelknoten bis zum Blatt navigieren, da der Code die
Pfadangabe ist.
Je mehr Stellen ein Code besitzt, um so genauer wird die Aussage.
Jede weitere Ebene pr¨azisiert die Krankheit.
Der ICD-10 besitzt 21 Kapitel (1. Stelle), 216 Krankheitsgruppen (2.

Kapitel 1
7
Stelle), 2036 Krankheitsklassen mit 3-stelligem Code und 12161 Krank-
heitsklassen mit 4-stelligem Code.
Der ICD findet Verwendung zur Codierung von Krankheitsdiagnosen,
zur statistischen Auswertung, wie z.B. der Bestimmung von Pr¨avalenz und
Inzidenz einer Krankheit innerhalb einer Bev¨olkerung. Der ICD wird von
der Weltgesundheitsorganisation (WHO) erstellt.
Die Nachteile eines eindimensionalen System k¨onnen anhand des ICD-10
veranschaulicht werden.
Im ICD gibt es 21 Hierarchien auf oberster Ebene. Kapitel I besch¨aftigt sich
mit Infektionen, Kapitel VIII mit Erkrankungen der Ohren. Es gibt jedoch
Krankheiten, wie z.B. Infektionen an den Ohren, die sich nicht eindeutig
einer der beiden Kapitel zuordnen lassen. Der Vollst¨andigkeit halber, muss
eine solche Krankheit mehrmals in den betroffenen Hierarchien wiederholt
werden, was jedoch der Eindeutigkeit der Begriffe bzw. der Klassen wider-
spricht und die Anzahl der Klassen drastisch erh¨oht. Dieselbe Krankheit
bekommt zwei verschiedene Codes, da jeder Code einer unterschiedlichen
Pfadangabe entspricht.
Bei der Suche tritt das Problem auf, dass alle Codes f¨
ur diese Krankheit
als Suchbegriff einzugeben sind, um wirklich alle betroffenen Objekte zu
finden.

Kapitel 1
8
1.2.2
Multidimensionales, multiaxiales Systemmodell
Im Gegensatz zum eindimensionalen Modell, dass mit n Klassen nur n
unterscheidliche Begriffe des Wissensgebietes darstellt, kann das multi-
dimensionale Klassifikationsmodell durch Kombinationen der n Klassen
erheblich mehr Begriffe bilden.
Die Klassen werden in verschiedenen Dimensionen (Achsen) angeord-
net. Die Achsen sind so gew¨ahlt, dass sie verschienene Begriffsmerkmale
repr¨asentieren; z.B. kann eine Achse K¨orperregionen repr¨asentieren und
eine zweite Erkankungen.
Beispiel:
Folgendes sehr einfaches Klassifikationssystem mit zwei Dimensionen
bzw. Achsen stellt dies dar. Die Achsen entsprechen den Baumknoten in
der ersten Ebene, also den Kindern des Wurzelknotens. Sie sind in der
Abbildung hervorgehoben dargestellt.
Eine Klasse entspricht einem (bis zu) m-dimensionalen Punkt oder Gebiet in
dem durch m Achsen aufgespannten m-dimensionalen Koordinatensystem.
Die Klassen, die in den Hierarchien angeordnet sind, entsprechen einer
eindimensionalen Angabe. Sie bilden die Grundlage um Klassen aus Klassen
zusammenzusetzen. Wenn eine zusammengesetzte Klasse weniger als m
Klassen pro Achse enth¨alt, so stellt sie ein Gebiet im Koordinatensystem
dar. ¨
Uber die verbleibenden Achsen, die nicht in durch eine Koordinaten-
angabe selektiert werden, kann keine Ausage getroffen werden.
Die Anzahl der Achsen - also die Anzahl der Verzweigungen vom
Wurzelknoten - entspricht der Dimension des Systems.
Im obigen Beispiel ist m = 2. Eine m¨ogliche Koordinate in unserem
Beispiel w¨are (Ohr, Entz¨
undung). Zu bemerken ist der Unterschied zum

Kapitel 1
9
eindimensionalen Modell, bei dem eine Angabe ausreichte, um eine Klasse
zu beschreiben. Das Kombinieren von Klassen ist im eindimensionalen
Modell nicht m¨oglich.
Innerhalb einer Achse werden die Begriffe wie im hierarchischen Mo-
dell aufgez¨ahlt. Auch hier ist es m¨oglich durch eine Hierarchisierung die
Begriffe in Ober- und Untergruppen einzuteilen, um den Klassifikationsvor-
gang zu vereinfachen.
Das eindimensionale hierarchische Modell entspricht also einem multidi-
mensionalen Modell mit nur einer Achse, damit ist das multidimensionale
Modell m¨achtiger in seiner Ausdrucksf¨ahigkeit und das eindimensionale
Modell ist ein Spezialfall des mehrdimensionalen Modells.
Da ein Begriff durch eine Kombination von Klassen dargestellt wird,
lassen sich mit n Klassen mehr als n Begriffe kodieren. Die Anzahl darstell-
barer Begriffe entspricht der Anzahl der Kombinationsm¨oglichkeiten der
Klassen und ergibt sich aus der Multiplikation der Anzahl der Klassen in
den verschiedenen Achsen
Beipiel:
Ein 3-dimensionales System mit jeweils 8 Klassen pro Achse besitzt 8 · 8 · 8
= 512 darstellbare Zust¨ande.
Um dieselbe Aussagekraft zu besitzen muss ein eindimensionales Sy-
stem alle 512 Zust¨ande einzeln aufz¨ahlen und w¨are dadurch ¨
uberfrachtet
und unhandlich.
Beispiel: Systematic Nomenclature of Medicine: SNOMED
Der SNOMED[18] in der Version 2.0 ist ein multidimensionales Klassifikati-
onssystem mit folgenden 7 Achsen.
·
M-Achse (Morphology): welche Gewebs¨anderung ist bemerkbar ?
·
E-Achse (Etiology): was ist die Ursache ?
·
T-Achse (Topology): Welcher Ort ist betroffen ?
·
F-Achse (Function): Welche K¨orperfunktion ist betroffen ?
·
D-Achse (Disease): Bei welcher Krankheit ?
·
P-Achse (Procedure): Welche Massnahme ist zu ergreifen ?

Kapitel 1
10
·
J-Achse (Job): Welche T¨atigkeit ¨
ubt der Betroffene aus ?
ur die Beschreibung eines Zustandes reicht ein einzelner Code nicht mehr
aus. Stattdessen wird eine bis zu 7-dimensionale Angabe, die je einen (oder
mehrere) Werte pro Achse enth¨alt als Code interpretiert.
Beispiel: Der Code (TX2000, M40000, E30000, J63230) inidiziert eine
durch Viren verursachte Enzephalitis bei einem Waldarbeiter. Dieses
Beispiel ist [15] entnommen.
Der Code besteht aus 4 Klassenidentifiern, die Klassen in 4 verschie-
denen Achsen identifizieren. Die vierkoordinaten beschreiben ein vier-
dimensionales Gebiet im 7-dimensionalen Raum des Klassifikationssystem
. ¨
Uber die anderen Achsen und ihre Bedeutung macht der Code keine
Angaben.
Nachteile des multidimensionalen Systemmodells
Das multidimen-
sionale System hat folgende Nachteile, die jedoch i.A tolerierbar sind:
·
Es erlaubt Kombinationen von Begriffen (Koordinaten), die irrelevant
oder sinnlos sind. Im SNOMED ist es m¨oglich auf der Achse der Ursa-
chen eine Fraktur mit einer Grippe auf der Achse der Krankheiten zu
kombinieren, obwohl diese Kombination keine sinnvolle Angabe dar-
stellt.
·
Begriffe, die in mehreren Achsen relevant sind, m¨
ussen in allen rele-
vanten Achsen wiederholt werden (s. Bsp. referentielles Modell unten).
·
Wie im eindimensionalen Modell muss ein oberstes Unterscheidungs-
merkmal f¨
ur die Bezeichnung der Achsen gew¨ahlt werden. Insbe-
sondere kann die Anzahl der Achsen erh¨oht werden, um die Aus-
drucksm¨achtigkeit zu erh¨ohen; in diesem Fall steigen jedoch auch die
Anzahl irrelevanter Kombinationsm¨oglichkeiten und der Klassifikati-
onsvorgang wird aufwendiger. Zuviele Achsen machen das System un-
handlich, zuwenige machen es unscharf.

Kapitel 1
11
1.2.3
Referentielles Systemmodell
Das Referentielle Systemmodell entspricht dem oben vorgestellten mehrdi-
mensionalen Modell mit dem Unterschied, dass innerhalb der Bl¨atter des
Baumes nicht die Begriffe aufgef¨
uhrt sind, sondern Verweise (Referenzen)
auf die Begriffe. Die Begriffe selbst werden separat in einer Liste aufgef¨
uhrt.
Der Name referentielles Modell wurde f¨
ur diese Arbeit gew¨ahlt, da es das
einzige Modell ist, welches mit Referenzen arbeitet.
Dieser auf den ersten Blick unwichtig erscheinende Unterschied erm¨oglicht
jedoch, dass derselbe Begriff aus verschiedenen Hierarchien aus refereniert
werden kann.
Beispiel:
Der Begriff Nase kann in den Hierarchien K¨
orperregionen und Gewebe
auftreten, da die Nase als Gewebe sowie als K¨orperregion interpretiert
werden kann. Im einfachen hierarchischen Modell ohne Referenzen muss
der Begriff Nase in beiden Achsen wiederholt werden.
Bei der Suche nach Objekten, die mit Nase klassifiziert worden sind,
usste sich der Suchende entscheiden, ob er nach Nase als Gewebe oder als
orperregion suchen m¨ochte.
Gewebe (A,1)
K¨orperregionen (B,2)
...
Nase (C,3)
...
Nase (D,3)
...
Goblet-Zellen (E,4) Olfakt. Rezeptoren (F,5)
1
Gewebe, ...
2
K¨orperregionen, ...
3
Nase,
A specialized structure that serves as an organ of the sense of smell as well as part of
the respiratory system; the term includes both the external nose and the nasal cavity.
4
Goblet-Zellen, ...
5
Olfaktorische Rezeptoren, ...

Kapitel 1
12
Ausgehend von einem Begriff sind die untergeordneten Begriffe abh¨angig
von der Interpretation des Begriffes. Nase als K¨orperregion ist ein scharfer
Begriff, der keine Verfeinerung bedarf; Nase als Gewebe ist jedoch grob; die
an der Nase beteiligten Gewebe, z.B. Sinneszellen werden dem Begriff Nase
in der Achse Gewebe untergeordnet.
Aus Sicht der Informatik wird ein solches System durch einen Baum
repr¨asentiert. Dieser Baum hat in den Knoten zwei Eintr¨age:
Der erste Eintrag ist ein Identifier f¨
ur den Knoten.
Der zweite Eintrag ist die Referenz auf eine lineare Liste von Begriffen.
Ein Begriff kann somit mehrfach referenziert werden, d.h. dieselbe
Referenz findet sich an mehreren Stellen im Baum. Diese Knoten sind dann
werte- bzw. inhaltsgleich.
Die Navigation in Richtung der Bl¨atter ausgehend von einem Begriff
erfordert die Wahl der Hierarchie oder Achse, in dem der Begriff auftritt;
d.h. die Kinder eines Begriffes sind nicht eindeutig. Eindeutig werden sie
durch die Wahl des Baumknotens.
Es gibt in diesem Modell keinen Unterschied zwischen Hierarchien und
Klassen. Im Beispiel ist der Begriff Nase als K¨orperregion eine Klasse
(Blatt), im Falle eines Gewebes jedoch auch eine Hierarchie (Baumknoten),
da weiter verzweigt werden kann.
Die Struktur des Systems ist weiterhin ein Baum. Auch wenn zwei Knoten
denselben Inhalt besitzen ist es nicht sinnvoll diese Knoten zu vereinigen
und somit einen Graph zu schaffen, denn die Nachfolger eines Knotens
sind abh¨angig von der Interpretation des Begriffs. Nase als Region hat im
Gegensatz zur Interpretation als Gewebe keine Nachfolger. Durch einen
Graphen ohne Referenzen ist dieses nicht ausdr¨
uckbar.
Beispiel: Medical Subject Headings: MeSH
Der MeSH[25] wird von der National Library of Medicine der USA heraus-
gegeben und ist multidimensional strukturiert. Er findet Verwendung u.a.
ur die Inhaltsbeschreibung von Dokumenten des Medline Archives[24] . Die
in den Dokumenten beschriebenen Krankheiten, Forschungsergebnisse, etc.
werden anhand der Begriffe des MeSH kodiert, um eine leistungsf¨ahige Su-
che zu erm¨oglichen.
Die MeSH Tree Structure umfasst 15 Kategorien (Achsen), die in weitere
Subkategorien (Hierarchien) eingeteilt sind.

Kapitel 1
13
·
A-Achse: Anatomy
·
B-Achse: Organism
·
C-Achse: Diseases
·
etc.
In der MeSH Annotated List werden die im MeSH Tree Structure referen-
zierten Begriffe ohne weitere Sortierung alphabetisch aufgez¨ahlt. Hier sind
aufgelistet
·
Die Hauptschlagw¨orter (Main Headings)
·
Synonyme
·
Subheadings (Qualifier), die die Main Headings n¨aher qualifizieren
·
Zus¨atzliche Bezeichnungen (z.B. in deutscher Sprache)
·
Querverweise, etc.
Eigenschaften des referentiellen Systemmodells
Das referentielle Modell behebt einen Nachteil der vorher beschriebenen Mo-
delle: semantisch gleiche Begriffe werden nun nicht mehr durch mehrere dis-
junkte Klassen repr¨asentiert.
Die weiteren Eigenschaften des multidimensionalen Modells bleiben erhal-
ten.

Kapitel 1
14
1.2.4
Weitere Ans¨
atze f¨
ur Systemmodelle
Im folgenden werden zwei weitere Modelle kurz vorgestellt, die die Nachteile
der vorherigen Modelle beheben sollen. Diese Modelle werden in der Praxis
nicht eingesetzt, obwohl ihre Ausdruckst¨arke gr¨oßer ist und sie Fehlklassifi-
kationen vermeiden.
Da die verwendeten Klassifikationssysteme historisch gewachsen sind, ist es
sehr schwer neue Systeme und insbesondere neue Modelle einzuf¨
uhren. Die
Modellbeschreibungen sind [30] entnommen.
Das multifokale Modell
Kennzeichend f¨
ur das multidimensionale Modell mit n Achsen ist, dass
diese Achsen alle an einem Punkt ansetzen. Diesen Punkt k¨onnte man den
Ursprung eines n-dimensionalen Koordinatensystems bezeichnen. Hieraus
resultiert jedoch direkt, dass jeder Punkt im Raum als Klasse zul¨assig ist.
Jedoch sind wie oben viele Kombinationen (Punkte) ohne Sinn, da sie keine
realen Objekte repr¨asentieren.
Das multifokale Modell erlaubt es, dass die Achsen nicht denselben Ur-
sprung haben m¨
ussen. Ein kleines Beispiel soll dies verdeutlichen:
Beispiel:
Eine Achse des Systems beinhaltet Krankheiten, u.a. wird eine Fraktur
(Knochenbruch) des Unterarms aufgez¨ahlt. Um einen offenen von einem
geschlossenen Bruch zu unterscheiden, m¨
ussten beide Varianten einzeln
aufgez¨ahlt werden. Dies macht jedoch i.A. keinen Sinn: wenn jemand alle
Br¨
uche auswerten m¨ochte, muss er nach allen Varianten eines Bruches
suchen, da jede Variante eines Bruches eine eigene durch eine separate
Klasse repr¨asentierte Krankheit darstellt.
Um dies zu vermeiden, kann eine weitere Achse eingef¨
uhrt werden,
die nur aus den beiden Begriffen offen und geschlossen besteht. Im multidi-
mensionalen Modell ist ein Begriff dieser Achse mit jedem Begriff der ersten
Achse kombinierbar, was zu Kombinationen wie beispielsweise einer offenen
bzw. geschlossenen Mittelohrentz¨
undung f¨
uhren kann, die sinnlos sind.
Im multifokalen Modell treffen nicht alle Achsen zentral aufeinander,
sondern die Achsen haben ihren Ursprung bei bestimmten Begriffen. Diese
Begriffe sind der Focus also der Ursprung f¨
ur die Achsen. Eine Achse kann
ihren Ursprung bei mehreren Begriffen besitzen.
Im Beispiel w¨
urde die Achse mit den Begriffen offen und geschlossen ihren
Ursprung bei den Krankheiten UnterarmFraktur, OberarmFraktur, und
weiteren Frakturen haben.

Kapitel 1
15
Die freie Kombinierbarkeit wird eingeschr¨ankt, da Kombinationen nur
bei bestimmten Klassen zugelassen werden. Sinnlose Kombinationen
und somit Fehlklassifikationen werden vermieden. Der Aufwand bei der
Erstellung des Inhaltes des Klassifikationssystems ist jedoch h¨oher, da
alle sinnvollen Kombinationen erkannt werden m¨
ussen. Es gibt keine
medizinischen Klassifikationssysteme, die auf diesem Modell aufbauen und
in der Praxis eingesetzt werden.
Das multipunktuelle Modell
Die bisherigen Modelle haben alle Begriffe (Klassen) als disjunkt aufgefasst.
Dies wird insbesondere medizinischen Erkrankungen, die h¨aufig als Syn-
drome, d.h. als gleichzeitiges Erscheinen mehrerer Erkrankungen auftreten,
nicht gerecht. Eine Unterarmfraktur, bestehend aus der Fraktur der Elle
und der Speiche ist disjunkt zu einem einfachen Bruch der Elle oder der
Speiche. Bei Auswertungen f¨
uhrt dies zu Problemen, da eine Suche nach
Frakturen der Speiche einen Bruch des Unterarmes nicht einschliesst.
Das multipunktuelle Modell erweitert die bestehende Modelle, die
unipunktuell sind, um die Aggregation: eine Klasse kann sich aus mehreren
anderen Klassen zusammensetzen. Mengen von Begriffen k¨onnen zusam-
mengestellt werden und bilden gemeinsam einen neuen Begriff.
Das blosse Zusammenfassen der Klassen - also eine Mehrfachselektion beim
Klassifikationsvorgang - besitzt nicht dieselbe Ausdrucksst¨arke:
Beispielsweise sei eine Krankheit K
1
durch eine Ursache U
1
verur-
sacht, sowie eine Krankheit K
2
durch die Ursache U
2
. Die Klasse C
1
setze
sich zusammen aus dem Tupel (K
1
,U
1
) die Klasse C
2
aus (K
2
,U
2
).
Ein Medienobjekt sei nach beiden Klassen C
1
und C
2
klassifiziert.
W¨aren nur die beteiligten Klassen K
1
,K
2
, U
1
und U
2
mit dem Objekt
verbunden, so w¨
urde dies bedeuten, dass das Objekt ebenfalls mit den
Kombinationen (K
1
,U
2
) sowie (K
2
,U
1
) klassifiziert wurde, da das gesamte
Kreuzprodukt der beteiligten Klassen relevant ist.
Auch f¨
ur dieses Modell gibt es kein Beispiel in der Praxis.

Kapitel 2
Attribute als Metadaten
Attribute stellen neben der
Klassifikation eine zweite M¨oglichkeit dar,
Informationen ¨
uber Objekte, also Metadaten, anzulegen.
Attribute erm¨oglichen im Gegensatz zur Klassifikation die Erfassung
von freien Informationen, wie z.B. Inhaltsbeschreibungen im Freitextfor-
mat. Eine Inhaltsbeschreibung durch Klassifikation vorzunehmen, bedeutet,
dass jeder m¨ogliche Inhalt durch eine Klasse repr¨asentiert sein muss. Dies
kann nur f¨
ur grobe Beschreibungen ausreichen.
2.1
Bestehende Ans¨
atze
2.1.1
Dublin Core Set
Das Dublin Core Set[16] ist eine 1995 beschriebene Liste von 15 (zuerst 13)
Datenelementen, die f¨
ur die Beschreibung vom Dokumenten, haupts¨achlich
von Texten im Internet, genutzt werden sollen. Dublin Core ist ein interna-
tionaler Standard f¨
ur Metadaten. Die 15 Attribute sind u.a.:
·
dc:title Der Titel des Dokuments
·
dc:creator Der Autor des Dokuments
·
dc:subject Schlagworte und Stichworte, die das Dokument inhaltlich
erschliessen
·
dc:description Inhaltliche Beschreibung durch fortlaufenden Text
ohen syntaktische Regeln oder vordefinierte Begriffe
·
dc:date Erstellungsdatum des Dokuments
16

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2002
ISBN (eBook)
9783832455958
ISBN (Paperback)
9783838655956
DOI
10.3239/9783832455958
Dateigröße
2.3 MB
Sprache
Deutsch
Institution / Hochschule
Universität zu Lübeck – unbekannt
Erscheinungsdatum
2002 (Juli)
Note
1,3
Schlagworte
klassifikationssysteme java medizin datenbank
Zurück

Titel: Attributierung und Klassifikation von Objekten im Medienarchiv
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
101 Seiten
Cookie-Einstellungen