Lade Inhalt...

Metadatenmanagement

Erfolgsfaktor für ein Data Warehouse

©2000 Diplomarbeit 98 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Metadaten sind der Schlüsselfaktor moderner Architekturen zur Informationsversorgung. Nach langen Auseinandersetzungen hat sich durch den Rückzieher von Microsoft die Tür geöffnet für eine Standardisierung der Beschreibung und des Austausches von Metadaten. Das Common Warehouse Model der OMG bringt Vorteile für IT-Abteilung und Anwender.
In dieser Arbeit wird die zentrale Bedeutung von Metadaten für Aufbau und Betrieb von Data Warehouse Systemen herausgearbeitet. Technische Metadaten geben dabei Auskunft über Struktur von Daten und ihre Modifikation durch Bewegung zwischen verschiedenen Lagerorten oder Überführung in neue Formate und Darstellungsformen. Semantische Metadaten liefern inhaltliche Informationen über Beziehungen und Bedeutung von Daten, was Usern ein Verstehen des gelieferten Datenmaterials ermöglicht. Die Speicherung und Verwaltung der Metadaten wird häufig in einer separaten Datenbank vorgenommen, die als zentrales Repository und Drehscheibe für die Metadatenintegration dient. Metadaten der verschiedensten Werkzeuge werden hier gespeichert, damit sie allen anderen Komponenten zur Verfügung stehen. Um dieses Ziel zu erreichen, spielt die Vereinheitlichung der Definitionen von allen verfügbaren Informationsobjekten des Data Warehouse-Systems sowie eine Standardisierung der Austauschformate dieser Informationsobjekte eine besondere Bedeutung.
Dieser Ansatz einer Standardisierung wird derzeit von der Object Management Group forciert. Deren Vorgehensweise und Spezifikationen auf der Grundlage der Beschreibungssprache Unified Modelling Language (UML) und des Datenaustauschstandards eXtended Markup Language (XML) sowie bereits mit dieser Technologie am Markt existente Tools werden in vorliegender Arbeit analysiert.

Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Problematik1
2.Metadaten3
2.1Begriffsdefinition3
2.2Aufgabenbereich5
2.3Anwendungsfelder8
2.4Metadatenkategorien9
2.4.1Administrative Metadaten9
2.4.2Berechtigungs-Metadaten9
2.4.3Metadaten zu strukturellen Aspekten10
2.4.4Metadaten zum Kontext und Inhalt10
2.4.5Metadaten zur Nutzungs- und Wirkungsgeschichte11
3.Data Warehouse11
3.1Definition12
3.2Aufbau13
3.3Datenintegration15
3.4Abfrage16
3.5Erfolgsfaktoren für ein Data Warehouse18
4.Management von Metadaten19
4.1Metamodell19
4.2Metadatenarchitektur20
4.3Aufgabe22
4.4Metadaten-Repository24
4.4.1Definition24
4.4.2Zentrales Repository25
4.4.3Dezentrales […]

Leseprobe

Inhaltsverzeichnis


ID 4585
Güthlein, Christian: Metadatenmanagement: Erfolgsfaktor für ein Data Warehouse / Christian
Güthlein - Hamburg: Diplomica GmbH, 2001
Zugl.: Würzburg, Universität, Diplom, 2000
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die
der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen,
der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der
Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung,
vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im
Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der
Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem
Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche
Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten
wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht
vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die Autoren oder
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.
verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2001
Printed in Germany

Wissensquellen gewinnbringend nutzen
Qualität, Praxisrelevanz und Aktualität zeichnen unsere Studien aus. Wir
bieten Ihnen im Auftrag unserer Autorinnen und Autoren Wirtschafts-
studien und wissenschaftliche Abschlussarbeiten ­ Dissertationen,
Diplomarbeiten, Magisterarbeiten, Staatsexamensarbeiten und Studien-
arbeiten zum Kauf. Sie wurden an deutschen Universitäten, Fachhoch-
schulen, Akademien oder vergleichbaren Institutionen der Europäischen
Union geschrieben. Der Notendurchschnitt liegt bei 1,5.
Wettbewerbsvorteile verschaffen ­ Vergleichen Sie den Preis unserer
Studien mit den Honoraren externer Berater. Um dieses Wissen selbst
zusammenzutragen, müssten Sie viel Zeit und Geld aufbringen.
http://www.diplom.de bietet Ihnen unser vollständiges Lieferprogramm
mit mehreren tausend Studien im Internet. Neben dem Online-Katalog und
der Online-Suchmaschine für Ihre Recherche steht Ihnen auch eine Online-
Bestellfunktion zur Verfügung. Inhaltliche Zusammenfassungen und
Inhaltsverzeichnisse zu jeder Studie sind im Internet einsehbar.
Individueller Service
­
Gerne senden wir Ihnen auch unseren Papier-
katalog zu. Bitte fordern Sie Ihr individuelles Exemplar bei uns an. Für
Fragen, Anregungen und individuelle Anfragen stehen wir Ihnen gerne zur
Verfügung. Wir freuen uns auf eine gute Zusammenarbeit.
Ihr Team der Diplomarbeiten Agentur

Inhaltsverzeichnis
Inhaltsverzeichnis
1
Problematik... 1
2
Metadaten ... 3
2.1 Begriffsdefinition...3
2.2 Aufgabenbereich ...5
2.3 Anwendungsfelder ...8
2.4 Metadatenkategorien ...9
2.4.1 Administrative
Metadaten ...9
2.4.2 Berechtigungs-Metadaten...9
2.4.3 Metadaten zu strukturellen Aspekten...10
2.4.4 Metadaten zum Kontext und Inhalt...10
2.4.5 Metadaten zur Nutzungs- und Wirkungsgeschichte ...11
3
Data Warehouse... 11
3.1 Definition...12
3.2 Aufbau ...13
3.3 Datenintegration...15
3.4 Abfrage...16
3.5
Erfolgsfaktoren für ein Data Warehouse...18
4
Management von Metadaten... 19
4.1 Metamodell...19
4.2 Metadatenarchitektur...20
4.3 Aufgabe ...22
4.4 Metadaten-Repository ...24
4.4.1 Definition...24
4.4.2 Zentrales
Repository ...25
4.4.3 Dezentrales
Repository...26
4.4.4 Metadatenfluss ...27
4.4.5 Einsatzbereich ...30
4.5 Metadatenstruktur ...30
4.5.1 Back Room Metadaten ...31
4.5.2 Front Room Metadaten...32
4.5.3 Aufgabenbereich ...34

Inhaltsverzeichnis
4.6 Metadatenaustausch...35
4.7 Metadatenintegration...38
5
Standardisierungsbestrebungen... 39
5.1 Bewertungskriterien ...40
5.2
Object Management Group (OMG) ...42
5.2.1 Object Management Architecture (OMA) ...43
5.2.2 UML ...43
5.2.3 Meta Objekt Facility (MOF) ...44
5.2.3.1 MOF-Modell...45
5.2.3.2 MOF IDL Mapping ...47
5.2.3.3 MOF Schnittstellen ...48
5.2.4 XML Metadata Interchange Format (XMI)...49
5.2.4.1 Aufgabe ...49
5.2.4.2 Austausch...51
5.3 Common
Warehouse
Metamodel...54
5.3.1 Aufbau ...55
5.3.2 CWM-Metamodelle...57
5.4
Meta Data Coalition (MDC) ...58
5.4.1 Open Information Model (OIM) ...59
5.4.2 XML Interchange Format (XIF)...61
5.4.3 Aufbau eines OIM Modells...61
5.4.3.1 Analyse und Design Modell ...62
5.4.3.2 Datenbank und Data Warehousing Modell ...62
5.4.3.3 Objekt und Komponenten Modell...63
5.4.3.4 Knowledge Management Modell...63
5.4.3.5 Business Engineering Modell ...63
5.4.4 Aufbau des Modells...63
5.4.4.1 Datenbank Modell...64
5.4.4.2 Data Warehouse Modell...64
5.5 Spezifische
Metadatenaustausch-Formatstandards ...65
5.6
Vergleich von OIM und CWM ...66
5.7 Bewertung ...69
6
Anwendungen... 70
6.1 Oracle
Warehouse
Builder...70
6.2 Microsoft
Repository...72

Inhaltsverzeichnis
6.3 Platinum
Repository...73
6.3.1 Platinum
Repository
Architektur ...74
6.3.2 Schnittstellen...75
6.3.3 Einsatz der Standardspezifikationen ...76
6.4 Informatica...77
6.4.1 Metadatenaustausch ...77
6.4.2 Schnittstelle...78
7
Fazit ... 79
Quellenverzeichnis ... 81
Abkürzungsverzeichnis... 88

Problematik
Seite 1
1
Problematik
In dieser Arbeit wird die Grundproblematik und das geforderte Anforderungspoten-
tial von Metadaten und deren Verwaltung für den effizienten Aufbau eines leistungs-
starken Data Warehouses herausgearbeitet und analysiert.
Die Brisanz liegt darin begründet, dass durch die steigende Flut von Daten, die heute
teilweise den Terabyte-Bereich schon verlassen und den Petabyte-Bereich innerhalb
eines Unternehmens erreicht haben, die Entscheidungsträger bei nicht funktionsfähi-
gen oder zu langsamen Management-Informations-Systemen (MIS) nicht in der Lage
sind, die relevanten Informationen zu finden und zu nutzen. Durch die zunehmend
kundennahen Produktionsstätten, bei denen Informationen detailliert für leistungs-
starke, kundengerechte Fabrikation für den Standort und für den Mutterkonzern vor-
liegen müssen, sowie durch die wachsende Verbreitung von Daten unterschiedlichs-
ter Semantik über das Internet entwickelt sich die Notwendigkeit, die Performance
der entscheidungsunterstützenden Systeme effizient zu steigern. Nur durch eine
effektive Auswertung der vorhandenen relevanten Informationsbestände, können
diese Daten für strategische und taktische Entscheidungen genutzt und damit ein
Vorteil gegenüber der Konkurrenz erzielt werden.
Genau bei dieser Problematik, die strategischen Informationen zeit- und zielgenau
aus dem global verteilten Unternehmenswissen kostengünstig zu finden und auszu-
werten, kommen die Metadaten zum Tragen, da sich trotz einer immer schnelleren
Datenautobahn nicht zwangsläufig eine Verbesserung der Integration und Verar-
beitung der Daten und Informationen einstellt.
Die Schwierigkeit mangelhafte, unvollständige oder sogar falsche Verarbeitungs-
schritte und Interpretationen, ausgelöst durch willkürlich abgelegte Datensätze, zu
vermeiden, wird durch das zentrale Element der Metainformation, der beschreiben-
den Information, gelöst. Gerade durch die Beschreibung der Daten können aus den
Ressourcen des Internets, den unternehmensinternen operativen Datenbanken und
Data Warehouses sowie den öffentlichen Verwaltungen Informationen katalogisiert
werden, um durch das anschließende schnelle Wiederauffinden einen maximalen
Nutzen zu erzielen.
Ein auftretendes Hindernis ist die unterschiedliche Metadatenstruktur, ausgelöst
durch die individuellen Metamodelle der verschiedenen Data Warehouse-Tool-An-
bieter und die damit verbundene, gravierende Inkompatibilität zwischen den Appli-
kationen durch die fehlende Metadaten-Interoperabilität. Während der reine (Nutz-)

Problematik
Seite 2
Datenaustausch durch die vorliegenden Standards wie SQL für relationale und ver-
mehrt MDX für multidimensionale Datenbanken kein großes Problem darstellt,
bereitet der Metadatenaustausch durch die fehlende Homogenität der eingesetzten
Tools und Repositories immer noch Schwierigkeiten.
Gerade die Metadatenintegration i. S. v. Wiederverwertbarkeit (Re-use) und Aus-
tauschbarkeit (Sharing) stellt aus folgenden Gründen die Kernproblematik der Anbie-
ter und Anwender dar:
Für ein performancestarkes Data Warehouse ist es wichtig, die effektivsten
Tools unterschiedlicher Anbieter einzusetzen.
Anwender wollen vorhandene Metamodelle auch bei Änderung des Werk-
zeuges wiederverwenden.
Organisationen, die in verschiedene Sub-Organisationen gegliedert sind,
arbeiten mit verschiedenen Hard- und Software-Plattformen.
Die Aufgabe der Metadaten im Data Warehouse-Umfeld sowie die Problematik der
Metadatenintegration und des Metadatenaustausches, ausgelöst durch die zunehmen-
de Verbreitung unterschiedlichster, heterogener Data Warehouse-Tools mit deren
individuellen, proprietären Metadatenstrukturen, wird in nachfolgender Arbeit analy-
siert.
Dabei wird auf die sich derzeit entwickelnden und schon vorhandenen Standards in
der Metadatensemantik eingegangen. Diese werden in der ,,babylonischen" Spra-
chenlandschaft zu einem immer entscheidenderen Erfolgsfaktor. Nur durch eine
Vereinheitlichung der beschreibenden Daten mit einem zugehörigen, gemeinsamen
Metamodell kann das Dilemma der inhomogenen Applikationsumgebung gelöst
werden, um die Performance durch den Einsatz der effektivsten Werkzeuge und der
damit erzielten schnelleren Verarbeitung der unternehmensübergreifenden Daten-
bestände steigern zu können.
Nach der Analyse und Bewertung der Standardisierungsbestrebungen wird bei vier
verschiedenen Data Warehouse-Tool- bzw. Repository-Anbietern untersucht, in wie
weit diese den Einsatz der vorliegenden Standard-Spezifikationen in ihren Anwen-
dungen schon vollzogen haben und wie diese Spezifikationen in der Praxis umgesetzt
werden.

Metadaten
Seite 3
2 Metadaten
Bereits in den operativen Systemen spielen Metadaten eine wichtige Rolle. Diese
sind beispielweise enthalten in Datenbankkatalogen in Form von Beschreibungen,
Tabellenstrukturen, Spaltenformaten, Fremdschlüsseln, Trigger etc., damit System-
analytiker und Datenbankadministratoren die Aufgabe der Aktualisierung und Bear-
beitung der Daten mit Hilfe der dokumentierten und katalogisierten Struktur durch-
führen können. Die Metadaten der operativen Umwelt ergeben sich dabei aus der
eingesetzten Technologie, wie z. B. eigenentwickelte Host-Systeme, Datenbanksys-
teme oder Codegeneratoren [META00a].
Durch die mächtige Komplexität, die enorme Heterogenität und die weite Verteilung
der computergestützten Unternehmensstruktur sowie den Trend, MIS in die Unter-
nehmen zu implementieren und die damit verbundenen Eingliederung der operativen
Daten für die spätere Analyse in Data Warehouses oder branchenspezifischen Data
Marts kommt den Metadaten eine neue, brisante Bedeutung zu [DIEF00].
Je mehr Quellen zur Versorgung der entscheidungsunterstützenden Systeme verwen-
det werden, desto größer ist die Notwendigkeit der Schaffung eines Datenkataloges,
um die vorhandenen Datenbestände wiederzufinden und effizient zu nutzen. Ebenso
spielen die Umwandlungskriterien von operativen Datenbeständen in die Data Ware-
house-Datenbank eine signifikante Rolle, da die Praxis gezeigt hat, je größer die
Unterschiede der ursprünglichen Datenstrukturen aus den Quellsystemen zu den
Daten im Data Warehouse-System, desto umfassender ist die Transformation und
desto wichtiger ist folglich die Dokumentation durch Metadaten [META00a].
Um diese Zusammenhänge zu verstehen und die Relevanz der beschreibenden Infor-
mation, der sogenannten Meta-Information, als zentrales Element der aufgabenspezi-
fischen Analysen, ohne die unzureichende, fehlende oder gar falsche Verarbeitungs-
schritte und Interpretationen nicht auszuschließen sind, zu erläutern, wird in diesem
Kapitel eine allgemeine Definition der Metadaten und deren Schwerpunkte vorge-
stellt. Anschließend erfolgt die Beschreibung der Zielsetzung und der Einsatzmög-
lichkeiten.
2.1 Begriffsdefinition
Eine de facto Definition zum Begriff der Metadaten existiert derzeit nicht und so sind
diese in verschiedenen Quellen von unterschiedlichen Autoren und Anbietern
verschiedenster Data Warehouse-Werkzeuge und Repositories immer wieder anders
beschrieben, bekommen aber im Endeffekt alle die gleichen Eigenschaften zuge-

Metadaten
Seite 4
schrieben.
Leitet man den Begriff Metadaten vom griechischen Wort ,,meta" ab, was soviel aus-
drückt wie unter, neben oder danach, kommt ihm die Bedeutung von ,,Daten über
Daten" zu. Da dieses aber keine prägnante Definition darstellt, soll diese Erklärung
aus dem ursprünglichen Anwendungsumfeld der Metadaten, der Daten-Adminis-
tration, genauer erläutert werden.
Innerhalb der Daten-Administration werden Metadaten generiert und gepflegt, um
Datenmodelle zu beschreiben, demnach werden Daten erzeugt, die im Wesentlichen
andere Daten dokumentieren [ANAH97, S. 155].
Metadaten sind beschreibende Information über die Struktur und die Bedeutung der
Datenbestände sowie über die Anwendungen und Prozesse, welche die Daten mani-
pulieren. Die Vorteile liegen damit in einer strukturierten und redundanzfreien Be-
schreibung der Daten für die weitere elektronische Verarbeitung sowie in der flexi-
blen Anpassung der Systeme durch die zentrale Versorgung mit den aktuellen Ände-
rungsinformationen [ANAH97, S. 155].
Metadaten leiten dabei den Prozess der Datenintegration und liefern beschreibende
Informationen über den Zustand, die Qualität, den Inhalt der Daten sowie die An-
gabe, wo sich die Daten befinden und welche Merkmale sie aufweisen. Dadurch ist
es möglich, einen intelligenten und effizienten Zugriff auf die Daten zu gewähr-
leisten und deren Verwaltung zu sichern [META00a]. Sie liefern so Auskunft über
vorhandene Beziehungs-, Geschäfts- sowie technische Strukturen und bieten Lösun-
gen auf die häufig vorkommenden Anfragen wie:
Was bedeutet dieses abgefragte Feld ausgedrückt in Geschäftseinheiten?
Welche Geschäftsprozesse unterstützt diese Abfrage?
Wann wurde die Aufgabe des Kundendatenupdates zuletzt ausgeführt?
Welche Datei beinhaltet die Produktdaten, von welchem Quellsystem stammt
sie ab und wie ist diese strukturiert?
Die dafür notwendige Kategorisierung der Metadaten nach ihren Aufgabenbereichen
soll hierbei in Kapitel 2.4 erfolgen.
Hinter dem Begriff der Metadaten steht die Suche nach neuen Ansätzen in der
Ressourcenbeschreibung und nach den entsprechenden Verfahren einer leistungs-
starken Informationsübertragung, die auf einen effizienten und kostengünstigen Ein-

Metadaten
Seite 5
satz in elektronischen Netzen hin abgestimmt ist.
Gerade durch die zunehmende Verbreitung sowie den erhöhten Erwerb von Informa-
tionen aufgrund unternehmensspezifischer und internetbasierter Benutzeroberflächen
und Analysewerkzeuge besteht verstärkt der Bedarf, diese Informationen zu verar-
beiten und zu analysieren. Für die Integration dieser Daten in die betriebliche Infor-
mationsverarbeitung sowie die spätere Abfrage aus der Datenbank, sind Metadaten
unerlässlich [SCHI99, S. 25f]. Ein gut geplanter und beschleunigter Metadatenfluss
zwischen den Softwarewerkzeugen ist als Fundament der Business-Intelligence-
Werkzeuge unerlässlich und führt zu einem hohen Wirkungsgrad bei geringem
Risiko [DIEF00].
Die dokumentierten Daten können dabei online, offline oder in beliebiger Kombi-
nation in einem Computersystem vorliegen. Metadaten können sich aber auch auf
Bücher, Zeitschriften sowie andere Informationsquellen beziehen, die selbst nicht
elektronisch gespeichert aber elektronisch beschrieben oder bibliographiert werden.
Dadurch wird eine Zusammenführung inhaltlich verbundener, heterogener Ressour-
cen zu einem Thema oder Fachgebiet mittels einer Recherche ermöglicht
[SCHW00].
Metadaten sollen erweiterbar und selbstdefinierend sein, um zukünftige Entwicklun-
gen und Ausdehnungen zu ermöglichen sowie eine Portabilität zu gewährleisten.
Dabei unterliegen Metadaten keiner Größenbeschränkung, allerdings sollten sie sinn-
vollerweise nicht größer als die eigentlichen Daten sein [GEOM00].
Abbildung 1: Einsatzbereich der Metadaten [GEOM00].
2.2 Aufgabenbereich
Die obige Definition der Metadaten zeigt aussagekräftig, für welche Aufgabenberei-
che und Anwendungsmöglichkeiten Metadaten geeignet sind und deren Relevanz für
einen reibungslosen Ablauf innerhalb der MIS.
Metadaten
Aufgaben:
Datendokumentation
Dateninterpretation
Datensuche
Datenaufbereitung
Datenmanagement

Metadaten
Seite 6
Im Folgenden wird die Bedeutung noch ergänzend ausgeführt:
Datendokumentation:
In den letzten Jahren haben sich immer größere Datenbestände in den Unter-
nehmen angesammelt, auf die Manager und Mitarbeiter schnell zugreifen
müssen, um Entscheidungen zu treffen. Liegen diese allerdings undokumen-
tiert vor, weil die Daten-Definitionen, Regeln, Prozesse oder die Entschei-
dungsfindungen nur in den Köpfen der jeweiligen Mitarbeiter abgelegt oder
die Urheber nicht mehr im Unternehmen beschäftigt sind, werden die Daten-
bestände wertlos. Ein Unternehmen, das auf solchen ungeschriebenen Daten-
beständen aufbaut, macht diese anfällig für geringe Qualität und Missver-
ständnisse hinsichtlich der Dateninhalte, da diese eine hohe Inkonsistenz
sowie geringes Vertrauen aufweisen [SEIN00].
Gerade um Daten langfristig bearbeitbar und aussagekräftig zu erhalten, ist es
sinnvoll, diese durch Metadaten zu dokumentieren. Dadurch wird ihnen einer-
seits eine Gültigkeit zugeteilt, mit der die Aktualität gewahrt wird sowie
andererseits ihre Qualität modelliert, um für spätere Analysen eine hohe
Konsistenz der Datenbestände zu erreichen.
Dateninterpretation:
Durch den vermehrten inner- sowie zwischenbetrieblichen weltweiten Aus-
tausch von Daten durch die Vernetzung der Systeme und der immer weiter
fortschreitenden Globalisierung sind Daten ständig in Bewegung. Sie bewe-
gen und verändern sich von Prozess zu Prozess, von Funktion zu Funktion
und von Datenbank zu Datenbank und können damit als dynamischstes Ele-
ment im Unternehmen angesehen werden. Das Mapping der Daten und die
Aktivitäten, wie z. B. Werteveränderungen oder Berechnungen, geben genau
die Interpretation der Daten vor, die von den Metadaten dokumentiert wird.
Aufgrund der Abbildung eindeutiger logischer und physischer Definitionen
von Tabellen in Quell- und Zielsystemen sowie der Angabe der Extraktions-
historien, der Gültigkeit, der Umwandlungsformen sowie der Geschäftsregeln
sind die Daten und deren Manipulation durch den Metadateneinsatz detailliert
beschrieben. Dies dient zum einen den Datenbank-Administratoren, die
Transformationsprozesse bei Änderungen der Datenstrukturen in den opera-
tiven Systemen anpassen können, und zum anderen den Endanwendern, die
dadurch in die Lage versetzt werden, die enthaltenen Informationen über die

Metadaten
Seite 7
Herkunftsdatei und deren Transformationsregeln effektiv für ihre Arbeit zu
nutzen [DIEF00].
Datensuche:
Aufgrund der Vielzahl unterschiedlicher Speicherorte in den operativen Sys-
temen und den externen Quellen, wie z. B. dem Internet, ist es schwierig,
relevante Daten, die im ungünstigsten Fall noch mit unterschiedlichster Se-
mantik oder Syntax vorliegen, für die Analyse abzufragen bzw. einfach zu
finden. Dieser Suchvorgang, in dem ein Mitarbeiter unproduktiv arbeitet, weil
er nur nach Informationen für die konstruktive Arbeit sucht, beansprucht etwa
80 %, wohingegen der reinen Arbeitszeit für Analysen die restlichen 20 %
seiner Arbeitszeit zugerechnet wird [SEIN00].
Diese Zeitverschwendung für sich ist ein gravierender Punkt für die
Notwendigkeit eines konsequenten Metadatenkonzeptes, mit dem Ziel, die
Suchvorgänge zu verringern, um das Hauptaugenmerk auf die eigentliche
Analyse legen zu können.
Gerade die Funktion als Hauptkatalog oder Landkarte über die vorhandenen
Daten, bei der ein bestehender Metadatenbestand um ein vielfaches kleiner ist
als der eigentliche Datenbestand, macht es effizienter die Metadaten zu
durchsuchen. Dadurch wird die Datenermittlungszeit rapide verkürzt und
durch die Dokumentation der Daten ist sofort erkenntlich, ob die gesuchten
Daten noch brauchbar und aktuell oder schon veraltet sind [SEIN00].
Datenaufbereitung:
Die Aufbereitung der Daten ist darauf ausgerichtet, die Qualität der Daten-
bestände zu verbessern. Waren in den operativen Datenbanken Daten nicht
länger als 60 bis 90 Tage abgelegt, ist es für MIS normal, Daten fünf bis zehn
Jahre aufzubewahren. Die einmal integrierten, historischen Datenbestände
werden nicht mehr verändert. Diese werden durch Metadaten beschrieben, um
die Daten trotz der sich ändernden externen Rahmenbedingungen oder intern
veränderten Dimensionsstrukturen weiterhin für zeitabhängige Trendanalysen
zu nutzen. Hier haben die Metadaten eine wichtige Bedeutung, um Analyse-
prozesse effizient abzuarbeiten und die historischen Daten in Bezug auf die
sich ändernden aktuellen Bedingungen aussagekräftig zu halten [INMO98].
Nur durch eine eindeutige Zuordnung über Metadaten können die histori-
schen Daten über Jahre entzifferbar bleiben. Gerade durch sich ändernde

Metadaten
Seite 8
Devisenkurse, Steuergrößen, Inflationsraten und andere externe aber auch in-
terne Einflussgrößen, wie unterschiedliche Produktdefinitionen, für die z. B.
zehn Jahre alten Daten, können prozentuale Abweichungen zu aktuellen
Daten begründet und relativiert werden [INMO98].
Datenmanagement:
Das Datenmanagement ist eine klassische Aufgabe der Metadaten zum Be-
triebsmanagement und Weiterentwicklung des Data Warehouses mit dem
Ziel, bestehende Systemumgebungen mit Funktionen wie Auswirkungsanaly-
se, Generierung, und Archivierung zu verändern und zu erweitern. Dieses soll
durch die zusätzliche Integration von Werkzeugen und Prozessen geschehen,
die durch strukturierte Metadaten auf bestehenden Anwendungen aufbauen
können [WIEK99, S. 212].
2.3 Anwendungsfelder
Der komplexe Anwendungsbereich der Metadaten soll durch die folgenden Einsatz-
möglichkeiten bewusst werden:
Legacy mainframe Systems:
Cobol (für die von Cobol benutzten Datendefinitionen),
Quellcodes und
Job Control Language (JCL).
Relationale Datenbanken:
Datenbank Kataloge und
Datenbankdokumente sowie Design.
Hierarchische Datenbanken:
IMS Segmente und
Document Type Definitions (DTD).
Objektorientierte Anwendungen:
Interface Definition Language (IDL),
Class Definitions,
Source Code Management Tools und
Object Modelling Tools.
Logische Modelle:
Entity-Relationship diagrams und
Unified Modeling Language (UML) Tools.
Enterprise Resource Planning Software:

Metadaten
Seite 9
Schemata.
XML:
DTD und
XML-Dokumente.
Aus dieser Aufzählung wird sowohl der große Umfang des Einsatzbereiches der Me-
tadaten als auch die Relevanz eines einzigen Metadatenstandards, der alle Strukturen
in einem Metamodell vereinigt, deutlich [MORG00]. Nur durch die Zufügung der
beschreibenden Metadaten sind Programmfunktionen und Datenobjekte sowie deren
Beziehungen untereinander für den Endanwender verständlich darstellbar [HOLT98,
S. 97].
2.4 Metadatenkategorien
Metadaten weisen unterschiedliche Funktionalitäten und Merkmale auf, die D.
BEARMAN und K. SOCHATS von der Universität in Pittsburgh in fünf Komponen-
ten gruppieren. Das Metadatenmodell von BEARMAN/SOCHATS baut auf vorhan-
denen und diskutierten Standardisierungsansätzen auf und versucht alle Aspekte, die
digitale Objekte betreffen, zu berücksichtigen, wodurch die Kommunikation und die
Vermittlung sämtlicher, digitaler Gegenstände erleichtert werden soll [RUSC00a].
2.4.1 Administrative Metadaten
Administrative Metadaten dienen der eindeutigen Identifikation zugehöriger Daten,
wie z. B. Angabe des Autorennamens, Transaktions-ID-Nummer, Name des Doku-
ments, Erzeugungsdatum sowie zu Nachweiszwecken, z. B. Aufenthaltsort der Daten
(Verzeichnis, URL etc.) oder Beziehungen zu anderen Daten [BEAR00b].
2.4.2 Berechtigungs-Metadaten
Die Berechtigungs-Metadaten dokumentieren die Zugangsbedingungen sowie Nutz-
ungs- und Beschaffungskonditionen. Unter den vorhandenen Daten werden unter-
schiedlich strenge Sicherheitsparameter vergeben sowie verschiedene Zugriffsrechte
für die Anwender erteilt. Damit wird gewährleistet, dass Veränderungen innerhalb
der Datenstruktur hauptsächlich den Administratoren vorbehalten bleiben und End-
anwender für Analysen einen Read-Only-Zugriff bekommen. Weiter können sich
aufgrund der Differenzierungsmöglichkeiten der einzelnen User, die sich per Name
und ID identifizieren müssen, genaue Zugriffszeiten, die Art der abgefragten Infor-
mationen, der Ort, an den die Daten geschickt wurden etc. nachprüfen lassen. Dies ist
vor allem beim Metadateneinsatz im Internet interessant ist [BEAR00b].

Metadaten
Seite 10
2.4.3 Metadaten zu strukturellen Aspekten
Diese Art von syntaktischen Metadaten wird generiert, um mittels der Definition und
Dokumentation von eindeutigen Datenstrukturen einen homogen aufgebauten Daten-
satz zu erlangen.
So ist es möglich, Identifikationsdaten und Authentizitätsschlüssel anzulegen, um
über einen Algorithmus sicherzustellen, dass der Inhalt nicht modifiziert wird und
die Authentizität garantiert bleibt. Über angelegte ID-Daten können im System Da-
teien gleichen Charakters aufgefunden werden. Weiterhin ist es möglich, das Format
der Dateien (Text, numerisch, graphisch, geographisch, Sound, Video etc.) sowie
deren Struktur (Matrix, Vektoren, Raster, CAD/CAM, Objekt Code etc.) zu identifi-
zieren [BEAR00b].
2.4.4 Metadaten zum Kontext und Inhalt
Diese Metadaten beziehen sich direkt auf die Kernsubstanz des Dokuments und sind
demnach inhaltsabhängig, im Gegensatz zu den drei vorher beschriebenen inhaltsun-
abhängigen Typen, die lediglich die Rahmenbedingungen klären und aus denen wert-
volle Informationen ersichtlich werden [GEOM00].
Metadaten zum Kontext und Inhalt, bzw. die semantischen Metadaten, sollen alle zu
den Daten gehörige Informationen dokumentieren, wobei sie inhaltsbeschreibend
sind, d. h. sie beziehen sich auf den Wesensgehalt der Primärdaten, resultieren aber
nicht direkt aus diesen. Das impliziert die exakte Wiedergabe aller Informationen
über die vorhandenen Datenzusammenhänge vom Zeitpunkt der ersten Datenschaf-
fung bis zum Ergebnis der Abfrage aus der Datenbank und setzt eine enge Integra-
tion zwischen Metadatenmanagement-Tools, Metadaten-Repositories und den Front
Room Tools voraus. Um die Metadaten auch nach internen Umstrukturierungen,
Grundsatzänderungen der Geschäftsregeln oder ähnlichem noch interpretierbar zu er-
halten, müssen diese Veränderungen als Ursprungsversion im Repository gepflegt
werden [BEAR00a].
Neben der so möglichen Identifizierung der verantwortlichen Personen, Systeme
oder Instrumente für den Inhalt und die Transaktionen der Daten, kann durch Able-
gung zusätzlicher Schlüsselwörter, die in einem Dokument vorkommen, die Informa-
tionssuche wesentlich beschleunigt werden [BEAR00b]. Das folgende Beispiel soll
die Relevanz verdeutlichen:
Wenn ein Aufsatz A geschrieben wird und später eine Rede R über diesen Auf-
satz A auf einer Veranstaltung V gehalten wird, wird durch die inhaltsbeschrei-

Data Warehouse
Seite 11
benden Metadaten eine Beziehung zwischen V und A hergestellt. Ohne diese Be-
ziehung wäre über eine reine Schlüsselwortsuche keine Verbindung zwischen
Aufsatz A zur späteren Veranstaltung V erkannt worden [GROS97].
2.4.5 Metadaten zur Nutzungs- und Wirkungsgeschichte
Die ,,use history" des Dokuments, also der Typus und die Häufigkeit der Abfrage so-
wie die Identifizierung der abfragenden Personen oder Systeme, wird von den Meta-
daten zur Nutzungs- und Wirkungsgeschichte, realisiert. Dabei wird außerdem fest-
gehalten, in welcher Form die Datei seit ihrer Erstellung verändert wurde, ob sie
kopiert, anderweitig abgelegt oder unter welcher Autorität eine Vernichtung durch-
geführt wurde.
Diese Art der Metadaten wird zum Schluss angelegt, da sie ständig erweitert wird,
was ohne Zugriff auf die eigentliche Primärdaten geschieht [BEAR00b].
Metadaten:
Inhaltsunabhängig:
Administration:
Dateipfad:
C:\Dateien\Gehaltsabrechnung.doc
Autor: Max Mustermann
Dokumentenname: Gehaltsabrechnung 1998
Datum:
31.12.1998
Struktur:
Dokumententyp: MS Word für Windows
Version: Word 95
Inhaltsabhängig:
Kontext:
Schlüsselwörter: Abrechnung, Geld, Meier
Inhalt:
Gehaltsabrechnung von Jan/1st/1998 bis
Dez/31st/1998
Abbildung 2: Beispiel für Metadaten [GEOM00].
3 Data
Warehouse
Durch den Einsatz verschiedenster aufgabenspezifischer Datenbank- und Tabellen-
kalkulationsprogrammen auf diversen Betriebsplattformen, jeweils abhängig von den
Anforderungen der einzelnen Workgroups oder Abteilungen, bleiben Daten häufig
für Entscheidungen ungenutzt bzw. die für Cross-Selling-Potentiale notwendige Qua-
litätsanreicherung kann nicht durchgeführt werden, da nicht bekannt ist, welche
Daten aus welchem System relevant sind [DATA00a].

Data Warehouse
Seite 12
Ein weiteres Problem im Umfeld der ungenügenden Informationsbasis ist die fehlen-
de Aufbereitung der vorhandenen Daten und die damit häufig vorliegende Inkonsis-
tenz. Als Lösung dient das Konzept zur Entscheidungsunterstützung aller Mitarbei-
ter, das Data Warehouse-Konzept.
3.1 Definition
Ein Data Warehouse bezeichnet eine themenorientierte, zeitbezogene, integrierte und
dauerhafte Sammlung von Informationen zur Entscheidungsunterstützung des Ma-
nagements [INMO96, S. 33].
Themenorientierung drückt die Speicherung der ausschließlich inhaltlichen Themen-
schwerpunkte über die wesentlichen Aspekte der Kunden, Produkte, Lieferanten etc.
entsprechend des Informationsbedarfs des Benutzers über die Zeit aus. Dies steht im
Gegensatz zu den üblichen applikations- und prozessorientierten Konzepten der ope-
rativen Systeme, die lediglich auf eine effiziente Abwicklung des Tagesgeschäftes
fokussiert sind, mit der damit verbundenen Ausrichtung auf Objekte wie ,,spezi-
fischer Kundenauftrag" oder ,,einzelne Produktionseinheit" [WIEK99, S. 16f].
Die Zeit sowie die Dauerhaftigkeit i. S. v. Beständigkeit spielt innerhalb einer Data
Warehouse-Anwendung eine größere Rolle als im Quellsystem. Im Gegensatz zu
operativen Systemen, in denen die Daten maximal 60-90 Tage aufbewahrt und stän-
dig verändert werden, um damit mit präziser Aktualität im Zugriffsmoment aufwar-
ten zu können, werden die Datenbestände hier unverändert fünf bis zehn Jahre aufbe-
wahrt und besitzen einen konstanten, zeitbezogenen Inhalt, um Analysen von Zeitrei-
hen über längere und mittlere Zeiträume zur Entscheidungsunterstützung zu erhalten
[INMO96, S. 34-38].
Die Integration der Daten geschieht durch die Vereinheitlichung vor der Übernahme
aus den operativen Systemen mit einmal definierten Namensgebungen, Codierungen
etc., um trotz hoher Heterogenität der Datenquellen Konsistenz zu erreichen
[KURZ99, S. 49f].
Dadurch bleiben sie trotz der Vielzahl vorhandener unterschiedlicher Strukturen über
eine lange Zeitspanne beständig und besitzen keine Volatilität. Die oben genannte
Definition von W. H. INMON, dem Schöpfer des Data Warehouses Konzepts, erfor-
dert von den Daten folgende vier Eigenschaften. Sie sollen
nicht anwendungsbezogen wie die operativen Daten sein,
sämtliche Anwendungen und unternehmensweite Datenbestände einbeziehen,

Data Warehouse
Seite 13
die Zeit als prüfbare Bezugsgröße enthalten und
keine Volatilität aufweisen [SCHI97, S.14].
Das Potential des Data Warehouses zeigt sich dann in der Nutzung einer aus unter-
schiedlichen Quellen selektierten, konsistenten, verdichteten Datenbasis, die durch
eine rasante Abfragegeschwindigkeit bei hoher Informationsqualität effiziente Ana-
lysen und Reports liefert.
3.2 Aufbau
Der strukturelle Aufbau eines Data Warehouses wird zum größten Teil von der Orga-
nisation und dem Aufbau des Unternehmens, deren DV-Infrastruktur und den zu-
künftigen Planungen im DV-Bereich bestimmt. Bei der Architektur des Data Ware-
houses differenziert man im Allgemeinen zwischen den virtuellen, in denen über eine
vorhandene Metadatenebene direkt, aber begrenzt detailliert auf die operativen
Datenbestände zugegriffen wird, den zentralen, in denen alle Datenbestände in einer
großen zentralen Data Warehouse-Datenbank abgelegt sind und den verteilten Data
Warehouses, die vor allem für ausgegliederte Unternehmensbereiche mit dezentralis-
tisch betriebenen DV-Systemen benötigt werden [HOLT98, S. 104-108].
Der Aufbau eines Data Warehouses wird immer seltener über die Architektur einer
zentralistischen, unternehmensweiten, integrierten Datenbank, die alle Daten aus
sämtlichen Datenquellen umfasst, verwirklicht. Mit diesem komplexen Top-Down-
Ansatz ist eine hohe Realisierungsdauer mit einhergehenden hohen Kosten verbun-
den.
Aber auch der anschließende Ansatz des Bottom-Up, der Konzeption einzelner,
unabhängiger Data Marts, wird nicht mehr umgesetzt, da dadurch Insellösungen
geschaffen werden, die sowohl eine Integration auf Unternehmensgesamtsicht nicht
mehr zulassen als auch Effizienznachteile verursachen, die durch die Versorgung der
einzelnen Data Marts mit individuellen ETL-Prozess-Regeln auftreten [WEIM00].
Data Marts sind als Datenbanken für spezielle Anwendergruppen definiert, deren
Datenstrukturen sich bedarfsgerecht an den Nutzungswünschen der User orientieren
und eine leicht verständliche, effiziente Sichtweise auf die Fachgebiete liefern
[WIEK99, S. 24].

Data Warehouse
Seite 14
Abbildung 3: Data Warehouse [in Anlehnung an WATS98 S. 33].
Der derzeit am beständigsten verwirklichte Lösungsansatz besteht in der sogenannten
,,Hub and Spoke"-Architektur. Dabei wird aus anwenderorientierter Sichtweise auf
Data Marts zugegriffen, wobei zusätzlich die Data Warehouse-Datenbank als
gemeinsamer Informationspool implementiert wird. Dieser Pool, als konsolidierte
Unternehmenssicht, enthält den gesamten Datenbestand und versorgt die einzelnen
Data Marts mit den Informationen, ohne selbst als Basis für Analysen und Reports zu
dienen [WIEK99, S. 26f].
In der Realität wird dieser Ansatz häufig zu virtuellen Data Warehouses ausgebaut,
welche aus mehreren physischen Informationspools bestehen und zu einer logischen

Data Warehouse
Seite 15
Datenbank verknüpft werden. Diese bestehen wiederum aus mehreren integrierten
Data Marts, die durch Festlegung von vereinheitlichten Dimensionen und Kenn-
zahlen homogene Datenstrukturen aufweisen und damit untereinander die erforder-
lichen Verknüpfung erhalten. Dieses führt als Endergebnis zu einem verteilten,
unternehmensweiten Data Warehouse, dem Data Warehouse Bus [WEIM00].
Diese Anwendung hat gegenüber der reinen ,,Hub and Spoke"-Architektur den
Vorteil, dass die Daten keine mehrfache Transformation von den operativen Quellen
über die Data Warehouse-Datenbank bis zur Speicherung in den Data Marts benö-
tigen und der zentrale Informationspool als Datenverteiler vom Endanwender nicht
direkt angefragt wird, womit die Datenbestände vor Veränderungen sicher sind
[WIEK99, S. 28].
3.3 Datenintegration
Das Ziel der Datenintegration, als Schnittstelle zwischen den operativen und den
analyseorientierten, dispositiven Systemen, ist die effiziente Versorgung des Data
Warehouses mit Daten aus den Vorsystemen und externen Quellen. Die Integration
der Datenbestände aus dem operativen Umfeld ist mit 60-80 % der gesamten Data
Warehouse-Entwicklungszeit die größte Belastung und soll sicherstellen, dass die
analyserelevanten Daten konsistent, homogen und aktuell vorliegen [HOLT98, S. 89-
92].
Ein Data Warehouse extrahiert hierbei sowohl vorhandene interne Datenbestände aus
den operativen Systemen der unterschiedlichen Geschäftsbereiche, was alle Transak-
tionsdaten des laufenden Geschäfts umfasst, als auch Informationen aus externen
Quellen, z. B. Datenbestände aus dem Internet. Dabei werden die intern und extern
unstrukturiert vorliegenden Daten für die hohen Qualitätsanforderungen innerhalb
der Data Warehouse-Datenbank von inhaltlichen und syntaktischen Defekten im so
genannten Data Cleansing-Prozess über die Vorgabe von Prüfregeln bereinigt. Durch
den Vergleich mit externen Informationen erlangen die auf unternehmensinternen
Daten basierenden Auswertungen für die Entscheidungsfindung eine höhere signi-
fikante Bedeutung [WIEK99, S. 198].
Die vorliegenden Daten werden im Transformations-Prozess konsolidiert, verdichtet
sowie mit betriebswirtschaftlichen Kennzahlen angereichert und anschließend in die
Data Warehouse-Datenbank geladen. Die durch diesen Extraktions-, Transforma-
tions- und Lade-Prozess (ETL-Prozess) gewonnenen, zu den Quelldaten redundan-
ten, konsistenten Daten werden dann als Basis für strategische, unternehmerische

Data Warehouse
Seite 16
Entscheidungen genutzt [WIEK99, S. 189ff].
Die Aufgabe der Daten-Modellierung besteht in der Charakterisierung von Struktur
und Inhalt des Data Warehouses, um danach den Umwandlungsprozess der operati-
ven Daten zur effizienten Integration in die Data Warehouse-Datenbank festzulegen.
Als Resultat ergeben sich aus diesem Modellierungsvorgang die logischen und phy-
sischen Modelle des Data Warehouses sowie ein Modell zur Transformation der
operativen Daten in Data Warehouse-Daten. Die Steuerung der Transformation
erfolgt über eine Metadatenverwaltung mit einem Metamodell (siehe Kapitel 4.1),
wodurch die Datenumwandlung systematisch, strukturiert und nachvollziehbar
durchgeführt wird und Schemaveränderungen im Data Warehouse-Umfeld sowie im
operativen Modell praktikabel sind.
Sind die Daten einmal integriert, werden sie innerhalb des Data Warehouses nicht
mehr aktualisiert. Sie erhalten für die Archivierung beschreibende Metadaten, um es
dem Anwender möglich zu machen, die vorliegenden Fakten auf die sich in der Zeit
ändernden externen Einflüsse, wie Steuern, wirtschaftliches Umfeld etc., oder auf
modifizierte Dimensionsstrukturen hin zu analysieren [ANAH97, S. 39].
Liegen im Gegensatz zu einzeln zusammengefassten Tabellen komplexe Datenin-
halte oder -eigenschaften mit den damit verbundenen detaillierten Bestandteilen zur
Beschreibung und Messung vor, sind aufwendige Definitionen erforderlich. Diese
Definitionen werden durch die Back Room Metadaten (siehe Kapitel 4.5.1) model-
liert und im zentralen Repository verwaltet [RAHM97].
Die Kernkomponente des ETL-Konzepts liegt dabei in der Verbesserung der Infor-
mationsqualität, der in unterschiedlicher Struktur vorliegenden Daten und in der Auf-
deckung sowie Beseitigung vorhandener Mängel und Desorganisation hinsichtlich
der Quellinformation, um gezielte Analysen durchführen zu können [VOLC00].
3.4 Abfrage
Im Gegensatz zu den operativen Anwendungssystemen, bei denen der Endbenutzer
seine Such- und Auswertungsabfragen mit Hilfe einer Applikationslogistik durch-
führt, sind diese Zugriffs- und Analysefunktionen im Data Warehouse entweder in
den Abfragewerkzeugen integriert oder der Anwender bekommt das relevante Infor-
mationsmaterial über die abgefragten Daten durch die im Metadaten-Repository ent-
haltenen Metadaten [MUCK98b, S. 59].
Gerade durch den detaillierten Grad an Informationen aus den unterschiedlichsten
Unternehmensbereichen benötigen die Anwender die Unterstützung der Metadaten,

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2000
ISBN (eBook)
9783832445850
ISBN (Paperback)
9783838645858
DOI
10.3239/9783832445850
Dateigröße
2.2 MB
Sprache
Deutsch
Institution / Hochschule
Bayerische Julius-Maximilians-Universität Würzburg – unbekannt
Erscheinungsdatum
2001 (Oktober)
Note
1,3
Schlagworte
schnittstellenproblematik common warehouse metamodel metadaten data standardisierungsbestrebungen
Zurück

Titel: Metadatenmanagement
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
98 Seiten
Cookie-Einstellungen