Identifizierung und Rekonstruktion eines allgemeinen Schemas für Web-Content-Management-Systeme

Goßler, Thomas

Identifizierung und Rekonstruktion eines allgemeinen Schemas für Web-Content-Management-Systeme

Zusammenfassung

Inhaltsangabe:Zusammenfassung:
Heute existiert eine Klasse von Softwaresystemen zur Unterstützung einer effizienten Verwaltung und Strukturierung großer Informationsmengen für das Internet (Web-Content-Managementsysteme). Diese Systeme unterscheiden sich teilweise grundlegend in ihrer Funktionalität. Ausgehend von einer klaren Abgrenzung der Aufgaben eines solchen Systems können einige wesentliche Aspekte in den Mittelpunkt gerückt werden.
Die Art der Datenhaltung ist von grundlegendem Interesse. Im Vergleich der verschiedenen verfügbaren Datenbanktechnologien zeigt sich, dass eine XML-fähige objektrelationale Datenbank die Belange des Web-Content-Managements optimal unterstützt. Aus pragmatischer Sicht hat aber die Verwendung einer rein relationalen Datenbank trotzdem Vorteile. Das Digital Asset Management ist für eine zentrale Speicherung der einzelnen Bestandteile des Web-Contents zuständig. Eine Unterstützung für die Verwaltung von Versionen und Varianten ist dabei wichtig. Die nutzerindividuelle Aufbereitung von Inhalten (Personalisierung) ist ein aufwendiges Thema und sollte deshalb in Form einer Komponente austauschbar sein. Trotz der damit verbundenen Unabhängigkeit des Web-Content-Managementsystems von speziellen Belangen der Personalisierung muss eine grundsätzliche technische Unterstützung für eine solche Komponente vorhanden sein. Dadurch ergeben sich einige Anforderungen an das zugrunde liegende Datenbankschema.
Alle genannten Themenbereiche sind stark von der Handhabung der einzelnen Inhaltsbestandteile der Assets abhängig. In diesem Zusammenhang kommt dem Ansatz der strikten Trennung von Struktur, Inhalt, Darstellung und Programmlogik besondere Bedeutung zu. Er ermöglicht nicht nur eine arbeitsteilige Erstellung und Pflege der Assets, sondern erweitert auch die Flexibilität bei der Personalisierung. Auf Basis der XML kann eine orthogonale Verarbeitung der vier Bestandteile realisiert werden, welche auch das Cross-Media Publishing optimal unterstützt. Durch die orthogonale Einbringung von Programmlogik kann der Web-Content auch nachträglich in bestehende Web-Applikationen integriert werden. Existierende Web-Content-Managementsysteme unterstützen dieses Konzept nur unzureichend.
In dieser Arbeit werden die technischen Grundkonzepte der genannten Themenbereiche genauer betrachtet. Insbesondere ein allgemeines Datenbankschema wird eingeführt, welches die Anforderungen an ein Web-Content-Managementsystem umfassend berücksichtigt. […]

Leseprobe

Inhaltsverzeichnis

ID 6437

Goßler, Thomas: Identifizierung und Rekonstruktion eines allgemeinen Schemas für Web-

Content-Management-Systeme

Hamburg: Diplomica GmbH, 2003

Zugl.: Erlangen, Universität, Diplomarbeit, 2002

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,

insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von

Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der

Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,

bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik

Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich

vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des

Urheberrechtes.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in

diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,

dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei

zu betrachten wären und daher von jedermann benutzt werden dürften.

Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können

Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die

Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine

Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.

Diplomica GmbH

http://www.diplom.de, Hamburg 2003

Printed in Germany

URZFASSUNG

Kurzfassung

Heute existiert eine Klasse von Softwaresystemen zur Unterstützung einer effizienten

Verwaltung und Strukturierung großer Informationsmengen für das Internet (Web-Content-

Managementsysteme). Diese Systeme unterscheiden sich teilweise grundlegend in ihrer

Funktionalität. Ausgehend von einer klaren Abgrenzung der Aufgaben eines solchen Systems

können einige wesentliche Aspekte in den Mittelpunkt gerückt werden.

Die Art der Datenhaltung ist von grundlegendem Interesse. Im Vergleich der

verschiedenen verfügbaren Datenbanktechnologien zeigt sich, dass eine XML-fähige

objektrelationale Datenbank die Belange des Web-Content-Managements optimal unterstützt.

Aus pragmatischer Sicht hat aber die Verwendung einer rein relationalen Datenbank

trotzdem Vorteile. Das Digital Asset Management ist für eine zentrale Speicherung der

einzelnen Bestandteile des Web-Contents zuständig. Eine Unterstützung für die Verwaltung

von Versionen und Varianten ist dabei wichtig. Die nutzerindividuelle Aufbereitung von

Inhalten (Personalisierung) ist ein aufwendiges Thema und sollte deshalb in Form einer

Komponente austauschbar sein. Trotz der damit verbundenen Unabhängigkeit des Web-

Content-Managementsystems von speziellen Belangen der Personalisierung muss eine

grundsätzliche technische Unterstützung für eine solche Komponente vorhanden sein.

Dadurch ergeben sich einige Anforderungen an das zugrunde liegende Datenbankschema.

Alle genannten Themenbereiche sind stark von der Handhabung der einzelnen

Inhaltsbestandteile der Assets abhängig. In diesem Zusammenhang kommt dem Ansatz

der strikten Trennung von Struktur, Inhalt, Darstellung und Programmlogik besondere

Bedeutung zu. Er ermöglicht nicht nur eine arbeitsteilige Erstellung und Pflege der Assets,

sondern erweitert auch die Flexibilität bei der Personalisierung. Auf Basis der XML kann

eine orthogonale Verarbeitung der vier Bestandteile realisiert werden, welche auch das

Cross-Media Publishing optimal unterstützt. Durch die orthogonale Einbringung von

Programmlogik kann der Web-Content auch nachträglich in bestehende Web-Applikationen

integriert werden. Existierende Web-Content-Managementsysteme unterstützen dieses

Konzept nur unzureichend.

In dieser Arbeit werden die technischen Grundkonzepte der genannten Themen-

bereiche genauer betrachtet. Insbesondere ein allgemeines Datenbankschema wird

eingeführt, welches die Anforderungen an ein Web-Content-Managementsystem umfassend

berücksichtigt. Die Seitenverwaltung hat dabei besondere Bedeutung, da sie die Trennung

der oben beschriebenen vier Aspekte des Web-Contents abbildet. Der Zugriff auf den

Datenbestand und die Steuerung des Publizierungsprozesses ermöglicht ein Application

Programming Interface (API), dessen Objektmodell durch UML-Klassendiagramme

visualisiert wird. Eine Implementierung des API in Java und eine Beispiel-Webseite belegen

die Einsatzfähigkeit der vorgestellten Konzepte.

NHALTSVERZEICHNIS

Inhaltsverzeichnis

1 Einleitung ...1

1.1

Motivation und Zielsetzung...1

1.2

Aufbau der Arbeit...2

2 Anforderungsanalyse...5

2.1 Datenhaltung...5

2.1.1 Relationale

Datenbanksysteme...5

2.1.2 Objektorientierte

Datenbanksysteme...6

2.1.3 XML-Datenbanksysteme...7

2.1.4

Bewertung im Kontext des Web-Content-Managements...8

2.2 Funktionale

Aspekte...9

2.2.1 Asset-Management ...10

2.2.2

Trennung von Struktur, Inhalt, Darstellung und Programmlogik ...12

2.2.3

Publizierung: Staging- vs. Live-Server-Konzept ...14

2.2.4

Personalisierung des Web-Contents ...15

2.2.5

Unterstützung von Semantic Web-Konzepten ...16

2.2.6 Weitere

Aspekte ...17

Datenmodell und verarbeitung ...19

3.1

Speicherung der Assets...21

3.2 Seitenverwaltung ...23

3.3

Struktur, Inhalt und Darstellung...25

3.3.1

Zusammenführung von Struktur und Inhalt ...25

3.3.2

Transformation ins Ausgabeformat...27

3.4

Programmlogik als separater Bestandteil ...29

3.5

Vorbereitung für die Personalisierung des Web-Contents ...31

3.6

Kontextverwaltung zur Strukturierung des Web-Contents ...35

3.7 Link-Management ...36

3.8

Integration von Semantic Web-Konzepten ...37

4 Application

Programming

Interfaces ...43

4.1 Administrations-API...43

4.1.1 Anforderungen...44

4.1.2

Modell und Verwendung...45

4.1.3 Dateneditor

als

Beispielanwendung ...47

4.2 Publizierungs-API ...48

4.2.1 Anforderungen...50

4.2.2 Modell...51

4.2.3 Verwendung ...54

NHALTSVERZEICHNIS

vii

5 Evaluierung

der

Einsatzfähigkeit... 57

5.1

Anforderungen an eine Beispielanwendung ... 57

5.2

Verwendung von C

OCOON

als Publizierungskomponente... 58

5.3 Eine

Beispiel-Webseite... 60

5.4 Bewertung... 65

Zusammenfassung und Ausblick ... 67

Literatur und Web-Referenzen ... 69

Anhang... 73

A. Ausgewählte

Quelltexte... 73

B. Einrichtung der Softwareumgebung ... 74

BBILDUNGSVERZEICHNIS

viii

Abbildungsverzeichnis

Abbildung 1: Architektur eines Web-Content-Managementsystems ([JM02]) ...1

Abbildung 2: Markierung einer konsistenten Assetmenge in Anlehnung an [Voig01] ...11

Abbildung 3: Versionen vs. Varianten ...12

Abbildung 4: Trennung von Struktur, Inhalt, Darstellung und Programmlogik ...13

Abbildung 5: Publizierungsprozess mit (Pre-)Staging...15

Abbildung 6: RDF-Tripel (Subjekt, Prädikat, Objekt)...16

Abbildung 7: Beispiel für ein RDF-Tripel ...17

Abbildung 8: Content-Life-Cycle in Anlehnung an [JM02] ...18

Abbildung 9: Vereinfachte Darstellung des ER-Diagramms aus Abbildung 10...19

Abbildung 10: ER-Diagramm des vollständigen WCMS-Datenschemas...20

Abbildung 11: Auf die Seitenverwaltung reduziertes ER-Diagramm des Datenschemas ...24

Abbildung 13: XSL-Stylesheet für das Mapping der Transformation aus Abbildung 14...26

Abbildung 14: Zusammenführen von Struktur und Inhalt ...27

Abbildung 15: XSL-Template mit Darstellungsregeln in (X)HTML ...28

Abbildung 16: Prozesskette für die Erzeugung eines Dokuments ...28

Abbildung 17: Orthogonale Einbettung von Logik in ein XML-Dokument mittels XSP ...30

Abbildung 18: Prozesskette der Verarbeitungsschritte ...31

Abbildung 19: Zuordnungen: Gruppe Person Rolle Rechte...32

Abbildung 20: Mögliches Metaschema zu dem Schema aus Abbildung 10 ...34

Abbildung 21: Teilschema zur Speicherung dynamischer Attribute ...34

Abbildung 22: Vereinfachung der Aktualisierung von Verweisen durch Indirektion ...36

Abbildung 23: Einfache Semantic Web-Beschreibung von ganzen Webseiten ...38

Abbildung 24: Einfache Semantic Web-Beschreibung des Inhalts von Webseiten ...38

Abbildung 25: Generierung einer Semantic Web-Aussage aus einem Fremdschlüssel ...39

Abbildung 26: Generierung einer Semantic Web-Aussage über dynamische Attribute...40

Abbildung 27: Einbettung von Inhalten in eine Struktur (alternative Darstellung) ...40

Abbildung 28: Anwendungsfalldiagramm für das Administrations-API...44

Abbildung 29: Klassendiagramm des Administrations-API ...45

Abbildung 30: Quelltext zur Verwendung des Administrations-API ...46

Abbildung 31: Rückgabewert der Methode getAllDatasetsAsXML für die Entität Person ...47

Abbildung 32: Ein Dateneditor als Beispielanwendung für das Administrations-API...48

Abbildung 33: Verarbeitungsreihenfolge von Publizierungs- und Administrations-API ...49

BBILDUNGSVERZEICHNIS

ABELLENVERZEICHNIS

Abbildung 34: Anwendungsfalldiagramm für das Publizierungs-API ...51

Abbildung 35: Klassendiagramm des Publizierungs-API...52

Abbildung 36: Klassendiagramm der Schnittstellendefinitionen für das Publizierungs-API.53

Abbildung 37: Quelltext zur Verwendung des Publizierungs-API ...55

Abbildung 38: Definition einer Prozesskette in der Datei ,,sitemap.xmap" von C

OCOON

2..59

Abbildung 39: Standard-Stylesheet zur Beibehaltung ,,restlicher" XML-Elemente...59

Abbildung 40: MainServlet.java ...74

Tabellenverzeichnis

Tabelle 1: Anforderungen an das Administrations-API...44

Tabelle 2: Anforderungen an das Publizierungs-API...50

Tabelle 3: Entstehung der Beispiel-Webseite in zwei Versionen ...65

APITEL

INLEITUNG

1 Einleitung

Nach neuesten Statistiken hat heute in Deutschland fast jeder zweite mündige Bürger Zugang

zum Internet ([Hei02]). Die rasante Verbreitung dieses Mediums in den letzten Jahren hat zu

einem Zwang praktisch aller Unternehmen geführt, eine Präsenz im World Wide Web

einzurichten. Als wichtige Informationsquelle für Kunden ist das Web ein strategischer

Faktor im Wettbewerb gegen die Konkurrenz geworden. Der Nutzer möchte stets von

aktuellem Inhalt mit höchstem Informationsgehalt und Unterhaltungswert profitieren. Das

führt zu enormen Datenbeständen mit hohem Erstellungs- und Wartungsaufwand bei den

Anbietern. Dadurch sind diese gezwungen, effiziente und leistungsfähige Verwaltungs-

methoden einzusetzen, um dem so genannten Web-Content Herr zu werden. Die Integration

der reinen Verwaltung der inhaltlichen Daten mit speziellen Funktionalitäten zur

Verarbeitung derselben (z.B. Shop-Systeme mit Warenkorb) stellt die Unternehmen dabei

vor besondere Herausforderungen.

1.1 Motivation und Zielsetzung

Genau an dieser Stelle setzen so genannte Web-Content-Managementsysteme (WCMS) an.

Sie versuchen, die Datenhaltung und -verarbeitung aus Sicht des Unternehmens zu

vereinfachen und zu vereinheitlichen, wobei sich unter dem Ziel höchster Flexibilität und

Leistungsfähigkeit einige wesentliche Kernkonzepte solcher Systeme herauskristallisiert

haben. Und genau jene stehen im Mittelpunkt der folgenden Betrachtungen. Abbildung 1

zeigt die prinzipielle Architektur eines WCMS.

Abbildung 1: Architektur eines Web-Content-Managementsystems ([JM02])

INLEITUNG

APITEL

In dieser Arbeit werden in Bezug auf Abbildung 1 das ,,Asset

-Management" und die

,,Datenhaltung" erschöpfend behandelt. Dabei werden Themen wie die effiziente Verwaltung

des Datenbestands durch Arbeitsteilung, umfassende Versionsverwaltung und grundlegende

Techniken für eine möglichst flexible nutzerindividuelle Aufbereitung der zu publizierenden

Inhalte (Personalisierung) berücksichtigt. In diesem Zusammenhang ist das Konzept der

konsequenten Trennung von Struktur, Inhalt, Darstellung und ausführbaren Bestandteilen

(Programmlogik) des Web-Contents von zentraler Bedeutung, welches in existierenden

Systemen nur unzureichend berücksichtigt ist. Andere wichtige Themen wie zum Beispiel

die ,,Workflow-Managementkomponente", die ,,Benutzer- und Zugriffsverwaltung", und die

,,Personalisierung" können im Rahmen dieser Arbeit nur am Rande berücksichtigt werden.

Ein ausführlicher Überblick der in Abbildung 1 dargestellten Komponenten findet sich in

[JM02].

Ziel dieser Arbeit ist die Analyse wichtiger Kernkonzepte von Web-Content-

Managementsystemen aus technischer Sicht. Es werden Lösungsansätze erarbeitet, die auf

maximale Flexibilität und Erweiterbarkeit abzielen. Ein Schwerpunkt liegt auf der

Entwicklung eines Schemas für das so genannte Content Repository, in dem die Daten

gehalten werden. Letztendlich sollen die dargestellten Ergebnisse Entwurfsentscheidungen

bei der Entwicklung innovativer Web-Content-Managementsysteme erleichtern.

1.2 Aufbau der Arbeit

In Abschnitt 2 werden zunächst grundsätzliche technische Anforderungen an ein Web-

Content-Managementsystem herausgearbeitet. Neben der Datenhaltung werden dabei

insbesondere wichtige funktionale Aspekte betrachtet. Das Asset-Management und der

Publizierungsprozess stehen dabei im Mittelpunkt. Darauf aufbauend führt Abschnitt 3 ein

Datenschema ein, welches als allgemeine Grundlage für Web-Content-Managementsysteme

gelten soll. Es versucht alle erforderlichen Konzepte zu vereinigen und dabei höchste

Flexibilität sicherzustellen. Insbesondere die technische Umsetzung einer strikten Trennung

von Struktur, Inhalt, Darstellung und Programmlogik wird an dieser Stelle genauer

beleuchtet. Diese ist nicht nur für die arbeitsteilige Erstellung und Pflege des Web-Contents

erforderlich, sondern auch für die Personalisierung der Inhalte entscheidend. Auf Basis der

XML wird eine Möglichkeit zur orthogonalen Verarbeitung der vier Aspekte gezeigt, welche

auch das Cross-Media Publishing optimal unterstützt. Speziell die orthogonale Einbettung

von Programmlogik ist an dieser Stelle interessant. Sie ermöglicht eine kontextspezifische

und aspektorientierte [AOP02] nachträgliche Einbringung von Funktionalitäten und somit

auch eine spontane Integration des Web-Contents in existierende Web-Applikationen.

Ergänzend werden verschiedene Ansätze für eine Unterstützung von Semantic Web-

Konzepten (Abschnitt 2.2.5) vorgestellt. Abschnitt 4 vertieft die vorangehenden

Ausführungen durch Erläuterung zweier Application Programming Interfaces (APIs), welche

Wegen der weiten Verbreitung werden Anglizismen wie Asset (engl. ,,Vermögen") im Text verwendet.

APITEL

INLEITUNG

speziell für die Bearbeitung und die Publizierung des Web-Contents entwickelt wurden.

Anhand von UML-Diagrammen werden die verwendeten Entwurfsmuster und

Klassenstrukturen visualisiert. Abschließend wird Abschnitt 5 eine Beispielimplementierung

als Beleg für die Einsatzfähigkeit der vorgestellten Konzepte präsentieren. Die einzelnen

Verarbeitungsschritte des Publizierungsprozesses werden detailliert betrachtet und für den

Leser dadurch transparent und nachvollziehbar gemacht. Abschnitt 6 fasst die Ergebnisse

dieser Arbeit zusammen.

APITEL

NFORDERUNGSANALYSE

2 Anforderungsanalyse

Zunächst muss erörtert werden, welche technischen Anforderungen an ein Web-Content-

Managementsystem nach [JM02] zu stellen sind. Dies erfolgt im Hinblick auf die

Zielsetzung, dass sich Investitionen für eine Implementierung eines WCMS über hohe

Effizienz und gute Skalierbarkeit langfristig rentieren (vgl. [ZTZ01]). Die folgenden

Abschnitte arbeiten empfehlenswerte Technologien und Ansätze für eine Realisierung der zu

betrachtenden Komponenten eines WCMS heraus. In Abschnitt 3 werden dann für einige

dieser Ansätze konkrete Realisierungsvorschläge präsentiert.

2.1 Datenhaltung

Eine zentrale Komponente in WCMS ist das verwendete System zur Speicherung der Daten

Prinzipiell sind natürlich beliebige Speicherungsstrukturen denkbar (z.B. auch einfache

Textdateien). Meist werden jedoch aus Gründen der Leistungsfähigkeit bezüglich der

Verwaltung großer Informationsmengen Datenbanksysteme (DBS) eingesetzt. Dabei stehen

verschiedene Arten von DBS zur Verfügung. Diese sollen jetzt genauer betrachtet und die

Vorteile und Nachteile in Bezug auf die Belange des Web-Content-Managements

gegenübergestellt werden.

2.1.1 Relationale Datenbanksysteme

Die relationale Ablage von Daten ist unter den hier betrachteten das am längsten bekannte

Konzept zur Informationsspeicherung. Durch seine Einfachheit und die Existenz einer

soliden mathematischen Grundlage ist es weit verbreitet und hat sich vielfach bewährt (vgl.

z.B. [CDG02]).

Die Daten werden in Relationen (Tabellen) abgelegt, welche in den Zeilen die

einzelnen Datensätze (Tupel) und in den Spalten deren Attribute enthalten. Der Zugriff auf

einzelne Datensätze kann durch Indizes sehr schnell erfolgen. Mittels wertbasierter

Referenzen auf andere Relationen können Zusammenhänge zwischen verschiedenartigen

Datensätzen abgebildet werden ([KeEi99]).

Die Einfachheit des Modells begründet auch die hohe Performanz, mit der Daten

verarbeitet werden können. Gerade im Bereich Web-Content-Management ist es

entscheidend, dass angefragte Informationen schnellstmöglich bereitgestellt werden können.

Die technisch bedingten Antwortzeiten beim Zugriff auf Webinhalte über das Internet sind

ohnehin vorhanden. Weitere unnötige Verzögerungen durch langsame Datenzugriffe können

somit vermieden werden. Zusammen mit der Verfügbarkeit systematischer Schemaentwurfs-

methodiken und einer standardisierten Anfragesprache (Structured Query Language, SQL)

haben diese Eigenschaften zu hoher Akzeptanz und einer stabilen Position relationaler DBS

bei Unternehmen geführt.

Externe Datenbanken, auf die aus dem WCMS zugegriffen wird, bleiben an dieser Stelle unberücksichtigt.

NFORDERUNGSANALYSE

APITEL

Moderne Anwendungen sind meist objektorientiert aufgebaut. Es existiert also ein

konzeptioneller Bruch zwischen Anwendung und Datenbanksystem (im Englischen als

impedance mismatch bezeichnet). Ambler beschäftigt sich ausführlich in [Amb00] mit

diesem Thema. Das bedeutet insbesondere, dass die relationalen Daten in objektorientierter

Form verfügbar gemacht werden müssen. Ein möglicher Ansatz ist die Implementierung

eines anwendungsspezifischen Objektgenerators (Object Factory), der die benötigten

Objektinstanzen zur Laufzeit erzeugt und mit den entsprechenden Daten aus der Datenbank

füllt. Eine automatische Rückkopplung ist dabei nicht gewährleistet. Es müssen explizit

Methoden zur Verfügung gestellt werden, um die Daten in der Datenbank zu aktualisieren.

Neuere Ansätze decken den Bereich von einer Abbildungsbeschreibung (z.B. in

XML) der programmiersprachlichen Objekte auf Relationen (Object-Relational (OR)-

Mapping) (eXtensible Markup Language, [XML02]) bis zur vollautomatischen

Persistenzbereitstellung aus Sicht der Anwendung ab, wobei die relevanten Daten der

Objektinstanzen transparent in eine Datenbank abgebildet werden. Eine Festlegung des

Datenbankschemas ist im letzten Fall nicht mehr möglich und nötig. Hier ist eine sehr starke

Annäherung an die Konzepte objektorientierter Datenbanken zu erkennen, welche im

nächsten Abschnitt genauer betrachtet werden.

Objektrelationale Erweiterungen

Aufgrund der fehlenden breiten Akzeptanz objektorientierter Datenbanksysteme (vgl.

Abschnitt 2.1.2) und der enormen existierenden Datenbestände in relationalen Datenbanken

versuchen einige Hersteller von RDBS, nützliche objektorientierte Konzepte zu integrieren

([SBM99]). So werden z.B. komplexe Datenstrukturen (Klassen) inklusive Methoden und

Objektreferenzen eingeführt. Dadurch wird die hohe Performanz relationaler DBS mit der

Flexibilität objektorientierter DBS gekoppelt, wobei die Abwärtskompatibilität gewährleistet

ist. Der Zugriff auf die Daten erfolgt dann häufig über eine erweiterte Form von SQL (SQL3

bzw. SQL99, [MS01]). Allerdings werden existierende Standards in diesem Bereich noch

nicht von allen DBS-Herstellern gleichermaßen berücksichtigt. Unvollständige oder

abweichende Implementierungen erschweren häufig eine einheitliche Verwendung

objektorientierter Erweiterungen.

2.1.2 Objektorientierte Datenbanksysteme

Objektorientierte DBS (OODBS) überwinden die Kluft zwischen den Objekten der

Anwendung und der Struktur der Datenablage (vgl. Abschnitt 2.1.1), in dem die Daten

objektorientiert gespeichert werden ([MeWü00]). Das wirkt sich normalerweise so aus, dass

der Anwendungsentwickler über eine spezielle Anfragesprache (z.B. Object Query

Language, OQL, [CBB+00]) direkt die benötigten Objektinstanzen als Resultat erhält. Dabei

ist jedem Objekt ein eindeutiger Object Identifier (OID) zugeordnet, anhand dessen das

Objekt systemweit referenziert werden kann. Es lassen sich beliebig komplexe Objekttypen

(Klassen) und Datenstrukturen inklusive Methoden verwenden, wobei das OODBS diese

APITEL

NFORDERUNGSANALYSE

Datentypen kennen muss. Die Definition des ,,Datenbankschemas" in OODBS erfolgt daher

implizit bei der Modellierung des Objektschemas der Anwendung.

Die aus einer entsprechenden Anfrage erhaltenen Objektinstanzen haben meist eine

direkte Bindung zur Datenbank, so dass Änderungen sofort im Datenbestand wirksam

werden

. Die Notwendigkeit eines Objektgenerators oder eine explizite Beschreibung der

Abbildung zwischen Objekten und Datenstruktur wie in Abschnitt 2.1.1 beschrieben entfällt

somit.

Ein WCMS sollte eine direkte Zugriffsmöglichkeit auf interne Vorgänge und den

Datenbestand ermöglichen, um eine bedarfsgerechte Verwendbarkeit des Systems

gewährleisten zu können. Dies wird in modernen Anwendungssystemen häufig über ein

offen gelegtes objektorientiertes Application Programming Interface (API) erreicht. OODBS

haben in diesem Zusammenhang den Vorteil, dass die Objekte des ,,Datenbankschemas"

direkt über das API verfügbar gemacht werden können. Eine zusätzliche Zwischenschicht

kann somit entfallen.

Wesentliche Nachteile von OODBS sind der erst seit kurzem existierende Standard

für eine Anfragesprache und das Fehlen einer bewährten systematischen Methodik für den

Schemaentwurf. Aufgrund der heterogenen und komplexeren Datenstrukturen und dem damit

verbundenen größeren Verwaltungsaufwand ist auch die Performanz von OODBS in vielen

Anwendungsfällen geringer als bei RDBS. Zusammen mit den fehlenden Erfahrungswerten

im dauerhaften Einsatz der noch als neu zu bezeichnenden Technologie erscheint diese

Systemfamilie für viele Anwendungsbereiche momentan ungeeignet.

2.1.3 XML-Datenbanksysteme

Die Einsatzgebiete der XML weiten sich kontinuierlich aus. Mittlerweile hat sie sich als

universelles Datenaustauschformat in so verschiedenen Bereichen wie medienübergreifendes

Publizieren (Cross-Media Publishing), RPC-Protokolle, Konfigurationsdaten oder

Workflow-Sprachen als unverzichtbar etabliert. Mit der steigenden Nutzung wächst auch der

Bedarf an einer persistenten Speicherung von XML-Daten. An dieser Stelle setzt die noch

relativ neue Klasse der XML-Datenbanksysteme an.

Man kann verschiedene Arten der Speicherung von XML-Daten unterscheiden. Mit

einer nativen XML-Datenbank (XML-DB) verbindet man die unveränderte Speicherung im

XML-Format, wobei Indexstrukturen ergänzt werden, um den effizienten Zugriff auf die

Daten zu ermöglichen. Eine weitergehende Unterscheidung ist möglich nach der Ablage im

Textformat oder als serialisierte Baumstruktur im Binärformat (vgl. Document Object Model,

DOM, [DOM02]).

Eine andere Art von XML-Datenbanken nennt man ,,XML enabled" (XED). Hier

erfolgt die Interaktion mit der Außenwelt zwar auch ausschließlich im XML-Format, intern

werden die eigentlichen Nutzdaten aber aus der XML-Struktur extrahiert. Die Ablage erfolgt

dann z.B. in einem relationalen oder objektorientierten DBS. Bei dieser Art der

Eine Transaktionsverwaltung ist unabhängig von dieser automatischen Persistenz natürlich trotzdem möglich.

NFORDERUNGSANALYSE

APITEL

Datenspeicherung ist nicht gewährleistet, dass die Struktur gespeicherter XML-Dokumente

original erhalten bleibt. Die Strukturinformationen werden teilweise nicht mit gespeichert.

Zum Beispiel kann bei erneuter Abfrage eines Dokuments die Reihenfolge von Elementen

anders sein.

Bei Anwendungen muss darüber hinaus zwischen datenzentrierten und dokument-

zentrierten unterschieden werden. XED sind eher für datenzentrierte Anwendungen geeignet,

da es hier nur auf die Nutzdaten ankommt, die Strukturinformationen dagegen nur

untergeordnete Bedeutung haben. Im Gegensatz dazu ist es bei dokumentzentrierten

Anwendungen wichtig, dass die XML-Dokumente unverändert erhalten bleiben. Ist diese

Voraussetzung gegeben, so muss eine native XML-DB eingesetzt werden.

Allen XML-Datenbanksystemen ist gemeinsam, dass sie spezielle XML-basierte

Anfragesprachen unterstützen, die für die Adressierung von Informationen innerhalb eines

XML-Datenbestands optimiert sind (z.B. XQuery, [XQU02]). Auch hier besteht aber das

Problem, dass noch keine anerkannten Standards existieren. Es wird allerdings intensiv an

einer solchen Standardisierung gearbeitet.

Aus Sicht des Web-Content-Managements sind XML-DBS besonders interessant.

Das übliche HTML-Format von Webseiten kann leicht in die XML-konforme Variante

(XHTML, [XHT02]) umgeformt werden. Somit ist eine Speicherung in einer XML-

Datenbank problemlos möglich.

2.1.4 Bewertung im Kontext des Web-Content-Managements

Alle oben genannten Arten von DBS sind grundsätzlich geeignet, um als Datenspeicher für

ein WCMS zu dienen. Allerdings können die Stärken von objektorientierten bzw. XML-DBS

in diesem Zusammenhang nur schlecht ausgenutzt werden, weshalb der zusätzliche

Verwaltungsaufwand nicht gerechtfertigt erscheint.

In späteren Abschnitten wird sich z.B. zeigen, dass gerade beim Web-Content-

Management Webseiten nicht mehr vollständig im (X)HTML-Format gespeichert, sondern

vorher in ihre Bestandteile (Assets) zerlegt werden. Diese Assets (z.B. Textabschnitte,

Bilder) sind darüber hinaus sehr einfach, so dass eine Abbildung durch komplexe

Objekttypen oder eine Speicherung als XML-Dokumente keine Vorteile bringt. Auch alle

anderen Objekte, wie etwa das Objekt Seite, lassen sich leicht ohne komplexe Objekttypen

abbilden. Somit ist eine Verwendung rein objektorientierter DBS oder nativer XML-DBS

nicht unbedingt zu empfehlen.

Unter Umständen kann es notwendig sein, sehr spezielle Integritätsbedingungen und

Benutzerrechte zu verwenden, z.B. wenn man auf Ebene der Assets arbeitet. In diesem Fall

könnte trotz obiger Ausführungen eine Verwendung von komplexen Datentypen hilfreich

sein, da hier durch Kapselung und Verwendung von Methoden beliebiger Zugriffschutz

realisiert werden kann. Es sind dabei aber nur wenige einfache objektorientierte Konzepte

notwendig, so dass der Einsatz eines objektrelationalen DBS ausreicht. Der Performanz-

vorteil relationaler DBS bleibt weitgehend erhalten.

APITEL

NFORDERUNGSANALYSE

Die einzelnen Assets sind im Normalfall sehr fein granuliert, um eine möglichst hohe

Wiederverwendbarkeit sicher zu stellen. Deshalb ist es auch selten notwendig, Suchaktionen

innerhalb der Assets durchzuführen. Sollte diese Funktionalität dennoch wichtig sein, würde

das für die Verwendung von XML-DBS sprechen, da hier bis zu einem gewissen Grad auch

,,Feldinhalte" für eine schnelle Suche indiziert werden können.

Bei voller Ausnutzung aller denkbaren Funktionalitäten eines WCMS wäre also nach

obigen Betrachtungen ein XML-fähiges objektrelationales Datenbanksystem zu bevorzugen,

da hier praktisch keine Einschränkungen bzgl. der Performanz existieren und alle

möglicherweise benötigten Datenstrukturen in einfacher Form nutzbar sind. Aus

pragmatischer Sicht müssen allerdings die Existenz von etablierten Standards und der

Verbreitungsgrad der Datenbanktechnologie berücksichtigt werden. Unter diesen

Gesichtspunkten scheint die Verwendung eines rein relationalen DBS sinnvoll. Es gibt eine

Vielzahl von bewährten (O)RDBS (Oracle, MS SQL Server, IBM DB2, MySql, u. a.) mit

breiter Unterstützung wichtiger Standards (SQL-92, BLOBs). Durch eine Beschränkung auf

rein relationale Konzepte ohne Nutzung objektrelationaler Erweiterungen kann maximale

Unabhängigkeit und Flexibilität sichergestellt werden.

Als Folgerung aus den obigen Ausführungen wurde in dieser Arbeit Oracle 9i als

relationales Datenbanksystem ausgewählt. Das entwickelte Datenschema wurde in Form

eines Entity-Relationship-Diagramms modelliert und auch die Beispielimplementierungen

wurden entsprechend ausgerichtet. Eine Umsetzung auf Basis eines alternativen DBS-Typs

sollte jedoch ohne Probleme möglich sein.

2.2 Funktionale Aspekte

Neben der reinen Datenhaltung in einem Web-Content-Managementsystem sind

insbesondere funktionale Aspekte von Interesse, d.h. alle Bereiche oder Komponenten des

Systems, welche für die entscheidende Funktionsweise wesentliche Bedeutung haben. Meiler

und Jablonski beschreiben den zentralen Gedanken eines WCMS in [JM02] folgendermaßen:

,,Web-Content-Management ist Content-Management, das sich in erster Linie auf Web-

Content beschränkt, also Informationen, Dokumente und Daten, die durch HTML-Seiten

dargestellt oder zumindest durch HTML-Dokumente referenziert werden". Moderne

Einsatzgebiete von WCMS legen eine Erweiterung dieser Charakterisierung nahe, wobei das

zitierte HTML-Format verallgemeinert wird und beliebige Ausgabeformate eingeräumt

werden. So ist eine Möglichkeit zur Publizierung von ,,Web"-Content nach dem Motto

single-source-multiple-media z.B. auch im WML-Format für WAP-fähige Endgeräte oder als

PDF-Datei erforderlich. An anderer Stelle wird dieser Gedanke auch in [JM02]

angesprochen. Hier soll er allerdings noch mehr in den Mittelpunkt gerückt werden. Eine

genauere Begründung wird in Abschnitt 2.2.2 geliefert.

NFORDERUNGSANALYSE

APITEL

Die wohl wichtigste Funktionalität im Rahmen eines WCMS stellt das Asset-

Management dar. Es bildet die zentrale Sammelstelle für jegliche Bestandteile des Web-

Contents. Deshalb soll diese Komponente auch als erste genauer betrachtet werden.

2.2.1 Asset-Management

Wie bereits in Abschnitt 2.1.4 erwähnt versteht man unter digitalen Assets ganz allgemein

die Bestandteile eines digitalen Dokuments. Im Zusammenhang mit Web-Content sind hier

insbesondere Text, Bilder und beliebige darin referenzierte Dateien oder URLs (Uniform

Resource Locators) gemeint. In Unternehmen existiert häufig keine Vereinbarung über die

einheitliche Handhabung von digitalen Assets. So sind wichtige Bilder oder Dokumente

irgendwo im Netzwerk auf irgendeinem Rechner in irgendeinem Unterverzeichnis

gespeichert. Bestenfalls der Ersteller dieser Assets weiß noch, wie und wo er sie später

wieder finden kann. Dabei könnte diese Datei von Mitarbeitern gewinnbringend auch an

anderer Stelle genutzt werden.

Ziel des Asset-Managements ist es deshalb, ein zentrales Repositorium für alle

wichtigen Informationsbestandteile des Unternehmens bereitzustellen. Durch entsprechende

so genannte inhaltliche Metadaten werden die einzelnen Assets genau klassifiziert, so dass

eine effiziente Suche nach unterschiedlichsten Kriterien möglich ist. ,,Das Asset-

Management umfasst alle Funktionen, um den ... zu publizierenden Content zu verwalten, zu

strukturieren und darzustellen" ([Bü00]). Die Archivierung des Contents in der gleichen oder

einer externen Datenablage ist ein separates Themengebiet und wird hier nicht näher

betrachtet.

Ein wichtiger Gesichtspunkt bei der Verwaltung der Assets ist die Dokumentation

von Änderungen. Es soll zu jeder Zeit nachvollziehbar sein, wann und von wem bestimmte

Informationen erstellt, modifiziert oder gelöscht wurden. Es ist deshalb sinnvoll, eine

umfassende Funktionalität zur Versionierung bereitzustellen. Dabei werden alle Assets mit

Versionsnummern versehen. Soll eine bestimmte Version eines Assets geändert werden, so

wird zuerst eine Kopie unter einer neuen Versionsnummer erstellt und diese dann zur

Veränderung freigegeben. Die vorhergehende Version des Assets bleibt dadurch weiterhin

verfügbar. Dies ist auch wichtig, damit Verweise auf Assets und deren Inhalt auch nach

Änderungen gültig und sinnvoll bleiben.

Es ist zwischen zeitbehafteter und zeitfreier Sichtweise zu unterscheiden (vgl.

[MSW83]). Im ersten Fall ist es möglich, eine Version eines Assets zu referenzieren, ohne

die genaue Versionsnummer zu kennen. Die Identifizierung erfolgt dann über den Zeitpunkt

der Gültigkeit dieses Assets. Es wird also untersucht, welche Version zu dem angegeben

Zeitpunkt die aktuellste war. Damit würde es zum Beispiel auch leicht möglich, einen

zurückliegenden konsistenten Gesamtzustand des Inhalts anhand des Zeitpunkts wieder

herzustellen. Im anderen Fall der zeitfreien Sichtweise muss zur Identifizierung eines Assets

explizit die Versionsnummer bekannt sein. Um auch in diesem Fall die Möglichkeit zu

haben, einen zurückliegenden konsistenten Gesamtzustand wiederherzustellen, ist es

APITEL

NFORDERUNGSANALYSE

notwendig, eine Markierung (engl. label) einzuführen. In dem gewünschten reaktivierbaren

Zustand werden zum Beispiel alle innerhalb des ,,Live"-Contents referenzierten Assets mit

der gleichen Markierungsnummer versehen (vgl. Abbildung 2). Dadurch ist gewährleistet,

dass nach beliebigen Änderungen die markierte zusammengehörende Assetmenge ermittelt

und reaktiviert werden kann.

Version 1

Version 2

Version 3

Version 4

Version 1

Version 2

Version 3

Version 1

Version 2

Version 3

Version 4

Version 5

Asset 1

Asset 2

Asset 3

Markierung 1

Abbildung 2: Markierung einer konsistenten Assetmenge in Anlehnung an [Voig01]

Weiterhin muss überlegt werden, wie die Handhabung verschiedener Versionen erfolgen soll.

Es könnte zum Beispiel wünschenswert sein, dass nach der Änderung eines Assets alle

Verweise auf die bisherige Version durch die neue Version ersetzt werden, d.h. es wird

immer automatisch die aktuellste Version verwendet. Dies würde verlangen, dass

Modifikationen inhaltlich nur von geringer Bedeutung sein dürfen, da sonst unter Umständen

an einigen Stellen der inhaltliche Zusammenhang verletzt wird. Zum Beispiel könnte in

jedem Dokument ein Bild des zuständigen Ansprechpartners vorhanden sein. Ändert sich der

Ansprechpartner, so wäre es wünschenswert, durch Ersetzen des Bildes mit einem Foto des

neuen Ansprechpartners alle betroffenen Dokumente automatisch zu aktualisieren. Wird

dieses Bild allerdings auch auf der persönlichen Informationsseite des alten Ansprechpartners

verwendet, so ergäbe das neue Bild an dieser Stelle keinen Sinn.

Eine andere Möglichkeit besteht in der Einbeziehung der Versionsnummer in die

Identifikation eines Assets. Das bedeutet, dass ein Verweis auf ein bestimmtes Asset immer

auch die entsprechende Versionsnummer umfassen muss. Dies stellt sicher, dass auch nach

Änderungen die korrekte Version des Assets verwendet wird. Allerdings ist es dabei

notwendig, etwaige Änderungen in allen referenzierenden Dokumenten explizit zu

aktualisieren. Unter Umständen kann dies mit einem hohen Aufwand verbunden sein. Dieser

Ansatz wirkt jedoch stabilisierend auf die Qualität des Datenbestands, da unnötige

Fehlerquellen vermieden werden.

Zusätzlich zu verschiedenen Versionen eines Assets kann es auch Bedarf an

verschiedenen Varianten geben. Eine Variante stellt sozusagen eine ,,Abzweigung der

Versionskette" eines Assets auf der Basis einer bestimmten Version dar (vgl. [WM81]). Eine

Variante wird dabei unabhängig von anderen Varianten des gleichen Assets versioniert. So

ist es zum Beispiel möglich, mehrere unterschiedliche Varianten eines Dokuments zu

verwalten und die Änderungen jeder Variante extra zu protokollieren. Es ist somit

NFORDERUNGSANALYSE

APITEL

gewährleistet, dass der Zusammenhang der Varianten als ,,gleiches" Asset erhalten bleibt

(vgl. Abbildung 3).

Um ein Asset eindeutig identifizieren zu können, ist neben der Versionsnummer nun

auch die Variantennummer zu berücksichtigen. Im Gegensatz zu der in [WM81]

vorgeschlagenen Vorgehensweise kann hier auf eine getrennte Speicherung von

variantenübergreifenden und variantenspezifischen Informationen aus Gründen des

geringeren Verwaltungsaufwands verzichtet und in dem zugrunde liegenden DBS

ausreichend Speicherplatz unterstellt werden.

Version 1

Variante 1

Version 2

Variante 1

Version 1

Variante 2

Version 3

Variante 1

Version 4

Variante 1

Version 2

Variante 2

Variante 2

Variante 1

Versions- /

Variantenverlauf

eines Assets

Gleiche Version als Basis

Abbildung 3: Versionen vs. Varianten

Wie weiter oben ausgeführt können beliebige Texte und Dateien als Assets behandelt

werden. In Abschnitt 2.2.2 wird erläutert, warum eine Möglichkeit zur orthogonalen

Behandlung von Struktur, Inhalt und Darstellung eines Dokuments wichtig ist und dann das

Prinzip auf eine separate Betrachtung von Programmlogik erweitert. Ausgehend von der

Möglichkeit, diese vier Aspekte eines Dokuments getrennt voneinander beschreiben zu

können, erscheint es logisch, diese Beschreibungen jeweils wieder als eigenes Asset zu

speichern. Es gibt also inhaltliche Assets (z.B. Textabschnitte, Bilder, usw.), strukturelle

Assets (Beschreibungen der Struktur von Dokumenten), darstellende Assets (Beschreibungen

der Darstellungsweise von Dokumenten) und Assets, welche die Einbettung von

Programmlogik in Dokumente beschreiben. In den folgenden Ausführungen wird einfach

von Struktur, Inhalt, Darstellung (engl. layout) und Logik gesprochen.

2.2.2 Trennung von Struktur, Inhalt, Darstellung und Programmlogik

Das Erstellen von Internetpublikationen ist ein arbeitsteiliger Prozess, an dem unter anderem

Redakteure, Grafiker, Lektoren, Softwareentwickler und viele andere mehr beteiligt sein

können. Ein grundlegendes Entwurfsprinzip von Web-Content-Managementsystemen ist

deshalb die Trennung von Struktur, Inhalt und Darstellung (vgl. [Bü00], [JM02], [RoRi01],

[Su01], [SW00]), welche eine Arbeitsteilung erst ermöglicht. Abschnitt 3.3 zeigt, wie eine

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2002
ISBN (eBook): 9783832464370
ISBN (Paperback): 9783838664378
DOI: 10.3239/9783832464370
Dateigröße: 1.9 MB
Sprache: Deutsch
Institution / Hochschule: Friedrich-Alexander-Universität Erlangen-Nürnberg – unbekannt, Informatik
Erscheinungsdatum: 2003 (Februar)
Note: 1,0
Schlagworte: entity relationship-diagramm wcms java asset management
Produktsicherheit: Diplom.de

Autor

Thomas Goßler (Autor:in)

Identifizierung und Rekonstruktion eines allgemeinen Schemas für Web-Content-Management-Systeme

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Details

Autor

Thomas Goßler (Autor:in)