Lade Inhalt...

Einsatzmöglichkeiten der Markierungssprache XML

Betrachtung des aktuellen Entwicklungsstandes

©2001 Diplomarbeit 110 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Die „Extensible Markup Language“ (XML) ist eine textbasierte Meta-Markierungssprache, die es in kurzer Zeit geschafft hat, sich in allen Bereichen der Informationstechnologie und im Besonderen im Internet auszubreiten. XML wurde durch das „World Wide Web Consortium“ entwickelt, um ein offenes, über das Internet nutzbares Datenformat für Dokumente zu bieten. Dieses soll sich im Internet auf einfache Weise nutzen lassen und ein breites Spektrum von Anwendungen unterstützen.
Im Gegensatz zur „Hypertext Markup Language“ (HTML) handelt es sich bei XML um keine starre, vordefinierte Markierungssprache, sondern vielmehr um eine Metasprache. XML stellt Vorschriften bereit und ermöglicht es, eine beliebige Anzahl von Markierungssprachen für verschiedene Einsatzbereiche zu definieren.
Des Weiteren kann XML als Basistechnologie für das Web Publishing, also für die Erstellung, Verwaltung und Pflege von Inhalten über das Internet eingesetzt werden.
Außerdem werden mit XML Daten bzw. Dokumente beschrieben und strukturiert, damit diese über das Internet zwischen einer Vielzahl von Anwendungen und unterschiedlichen Plattformen ausgetauscht und weiterverarbeitet werden können. XML bildet so die Grundlage für verschiedenste EDI- oder E-Business-Anwendungen.

Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Einleitung1
1.1Definition Markup1
1.1.1Procedural Markup2
1.1.2Descriptive Markup3
1.2Markierungssprachen4
1.2.1Standard Generalized Markup Language (SGML)4
1.2.2Hypertext Markup Language (HTML)5
1.2.3Extensible Markup Language (XML)7
1.2.4Extensible Hypertext Markup Language(XHTML)10
1.2.4.1XHTML Version 1.010
1.2.4.2Modularisierung von XHTML11
1.2.4.3XHTML Basic11
1.2.4.4XHTML Version 1.111
2.Technische Grundlagen zu XML12
2.1Aufbau eines XML-Dokumentes12
2.1.1Prolog12
2.1.2DTD-Deklaration13
2.1.3Kommentare13
2.1.4Inhalt14
2.1.4.1Elemente14
2.1.4.2Attribute15
2.1.4.3Entity-Referenzen16
2.1.4.4Processing Instructions (PI)16
2.1.4.5CDATA-Abschnitte17
2.1.4.6Namespaces17
2.2Document Type Definition (DTD)18
2.2.1Wohlgeformtheit und Gültigkeit19
2.2.2Elementtyp-Deklaration19
2.2.3Attributlisten-Deklaration21
2.2.4Entity-Deklaration23
2.3XML Schema25
2.3.1Part 0: Primer26
2.3.2Part 1: Structures26
2.3.2.1Elementtyp-Deklaration26
2.3.2.2Attribut-Deklaration28
2.3.3Part 2: Datatype28
2.3.3.1Built-in-Datentypen28
2.3.3.2User-derived-Datentypen30
2.3.4Fazit30
2.4Stylesheets in Verbindung mit […]

Leseprobe

Inhaltsverzeichnis


ID 5456
Benz, Alexander: Einsatzmöglichkeiten der Markierungssprache XML: Betrachtung des
aktuellen Entwicklungsstandes / Alexander Benz - Hamburg: Diplomica GmbH, 2002
Zugl.: Heidelberg, Fachhochschule, Diplomarbeit, 2001
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die
der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen,
der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der
Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung,
vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im
Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der
Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem
Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche
Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten
wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht
vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die Autoren oder
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.
verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2002
Printed in Germany

Zusammenfassung des Gesamtinhaltes
Die "Extensible Markup Language" (XML) ist eine textbasierte Meta-Markierungs-
sprache, die es in kurzer Zeit geschafft hat, sich in allen Bereichen der
Informationstechnologie und im Besonderen im Internet auszubreiten. XML wurde
durch das "World Wide Web Consortium" entwickelt, um ein offenes, über das
Internet nutzbares Datenformat für Dokumente zu bieten. Dieses soll sich im
Internet auf einfache Weise nutzen lassen und ein breites Spektrum von
Anwendungen unterstützen
Im Gegensatz zur "Hypertext Markup Language" (HTML) handelt es sich bei XML
um keine starre, vordefinierte Markierungssprache, sondern vielmehr um eine
Metasprache. XML stellt Vorschriften bereit und ermöglicht es, eine beliebige Anzahl
von Markierungssprachen für verschiedene Einsatzbereiche zu definieren.
Des Weiteren kann XML als Basistechnologie für das Web Publishing, also für die
Erstellung, Verwaltung und Pflege von Inhalten über das Internet eingesetzt werden.
Außerdem werden mit XML Daten bzw. Dokumente beschrieben und strukturiert,
damit diese über das Internet zwischen einer Vielzahl von Anwendungen und
unterschiedlichen Plattformen ausgetauscht und weiterverarbeitet werden können.
XML bildet so die Grundlage für verschiedenste EDI- oder E-Business-
Anwendungen.

Abstract
The "Extensible Markup Language" (XML) is a text-based meta-markup language,
that, in a short period of time, has accomplished to spread out in all fields of
information technology and especially in the internet. XML was developed by the
World Wide Web Consortium to create an open data format for documents useable
through the internet. XML is supposed to be used easily through the internet and
support a wide spectrum of applications.
Unlike HTML, XML is not a rigid, predefined markup language, but rather a meta
language. XML provides rules and allows to define any number of markup
languages for different employments.
XML can also be used as a base technology for Web Publishing, i.e. the making,
management and maintenance of contents through the internet.
Furthermore data or rather documents can be described and structured by XML, so
they can be exchanged and processed between a multitude of applications and
different platforms via internet. By that XML sets up a foundation for various EDI- or
E-Business-applications.

Inhaltsverzeichnis
1
Einleitung ...1
1.1
Definition Markup...1
1.1.1
Procedural Markup ...2
1.1.2
Descriptive Markup...3
1.2
Markierungssprachen...4
1.2.1
Standard Generalized Markup Language (SGML)...4
1.2.2
Hypertext Markup Language (HTML) ...5
1.2.3
Extensible Markup Language (XML)...7
1.2.4
Extensible Hypertext Markup Language (XHTML)...10
1.2.4.1
XHTML Version 1.0 ...10
1.2.4.2
Modularisierung von XHTML...11
1.2.4.3
XHTML Basic...11
1.2.4.4
XHTML Version 1.1 ...11
2
Technische Grundlagen zu XML ...12
2.1
Aufbau eines XML-Dokumentes ...12
2.1.1
Prolog...12
2.1.2
DTD-Deklaration...13
2.1.3
Kommentare...13
2.1.4
Inhalt ...14
2.1.4.1
Elemente ...14
2.1.4.2
Attribute ...15

2.1.4.3
Entity-Referenzen ...16
2.1.4.4
Processing Instructions (PI) ...16
2.1.4.5
CDATA-Abschnitte...17
2.1.4.6
Namespaces...17
2.2
Document Type Definition (DTD) ...18
2.2.1
Wohlgeformtheit und Gültigkeit...19
2.2.2
Elementtyp-Deklaration ...19
2.2.3
Attributlisten-Deklaration ...21
2.2.4
Entity-Deklaration ...23
2.3
XML Schema ...25
2.3.1
Part 0: Primer ...26
2.3.2
Part 1: Structures ...26
2.3.2.1
Elementtyp-Deklaration...26
2.3.2.2
Attribut-Deklaration ...28
2.3.3
Part 2: Datatype ...28
2.3.3.1
Built-in-Datentypen ...28
2.3.3.2
User-derived-Datentypen...30
2.3.4
Fazit ...30
2.4
Stylesheets in Verbindung mit XML ...31
2.4.1
Cascading Stylesheets (CSS) ...31
2.4.2
Extensible Stylesheet Language (XSL)...32
2.4.2.1
XSL-Transformation (XSLT) ...33
2.4.2.2
XSL-Formating Objects (XSL-FO) ...35
2.4.3
Fazit ...36

2.5
Verweise in XML ...36
2.5.1
Extensible Linking Language (XLink)...37
2.5.1.1
Einfache Verweise ...38
2.5.1.2
Erweiterte Verweise...38
2.5.2
XML Pointer Language (XPointer) ...39
2.5.3
Fazit ...40
2.6
Verarbeitung von XML-Dokumenten ...40
2.6.1
Nichtvalidierende Parser ...41
2.6.2
Validierende Parser ...42
2.6.3
Document Object Model (DOM)...42
2.6.4
Simple API for XML (SAX)...43
2.6.5
Fazit ...44
3
XML-Technologien in der Praxis...45
3.1
XML als systemunabhängige Meta-Markierungssprache ...45
3.1.1
Wireless Markup Language (WML) ...46
3.1.1.1
Wireless Application Protocol (WAP) ...46
3.1.1.2
Aufbau eines WML-Dokumentes ...48
3.1.1.3
Wireless Markup Language Script (WMLScript)...51
3.1.1.4
Darstellungsmöglichkeiten ...52
3.1.2
Voice Extensible Markup Language (VoiceXML) ...53
3.1.2.1
Aufbau eines VoiceXML-Dokumentes...53
3.1.2.2
Voice-Browser ...55
3.1.2.3
VoiceXML-Interpreter...56
3.1.2.4
Architektur ...56

3.1.3
Fazit ...57
3.2
Web Publishing mit XML ...59
3.2.1
Probleme...59
3.2.2
Web Content Management Systeme (WCMS)...61
3.2.3
Architektur eines WCMS...62
3.2.3.1
Datenbank Management System (DBMS) ...62
3.2.3.2
Webserver ...63
3.2.3.3
Client ...64
3.2.4
Fazit ...64
3.3
XML im Bereich Electronic Business ...66
3.3.1
Electronic Data Interchange (EDI) ...68
3.3.2
EDI for Administration, Commerce and Transport (EDIFACT) ...70
3.3.3
XML/EDI-Ansatz...71
3.3.3.1
Templates...72
3.3.3.2
Agenten ...73
3.3.3.3
Repositories...74
3.3.4
Weitere XML-Ansätze im E-Business ...74
3.3.4.1
Frameworks...75
3.3.4.2
Functions...76
3.3.4.3
Verticals...77
3.3.5
Fazit ...77
4
Schlussbetrachtung...80

Anhang
A: Literaturverzeichnis ... I
B: Abkürzungsverzeichnis ... XIII
C: Abbildungsverzeichnis ... XVI
D: Quellcodeverzeichnis ... XVII
E: Tabellenverzeichnis ... XIX
.

1. Kapitel: Einleitung
- 1 -
1 Einleitung
In den letzten Jahren entwickelte sich das Internet, insbesondere das "World Wide
Web" (WWW), zu einer Plattform für Electronic Business-Lösungen. Die "Hypertext
Markup Language" (HTML), durch die das WWW weltweite Verbreitung fand, hält
den wachsenden Anforderungen, gerade im kommerziellen Bereich, angesichts
starrer Strukturen nicht mehr stand. Auch der Einsatz der "Standard Generalized
Markup Language" (SGML), die Basis aller Markierungssprachen, kann auf Grund
zu großer Komplexität keine Lösung bieten. Um diese Lücke zu schließen, wurde
vom "World Wide Web Consortium" (W3C) die "Extensible Markup Language"
(XML) entwickelt.
Das Ziel dieser Diplomarbeit ist, die vielfältigen Einsatzmöglichkeiten der Markie-
rungssprache XML zu skizzieren und anschließend in Kapitel 3 zu bewerten.
Schwerpunkte werden dabei auf drei mögliche Anwendungsgebiete gelegt: Es wird
untersucht, welches Potential hinter XML als systemunabhängige Meta-Markie-
rungssprache steckt; danach wird überprüft, ob XML als Basistechnologie für das
"Web Publishing" in Frage kommt; des Weiteren folgt eine Vorstellung von XML als
Datenaustauschformat zwischen unterschiedlichen Datenbeständen am Beispiel
EDI. Um die generellen Vorteile von XML gegenüber bisherigen Markierungs-
sprachen aufzuzeigen, wird in diesem einführenden Kapitel zunächst eine Übersicht
über die Entwicklung der wichtigsten Markierungssprachen gegeben. Im Anschluss
erfolgt im zweiten Kapitel die technische Betrachtung sowie die Vorstellung aktueller
Erweiterungen des XML-Standards, was einen fundierten Einstieg in die Thematik
ermöglicht. Im letzten Kapitel wird ein abschließendes Fazit gezogen und die
zukünftige Entwicklung betrachtet.
1.1 Definition
Markup
Die "Extensible Markup Language" gehört zur Familie der Markierungssprachen.
Der Begriff "Markup" (höhere Auszeichnung) stammt ursprünglich aus dem Verlags-
wesen, aus der Zeit, in der es noch nicht die Möglichkeit gab, die Arbeit mit einem
Desktop Publishing Programm zu bewältigen. Nach der inhaltlichen Überprüfung
eines Dokumentes fügte der jeweilige Autor handgeschriebene Layoutanweisungen
oder -markierungen in ein Dokument ein. Durch diese Markierungen erhielt der

1. Kapitel: Einleitung
- 2 -
Schriftsetzer Informationen über das gewünschte Aussehen des endgültigen
Dokumentes [Sibb00, S. 29-30; BeMi00, S. 35-36]. In der heutigen, digitalen Welt
wird im Wesentlichen zwischen "Procedural-" und "Descriptive Markup" unter-
schieden.
1.1.1 Procedural
Markup
Beim "Procedural Markup" ("Formatierungs-Markup" [GoPr99, S. 27]) wurde die
zuvor geschilderte Vorgehensweise später mit dem Erscheinen der ersten
Computer und der damit verbundenen Ablösung der Schreibmaschinen über-
nommen. Der Autor analysiert hier die Struktur des Dokumentes und fügt dann
anschließend die entsprechenden Markup-Informationen in das Dokument ein.
Durch diese wird das spätere Aussehen, z. B. die Schriftart oder die Schriftgröße,
festgelegt (siehe Abbildung 1-1).
Abbildung 1-1: Beispiel für "Procedural Markup"
Dank grafischer Oberflächen und dem damit verbundenen "What you see is what
you get" (WYSIWYG) -Prinzip, werden diese Informationen direkt auf dem Bild-
schirm angezeigt. Das grundsätzliche Problem dieser Vorgehensweise stellte der
Programmierer Brian Kernighan treffend fest: "What you see is all you've got"
[BoBr99, www]. Damit ist gemeint, dass das Dokument zwar für den Menschen gut
zu lesen ist, aber Computer erkennen die Dokumentstruktur nur noch aus der
Formatierung. Dadurch sind solche Dokumente nur schwer zu portieren oder
wiederzuverwenden [GoPr99, S. 27].
Beispielüberschrift
Dies ist ein Beispiel,
um die Unterschiede zwischen
"Procedural Markup¹" "und Descriptive Markup²"
zu verdeutlichen.
¹ oder auch "Formatierungs-Markup"
² oder auch "verallgemeinertes Markup"
"Überschrift"
"Standard"
"Fußnote"

1. Kapitel: Einleitung
- 3 -
Beispielüberschrift
Dies ist ein Beispiel,
um die Unterschiede zwischen
"Procedural Markup¹" "und Descriptive Markup²"
zu verdeutlichen.
¹ oder auch "Formatierungs-Markup"
² oder auch "verallgemeinertes Markup"
"Arial, fett, Schriftgröße 14"
"Arial, Schriftgröße 11"
"Arial, Schriftgröße 10"
1.1.2 Descriptive
Markup
Im Gegensatz zum "Procedural Markup" konzentriert sich das "Descriptive Markup"
("verallgemeinertes Markup" [GoPr99, S. 28]; auch bekannt unter dem Namen
"Generic Markup") darauf, Markierungen in den Text einzubringen, die Aussagen
über Bedeutung markierter Textstellen machen. So können einzelne Textabschnitte,
beispielsweise als Überschriften, Standardtext oder Fußnoten definiert werden
(siehe Abbildung 1-2).
Abbildung 1-2: Beispiel für "Descriptive Markup"
"Descriptive Markup" bietet die Möglichkeit, das eigentliche Dokument in drei Teile,
bestehend aus Format, Struktur und Inhalt zu teilen (siehe Abbildung 1-3).
Abbildung 1-3: Dokumentaufbau bei "Descriptive Markup"
Diese Dreiteilung bietet den Vorteil, dass die Formatierung des Dokumentes
automatisch generiert und auch zu späterer Zeit dokumentweit ohne Probleme
geändert werden kann, z. B. alle Überschriften von "Arial, fett, Schriftgröße 14" auf
"Times New Roman, Schriftgröße 16".
Dokument
Inhalt
Struktur
Format

1. Kapitel: Einleitung
- 4 -
Des Weiteren besteht der Vorteil, dass eine automatische Konvertierung in ver-
schiedene Dateiformate oder Systeme ermöglicht wird [GoPr99, S. 28].
1.2 Markierungssprachen
Das "Descriptive Markup", der Ursprung heutiger Markierungssprachen, liegt Ende
der sechziger Jahre und basiert auf einer Idee von William Tunnicliffe, dem
damaligen Vorsitzenden der "Graphic Communications Association" (GCA). Schon
1967 stellte er das Konzept des "Generic Coding" ("artgemäße Markierung"
[BeMi00, S. 37]) vor, welches die Trennung des Informationsgehaltes eines
Dokumentes von seiner äußeren Form vorsah. Kurze Zeit später veröffentlichte der
New Yorker Verleger Stanley Rice seine Idee von "Editorial Structure Tags", einem
universellen Verzeichnis zur Standardisierung von Formatierungsanweisungen,
woraus sich das heutige "Generic" bzw. "Descriptive Markup" entwickelte.
Aufbauend auf diesen Ideen entwickelte 1969 ein Team der Firma IBM, bestehend
aus Charles F. Goldfarb, Edward Mosher und Raymond Lorie, die "Generalized
Markup Language" (GML). GML war die erste Markierungssprache, die einen formal
definierten Dokumenttyp mit explizit geschachtelter Struktur enthielt [Part0101, S. 7;
BeMi00, S. 37].
1.2.1 Standard Generalized Markup Language (SGML)
Die wesentliche Entwicklung der Markierungssprachen begann im Jahr 1978, indem
das "American National Standard Institute" (ANSI) auf Grundlage von GML einen
Standard für Markierungssprachen entwarf. Ab 1984, nachdem das Projekt reorga-
nisiert wurde, arbeitete die "International Standard Organisation" (ISO) an der
Gestaltung dieser Spezifikation mit. Die Koordination zwischen ISO und ANSI
übernahm Charles F. Goldfarb. 1986 wurde die endgültige Version der "Standard
Generalized Markup Language" als ISO-Standard 8879 verabschiedet.
Die Verbreitung und damit der Erfolg von SGML ging jedoch unerwartet langsam
voran. Vorteilhaft war, dass das systemunabhängige SGML eine vom Menschen
lesbare Syntax bereitstellt und eine sehr weitsichtige, nicht nur auf dem technischen
Stand der damaligen Textverarbeitung basierende Entwicklung aufweist. Gerade
aus diesen Eigenschaften resultierte eine große Komplexität, welche SGML relativ

1. Kapitel: Einleitung
- 5 -
schwerfällig und somit nachteilig für die Umsetzung am Computer macht.
Erschwerend kam hinzu, dass kaum Hersteller bereit waren, SGML-kompatible
Software zu entwickeln. SGML wurde deshalb anfangs hauptsächlich bei
technischen Dokumentationen eingesetzt.
Dass SGML damals nicht vollends scheiterte, lag daran, dass SGML eine
Metasprache ist. Mit dieser Eigenschaft ist es möglich, neue, z. B. weniger
komplizierte Markierungssprachen auf Basis von SGML zu definieren. Genau dieses
Merkmal wurde dann für die Entwicklung der "Hypertext Markup Language" genutzt,
die komplett auf SGML basiert [SoAG00b, S. 4-5; Part01, S. 7].
1.2.2 Hypertext Markup Language (HTML)
Der Ursprung des heutigen Internet, und damit auch von HTML, findet sich im
"Advanced Research Project Agency Network" (ARPAnet). Dieses wurde Ende der
sechziger Jahre vom U.S. Verteidigungsministerium entwickelt, um die Super-
computer amerikanischer Eliteuniversitäten zu verbinden. Bei einem Ausfall von
Teilen des Netzwerkes, z. B. durch einen nuklearen Angriff, sollte die akademische
und militärische Kommunikation sichergestellt sein.
Das Internet war zunächst für viele Jahre eine Einrichtung, die nur in kleineren
Kreisen von Wissenschaft und Militär genutzt wurde. 1989 startete der britische
Informatiker Tim Berners-Lee am Genfer Kernforschungszentrum "Centre Européen
pour la recherche nucleaire" (CERN) mit einigen Kollegen eine Initiative zur breiten
wissenschaftlichen Nutzung des Internet und machte es dadurch zum heute
bekannten, schnell wachsenden und weltumspannenden Kommunikationsnetz
[HaLy99, www]. Die tragende Säule dieser Initiative war die Entwicklung des "World
Wide Web" und die dafür neu entwickelte, auf SGML basierende Markierungs-
sprache HTML. Ziel von HTML ist es, einfache Textformatierungen und Grafiken in
wissenschaftliche Dokumente einzubinden, welche mit speziellen Anwendungs-
programmen, so genannten "Browsern", überall in einem Netzwerk erreichbar und
damit sichtbar gemacht werden. Realisiert wurde das ganze durch Markup-Befehle,
die bei HTML fest in einer so genannten "Document Type Definition" (DTD; siehe
Kapitel 2.2) definiert sind.
Der erste Browser mit grafischer Oberfläche entstand 1993 durch den Studenten
Marc Andreesen. Dieser kostenlose Browser mit Namen "Mosaic" erleichterte die

1. Kapitel: Einleitung
- 6 -
Navigation erheblich und förderte die Verbreitung von HTML. Ein weiteres, ganz
entscheidendes Merkmal von HTML ist, wie der Name schon sagt, die Hypertext-
Funktionalität. Ein Hypertext ist ein "nichtlinearer, nichtsequenzieller Text, der dem
Benutzer eine freie Navigation" [Zöll99, www] innerhalb eines Dokumentes oder
zwischen unterschiedlichen Dokumenten auf verschiedenen Computern ermöglicht.
Im Oktober 1994 wurde das "World Wide Web Consortium" gegründet, mit dem Ziel,
das volle Potential des WWW zu entfalten. Hierfür wurden allgemeine Protokolle
entwickelt, die die Weiterentwicklung förderten und die Kompatibilität sicherstellten.
Mittlerweile ist das W3C eine über 500 Mitglieder aus Industrie und Forschung
zählende Organisation [Jaco00, www].
Die erste offizielle Handlung des W3C war die Standardisierung der HTML 2.0-
Spezifikation, die erstmals konsequent nach dem SGML-Standard entwickelt wurde.
Durch die einfache Struktur von HTML, mit der begrenzten Anzahl von Markup-
Befehlen, wurde es in relativ kurzer Zeit möglich, umfangreiche Dokumente in HTML
zu erstellen.
In den folgenden Jahren wurden durch die Entwicklungen des Netscape Navigators
und des Microsoft Internet Explorers, den heute am häufigsten verwendeten
Browsern, ständig neue und teilweise nicht standardisierte Markup-Befehle hinzuge-
fügt. Dadurch wurden einige dieser Befehle nur von bestimmten Browsern ver-
standen und strukturelle Markup-Befehle vermischten sich mit Layoutanweisungen.
Damit wurde ein entscheidender Vorteil der Markierungssprache HTML, die
automatische Verarbeitung der enthaltenen Informationen, deutlich erschwert. Die
Philosophie der ursprünglichen Markierungssprachen trat so immer mehr in den
Hintergrund. Trotz dieser Entwicklungen versuchte das W3C, eine neue HTML-
Spezifikation zu standardisieren. Nachdem es zu keiner Einigung über die
Spezifikation 3.0 kam, wurde 1997 die Version 3.2 standardisiert. Seit 1998 gibt es
die Spezifikation 4.0, die eine teilweise Rückbesinnung auf Trennung von
Datenstruktur und Layoutangaben brachte, indem das W3C empfahl, auf Layout-
markierungen zu verzichten.
Hierzu wurden die so genannten "Cascading Stylesheets" (CSS) entwickelt, welche
die Funktion der Formatierung bzw. der Formatdefinition in HTML übernehmen
(siehe Abbildung 1-4).

1. Kapitel: Einleitung
- 7 -
Abbildung 1-4: Umwandlung von Informationen durch CSS [PoWi00, S. 41]
Die Art der Formatierung ist nur bei wenigen Attributen, wie z. B. Schriftarten und
-farben, möglich. Der größte Teil der Darstellung bleibt stets in der HTML-Datei
enthalten, deshalb ist der Ansatz der CSS zur Trennung von Inhalt und Design nur
bedingt geeignet. Die Rückbesinnung auf den ursprünglichen Grundgedanken
konnte also nur als Teilerfolg gewertet werden, da HTML 3.2 schon weit verbreitet
war, und es weiterhin immer noch viele Unstimmigkeiten zwischen den Browser-
Herstellern gab. Trotz der in HTML 4.0 eingebetteten Ergänzungen wurde deutlich,
dass HTML an Grenzen stoßen wird, da die Kommerzialisierung des WWW und der
stetig wachsende Datenaustausch nur durch neue, grundlegende Entwicklungen
bewältigt werden kann [Stur00, S. 15-18; WeHa01, S. 16].
1.2.3 Extensible Markup Language (XML)
Aus den oben geschilderten Gründen beschloss das W3C 1996 eine neue
Markierungssprache zu entwickeln, "die die Hauptvorzüge von SGML bewahrt, aber
auch die Webethik der minimalistischen Einfachheit berücksichtigt" [GoPr99, S. 40].
Diese neue Markierungssprache erhielt den Namen "Extensible Markup Language".
Die hier aufgeführte Erläuterung dient der chronologischen Eingliederung von XML
in die Entwicklung der Markierungssprachen. Eine detaillierte Betrachtung erfolgt in
den anschließenden Kapiteln.
Dokument
Browser-
Ansicht
Cascading
Stylesheets
Logische
Auszeichnung
Physische
Auszeichnung

1. Kapitel: Einleitung
- 8 -
Für XML wurden die folgenden zehn offiziellen Entwurfsziele vom W3C festgelegt
[W3C00a, www]:
1. XML soll sich im Internet auf einfache Weise nutzen lassen
2. XML soll ein breites Spektrum von Anwendungen unterstützen
3. XML soll zu SGML kompatibel sein
4. Es soll einfach sein, Programme zu schreiben, die XML-Dokumente verarbeiten
5. Die Zahl optionaler Merkmale in XML soll minimal sein, idealerweise Null
6. XML-Dokumente sollten für Menschen lesbar und angemessen verständlich sein
7. Der XML-Entwurf sollte zügig abgefasst sein
8. Der Entwurf von XML soll formal und präzise sein
9. XML-Dokumente sollen leicht zu erstellen sein
10. Knappheit von XML-Markup soll von minimaler Bedeutung sein
Hauptziel der Entwicklung ist ein schlanker Standard für eine präzise Definition von
XML als formale Sprache. Da XML auf der sehr umfangreichen "Mutter aller
Markierungssprachen" [Münz98, www] SGML basiert (siehe Abbildung 1-5), musste
die Komplexität von SGML reduziert werden, indem alle für das Internet
überflüssigen Eigenschaften sowie eine Vielzahl komplizierter und selten genutzter
Features nicht in XML übernommen wurden [Behm01, S. 52-53].
Abbildung 1-5: Beziehungen zwischen den einzelnen Markierungssprachen
Trotz dieser Reduzierungen ist XML aufwärtskompatibel zu SGML und wird daher
auch gelegentlich als "SGML Lite" bezeichnet [Mach97, www]. Durch den Begriff
"extensible" wird das Hauptmerkmal von XML angedeutet - die Erweiterbarkeit. XML
Auf SGML basierende
Markierungssprache
HTML
VoiceXML
WML
XHTML
SGML
XML
Auf XML basierende
Markierungssprachen
Meta-Markierungssprachen

1. Kapitel: Einleitung
- 9 -
ist, wie SGML, eine Metasprache, die eine Syntax definiert, mit der andere
semantische und strukturierte Markierungssprachen definiert werden. So können
eigene Dokumenttypen kreiert werden und es ist nicht mehr nötig, sich auf starre
HTML-Strukturen zu beschränken. Dies ist möglich, da XML genau wie SGML keine
feste DTD besitzt, sondern lediglich Vorschriften zum Erstellen einer eigenen
bereithält. Zusätzlich ermöglicht XML eine semantisch orientierte Auszeichnung der
Inhalte (siehe Quellcode 1-1).
Quellcode 1-1: Vergleich der Syntax von HTML und XML
Dadurch werden Informationen reichhaltiger beschrieben und es wird ermöglicht,
Inhalte besser zu verstehen bzw. einzuordnen. Dies ist bei HTML nicht möglich, da
die DTD fest und nicht erweiterbar im Browser integriert ist.
XML ermöglicht außerdem die Darstellung beliebig tief verschachtelter Strukturen,
wie sie zur Repräsentation von komplexen Hierarchien benötigt werden. Die in XML
definierten Befehle haben keine Bedeutung für das Aussehen, wohingegen HTML
ein reines Präsentationsformat ist. Da kein Zusammenhang der einzelnen Daten
untereinander besteht, sind weitergehende Informationen über die Struktur des
Inhaltes nicht abbildbar [WeBu99, www].
Ein zusätzliches Merkmal von XML ist die Validierung, also die Überprüfung auf
Gültigkeit eines Dokumentes. Somit wird externen Anwendungen die Möglichkeit
gegeben die strukturelle Gültigkeit der Daten zu überprüfen. Dies ist in HTML nicht
möglich, da keine Sprachspezifikationen für die Gültigkeit eines Dokumentes
existieren. Die als "HTML-Dilemma" [WeBu99, www] zusammengefassten Defizite
(fehlende Erweiterbarkeit, Strukturierung und Validierung) wurden damit alle in der
HTML: XML:
<HTML>
<?XML version="1.0"?>
<BODY>
<ADRESSE>
Hugo <p>
<VORNAME>Hugo</VORNAME>
Müller <p>
<NACHNAME>Müller</NACHNAME>
Hauptstr. 17 <p>
<STRASSE>Hauptstr. 17</STRASSE>
69117 <p>
<PLZ>69117</PLZ>
Heidelberg
<ORT>Heidelberg</ORT>
</BODY>
</ADRESSE>
</HTML>

1. Kapitel: Einleitung
- 10 -
Entwicklung von XML berücksichtigt und behoben. XML gilt jedoch nicht als
Nachfolger oder Ersatz für HTML, da letzteres im WWW sehr verbreitet ist und für
die Belange, gerade im nicht-kommerziellen Bereich, vollkommen ausreicht. Dies
hat das W3C erkannt und sich zur Aufgabe gemacht, HTML so weiterzuentwickeln,
um die aufgeführten Nachteile zu umgehen. Hierzu erfolgte eine Reformulierung des
HTML 4.0-Standards in XML unter dem Namen "Extensible Hypertext Markup
Language" (XHTML) [PoWi00, S. 51-53].
1.2.4 Extensible Hypertext Markup Language (XHTML)
XHTML stellt in gewisser Weise die nächste Stufe der Evolution von HTML dar und
wurde entwickelt, um HTML 4.0 mit den Vorzügen von XML als Modellierungs-
sprache für Dokumente und Datenstrukturen zu kombinieren. Der gesamte
Sprachumfang von HTML 4.0 sollte durch XML so abgebildet werden, dass
bestehende HTML-Dokumente weiterverwendet und gleichzeitig die hinter XML
stehenden Konzepte übernommen werden können. Die wichtigste Änderung gegen-
über HTML ist die strikte Umsetzung eines wohlgeformten Quellcodes. Dies be-
deutet, dass nach den XHTML-Regeln geschriebene Dokumente keinen Fehler in
der Verwendung der HTML-Befehle enthalten dürfen. Diese klar definierten Regeln
ermöglichen beispielsweise die Ausführungsgeschwindigkeit von Browsern zu
erhöhen, da keine Routinen zur Verarbeitung fehlerhaften Quellcodes implementiert
werden müssen. Außerdem sollen mit XHTML vorhandene Kompatibilitätsprobleme
bei der Interpretation von HTML-Code von diversen Browsern unterschiedlicher
Hersteller vermieden werden [SiDe00, www].
1.2.4.1 XHTML Version 1.0
XHTML 1.0 kennt drei DTD (siehe Kapitel 2.2), in denen die Regeln und Vor-
schriften für den jeweiligen Einsatz in einer knappen und eindeutigen Art festlegt
werden. "XHTML 1.0 Strict" wird benutzt, wenn ein reines "Descriptive Markup"
gewünscht wird, das frei von Layout-Anweisungen ist. Hierbei werden aber
Formatierungen durch CSS unterstützt.
Im Gegensatz dazu bietet "XHTML 1.0 Transitional" grundlegende Designbefehle.
Es kommt zum Einsatz, wenn der Anwender keinen aktuellen Browser verwendet
und auch keine CSS unterstützt werden müssen.

1. Kapitel: Einleitung
- 11 -
Werden Frames, Seitenrahmen, die eine HTML-Seite in mehrere kleine Segmente
unterteilen, benötigt, wird "XHTML 1.0 Frameset" genutzt. Hierbei ist keine Form
von Layout oder Darstellung der eigentlichen Seite notwendig [W3C01a, www;
PoWi00, S. 362].
1.2.4.2 Modularisierung von XHTML
Mit der Spezifikation zur Modularisierung von XHTML durch das W3C soll der
Aufbau von XHTML-Untermengen ermöglicht werden. Diese Untermengen erlauben
die Erstellung vielfältiger Web-Inhalte auf nahezu allen Geräten. Durch die Modul-
bauweise kann XHTML 1.0 in verschiedenste Komponenten aufgesplittet werden,
die jeweils bestimmte Funktionen beinhalten. Dadurch ist es leichter, standardisierte
Inhalte bereitzustellen. Die erste Implementierung dieser Modularisierung heißt
"XHTML Basic" [W3C01h, www].
1.2.4.3 XHTML
Basic
Die XHTML Basic-DTD schließt die Module ein, die mindestens erforderlich sind,
der Sprache gerecht zu werden. Zusätzlich beinhaltet sie Grafiken, Formulare,
grundlegende Tabellen und Objektunterstützung. XHTML Basic ist für Web-Clients
geschaffen, die nicht alle XHTML-Eigenheiten unterstützen, wie Mobiltelefone oder
"Personal Digital Assistants" (PDA). Diese DTD ist für die Erstellung von XHTML-
Inhalten ausreichend ausgestattet. Das Ziel von XHTML Basic ist es, eine gemein-
same Sprache vorzulegen, die von verschiedensten Benutzerschnittstellen unter-
stützt wird [W3C00d, www].
1.2.4.4 XHTML Version 1.1
Die kürzlich erschienene Empfehlung für XHTML Version 1.1 definiert eine neue
XHTML-DTD, die ebenfalls auf der Spezifikation zur Modularisierung von XHTML
basiert. Im Wesentlichen handelt es sich dabei um eine Neuformulierung der
"XHTML 1.0 Strict"-DTD, welche die Basis für zukünftig erweiterbare Dokument-
typen bildet. Einige DTD-Eigenschaften von "Transitional" und "Frameset" sind nicht
in XHTML 1.1 verfügbar, können aber dank der Modularisierung von XHTML durch
Module verfügbar gemacht werden. Dies erfolgt durch selbstdefinierte DTD
[W3C01i, www].

2. Kapitel: Technische Grundlagen zu XML
- 12 -
2 Technische Grundlagen zu XML
Im Folgenden Kapitel werden die technischen Grundlagen zu XML erläutert, um die
Einsatzmöglichkeiten, sowie den aktuellen Entwicklungsstand der Markierungs-
sprache XML zu betrachten.
2.1 Aufbau eines XML-Dokumentes
Das Grundgerüst eines XML-Dokumentes besteht aus dem so genannten Prolog,
einer DTD-Deklaration, Kommentaren und dem eigentlichen Inhalt, wie in Abbildung
2-1 skizziert.
Abbildung 2-1: Grundgerüst eines XML-Dokumentes
Die einzelnen Komponenten werden in den folgenden Abschnitten betrachtet.
2.1.1 Prolog
Die erste Zeile jedes XML-Dokumentes ist der Prolog, welcher das Dokument
einleitet und signalisiert, dass es sich im Folgenden um XML-Daten handelt (siehe
Quellcode 2-1).
Quellcode 2-1: Prolog eines XML-Dokumentes
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
Prolog
DTD
Kommentare
Inhalt
<?xml version ...>
<!DOCTYPE ...>
<!-- Kommentare -->
<daten>...</daten>

2. Kapitel: Technische Grundlagen zu XML
- 13 -
Mit dem Parameter "version" wird die verwendete XML-Version festgelegt. Damit ein
Ausgabegerät die Daten mit dem richtigen Zeichensatz darstellen kann, wird unter
"encoding" der verwendete Zeichensatz angegeben. Mit "standalone" wird
gekennzeichnet, ob sich die vollständige Definition der Dokumentstruktur im
Kopfbereich des Dokumentes befindet oder ob eine externe DTD eingebunden ist
[Dünh98a, www]
2.1.2 DTD-Deklaration
Nach dem Prolog folgt die DTD-Deklaration. Um zu überprüfen, ob das Dokument
wohlgeformt oder gültig ist, kann eine DTD-Deklaration vereinbart werden, welche
durch den Befehl "!DOCTYPE" eingebunden wird (siehe Quellcode 2-2).
Quellcode 2-2: Einbindung einer DTD
Nach der Angabe des Wurzelelements, welches später den Dokumentkörper
umschließt, folgt der Parameter "SYSTEM", für eine selbsterstellte DTD, oder
"PUBLIC", für eine globale DTD [Hein01a, www].
2.1.3 Kommentare
Kommentare sind Daten, die nicht von einem Programm ausgewertet werden. Sie
dienen dazu, einzelne Abschnitte eines XML-Dokumentes zu kennzeichnen, damit
die Funktion und der Sinn ersichtlich wird (siehe Quellcode 2-3).
Quellcode 2-3: Beispiel eines Kommentares
Kommentare dürfen an fast jeder beliebigen Stelle eines XML-Dokumentes ein-
gefügt werden. "Tags" (Markup-Anweisungen) bilden die Ausnahme, da innerhalb
von Tags keine Kommentare eingefügt werden dürfen [W3C00a, www].
<!-- Dies ist ein Beispiel Kommentar -->
<!DOCTYPE Wurzelelement SYSTEM "Beispiel.dtd">

2. Kapitel: Technische Grundlagen zu XML
- 14 -
2.1.4 Inhalt
Den wesentlichen Teil des Dokumentes bilden die eigentlichen Daten. Im
Datenbereich werden die in der DTD definierten Elemente mit Inhalten gefüllt. Die
Struktur der Daten ist hierarchisch aufgebaut und vom Wurzelelement umschlossen,
welches sich in mehrere Unterelemente verzweigt (siehe Abbildung 2-2).
Abbildung 2-2: Baumstrukturansicht eines XML-Dokumentes
Die Definition des Wurzelelementes befindet sich innerhalb der DTD-Deklaration.
2.1.4.1 Elemente
Aufgabe der Elemente in einem XML-Dokument ist, die Struktur des Dokumentes zu
beschreiben. Es existieren zwei grundsätzliche Arten von Elementen, leere und mit
Inhalt gefüllte Elemente. Letztere bestehen aus einem Start-Tag, gefolgt von Inhalt
und einem abschließenden End-Tag (siehe Quellcode 2-4).
Quellcode 2-4: Beispiel eines Elementes mit Inhalt
<Beispiel>Inhalt des Elementes "Beispiel"</Beispiel>
Wurzelelement
Unterelement
Unterelement
Unterelement
Unterelement Unterelement
Unterelement
Unterelement
Unterelement

2. Kapitel: Technische Grundlagen zu XML
- 15 -
In der DTD ist festgelegt, woraus der Inhalt eines Elementes bestehen darf. In XML
gilt die Regel, dass zu jedem öffnenden Tag auch ein schließender existieren muss.
Die Ausnahme bildet die Schreibweise bei leeren XML-Elementen. Hier kann das
öffnende und schließende Tag zusammengefasst werden. Leere Elemente
bestehen lediglich aus einem Tag, der einen Schrägstrich vor der schließenden
spitzen Klammer enthält. Alternativ werden leere Elemente durch einen
äquivalenten Start-Tag mit direkt folgendem End-Tag dargestellt [SiDe00, www]
(siehe Quellcode 2-5)
Quellcode 2-5: Zwei verschiedene Darstellungen eines leeren Elementes
Neben dem eigentlichen Inhalt können Elemente auch Attribute enthalten.
2.1.4.2 Attribute
Attribute sind Parameter, die Information über den Inhalt eines Elementes enthalten.
Ein Element kann durch Wahl eines passenden Namens semantische Information
über seinen Inhalt liefern. Oftmals ist dies jedoch nicht, oder nur teilweise, möglich.
Durch Angabe eines Attributes kann der Inhalt eines Elementes genauer spezifiziert
werden. Attribute sind aus einem Namen und einem zugehörigen Wert zusammen-
gesetzt (siehe Quellcode 2-6).
Quellcode 2-6: Element Buch mit dem Attribut Autor
Damit Dokumente als gültig gelten, sind Attribute in der DTD zu deklarieren. Die
Wertetypen im Dokument müssen mit dem in der DTD deklarierten Typ über-
einstimmen [Info00, www].
Absatz/ oder Absatz/Absatz
Buch Autor=Stefan Mintert

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2001
ISBN (eBook)
9783832454562
ISBN (Paperback)
9783838654560
DOI
10.3239/9783832454562
Dateigröße
820 KB
Sprache
Deutsch
Institution / Hochschule
Fachhochschule Heidelberg – unbekannt
Erscheinungsdatum
2002 (Mai)
Note
1,3
Schlagworte
publishing electronic business sgml
Zurück

Titel: Einsatzmöglichkeiten der Markierungssprache XML
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
110 Seiten
Cookie-Einstellungen