Einsatzmöglichkeiten der Markierungssprache XML
Betrachtung des aktuellen Entwicklungsstandes
					
	
		©2001
		Diplomarbeit
		
			
				110 Seiten
			
		
	
				
				
					
						
					
				
				
				
				
			Zusammenfassung
			
				Inhaltsangabe:Einleitung:	
Die Extensible Markup Language (XML) ist eine textbasierte Meta-Markierungssprache, die es in kurzer Zeit geschafft hat, sich in allen Bereichen der Informationstechnologie und im Besonderen im Internet auszubreiten. XML wurde durch das World Wide Web Consortium entwickelt, um ein offenes, über das Internet nutzbares Datenformat für Dokumente zu bieten. Dieses soll sich im Internet auf einfache Weise nutzen lassen und ein breites Spektrum von Anwendungen unterstützen.
Im Gegensatz zur Hypertext Markup Language (HTML) handelt es sich bei XML um keine starre, vordefinierte Markierungssprache, sondern vielmehr um eine Metasprache. XML stellt Vorschriften bereit und ermöglicht es, eine beliebige Anzahl von Markierungssprachen für verschiedene Einsatzbereiche zu definieren.
Des Weiteren kann XML als Basistechnologie für das Web Publishing, also für die Erstellung, Verwaltung und Pflege von Inhalten über das Internet eingesetzt werden.
Außerdem werden mit XML Daten bzw. Dokumente beschrieben und strukturiert, damit diese über das Internet zwischen einer Vielzahl von Anwendungen und unterschiedlichen Plattformen ausgetauscht und weiterverarbeitet werden können. XML bildet so die Grundlage für verschiedenste EDI- oder E-Business-Anwendungen.
	
Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Einleitung1
1.1Definition Markup1
1.1.1Procedural Markup2
1.1.2Descriptive Markup3
1.2Markierungssprachen4
1.2.1Standard Generalized Markup Language (SGML)4
1.2.2Hypertext Markup Language (HTML)5
1.2.3Extensible Markup Language (XML)7
1.2.4Extensible Hypertext Markup Language(XHTML)10
1.2.4.1XHTML Version 1.010
1.2.4.2Modularisierung von XHTML11
1.2.4.3XHTML Basic11
1.2.4.4XHTML Version 1.111
2.Technische Grundlagen zu XML12
2.1Aufbau eines XML-Dokumentes12
2.1.1Prolog12
2.1.2DTD-Deklaration13
2.1.3Kommentare13
2.1.4Inhalt14
2.1.4.1Elemente14
2.1.4.2Attribute15
2.1.4.3Entity-Referenzen16
2.1.4.4Processing Instructions (PI)16
2.1.4.5CDATA-Abschnitte17
2.1.4.6Namespaces17
2.2Document Type Definition (DTD)18
2.2.1Wohlgeformtheit und Gültigkeit19
2.2.2Elementtyp-Deklaration19
2.2.3Attributlisten-Deklaration21
2.2.4Entity-Deklaration23
2.3XML Schema25
2.3.1Part 0: Primer26
2.3.2Part 1: Structures26
2.3.2.1Elementtyp-Deklaration26
2.3.2.2Attribut-Deklaration28
2.3.3Part 2: Datatype28
2.3.3.1Built-in-Datentypen28
2.3.3.2User-derived-Datentypen30
2.3.4Fazit30
2.4Stylesheets in Verbindung mit […]
	Die Extensible Markup Language (XML) ist eine textbasierte Meta-Markierungssprache, die es in kurzer Zeit geschafft hat, sich in allen Bereichen der Informationstechnologie und im Besonderen im Internet auszubreiten. XML wurde durch das World Wide Web Consortium entwickelt, um ein offenes, über das Internet nutzbares Datenformat für Dokumente zu bieten. Dieses soll sich im Internet auf einfache Weise nutzen lassen und ein breites Spektrum von Anwendungen unterstützen.
Im Gegensatz zur Hypertext Markup Language (HTML) handelt es sich bei XML um keine starre, vordefinierte Markierungssprache, sondern vielmehr um eine Metasprache. XML stellt Vorschriften bereit und ermöglicht es, eine beliebige Anzahl von Markierungssprachen für verschiedene Einsatzbereiche zu definieren.
Des Weiteren kann XML als Basistechnologie für das Web Publishing, also für die Erstellung, Verwaltung und Pflege von Inhalten über das Internet eingesetzt werden.
Außerdem werden mit XML Daten bzw. Dokumente beschrieben und strukturiert, damit diese über das Internet zwischen einer Vielzahl von Anwendungen und unterschiedlichen Plattformen ausgetauscht und weiterverarbeitet werden können. XML bildet so die Grundlage für verschiedenste EDI- oder E-Business-Anwendungen.
Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Einleitung1
1.1Definition Markup1
1.1.1Procedural Markup2
1.1.2Descriptive Markup3
1.2Markierungssprachen4
1.2.1Standard Generalized Markup Language (SGML)4
1.2.2Hypertext Markup Language (HTML)5
1.2.3Extensible Markup Language (XML)7
1.2.4Extensible Hypertext Markup Language(XHTML)10
1.2.4.1XHTML Version 1.010
1.2.4.2Modularisierung von XHTML11
1.2.4.3XHTML Basic11
1.2.4.4XHTML Version 1.111
2.Technische Grundlagen zu XML12
2.1Aufbau eines XML-Dokumentes12
2.1.1Prolog12
2.1.2DTD-Deklaration13
2.1.3Kommentare13
2.1.4Inhalt14
2.1.4.1Elemente14
2.1.4.2Attribute15
2.1.4.3Entity-Referenzen16
2.1.4.4Processing Instructions (PI)16
2.1.4.5CDATA-Abschnitte17
2.1.4.6Namespaces17
2.2Document Type Definition (DTD)18
2.2.1Wohlgeformtheit und Gültigkeit19
2.2.2Elementtyp-Deklaration19
2.2.3Attributlisten-Deklaration21
2.2.4Entity-Deklaration23
2.3XML Schema25
2.3.1Part 0: Primer26
2.3.2Part 1: Structures26
2.3.2.1Elementtyp-Deklaration26
2.3.2.2Attribut-Deklaration28
2.3.3Part 2: Datatype28
2.3.3.1Built-in-Datentypen28
2.3.3.2User-derived-Datentypen30
2.3.4Fazit30
2.4Stylesheets in Verbindung mit […]
Leseprobe
Inhaltsverzeichnis
ID 5456 
Benz, Alexander: Einsatzmöglichkeiten der Markierungssprache XML: Betrachtung des 
aktuellen Entwicklungsstandes / Alexander Benz - Hamburg: Diplomica GmbH, 2002  
Zugl.: Heidelberg, Fachhochschule, Diplomarbeit, 2001
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die 
der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, 
der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der 
Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, 
vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im 
Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der 
Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich 
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des 
Urheberrechtes. 
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem 
Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche 
Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten 
wären und daher von jedermann benutzt werden dürften. 
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht 
vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die Autoren oder 
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl. 
verbliebene fehlerhafte Angaben und deren Folgen. 
Diplomica GmbH 
http://www.diplom.de, Hamburg 2002 
Printed in Germany 
Zusammenfassung des Gesamtinhaltes 
Die "Extensible Markup Language" (XML) ist eine textbasierte Meta-Markierungs-
sprache, die es in kurzer Zeit geschafft hat, sich in allen Bereichen der 
Informationstechnologie und im Besonderen im Internet auszubreiten. XML wurde 
durch das "World Wide Web Consortium" entwickelt, um ein offenes, über das 
Internet nutzbares Datenformat für Dokumente zu bieten. Dieses soll sich im 
Internet auf einfache Weise nutzen lassen und ein breites Spektrum von 
Anwendungen unterstützen 
Im Gegensatz zur "Hypertext Markup Language" (HTML) handelt es sich bei XML 
um keine starre, vordefinierte Markierungssprache, sondern vielmehr um eine 
Metasprache. XML stellt Vorschriften bereit und ermöglicht es, eine beliebige Anzahl 
von Markierungssprachen für verschiedene Einsatzbereiche zu definieren. 
Des Weiteren kann XML als Basistechnologie für das Web Publishing, also für die 
Erstellung, Verwaltung und Pflege von Inhalten über das Internet eingesetzt werden. 
Außerdem werden mit XML Daten bzw. Dokumente beschrieben und strukturiert, 
damit diese über das Internet zwischen einer Vielzahl von Anwendungen und 
unterschiedlichen Plattformen ausgetauscht und weiterverarbeitet werden können. 
XML bildet so die Grundlage für verschiedenste EDI- oder E-Business-
Anwendungen. 
Abstract 
The "Extensible Markup Language" (XML) is a text-based meta-markup language, 
that, in a short period of time, has accomplished to spread out in all fields of 
information technology and especially in the internet. XML was developed by the 
World Wide Web Consortium to create an open data format for documents useable 
through the internet. XML is supposed to be used easily through the internet and 
support a wide spectrum of applications. 
Unlike HTML, XML is not a rigid, predefined markup language, but rather a meta 
language. XML provides rules and allows to define any number of markup 
languages for different employments. 
XML can also be used as a base technology for Web Publishing, i.e. the making, 
management and maintenance of contents through the internet. 
Furthermore data or rather documents can be described and structured by XML, so 
they can be exchanged and processed between a multitude of applications and 
different platforms via internet. By that XML sets up a foundation for various EDI- or 
E-Business-applications. 
Inhaltsverzeichnis 
1
Einleitung ...1
1.1
Definition Markup...1
1.1.1
Procedural Markup ...2
1.1.2
Descriptive Markup...3
1.2
Markierungssprachen...4
1.2.1
Standard Generalized Markup Language (SGML)...4
1.2.2
Hypertext Markup Language (HTML) ...5
1.2.3
Extensible Markup Language (XML)...7
1.2.4
Extensible Hypertext Markup Language  (XHTML)...10
1.2.4.1
XHTML Version 1.0 ...10
1.2.4.2
Modularisierung von XHTML...11
1.2.4.3
XHTML Basic...11
1.2.4.4
XHTML Version 1.1 ...11
2
Technische Grundlagen zu XML ...12
2.1
Aufbau eines XML-Dokumentes ...12
2.1.1
Prolog...12
2.1.2
DTD-Deklaration...13
2.1.3
Kommentare...13
2.1.4
Inhalt ...14
2.1.4.1
Elemente ...14
2.1.4.2
Attribute ...15
2.1.4.3
Entity-Referenzen ...16
2.1.4.4
Processing Instructions (PI) ...16
2.1.4.5
CDATA-Abschnitte...17
2.1.4.6
Namespaces...17
2.2
Document Type Definition (DTD) ...18
2.2.1
Wohlgeformtheit und Gültigkeit...19
2.2.2
Elementtyp-Deklaration ...19
2.2.3
Attributlisten-Deklaration ...21
2.2.4
Entity-Deklaration ...23
2.3
XML Schema ...25
2.3.1
Part 0: Primer ...26
2.3.2
Part 1: Structures ...26
2.3.2.1
Elementtyp-Deklaration...26
2.3.2.2
Attribut-Deklaration ...28
2.3.3
Part 2: Datatype ...28
2.3.3.1
Built-in-Datentypen ...28
2.3.3.2
User-derived-Datentypen...30
2.3.4
Fazit ...30
2.4
Stylesheets in Verbindung mit XML ...31
2.4.1
Cascading Stylesheets (CSS) ...31
2.4.2
Extensible Stylesheet Language (XSL)...32
2.4.2.1
XSL-Transformation (XSLT) ...33
2.4.2.2
XSL-Formating Objects (XSL-FO) ...35
2.4.3
Fazit ...36
2.5
Verweise in XML ...36
2.5.1
Extensible Linking Language (XLink)...37
2.5.1.1
Einfache Verweise ...38
2.5.1.2
Erweiterte Verweise...38
2.5.2
XML Pointer Language (XPointer) ...39
2.5.3
Fazit ...40
2.6
Verarbeitung von XML-Dokumenten ...40
2.6.1
Nichtvalidierende Parser ...41
2.6.2
Validierende Parser ...42
2.6.3
Document Object Model (DOM)...42
2.6.4
Simple API for XML (SAX)...43
2.6.5
Fazit ...44
3
XML-Technologien in der Praxis...45
3.1
XML als systemunabhängige Meta-Markierungssprache ...45
3.1.1
Wireless Markup Language (WML) ...46
3.1.1.1
Wireless Application Protocol (WAP) ...46
3.1.1.2
Aufbau eines WML-Dokumentes ...48
3.1.1.3
Wireless Markup Language Script (WMLScript)...51
3.1.1.4
Darstellungsmöglichkeiten ...52
3.1.2
Voice Extensible Markup Language (VoiceXML) ...53
3.1.2.1
Aufbau eines VoiceXML-Dokumentes...53
3.1.2.2
Voice-Browser ...55
3.1.2.3
VoiceXML-Interpreter...56
3.1.2.4
Architektur ...56
3.1.3
Fazit ...57
3.2
Web Publishing mit XML ...59
3.2.1
Probleme...59
3.2.2
Web Content Management Systeme (WCMS)...61
3.2.3
Architektur eines WCMS...62
3.2.3.1
Datenbank Management System (DBMS) ...62
3.2.3.2
Webserver ...63
3.2.3.3
Client ...64
3.2.4
Fazit ...64
3.3
XML im Bereich Electronic Business ...66
3.3.1
Electronic Data Interchange (EDI) ...68
3.3.2
EDI for Administration, Commerce and Transport (EDIFACT) ...70
3.3.3
XML/EDI-Ansatz...71
3.3.3.1
Templates...72
3.3.3.2
Agenten ...73
3.3.3.3
Repositories...74
3.3.4
Weitere XML-Ansätze im E-Business ...74
3.3.4.1
Frameworks...75
3.3.4.2
Functions...76
3.3.4.3
Verticals...77
3.3.5
Fazit ...77
4
Schlussbetrachtung...80
Anhang  
A: Literaturverzeichnis ... I 
B: Abkürzungsverzeichnis ... XIII 
C: Abbildungsverzeichnis ... XVI 
D: Quellcodeverzeichnis ... XVII 
E: Tabellenverzeichnis ... XIX 
.
1. Kapitel: Einleitung 
- 1 - 
1 Einleitung 
In den letzten Jahren entwickelte sich das Internet, insbesondere das "World Wide 
Web" (WWW), zu einer Plattform für Electronic Business-Lösungen. Die "Hypertext 
Markup Language" (HTML), durch die das WWW weltweite Verbreitung fand, hält 
den wachsenden Anforderungen, gerade im kommerziellen Bereich, angesichts 
starrer Strukturen nicht mehr stand. Auch der Einsatz der "Standard Generalized 
Markup Language" (SGML), die Basis aller Markierungssprachen, kann auf Grund 
zu großer Komplexität keine Lösung bieten. Um diese Lücke zu schließen, wurde 
vom "World Wide Web Consortium" (W3C) die "Extensible Markup Language" 
(XML) entwickelt. 
Das Ziel dieser Diplomarbeit ist, die vielfältigen Einsatzmöglichkeiten der Markie-
rungssprache XML zu skizzieren und anschließend in Kapitel 3 zu bewerten. 
Schwerpunkte werden dabei auf drei mögliche Anwendungsgebiete gelegt: Es wird 
untersucht, welches Potential hinter XML als systemunabhängige Meta-Markie-
rungssprache steckt; danach wird überprüft, ob XML als Basistechnologie für das 
"Web Publishing" in Frage kommt; des Weiteren folgt eine Vorstellung von XML als 
Datenaustauschformat zwischen unterschiedlichen Datenbeständen am Beispiel 
EDI. Um die generellen Vorteile von XML gegenüber bisherigen Markierungs-
sprachen aufzuzeigen, wird in diesem einführenden Kapitel zunächst eine Übersicht 
über die Entwicklung der wichtigsten Markierungssprachen gegeben. Im Anschluss 
erfolgt im zweiten Kapitel die technische Betrachtung sowie die Vorstellung aktueller 
Erweiterungen des XML-Standards, was einen fundierten Einstieg in die Thematik 
ermöglicht. Im letzten Kapitel wird ein abschließendes Fazit gezogen und die 
zukünftige Entwicklung betrachtet. 
1.1 Definition 
Markup 
Die "Extensible Markup Language" gehört zur Familie der Markierungssprachen. 
Der Begriff "Markup" (höhere Auszeichnung) stammt ursprünglich aus dem Verlags-
wesen, aus der Zeit, in der es noch nicht die Möglichkeit gab, die Arbeit mit einem 
Desktop Publishing Programm zu bewältigen. Nach der inhaltlichen Überprüfung 
eines Dokumentes fügte der jeweilige Autor handgeschriebene Layoutanweisungen 
oder -markierungen in ein Dokument ein. Durch diese Markierungen erhielt der 
1. Kapitel: Einleitung 
- 2 - 
Schriftsetzer Informationen über das gewünschte Aussehen des endgültigen 
Dokumentes [Sibb00, S. 29-30; BeMi00, S. 35-36]. In der heutigen, digitalen Welt 
wird im Wesentlichen zwischen "Procedural-" und "Descriptive Markup" unter-
schieden. 
1.1.1 Procedural 
Markup 
Beim "Procedural Markup" ("Formatierungs-Markup" [GoPr99, S. 27]) wurde die 
zuvor geschilderte Vorgehensweise später mit dem Erscheinen der ersten 
Computer und der damit verbundenen Ablösung der Schreibmaschinen über-
nommen. Der Autor analysiert hier die Struktur des Dokumentes und fügt dann 
anschließend die entsprechenden Markup-Informationen in das Dokument ein. 
Durch diese wird das spätere Aussehen, z. B. die Schriftart oder die Schriftgröße, 
festgelegt (siehe Abbildung 1-1).  
    Abbildung 1-1: Beispiel für "Procedural Markup" 
Dank grafischer Oberflächen und dem damit verbundenen "What you see is what 
you get" (WYSIWYG) -Prinzip, werden diese Informationen direkt auf dem Bild-
schirm angezeigt. Das grundsätzliche Problem dieser Vorgehensweise stellte der 
Programmierer Brian Kernighan treffend fest: "What you see is all you've got" 
[BoBr99, www]. Damit ist gemeint, dass das Dokument zwar für den Menschen gut 
zu lesen ist, aber Computer erkennen die Dokumentstruktur nur noch aus der 
Formatierung. Dadurch sind solche Dokumente nur schwer zu portieren oder 
wiederzuverwenden [GoPr99, S. 27]. 
Beispielüberschrift 
Dies ist ein Beispiel, 
um die Unterschiede zwischen 
"Procedural Markup¹" "und Descriptive Markup²" 
zu verdeutlichen. 
¹ oder auch "Formatierungs-Markup" 
² oder auch "verallgemeinertes Markup" 
"Überschrift" 
"Standard" 
"Fußnote" 
1. Kapitel: Einleitung 
- 3 - 
Beispielüberschrift 
Dies ist ein Beispiel, 
um die Unterschiede zwischen 
"Procedural Markup¹" "und Descriptive Markup²" 
zu verdeutlichen. 
¹ oder auch "Formatierungs-Markup" 
² oder auch "verallgemeinertes Markup" 
"Arial, fett, Schriftgröße 14"
"Arial, Schriftgröße 11" 
"Arial, Schriftgröße 10"
1.1.2 Descriptive 
Markup 
Im Gegensatz zum "Procedural Markup" konzentriert sich das "Descriptive Markup" 
("verallgemeinertes Markup" [GoPr99, S. 28]; auch bekannt unter dem Namen 
"Generic Markup") darauf, Markierungen in den Text einzubringen, die Aussagen 
über Bedeutung markierter Textstellen machen. So können einzelne Textabschnitte, 
beispielsweise als Überschriften, Standardtext oder Fußnoten definiert werden 
(siehe Abbildung 1-2).  
     Abbildung 1-2: Beispiel für "Descriptive Markup" 
"Descriptive Markup" bietet die Möglichkeit, das eigentliche Dokument in drei Teile, 
bestehend aus Format, Struktur und Inhalt zu teilen (siehe Abbildung 1-3). 
           Abbildung 1-3: Dokumentaufbau bei "Descriptive Markup" 
Diese Dreiteilung bietet den Vorteil, dass die Formatierung des Dokumentes 
automatisch generiert und auch zu späterer Zeit dokumentweit ohne Probleme 
geändert werden kann, z. B. alle Überschriften von "Arial, fett, Schriftgröße 14" auf 
"Times New Roman, Schriftgröße 16".  
Dokument 
Inhalt 
Struktur 
Format 
1. Kapitel: Einleitung 
- 4 - 
Des Weiteren besteht der Vorteil, dass eine automatische Konvertierung in ver-
schiedene Dateiformate oder Systeme ermöglicht wird [GoPr99, S. 28].  
1.2 Markierungssprachen 
Das "Descriptive Markup", der Ursprung heutiger Markierungssprachen, liegt Ende 
der sechziger Jahre und basiert auf einer Idee von William Tunnicliffe, dem 
damaligen Vorsitzenden der "Graphic Communications Association" (GCA). Schon 
1967 stellte er das Konzept des "Generic Coding" ("artgemäße Markierung" 
[BeMi00, S. 37]) vor, welches die Trennung des Informationsgehaltes eines 
Dokumentes von seiner äußeren Form vorsah. Kurze Zeit später veröffentlichte der 
New Yorker Verleger Stanley Rice seine Idee von "Editorial Structure Tags", einem 
universellen Verzeichnis zur Standardisierung von Formatierungsanweisungen, 
woraus sich das heutige "Generic" bzw. "Descriptive Markup" entwickelte. 
Aufbauend auf diesen Ideen entwickelte 1969 ein Team der Firma IBM, bestehend 
aus Charles F. Goldfarb, Edward Mosher und Raymond Lorie, die "Generalized 
Markup Language" (GML). GML war die erste Markierungssprache, die einen formal 
definierten Dokumenttyp mit explizit geschachtelter Struktur enthielt [Part0101, S. 7; 
BeMi00, S. 37]. 
1.2.1  Standard Generalized Markup Language (SGML) 
Die wesentliche Entwicklung der Markierungssprachen begann im Jahr 1978, indem 
das "American National Standard Institute" (ANSI) auf Grundlage von GML einen 
Standard für Markierungssprachen entwarf. Ab 1984, nachdem das Projekt reorga-
nisiert wurde, arbeitete die "International Standard Organisation" (ISO) an der 
Gestaltung dieser Spezifikation mit. Die Koordination zwischen ISO und ANSI 
übernahm Charles F. Goldfarb. 1986 wurde die endgültige Version der "Standard 
Generalized Markup Language" als ISO-Standard 8879 verabschiedet.  
Die Verbreitung und damit der Erfolg von SGML ging jedoch unerwartet langsam 
voran. Vorteilhaft war, dass das systemunabhängige SGML eine vom Menschen 
lesbare Syntax bereitstellt und eine sehr weitsichtige, nicht nur auf dem technischen 
Stand der damaligen Textverarbeitung basierende Entwicklung aufweist. Gerade 
aus diesen Eigenschaften resultierte eine große Komplexität, welche SGML relativ 
1. Kapitel: Einleitung 
- 5 - 
schwerfällig und somit nachteilig für die Umsetzung am Computer macht. 
Erschwerend kam hinzu, dass kaum Hersteller bereit waren, SGML-kompatible 
Software zu entwickeln. SGML wurde deshalb anfangs hauptsächlich bei 
technischen Dokumentationen eingesetzt.  
Dass SGML damals nicht vollends scheiterte, lag daran, dass SGML eine 
Metasprache ist. Mit dieser Eigenschaft ist es möglich, neue, z. B. weniger 
komplizierte Markierungssprachen auf Basis von SGML zu definieren. Genau dieses 
Merkmal wurde dann für die Entwicklung der "Hypertext Markup Language" genutzt, 
die komplett auf SGML basiert [SoAG00b, S. 4-5; Part01, S. 7]. 
1.2.2  Hypertext Markup Language (HTML) 
Der Ursprung des heutigen Internet, und damit auch von HTML, findet sich im 
"Advanced Research Project Agency Network" (ARPAnet). Dieses wurde Ende der 
sechziger Jahre vom U.S. Verteidigungsministerium entwickelt, um die Super-
computer amerikanischer Eliteuniversitäten zu verbinden. Bei einem Ausfall von 
Teilen des Netzwerkes, z. B. durch einen nuklearen Angriff, sollte die akademische 
und militärische Kommunikation sichergestellt sein.  
Das Internet war zunächst für viele Jahre eine Einrichtung, die nur in kleineren 
Kreisen von Wissenschaft und Militär genutzt wurde. 1989 startete der britische 
Informatiker Tim Berners-Lee am Genfer Kernforschungszentrum "Centre Européen 
pour la recherche nucleaire" (CERN) mit einigen Kollegen eine Initiative zur breiten 
wissenschaftlichen Nutzung des Internet und machte es dadurch zum heute 
bekannten, schnell wachsenden und weltumspannenden Kommunikationsnetz 
[HaLy99, www]. Die tragende Säule dieser Initiative war die Entwicklung des "World 
Wide Web" und die dafür neu entwickelte, auf SGML basierende Markierungs-
sprache HTML. Ziel von HTML ist es, einfache Textformatierungen und Grafiken in 
wissenschaftliche Dokumente einzubinden, welche mit speziellen Anwendungs-
programmen, so genannten "Browsern", überall in einem Netzwerk erreichbar und 
damit sichtbar gemacht werden. Realisiert wurde das ganze durch Markup-Befehle, 
die bei HTML fest in einer so genannten "Document Type Definition" (DTD; siehe 
Kapitel 2.2) definiert sind.  
Der erste Browser mit grafischer Oberfläche entstand 1993 durch den Studenten 
Marc Andreesen. Dieser kostenlose Browser mit Namen "Mosaic" erleichterte die 
1. Kapitel: Einleitung 
- 6 - 
Navigation erheblich und förderte die Verbreitung von HTML. Ein weiteres, ganz 
entscheidendes Merkmal von HTML ist, wie der Name schon sagt, die Hypertext-
Funktionalität. Ein Hypertext ist ein "nichtlinearer, nichtsequenzieller Text, der dem 
Benutzer eine freie Navigation" [Zöll99, www] innerhalb eines Dokumentes oder 
zwischen unterschiedlichen Dokumenten auf verschiedenen Computern ermöglicht. 
Im Oktober 1994 wurde das "World Wide Web Consortium" gegründet, mit dem Ziel,  
das volle Potential des WWW zu entfalten. Hierfür wurden allgemeine Protokolle 
entwickelt, die die Weiterentwicklung förderten und die Kompatibilität sicherstellten. 
Mittlerweile ist das W3C eine über 500 Mitglieder aus Industrie und Forschung 
zählende Organisation [Jaco00, www].  
Die erste offizielle Handlung des W3C war die Standardisierung der HTML 2.0- 
Spezifikation, die erstmals konsequent nach dem SGML-Standard entwickelt wurde. 
Durch die einfache Struktur von HTML, mit der begrenzten Anzahl von Markup-
Befehlen, wurde es in relativ kurzer Zeit möglich, umfangreiche Dokumente in HTML 
zu erstellen.  
In den folgenden Jahren wurden durch die Entwicklungen des Netscape Navigators 
und des Microsoft Internet Explorers, den heute am häufigsten verwendeten 
Browsern, ständig neue und teilweise nicht standardisierte Markup-Befehle hinzuge-
fügt. Dadurch wurden einige dieser Befehle nur von bestimmten Browsern ver-
standen und strukturelle Markup-Befehle vermischten sich mit Layoutanweisungen. 
Damit wurde ein entscheidender Vorteil der Markierungssprache HTML, die 
automatische Verarbeitung der enthaltenen Informationen, deutlich erschwert. Die 
Philosophie der ursprünglichen Markierungssprachen trat so immer mehr in den 
Hintergrund. Trotz dieser Entwicklungen versuchte das W3C, eine neue HTML-
Spezifikation zu standardisieren. Nachdem es zu keiner Einigung über die 
Spezifikation 3.0 kam, wurde 1997 die Version 3.2 standardisiert. Seit 1998 gibt es 
die Spezifikation 4.0, die eine teilweise Rückbesinnung auf Trennung von 
Datenstruktur und Layoutangaben brachte, indem das W3C empfahl, auf Layout-
markierungen zu verzichten. 
Hierzu wurden die so genannten "Cascading Stylesheets" (CSS) entwickelt, welche 
die Funktion der Formatierung bzw. der Formatdefinition in HTML übernehmen 
(siehe Abbildung 1-4). 
1. Kapitel: Einleitung 
- 7 - 
    Abbildung 1-4: Umwandlung von Informationen durch CSS [PoWi00, S. 41] 
Die Art der Formatierung ist nur bei wenigen Attributen, wie z. B. Schriftarten und      
-farben, möglich. Der größte Teil der Darstellung bleibt stets in der HTML-Datei 
enthalten, deshalb ist der Ansatz der CSS zur Trennung von Inhalt und Design nur 
bedingt geeignet. Die Rückbesinnung auf den ursprünglichen Grundgedanken 
konnte also nur als Teilerfolg gewertet werden, da HTML 3.2 schon weit verbreitet 
war, und es weiterhin immer noch viele Unstimmigkeiten zwischen den Browser-
Herstellern gab. Trotz der in HTML 4.0 eingebetteten Ergänzungen wurde deutlich, 
dass HTML an Grenzen stoßen wird, da die Kommerzialisierung des WWW und der 
stetig wachsende Datenaustausch nur durch neue, grundlegende Entwicklungen 
bewältigt werden kann [Stur00, S. 15-18; WeHa01, S. 16].  
1.2.3  Extensible Markup Language (XML) 
Aus den oben geschilderten Gründen beschloss das W3C 1996 eine neue 
Markierungssprache zu entwickeln, "die die Hauptvorzüge von SGML bewahrt, aber 
auch die Webethik der minimalistischen Einfachheit berücksichtigt" [GoPr99, S. 40]. 
Diese neue Markierungssprache erhielt den Namen "Extensible Markup Language".  
Die hier aufgeführte Erläuterung dient der chronologischen Eingliederung von XML 
in die Entwicklung der Markierungssprachen. Eine detaillierte Betrachtung erfolgt in 
den anschließenden Kapiteln. 
Dokument 
Browser-
Ansicht 
Cascading
Stylesheets 
Logische 
Auszeichnung 
Physische 
Auszeichnung 
1. Kapitel: Einleitung 
- 8 - 
Für XML wurden die folgenden zehn offiziellen Entwurfsziele vom W3C festgelegt 
[W3C00a, www]: 
1.   XML soll sich im Internet auf einfache Weise nutzen lassen
2.   XML soll ein breites Spektrum von Anwendungen unterstützen 
3.   XML soll zu SGML kompatibel sein 
4.   Es soll einfach sein, Programme zu schreiben, die XML-Dokumente verarbeiten 
5.   Die Zahl optionaler Merkmale in XML soll minimal sein, idealerweise Null 
6.  XML-Dokumente sollten für Menschen lesbar und angemessen verständlich sein  
7.   Der XML-Entwurf sollte zügig abgefasst sein 
8.   Der Entwurf von XML soll formal und präzise sein 
9.   XML-Dokumente sollen leicht zu erstellen sein 
10. Knappheit von XML-Markup soll von minimaler Bedeutung sein 
Hauptziel der Entwicklung ist ein schlanker Standard für eine präzise Definition von 
XML als formale Sprache. Da XML auf der sehr umfangreichen "Mutter aller 
Markierungssprachen" [Münz98, www] SGML basiert (siehe Abbildung 1-5), musste 
die Komplexität von SGML reduziert werden, indem alle für das Internet 
überflüssigen Eigenschaften sowie eine Vielzahl komplizierter und selten genutzter 
Features nicht in XML übernommen wurden [Behm01, S. 52-53].  
Abbildung 1-5: Beziehungen zwischen den einzelnen Markierungssprachen  
Trotz dieser Reduzierungen ist XML aufwärtskompatibel zu SGML und wird daher 
auch gelegentlich als "SGML Lite" bezeichnet [Mach97, www]. Durch den Begriff 
"extensible" wird das Hauptmerkmal von XML angedeutet - die Erweiterbarkeit. XML 
Auf SGML basierende 
Markierungssprache 
HTML 
VoiceXML 
WML 
XHTML 
SGML 
XML 
Auf XML basierende 
Markierungssprachen 
Meta-Markierungssprachen 
1. Kapitel: Einleitung 
- 9 - 
ist, wie SGML, eine Metasprache, die eine Syntax definiert, mit der andere 
semantische und strukturierte Markierungssprachen definiert werden. So können 
eigene Dokumenttypen kreiert werden und es ist nicht mehr nötig, sich auf starre 
HTML-Strukturen zu beschränken. Dies ist möglich, da XML genau wie SGML keine 
feste DTD besitzt, sondern lediglich Vorschriften zum Erstellen einer eigenen 
bereithält. Zusätzlich ermöglicht XML eine semantisch orientierte Auszeichnung der 
Inhalte (siehe Quellcode 1-1).  
Quellcode 1-1: Vergleich der Syntax von HTML und XML 
Dadurch werden Informationen reichhaltiger beschrieben und es wird ermöglicht, 
Inhalte besser zu verstehen bzw. einzuordnen. Dies ist bei HTML nicht möglich, da 
die DTD fest und nicht erweiterbar im Browser integriert ist. 
XML ermöglicht außerdem die Darstellung beliebig tief verschachtelter Strukturen, 
wie sie zur Repräsentation von komplexen Hierarchien benötigt werden. Die in XML 
definierten Befehle haben keine Bedeutung für das Aussehen, wohingegen HTML 
ein reines Präsentationsformat ist. Da kein Zusammenhang der einzelnen Daten 
untereinander besteht, sind weitergehende Informationen über die Struktur des 
Inhaltes nicht abbildbar [WeBu99, www]. 
Ein zusätzliches Merkmal von XML ist die Validierung, also die Überprüfung auf 
Gültigkeit eines Dokumentes. Somit wird externen Anwendungen die Möglichkeit 
gegeben die strukturelle Gültigkeit der Daten zu überprüfen. Dies ist in HTML nicht 
möglich, da keine Sprachspezifikationen für die Gültigkeit eines Dokumentes 
existieren. Die als "HTML-Dilemma" [WeBu99, www] zusammengefassten Defizite 
(fehlende Erweiterbarkeit, Strukturierung und Validierung) wurden damit alle in der 
   HTML:                                       XML: 
<HTML>
<?XML version="1.0"?>
<BODY>
<ADRESSE>
Hugo <p>
<VORNAME>Hugo</VORNAME>
Müller <p>
<NACHNAME>Müller</NACHNAME>
Hauptstr. 17 <p>
<STRASSE>Hauptstr. 17</STRASSE>
69117 <p>
<PLZ>69117</PLZ>
Heidelberg
<ORT>Heidelberg</ORT>
</BODY>
</ADRESSE>
</HTML>
1. Kapitel: Einleitung 
- 10 - 
Entwicklung von XML berücksichtigt und behoben. XML gilt jedoch nicht als 
Nachfolger oder Ersatz  für HTML, da letzteres im WWW sehr verbreitet ist und für 
die Belange, gerade im nicht-kommerziellen Bereich, vollkommen ausreicht. Dies 
hat das W3C erkannt und sich zur Aufgabe gemacht, HTML so weiterzuentwickeln, 
um die aufgeführten Nachteile zu umgehen. Hierzu erfolgte eine Reformulierung des 
HTML 4.0-Standards in XML unter dem Namen "Extensible Hypertext Markup 
Language" (XHTML) [PoWi00, S. 51-53]. 
1.2.4  Extensible Hypertext Markup Language  (XHTML) 
XHTML stellt in gewisser Weise die nächste Stufe der Evolution von HTML dar und 
wurde entwickelt, um HTML 4.0 mit den Vorzügen von XML als Modellierungs-
sprache für Dokumente und Datenstrukturen zu kombinieren. Der gesamte 
Sprachumfang von HTML 4.0 sollte durch XML so abgebildet werden, dass 
bestehende HTML-Dokumente weiterverwendet und gleichzeitig die hinter XML 
stehenden Konzepte übernommen werden können. Die wichtigste Änderung gegen-
über HTML ist die strikte Umsetzung eines wohlgeformten Quellcodes. Dies be-
deutet, dass nach den XHTML-Regeln geschriebene Dokumente keinen Fehler in 
der Verwendung der HTML-Befehle enthalten dürfen. Diese klar definierten Regeln 
ermöglichen beispielsweise die Ausführungsgeschwindigkeit von Browsern zu 
erhöhen, da keine Routinen zur Verarbeitung fehlerhaften Quellcodes implementiert 
werden müssen. Außerdem sollen mit XHTML vorhandene Kompatibilitätsprobleme 
bei der Interpretation von HTML-Code von diversen Browsern unterschiedlicher 
Hersteller vermieden werden [SiDe00, www]. 
1.2.4.1  XHTML Version 1.0  
XHTML 1.0 kennt drei DTD (siehe Kapitel 2.2), in denen die Regeln und Vor-
schriften für den jeweiligen Einsatz in einer knappen und eindeutigen Art festlegt 
werden. "XHTML 1.0 Strict" wird benutzt, wenn ein reines "Descriptive Markup" 
gewünscht wird, das frei von Layout-Anweisungen ist. Hierbei werden aber 
Formatierungen durch CSS unterstützt.  
Im Gegensatz dazu bietet "XHTML 1.0 Transitional" grundlegende Designbefehle. 
Es kommt zum Einsatz, wenn der Anwender keinen aktuellen Browser verwendet 
und auch keine CSS unterstützt werden müssen.  
1. Kapitel: Einleitung 
- 11 - 
Werden Frames, Seitenrahmen, die eine HTML-Seite in mehrere kleine Segmente 
unterteilen, benötigt, wird "XHTML 1.0 Frameset" genutzt. Hierbei ist keine Form 
von Layout oder Darstellung der eigentlichen Seite notwendig [W3C01a, www; 
PoWi00, S. 362]. 
1.2.4.2  Modularisierung von XHTML 
Mit der Spezifikation zur Modularisierung von XHTML durch das W3C soll der 
Aufbau von XHTML-Untermengen ermöglicht werden. Diese Untermengen erlauben 
die Erstellung vielfältiger Web-Inhalte auf nahezu allen Geräten. Durch die Modul-
bauweise kann XHTML 1.0 in verschiedenste Komponenten aufgesplittet werden, 
die jeweils bestimmte Funktionen beinhalten. Dadurch ist es leichter, standardisierte 
Inhalte bereitzustellen. Die erste Implementierung dieser Modularisierung heißt 
"XHTML Basic" [W3C01h, www]. 
1.2.4.3 XHTML 
Basic 
Die XHTML Basic-DTD schließt die Module ein, die mindestens erforderlich sind, 
der Sprache gerecht zu werden. Zusätzlich beinhaltet sie Grafiken, Formulare, 
grundlegende Tabellen und Objektunterstützung. XHTML Basic ist für Web-Clients 
geschaffen, die nicht alle XHTML-Eigenheiten unterstützen, wie Mobiltelefone oder 
"Personal Digital Assistants" (PDA). Diese DTD ist für die Erstellung von XHTML-
Inhalten ausreichend ausgestattet. Das Ziel von XHTML Basic ist es, eine gemein-
same Sprache vorzulegen, die von verschiedensten Benutzerschnittstellen unter-
stützt wird [W3C00d, www].  
1.2.4.4  XHTML Version 1.1 
Die kürzlich erschienene Empfehlung für XHTML Version 1.1 definiert eine neue 
XHTML-DTD, die ebenfalls auf der Spezifikation zur Modularisierung von XHTML 
basiert. Im Wesentlichen handelt es sich dabei um eine Neuformulierung der 
"XHTML 1.0 Strict"-DTD, welche die Basis für zukünftig erweiterbare Dokument-
typen bildet. Einige DTD-Eigenschaften von "Transitional" und "Frameset" sind nicht 
in XHTML 1.1 verfügbar, können aber dank der Modularisierung von XHTML durch 
Module verfügbar gemacht werden. Dies erfolgt durch selbstdefinierte DTD 
[W3C01i, www]. 
2. Kapitel: Technische Grundlagen zu XML 
- 12 - 
2  Technische Grundlagen zu XML 
Im Folgenden Kapitel werden die technischen Grundlagen zu XML erläutert, um die 
Einsatzmöglichkeiten, sowie den aktuellen Entwicklungsstand der Markierungs-
sprache XML zu betrachten. 
2.1  Aufbau eines XML-Dokumentes  
Das Grundgerüst eines XML-Dokumentes besteht aus dem so genannten Prolog, 
einer DTD-Deklaration, Kommentaren und dem eigentlichen Inhalt, wie in Abbildung 
2-1 skizziert. 
 Abbildung 2-1: Grundgerüst eines XML-Dokumentes 
Die einzelnen Komponenten werden in den folgenden Abschnitten betrachtet. 
2.1.1 Prolog 
Die erste Zeile jedes XML-Dokumentes ist der Prolog, welcher das Dokument 
einleitet und signalisiert, dass es sich im Folgenden um XML-Daten handelt (siehe 
Quellcode 2-1).  
Quellcode 2-1: Prolog eines XML-Dokumentes 
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
Prolog 
DTD 
Kommentare
Inhalt 
<?xml version ...>
<!DOCTYPE ...>
<!-- Kommentare -->
<daten>...</daten>
2. Kapitel: Technische Grundlagen zu XML 
- 13 - 
Mit dem Parameter "version" wird die verwendete XML-Version festgelegt. Damit ein 
Ausgabegerät die Daten mit dem richtigen Zeichensatz darstellen kann, wird unter 
"encoding" der verwendete Zeichensatz angegeben. Mit "standalone" wird 
gekennzeichnet, ob sich die vollständige Definition der Dokumentstruktur im 
Kopfbereich des Dokumentes befindet oder ob eine externe DTD eingebunden ist 
[Dünh98a, www] 
2.1.2 DTD-Deklaration 
Nach dem Prolog folgt die DTD-Deklaration. Um zu überprüfen, ob das Dokument 
wohlgeformt oder gültig ist, kann eine DTD-Deklaration vereinbart werden, welche 
durch den Befehl "!DOCTYPE" eingebunden wird (siehe Quellcode 2-2).  
Quellcode 2-2: Einbindung einer DTD  
Nach der Angabe des Wurzelelements, welches später den Dokumentkörper 
umschließt, folgt der Parameter "SYSTEM", für eine selbsterstellte DTD, oder 
"PUBLIC", für eine globale DTD [Hein01a, www]. 
2.1.3 Kommentare 
Kommentare sind Daten, die nicht von einem Programm ausgewertet werden. Sie 
dienen dazu, einzelne Abschnitte eines XML-Dokumentes zu kennzeichnen, damit 
die Funktion und der Sinn ersichtlich wird (siehe Quellcode 2-3).  
Quellcode 2-3: Beispiel eines Kommentares 
Kommentare dürfen an fast jeder beliebigen Stelle eines XML-Dokumentes ein-
gefügt werden. "Tags" (Markup-Anweisungen) bilden die Ausnahme, da innerhalb 
von Tags keine Kommentare eingefügt werden dürfen [W3C00a, www]. 
<!-- Dies ist ein Beispiel Kommentar -->
<!DOCTYPE Wurzelelement SYSTEM "Beispiel.dtd">
2. Kapitel: Technische Grundlagen zu XML 
- 14 - 
2.1.4 Inhalt 
Den wesentlichen Teil des Dokumentes bilden die eigentlichen Daten. Im 
Datenbereich werden die in der DTD definierten Elemente mit Inhalten gefüllt. Die 
Struktur der Daten ist hierarchisch aufgebaut und vom Wurzelelement umschlossen, 
welches sich in mehrere Unterelemente verzweigt (siehe Abbildung 2-2). 
    Abbildung 2-2: Baumstrukturansicht eines XML-Dokumentes 
Die Definition des Wurzelelementes befindet sich innerhalb der DTD-Deklaration. 
2.1.4.1 Elemente 
Aufgabe der Elemente in einem XML-Dokument ist, die Struktur des Dokumentes zu 
beschreiben. Es existieren zwei grundsätzliche Arten von Elementen, leere und mit 
Inhalt gefüllte Elemente. Letztere bestehen aus einem Start-Tag, gefolgt von Inhalt 
und einem abschließenden End-Tag (siehe Quellcode 2-4). 
Quellcode 2-4: Beispiel eines Elementes mit Inhalt 
<Beispiel>Inhalt des Elementes "Beispiel"</Beispiel>
Wurzelelement 
Unterelement
Unterelement
Unterelement 
Unterelement Unterelement
Unterelement
Unterelement
Unterelement 
2. Kapitel: Technische Grundlagen zu XML 
- 15 - 
In der DTD ist festgelegt, woraus der Inhalt eines Elementes bestehen darf. In XML 
gilt die Regel, dass zu jedem öffnenden Tag auch ein schließender existieren muss. 
Die Ausnahme bildet die Schreibweise bei leeren XML-Elementen. Hier kann das 
öffnende und schließende Tag zusammengefasst werden. Leere Elemente 
bestehen lediglich aus einem Tag, der einen Schrägstrich vor der schließenden 
spitzen Klammer enthält. Alternativ werden leere Elemente durch einen 
äquivalenten Start-Tag mit direkt folgendem End-Tag dargestellt [SiDe00, www] 
(siehe Quellcode 2-5) 
Quellcode 2-5: Zwei verschiedene Darstellungen eines leeren Elementes 
Neben dem eigentlichen Inhalt können Elemente auch Attribute enthalten. 
2.1.4.2 Attribute 
Attribute sind Parameter, die Information über den Inhalt eines Elementes enthalten. 
Ein Element kann durch Wahl eines passenden Namens semantische Information 
über seinen Inhalt liefern. Oftmals ist dies jedoch nicht, oder nur teilweise, möglich. 
Durch Angabe eines Attributes kann der Inhalt eines Elementes genauer spezifiziert 
werden. Attribute sind aus einem Namen und einem zugehörigen Wert zusammen-
gesetzt (siehe Quellcode 2-6). 
Quellcode 2-6: Element Buch mit dem Attribut Autor 
Damit Dokumente als gültig gelten, sind Attribute in der DTD zu deklarieren. Die 
Wertetypen im Dokument müssen mit dem in der DTD deklarierten Typ über-
einstimmen [Info00, www]. 
Absatz/ oder Absatz/Absatz
Buch Autor=Stefan Mintert
Details
- Seiten
- Erscheinungsform
- Originalausgabe
- Erscheinungsjahr
- 2001
- ISBN (eBook)
- 9783832454562
- ISBN (Paperback)
- 9783838654560
- DOI
- 10.3239/9783832454562
- Dateigröße
- 820 KB
- Sprache
- Deutsch
- Institution / Hochschule
- Fachhochschule Heidelberg – unbekannt
- Erscheinungsdatum
- 2002 (Mai)
- Note
- 1,3
- Schlagworte
- publishing electronic business sgml
- Produktsicherheit
- Diplom.de
 
					