Lade Inhalt...

Semantisches Web, TRIPLE und Integration von heterogenen Informationsquellen

©2004 Diplomarbeit 76 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Die Diplomarbeit umfasst das Thema ‚Semantisches Web, TRIPLE und Integration von heterogenen Informationssquellen’. Ziel ist die Beschreibung der Rolle, welche die modulare Regelbeschreibungssprache TRIPLE im Semantischen Web einnimmt. Weiter soll anhand von Beispielen jene Möglichkeiten dargestellt werden, die diese Sprache im Bereich der Integration heterogener Informationsquellen bietet. Die Arbeit wird dazu in 4 Teile gegliedert.
Im ersten Teil wird auf das ‚Semantische Web’ im Allgemeinen eingegangen. Insbesondere soll hier dessen Entstehung, Aufbau, Problemstellung und Möglichkeiten näher erläutert werden.
Der zweite Teil der Arbeit beschäftigt sich mit der Rolle der modularen Regelbeschreibungssprache TRIPLE innerhalb des Semantischen Webs. Es werden hier Aufbau, Funktionsweise, Syntax und Eigenschaften der Sprache beschrieben. Diese werden abschließend anhand eines Beispiels veranschaulicht.
Im dritten Teil wird auf die Problematik der Integration heterogener Informationsquellen eingegangen. Dazu werden die Grundlagen beschrieben, sowie ein Überblick darüber gegeben, welche Arten von Integrationskonflikten auftreten können. Anschließend wird anhand von Beispielen erläutert, welche Möglichkeiten die modulare Regelbeschreibungssprache TRIPLE auf dem Gebiet der Integration bietet.
Die Arbeit schließt mit einer Zusammenfassung des gewählten Themas. Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Einleitung6
2.Semantisches Web7
2.1W3C8
2.1.1Geschichte8
2.1.2Aufgaben und Ziele9
2.2Die Idee des Semantischen Web11
2.3Problemstellung12
2.4Anwendungen des Semantischen Webs13
2.4.1Software-Agenten13
2.4.2RSS15
2.4.3Gezieltere Suche17
2.5Schichtenmodell18
2.5.1UNICODE / URI19
2.5.2XML, XML Schema, Namespaces21
2.5.3RDF, RDF Schema24
2.5.4Schema Schicht - Ontology vocabulary36
2.5.5Logik Schicht38
2.5.6Proof und Trust38
2.5.7Digitale Signatur39
2.6Fazit und Ausblick39
3.TRIPLE42
3.1Definition42
3.2Problemstellung43
3.3Eigenschaften44
3.4CPU Beispiel46
4.Integration heterogener Informationsquellen49
4.1Einleitung49
4.2Grundlagen der Integration49
4.3Integrationsprozess52
4.4Klassifikation von Integrationskonflikten55
4.4.1Strukturelle Heterogenitätskonflikte55
4.4.2Semantische Heterogenitätskonflikte57
4.4.3Inkonsistenz- und Redundanzprobleme57
4.5Integration mittels TRIPLE58
4.5.1Grundlagen58
4.5.2Parametrisierte Modelle59
5.Verwandte […]

Themenübersicht

Inhaltsverzeichnis


Inhaltsverzeichnis
1 Einleitung
6
2 Semantisches Web
7
2.1 W3C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.1.1 Geschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.1.2 Aufgaben und Ziele . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2 Die Idee des Semantischen Web . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Anwendungen des Semantischen Webs . . . . . . . . . . . . . . . . . . . 13
2.4.1 Software-Agenten . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 RSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Gezieltere Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Schichtenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.1 UNICODE / URI . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5.2 XML, XML Schema, Namespaces . . . . . . . . . . . . . . . . . . 21
2.5.3 RDF, RDF Schema . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.4 Schema Schicht - Ontology vocabulary . . . . . . . . . . . . . . . 36
2.5.5 Logik Schicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5.6 Proof und Trust . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5.7 Digitale Signatur . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6 Fazit und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3 TRIPLE
42
3.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3 Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 CPU Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2

Inhaltsverzeichnis
3
4 Integration heterogener Informationsquellen
49
4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Grundlagen der Integration . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3 Integrationsprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4 Klassikation von Integrationskonikten . . . . . . . . . . . . . . . . . . 55
4.4.1 Strukturelle Heterogenitätskonikte . . . . . . . . . . . . . . . . . 55
4.4.2 Semantische Heterogenitätskonikte . . . . . . . . . . . . . . . . . 57
4.4.3 Inkonsistenz- und Redundanzprobleme . . . . . . . . . . . . . . . 57
4.5 Integration mittels TRIPLE . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5.2 Parametrisierte Modelle . . . . . . . . . . . . . . . . . . . . . . . 59
5 Verwandte Arbeiten
66
6 Zusammenfassung
68

Abbildungsverzeichnis
2.1 Beispiel für wohldenierte Bedeutung . . . . . . . . . . . . . . . . . . . . 11
2.2 Suche nach Apache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Schichtenmodell (nach [Bern04c]) . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Beispiel XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Allgemeiner RDF-Graph (nach [Hans01, 1051]) . . . . . . . . . . . . . . . 27
2.6 RDF-Graph für Willibald vertraut dem TrustService (nach [Furc04, 21]) . 27
2.7 RDF-Graph für die Aussage Hochleitner als Autor seiner Webseite . . . . 27
2.8 Beispiel für die Darstellung von RDF in Form von XML . . . . . . . . . 28
2.9 Graph für Willibald wiegt 80 Pfund . . . . . . . . . . . . . . . . . . . . . 29
2.10 Graph für Willibald spielt gerne Fussball, Golf und Tennis . . . . . . . . 29
2.11 Graph für Willibald spielt gerne Fussball, Golf und Tennis mittels Container 30
2.12 Beispiel für die Verwendung von Reication . . . . . . . . . . . . . . . . 31
2.13 Graph für Reication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.14 Beispiel für RDFS (nach [Bric04]) . . . . . . . . . . . . . . . . . . . . . . 35
2.15 Ontologie des Beispiels 2.14 . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.16 Entwicklung des Semantischen Webs (nach [Furc04, 13]) . . . . . . . . . 40
3.1 CPU Beispiel Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 CPU Beispiel Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 CPU Beispiel Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1 Klassikation der Integrationskonikte (nach [Wach03, 22]) . . . . . . . . 55
4.2 Verwendung von Views als Parameter für andere Views hinsichtlich se-
mistrukturierter Daten (nach [Deck04a, 2]) . . . . . . . . . . . . . . . . . 59
4.3 People Beispiel Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4 People Beispiel Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5 Parametrisiertes Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4

Abbildungsverzeichnis
5
4.6 Medium Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.7 Medium Beispiel Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.8 Medium Beispiel Output . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

1 Einleitung
Die Diplomarbeit umfasst das Thema Semantisches Web, TRIPLE und Integration von
heterogenen Informationssquellen. Ziel ist die Beschreibung der Rolle, welche die modu-
lare Regelbeschreibungssprache TRIPLE im Semantischen Web einnimmt. Weiters soll
anhand von Beispielen jene Möglichkeiten dargestellt werden, die diese Sprache im Be-
reich der Integration heterogener Informationsquellen bietet. Die Arbeit wird dazu in 4
Teile gegliedert.
Im ersten Teil wird auf das Semantische Webim Allgemeinen eingegangen. Insbe-
sondere soll hier dessen Entstehung, Aufbau, Problemstellung und Möglichkeiten näher
erläutert werden.
Der zweite Teil der Arbeit beschäftigt sich mit der Rolle der modularen Regelbeschrei-
bungssprache TRIPLE innerhalb des Semantischen Webs. Es werden hier Aufbau, Funk-
tionsweise, Syntax und Eigenschaften der Sprache beschrieben. Diese werden abschlie-
ÿend anhand eines Beispiels veranschaulicht.
Im dritten Teil wird auf die Problematik der Integration heterogener Informationsquel-
len eingegangen. Dazu werden die Grundlagen beschrieben, sowie ein Überblick darüber
gegeben, welche Arten von Integrationskonikten auftreten können. Anschlieÿend wird
anhand von Beispielen erläutert, welche Möglichkeiten die modulare Regelbeschreibungs-
sprache TRIPLE auf dem Gebiet der Integration bietet.
Die Arbeit schlieÿt mit einer Zusammenfassung des gewählten Themas.
6

2 Semantisches Web
I have a dream for the Web ... and it has two parts. In the rst part, the
Web becomes a much more powerful means for collaboration between people.
I have always imagined the information space as something to which everyone
has immediate and intuitive access, and not just to browse, but to create. [...]
Furthermore, the dream of people-to-people communication through shared
knowledge must be possible for groups of all sizes, interacting electronically
with as much ease as they do now in person.
In the second part of the dream, collaborations extend to computers. Machi-
nes become capable of analyzing all the data on the Web -the content, links,
and transactions between people and computers. A Semantic Web, which
should make this possible, has yet to emerge, but when it does, the day-to-
day mechanisms of trade, bureaucracy, and our daily lives will be handled
by machines talking to machines, leaving humans to provide the inspiration
and intuition. The intelligent agents people have touted for ages will nally
materialize. This machine-understandable Web will come about through the
implementation of a series of technical advancements and social agreements
that are now beginning. (siehe [Bern99]).
So beschreibt Tim-Berners Lee (vgl. auch [Bern04e]), der Direktor des W3C (Abkür-
zung von engl.: World Wide Web Consortium), seine Vision vom Web der nächsten
Generation, dem Semantischen Web. Neue Web-Standards sollen maschinell verständli-
che Semantiken für Information schaen und die Repräsentation von Daten vereinfachen.
Schon seit den 90er Jahren wird das Problem behandelt, wie es möglich ist, seman-
tische Metadaten in das WWW (Abkürzung von engl.: World Wide Web) zu integrieren
(vgl. [Krue04, 5]). Seither hat sich das W3C im Rahmen einer Initiative der weiteren
Entwicklung des Semantischen Webs verschrieben.
7

KAPITEL 2. SEMANTISCHES WEB
8
2.1 W3C
Das W3C ist ein Gremium, welches an der Entwicklung neuer Protokollspezikationen
und Architekturen für das World Wide Webarbeitet.
Es steht an der Spitze neuer Entwicklungen im Bereich der Dienstleistungen, Anwen-
dungen und auch sozialer Änderungen. Zu seinen Partnern zählen zur Zeit mehr als 450
Organisationen, darunter führende IT-Unternehmen, renommierte Forschungsinstitute
und groÿe Anwender. Weiters wird es von mehreren Universitäten unterstützt.
Um dem enormen Wachstum des WWW Rechnung zu tragen, setzt es seinen Schwer-
punkt auf WWW-bezogene Themen, welche in Kooperation mit seinen Mitgliedern und
anderen Organisationen bearbeitet werden. Durch diese Vereinigung von Energie und
das Wissen von hunderten Entwicklern, Forschern und Benutzern ist das W3C in der
Lage, bedeutende Errungenschaften für die Entwicklung des WWW zu erzielen. (vgl.
[Birk04]).
2.1.1 Geschichte
Gegründet wurde das W3C als eine unabhängige Non-Prot Organisation im Oktober
1994 am MIT/LCS (Abkürzung von engl.: MIT Laboratory for Computer Science) in
Boston (USA). Mittlerweile gibt es auÿerhalb der Vereinigten Staaten eine Niederlassung
in Frankreich (1995), an der Keio Universität in Tokio (1996) und in Deutschland (1998).
Das W3C nanziert sich über Mitgliedsbeiträge. Sowohl Organisationen als auch Spe-
zialisten können sich dem W3C anschlieÿen, wohingegen Privatpersonen von der Mit-
gliedschaft ausgeschlossen sind. Eine vollständige Mitgliedschaft kostet im Jahr $ 50.000.
Eine so genannte aliate Membership mit den gleichen Rechten wird weiters für Un-
ternehmen vergeben, deren Umsatz unter $ 50.000.000,- liegt, für Unternehmen ohne
Gewinnerzielungsabsicht oder für Regierungsbehörden (vgl. [Fisc04b]).
Das W3C wird heute von seinem Direktor, Tim Berners-Lee, geleitet. An den drei Nie-
derlassungen sind mittlerweile ca. 60 Personen dauerhaft beschäftigt (vgl. [Birk04]).

KAPITEL 2. SEMANTISCHES WEB
9
2.1.2 Aufgaben und Ziele
Die Aufgabe des W3C ist die Erstellung von Web-Standards und die Weiterentwicklung
von Internet-Techniken unter möglichst starker Einbeziehung von Organisationen, Ex-
perten und Anwendern.
Im Allgemeinen verfolgt es 7 Zielsetzungen: (vgl. [Fisc04a])
1. Universelle Zugangsmöglichkeiten
Wissen soll für alle Menschen nutzbar gemacht werden, unabhängig davon, welche
Hard- oder Software sie verwenden, welche Netzinfrastruktur vorhanden ist, wie
ihre Sprache, ihre Kultur, ihre geograsche Position oder ihre körperlichen oder
geistigen Fähigkeiten sind. Vor allem Aktivitäten in den Bereichen Internationa-
lization, Mobile access, Web on TV, Voice browser, Web Accessibility Initiative
veranschaulichen die Zielsetzung, universelle Zugangsmöglichkeiten zu schaen.
2. Das Semantische Web
Das Semantische Web ist eine Weiterentwicklung des WWW, wobei Information
mit Metadaten versehen wird, um deren Bedeutung zu denieren und die auto-
matische Verarbeitung von Daten und Wissen aus unterschiedlichen Quellen zu
ermöglichen. Dadurch soll vor allem im Bereich der Suche nach Information und
Dokumenten eine entscheidende Verbesserung erreicht werden. Als Bausteine für
das Semantische Web dienen unter anderem RDF, XML und URI, auf die in Ka-
pitel 2.5 genauer eingegangen wird.
3. Vertrauen
Die weitere Entwicklung soll dahingehend gelenkt werden, dass über digitale Signa-
turen geprüft werden kann, ob eine bestimmte Person ein Dokument geschrieben
oder eine Behauptung aufgestellt hat oder aber mit diesen übereinstimmt (vgl.
[Schw04]). Es soll in dieser Art ein vertrauenswürdiges Web (engl.: Web of Trust)
aufgebaut werden, das es den Benutzern möglich macht, Verantwortung für ih-
re Beiträge zu übernehmen (vgl. [Fisc04a]). Besonders auf sicherheitstechnische,
soziale und legale Bereiche soll hierbei eingegangen werden.
4. Interoperabilität
Das Ziel vom W3C ist es, das Internet unabhängig von Hard- oder Software zu
benützen. Interoperabilität erlaubt es den Leuten, frei zu entscheiden, welches Be-
triebssystem, welche Hardware oder Software sie einsetzen, ohne befürchten zu

KAPITEL 2. SEMANTISCHES WEB
10
müssen, dass bestimmte Inhalte nicht mehr angezeigt werden. Das W3C als un-
abhängige Organisation versucht dies durch die Entwicklung von oenen, nicht
proprietären Protokollen und Computersprachen zu gewährleisten, womit gleich-
zeitig die in der Vergangenheit herrschende Marktteilung verhindert werden soll
(vgl. [Fisc04a]).
5. Entwicklungsfähigkeit
Das WWW unterliegt einer enorm schnellen Entwicklung, wodurch die Gefahr be-
steht, dass Techniken, die wir heute benutzen, schon morgen veraltet sein können.
Das W3C arbeitet daher daran, ein Web aufzubauen, dessen aktuelle Technologien
in zukünftige reibungslos eingefügt werden können, um das problemlose und ab-
wärtskompatible Funktionieren des Webs zu gewährleisten, ohne das zu zerstören,
was bisher problemlos funktioniert. Die Prinzipien der Einfachheit, der Modulari-
tät, der Kompatibilität und der Erweiterbarkeit sind hierbei richtungsweisend (vgl.
[Fisc04a]).
6. Dezentralisierung
Unter diesem Punkt versteht man den Versuch der Reduktion von Engpässen und
der Anfälligkeit des Webs als Ganzes durch die Schaung einer Web-Architektur,
welche nur wenige zentrale Web-Einrichtungen aufweist. Die notwendige Begleiter-
scheinung von verteilten Systemen und damit das Herz und die Seele des Internets
ist Fehlertoleranz. Dem Web soll es somit erleichtert werden, sich global zu entfal-
ten, ohne seine Fehleranfälligkeit und Auswahlwahrscheinlichkeit zu erhöhen (vgl.
[Fisc04a]).
7. Attraktiveres Multimedia
Durch die Einbindung von Endbenutzer und unter Rücksichtnahme auf deren
Wünsche soll gewährleistet werden, dass durch Interaktivität, Sound, Videos, 3D-
Eekten und Animationen ein attraktives Web geschaen wird. Sprachen wie SVG
(Abkürzung von engl.: Scalable Vector Graphic) (vgl. auch [Lill04]) und SMIL
(Abkürzung von engl.: Synchronized Multimedia Integration Language)(vgl. auch
[Thie04]) dienen ebenfalls diesem Interesse (vgl. [Fisc04a]).

KAPITEL 2. SEMANTISCHES WEB
11
2.2 Die Idee des Semantischen Web
Tim Berners-Lee äuÿerte sich zum Semantischen Web folgendermaÿen:
Your data needs to be understood not by people,but by machines. (siehe
[Part04]).
Nach Tim Berners-Lee und Eric Miller (vgl. auch [Mill04a]) handelt es sich beim Seman-
tischen Web (abgeleitet vom Griechischen sem für Bedeutung) um eine Erweiterung
des gegenwärtigen Web,in dem Information eine wohldenierte Bedeutung hat,um die
Kooperation zwischen Mensch und Maschine zu erleichtern. Die W3C Semantic Web
Activity (vgl. auch [Mill04b]) erarbeitet in Kooperation mit einer groÿen Zahl von Part-
nern in der Industrie und Wissenschaftlern Standards und Technologien,um Daten im
Web derart zu denieren und miteinander zu verknüpfen,dass sie für eektivere Such-,
Automatisierungs- und Integrationsprozesse genutzt und über mehrere Anwendungen
hinweg wieder verwendet werden können (vgl. [Bern04a]).
Der Begri wohldenierte Bedeutung soll im Folgenden verdeutlicht werden:
<html>
<body>
<h1>Internet-Kurs</h>
<p>Dieser Kurs, der von Dr. John Doe vorgetragen wird, beschäftigt
sich mit den Grundzügen des Internets. Die Kursdauer beträgt 48 Stunden.
Preis: 30 ¿</p>
<a href ="Anmeldung.html">
</body>
</html>
Abbildung 2.1: Beispiel für wohldenierte Bedeutung
Abbildung 2.1 zeigt einen ktiven HTML Code,der Angaben bezüglich Preis,Inhalt
und Dauer eines Weiterbildungskurses enthält. Jedoch ist für einen Rechner aus obiger
Repräsentation der Information beispielsweise Preis oder Dauer nicht extrahierbar,da
der Rechner nicht ohne weitere Hilfe auf die Bedeutung der Daten schlieÿen kann.

KAPITEL 2. SEMANTISCHES WEB
12
Das Semantische Web soll hier weiterhelfen, indem es Daten mittels Meta-Information
mit wohldenierter Bedeutung ausstattet (vgl. [Krue04]). So wird beispielsweise dem
Rechner verständlich gemacht, dass es sich bei der Zahlenkombination 35, nicht um
das Alter einer Person oder die Anzahl der Seiten eines Buches handelt, sondern um eine
Preisangabe. Mit dem Zeichen ¿ kann man in gleicher Weise verfahren, indem man
ihm hier die Bedeutung Währung gibt. Die Suche und Bewertung von Information soll
so eektiver werden.
2.3 Problemstellung
Das heutige Internet stellt eine bereits unüberschaubare Anzahl von Webseiten zur Verfü-
gung. Die Qualität der dargebotenen Information reicht dabei von aktuell und informativ
bis hin zu veraltet oder fehlerhaft. Dokumente werden vorwiegend in HTML (Abkür-
zung von engl.: Hypertext Markup Language) verfasst, wobei die Information derart
strukturiert wird, dass die HTML-Seite über einen Browser, der die Seite interpretiert,
in eine für den Menschen lesbare Form umwandelt. Das Problem dabei ist nun, dass
Webseiten zwar Information darüber enthalten, wie ihre Inhalte dargestellt werden. Die
inhaltliche Bedeutung der Webseite und die Beziehung dieser Inhalte zueinander bleibt
allerdings dem Rechner verborgen. Die Folge davon ist, dass dieses Datenmaterial bisher
schwer einheitlich rechnergestützt verarbeitet werden kann (vgl. [Krue04]). Die meisten
Daten des heutigen Webs sind somit nur dafür bestimmt, von Menschen gelesen zu wer-
den. Computer haben keine verlässliche Möglichkeit, auf die Bedeutung der Daten zu
schlieÿen. Das Semantische Web macht dies möglich, indem es die Bedeutung der Daten
für Softwarekomponenten durch die Denition von Metadaten erkennbar macht. Nach
[Hans01] handelt es sich bei Metadaten um
... Daten über Daten. Sie beschreiben Dateninhalte anhand eines be-
stimmten Vokabulars. Das Vokabular deniert, welche Attribute für welche
Dateninhalte vergeben werden können. (siehe [Hans01, 1050]).
Das Semantische Web greift jedoch nicht nur auf Information zu, die in Form von Web-
seiten gespeichert ist. Auch Information bezüglich einer Person, wie deren Kontaktin-
formation oder ihre Termine, können mit Metadaten versehen und online zur Verfügung
gestellt werden, um es Softwarekomponenten zu ermöglichen auf diese Daten zuzugreifen
(vgl. [Bern04d]).

KAPITEL 2. SEMANTISCHES WEB
13
Darüber hinaus gibt es verschiedenste Sprachen, unterschiedliche Ontologien, Auas-
sungen über die Bedeutung von Wörtern und unterschiedliche Datenbanksysteme, in
denen Information gespeichert wird. Das Konzept des Semantischen Webs stellt hier
einen Lösungsansatz dar, da es die Repräsentation von Daten vereinfacht.
Dieses Konzept verdeutlicht, dass es sich beim Semantischen Web nicht um ein eige-
nes revolutionäres Web, sondern vielmehr um eine Weiterentwicklung des gegenwärtigen
Webs handelt. Das Web wird alle seine Möglichkeiten erschlieÿen, wenn es zu einer Um-
gebung wird, in der Daten sowohl von automatischen Werkzeugen als auch von Menschen
genutzt und bearbeitet werden, erklären Tim Berners-Lee und Eric Miller in ihrem Bei-
trag mit dem Titel Das semantische Web hebt ab (vgl. [Bern04a]).
Semantische Web Technologien stecken zwar noch in der frühen Entwicklungsphase und
es fehlt an einer einheitlichen Zukunftsvision, aber Vorteile wie eine gezieltere Suche
oder intelligente Software-Agenten sind so überzeugend, dass mit einer allgemeinen,
wenn auch sehr allmählichen Ausbreitung des Semantischen Webs zu rechnen ist (vgl.
[Palm04]).
2.4 Anwendungen des Semantischen Webs
Tim Berners-Lee und Eric Miller beurteilen das Potential des Semantischen Webs wie
folgt:
Das Aufregendste am Semantischen Web ist nicht das, was wir uns al-
les damit vorstellen können, sondern das, was wir uns jetzt noch gar nicht
vorstellen können. (siehe [Bern04a]).
Das Semantische Web schat eine Vielzahl an neuen Möglichkeiten. Als ein Ausschnitt
wichtiger Anwendungsbeispiele wird im Folgenden auf intelligente Software-Agenten,
RSS sowie auf die Möglichkeit einer gezielteren Suche im Web exemplarisch eingegangen.
2.4.1 Software-Agenten
Die Denition von Metadaten und die Zuweisung von Semantik bietet die Möglichkeit,
Webseiten derart zu gestalten, dass sie von sogenannten Software-Agenten gelesen und
die enthaltene Information maschinell verstanden und weiterverarbeitet wird. Das Er-
gebnis kann anschlieÿend anderen Programmen zur Verfügung gestellt werden.

KAPITEL 2. SEMANTISCHES WEB
14
Nach Potemba
... kann eine intelligente Suchmaschine bzw. ein intelligenter Agent als ein
Softwareprodukt deniert werden, das Dienstleistungen verschiedenartiger
Natur für den Benutzer unabhängig von seiner direkten Kontrolle autonom
ausführt und sich dabei der Methoden und Mechanismen künstlicher Intelli-
genz bedient. (siehe [Pote98, 215]).
Ausgehend von dieser Denition enthalten die meisten Erklärungsansätze drei wichtige
Eigenschaften, die ein Programm aufweisen muss, um als Agent bezeichnet zu werden:
1. Vertrauen:
Der Agent verhält sich den Erwartungen des Benutzers entsprechend.
2. Personalisierbarkeit:
Der Agent kann entweder lernen oder explizit gelehrt bekommen, welche Aufgaben
er für jeden individuellen Nutzer zu erfüllen hat.
3. Autonomie:
Der Agent darf selbstständig ohne explizite Erlaubnis oder Mitteilung zumindest
einige Aktionen im Auftrag des Nutzers vornehmen (vgl. [Furc04, 4]).
Typische Anwendungen von Agenten umfassen Informationslterung (engl.: information
ltering), Informationsndung (engl.: information discovery) und intelligente Kalender.
Beim information ltering handelt es sich um den Prozess des Auslterns der für einen
Benutzer relevanten Information aus einer gröÿeren Masse (z.B. email ltering, news
ltering). Information discovery hingegen umfasst die aktive Suche nach neuen Informa-
tionsquellen, an Orten, die der Benutzer vorher nicht kannte (vgl. [Rohs04]).
Intelligente Kalender-Webseiten sind sowohl für Menschen als auch für Maschinen be-
stimmt. Für eine Person zeigt eine Intelligente Kalender-Webseite eine grasche Auf-
bereitung eines Kalenders mit Terminen und Veranstaltungen. Software-Agenten liefert
dieselbe Webseite über Metadaten die Angabe, dass es sich bei dieser Webseite um einen
Kalender handelt. Auch die einzelnen Kalendereinträge versteht ein Agent durch die
Denition des Inhaltes, wie zum Beispiel Datum, Betre, Autor et cetera, mittels Me-
tadaten.

KAPITEL 2. SEMANTISCHES WEB
15
Von einer Webseite zur nächsten zu surfen, um Kalender anderer Leute zu durchsuchen
und Termine mit den eigenen abzugleichen, ist inezient. Diese Aufgabe sollen Agenten
plattformübergreifend und softwareübergreifend übernehmen. In Verbindung mit On-
line Verkehrswebseiten könnten diese Agenten auch Staureports in die Terminplanung
miteinbeziehen und den Benutzer informieren, beispielsweise zehn Minuten früher los-
zufahren. Die Möglichkeiten sind vielfältig.
Das Semantische Web wird über kurz oder lang aber auch in unsere physische Welt
eindringen. Mittels URIs und RDF haben wir die Möglichkeit, nahezu alles anzusteuern,
einschlieÿlich physischer Geräte wie Handys, Handhelds oder Fernsehgeräte. Das erö-
net völlig neue Möglichkeiten. Beispielsweise könnte die Lautstärke aller lokalen Geräte
automatisch reduziert werden, wenn das Telefon läutet. Es wird nicht mehr nötig sein,
alle Geräte einzeln zu programmieren, sondern Geräte mit den Eigenschaften lokales
Gerät und einen Lautstärkeregler innehabend könnten zusammen angesprochen wer-
den (vgl. [Bern04d]).
Erste Schritte in diese Richtung sind bereits unternommen worden: CC/PP (Abkür-
zung von engl.: Composite Capability/Preference Prole) (vgl. auch [Butl04]) ist eine
RDF-Anwendung, die Eigenschaften von Geräten beschreibt. Über die Deklaration von
Prolen für die unterschiedlichen Geräte, wie Handys, PDAs und andere, kann die Dar-
stellung von Webinhalten auf diese zugeschnitten werden, sodass Webserver nur jene
Daten liefern, die von den Geräten dargestellt werden können. Bisherige Möglichkei-
ten sind für die Vielzahl an unterschiedlichen Zugangsgeräte, insbesondere dank hoch-
bandbreitiger Funknetze, nicht mehr ausreichend. CC/PP soll hier einen Lösungsansatz
bieten.
2.4.2 RSS
Eine weitere Anwendung des Semantischen Webs ist RSS (Abkürzung von engl.: Really
Simple Syndication).
Mittels RSS werden Inhalte von Webseiten in maschinenlesbarer Form bereitgestellt.
Diese Technik, welche auf RDF basiert, wird besonders in Verbindung mit Nachrichten-
meldungen genutzt. Die Idee dahinter ist, dass auf Nachrichten spezialisierte Suchma-
schinen das Web nach RSS Feeds durchsuchen und somit vollautomatisch umfassende
und durchsuchbare Nachrichtendatenbanken erstellen.

KAPITEL 2. SEMANTISCHES WEB
16
Benutzer erhalten Information über verschiedene Kanäle. Anbieter veröentlichen Ihr
Informationsangebot über Webseiten für ein nicht näher eingegrenztes Zielpublikum.
Interessierte werden mittels oener Newsletter regelmäÿig mit Hintergrundinformation
versorgt. Nebenbei gibt es geschlossene Mailinglisten, um Mitteilungen schnell weiterzu-
leiten.
Trotz dieser scheinbar klaren Trennung ist es nicht immer einfach zu entscheiden, wel-
che Information für wen relevant ist und wo sie am sinnvollsten untergebracht wird.
Der Empfänger der Information steht vor einem Dilemma. Hat er sich für die passive
Informationsversorgung entschieden, muss er zwischen unerwünschten und willkomme-
nen E-Mails stets neu entscheiden. Hat er sich für die aktive Informationsversorgung
entschieden, muss er sich selbst auf Informationssuche begeben, ein meist sehr zeitinten-
sives Unterfangen angesichts der enormen Anzahl an Webseiten. Zusätzlich steht er in
einer Holschuld, denn durch die immer kürzer werdende Verfallszeit einzelner Websites
muss der Nutzer regelmäÿig die betroenen Seiten aufsuchen, um über Änderungen am
Laufenden zu bleiben (vgl. [Mazz04]).
RSS stellt hier eine Neuerung dar. Information mit Nachrichtencharakter wird über
RSS-Kanäle veröentlicht. Eigene Programme, sogenannte Feedreader, lesen diese In-
formationen ein und entlasten somit die Mailboxen der Adressaten. Anhand der Über-
schrift und eines Lead-Textes können Nutzer nun entscheiden, ob die Information für sie
interessant ist und ob sie die dazugehörige Website aufrufen möchten.
Die Vorteile von RSS für Anbieter und Leser sind vielfältig:
X Anbieter können Nachrichten zeitnah zu ihrer Entstehung veröentlichen, einen In-
formationskanal, einzelne Artikel, oder Bilder beschreiben und Redundanzen durch
den Verweis auf ursprüngliche Quellen vermeiden.
X Leser ihrerseits können Information aus verschiedenen Kanälen mittels Feedreader
abonnieren und so ihr individuelles Informations-Portfolio zusammenstellen. Durch
popUp-Fenster können sie auf neu eingetroene Nachrichten hingewiesen und vom
Aussortieren irrelevanter E-Mails entlastet werden (vgl. [Mazz04]).

KAPITEL 2. SEMANTISCHES WEB
17
2.4.3 Gezieltere Suche
Die Idee des Semantischen Webs kann hervorragend anhand der Notwendigkeit nach
einer ezienteren Suche im WWW verdeutlicht werden. Aufgrund der steigenden Dy-
namisierung und der wachsenden Anzahl an Webseiten im Internet wird es für uns
Menschen immer schwieriger, die für einen selbst relevante Information in adäquater
Zeit zu nden. Zum Zweck der Suche nach diesen Daten stehen dem Anwender ezient
arbeitende Suchmaschinen, wie zum Beispiel Google, Yahoo oder Lycos zur Verfügung.
Doch selbst diese liefern heutzutage nur noch eine unübersichtlich groÿe Anzahl an mög-
lichen Treern. Dem Nutzer bleibt es dann selbst überlassen, die Suchergebnisse einzeln
zu überprüfen und so die für ihn relevanten Treer herauszultern. Das grundlegende
Problem ist, dass Internetseiten zwar Angaben über ihre Struktur, nicht aber über die
Bedeutung ihrer Inhalte enthalten. Auch wie die Inhalte zueinander in Beziehung stehen
bleibt für den Rechner unbekannt, wodurch eine maschinelle Verarbeitung der Inhalte
behindert wird. Die bisherige Suchstrategie liegt in der Volltextsuche. Es werden Be-
grie aus der Menge an Webinhalten geltert, die eine syntaktische Übereinstimmung
aufweisen. Diese Form der Suche ist allerdings beschränkt:
X Die semantische Bedeutung wird nicht erfasst.
X Information auÿerhalb des Dokumentes wird nicht miteinbezogen.
X Mögliche Synonyme des Suchbegris bleiben unberücksichtigt.
X Mehrsprachige Suche ist nur indirekt über Übersetzungsalgorithmen möglich.
X Kenntnis der Booleschen Operatoren notwendig.
X Irreführende und falsche Suchergebnisse.
X Man muss wissen, was man sucht.
Als Beispiel dient hier die Bildersuche von www.google.at: Gibt man in das Suchfeld
den Begri Apache ein, liefert Google an die 540.000 Treer (Stand 27. Oktober 2004).
Abbildung 2.2 zeigt einen Ausschnitt des Bildmaterials. Bei Bild 1) der Abbildung 2.2
handelt es sich um einen Kampfhubschrauber, Bild 2) zeigt eine Schriftart mit dem Na-
men Apache, bei Bild 3) handelt es sich um einen Apache-Indianer und Bild 4) zeigt ein
Logo des Apache.org Webserver Projektes. Nun ist zu erkennen, dass diese Bilder zwar
alle mit dem Begri Apache übereinstimmen, jedoch unterschiedliche Bedeutung auf-
weisen. Dies kann dadurch erklärt werden, dass der Suchvorgang nur auf die syntaktische

Details

Seiten
Erscheinungsform
Originalausgabe
Erscheinungsjahr
2004
ISBN (eBook)
9783836640701
DOI
10.3239/9783836640701
Dateigröße
3.2 MB
Sprache
Deutsch
Institution / Hochschule
Wirtschaftsuniversität Wien – Wirtschaftsinformatik
Erscheinungsdatum
2010 (Januar)
Note
3,0
Schlagworte
ontologie software-agenten digitale signatur wirtschaftsinformatik schema
Zurück

Titel: Semantisches Web, TRIPLE und Integration von heterogenen Informationsquellen
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
76 Seiten
Cookie-Einstellungen