Semantisches Web, TRIPLE und Integration von heterogenen Informationsquellen

Hochleitner, Markus

Semantisches Web, TRIPLE und Integration von heterogenen Informationsquellen

Zusammenfassung

Inhaltsangabe:Einleitung:
Die Diplomarbeit umfasst das Thema Semantisches Web, TRIPLE und Integration von heterogenen Informationssquellen. Ziel ist die Beschreibung der Rolle, welche die modulare Regelbeschreibungssprache TRIPLE im Semantischen Web einnimmt. Weiter soll anhand von Beispielen jene Möglichkeiten dargestellt werden, die diese Sprache im Bereich der Integration heterogener Informationsquellen bietet. Die Arbeit wird dazu in 4 Teile gegliedert.
Im ersten Teil wird auf das Semantische Web im Allgemeinen eingegangen. Insbesondere soll hier dessen Entstehung, Aufbau, Problemstellung und Möglichkeiten näher erläutert werden.
Der zweite Teil der Arbeit beschäftigt sich mit der Rolle der modularen Regelbeschreibungssprache TRIPLE innerhalb des Semantischen Webs. Es werden hier Aufbau, Funktionsweise, Syntax und Eigenschaften der Sprache beschrieben. Diese werden abschließend anhand eines Beispiels veranschaulicht.
Im dritten Teil wird auf die Problematik der Integration heterogener Informationsquellen eingegangen. Dazu werden die Grundlagen beschrieben, sowie ein Überblick darüber gegeben, welche Arten von Integrationskonflikten auftreten können. Anschließend wird anhand von Beispielen erläutert, welche Möglichkeiten die modulare Regelbeschreibungssprache TRIPLE auf dem Gebiet der Integration bietet.
Die Arbeit schließt mit einer Zusammenfassung des gewählten Themas. Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Einleitung6
2.Semantisches Web7
2.1W3C8
2.1.1Geschichte8
2.1.2Aufgaben und Ziele9
2.2Die Idee des Semantischen Web11
2.3Problemstellung12
2.4Anwendungen des Semantischen Webs13
2.4.1Software-Agenten13
2.4.2RSS15
2.4.3Gezieltere Suche17
2.5Schichtenmodell18
2.5.1UNICODE / URI19
2.5.2XML, XML Schema, Namespaces21
2.5.3RDF, RDF Schema24
2.5.4Schema Schicht - Ontology vocabulary36
2.5.5Logik Schicht38
2.5.6Proof und Trust38
2.5.7Digitale Signatur39
2.6Fazit und Ausblick39
3.TRIPLE42
3.1Definition42
3.2Problemstellung43
3.3Eigenschaften44
3.4CPU Beispiel46
4.Integration heterogener Informationsquellen49
4.1Einleitung49
4.2Grundlagen der Integration49
4.3Integrationsprozess52
4.4Klassifikation von Integrationskonflikten55
4.4.1Strukturelle Heterogenitätskonflikte55
4.4.2Semantische Heterogenitätskonflikte57
4.4.3Inkonsistenz- und Redundanzprobleme57
4.5Integration mittels TRIPLE58
4.5.1Grundlagen58
4.5.2Parametrisierte Modelle59
5.Verwandte […]

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Semantisches Web

2.1 W3C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.1 Geschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.2 Aufgaben und Ziele . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Die Idee des Semantischen Web . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Anwendungen des Semantischen Webs . . . . . . . . . . . . . . . . . . . 13

2.4.1 Software-Agenten . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4.2 RSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4.3 Gezieltere Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.5 Schichtenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.5.1 UNICODE / URI . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.5.2 XML, XML Schema, Namespaces . . . . . . . . . . . . . . . . . . 21

2.5.3 RDF, RDF Schema . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.5.4 Schema Schicht - Ontology vocabulary . . . . . . . . . . . . . . . 36

2.5.5 Logik Schicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.5.6 Proof und Trust . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.5.7 Digitale Signatur . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.6 Fazit und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 TRIPLE

3.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3 Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.4 CPU Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Inhaltsverzeichnis

4 Integration heterogener Informationsquellen

4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2 Grundlagen der Integration . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3 Integrationsprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.4 Klassikation von Integrationskonikten . . . . . . . . . . . . . . . . . . 55

4.4.1 Strukturelle Heterogenitätskonikte . . . . . . . . . . . . . . . . . 55

4.4.2 Semantische Heterogenitätskonikte . . . . . . . . . . . . . . . . . 57

4.4.3 Inkonsistenz- und Redundanzprobleme . . . . . . . . . . . . . . . 57

4.5 Integration mittels TRIPLE . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.5.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.5.2 Parametrisierte Modelle . . . . . . . . . . . . . . . . . . . . . . . 59

5 Verwandte Arbeiten

6 Zusammenfassung

Abbildungsverzeichnis

2.1 Beispiel für wohldenierte Bedeutung . . . . . . . . . . . . . . . . . . . . 11

2.2 Suche nach Apache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3 Schichtenmodell (nach [Bern04c]) . . . . . . . . . . . . . . . . . . . . . . 19

2.4 Beispiel XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.5 Allgemeiner RDF-Graph (nach [Hans01, 1051]) . . . . . . . . . . . . . . . 27

2.6 RDF-Graph für Willibald vertraut dem TrustService (nach [Furc04, 21]) . 27

2.7 RDF-Graph für die Aussage Hochleitner als Autor seiner Webseite . . . . 27

2.8 Beispiel für die Darstellung von RDF in Form von XML . . . . . . . . . 28

2.9 Graph für Willibald wiegt 80 Pfund . . . . . . . . . . . . . . . . . . . . . 29

2.10 Graph für Willibald spielt gerne Fussball, Golf und Tennis . . . . . . . . 29

2.11 Graph für Willibald spielt gerne Fussball, Golf und Tennis mittels Container 30

2.12 Beispiel für die Verwendung von Reication . . . . . . . . . . . . . . . . 31

2.13 Graph für Reication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.14 Beispiel für RDFS (nach [Bric04]) . . . . . . . . . . . . . . . . . . . . . . 35

2.15 Ontologie des Beispiels 2.14 . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.16 Entwicklung des Semantischen Webs (nach [Furc04, 13]) . . . . . . . . . 40

3.1 CPU Beispiel Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2 CPU Beispiel Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3 CPU Beispiel Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.1 Klassikation der Integrationskonikte (nach [Wach03, 22]) . . . . . . . . 55

4.2 Verwendung von Views als Parameter für andere Views hinsichtlich se-

mistrukturierter Daten (nach [Deck04a, 2]) . . . . . . . . . . . . . . . . . 59

4.3 People Beispiel Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.4 People Beispiel Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.5 Parametrisiertes Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Abbildungsverzeichnis

4.6 Medium Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.7 Medium Beispiel Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.8 Medium Beispiel Output . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

1 Einleitung

Die Diplomarbeit umfasst das Thema Semantisches Web, TRIPLE und Integration von

heterogenen Informationssquellen. Ziel ist die Beschreibung der Rolle, welche die modu-

lare Regelbeschreibungssprache TRIPLE im Semantischen Web einnimmt. Weiters soll

anhand von Beispielen jene Möglichkeiten dargestellt werden, die diese Sprache im Be-

reich der Integration heterogener Informationsquellen bietet. Die Arbeit wird dazu in 4

Teile gegliedert.

Im ersten Teil wird auf das Semantische Webim Allgemeinen eingegangen. Insbe-

sondere soll hier dessen Entstehung, Aufbau, Problemstellung und Möglichkeiten näher

erläutert werden.

Der zweite Teil der Arbeit beschäftigt sich mit der Rolle der modularen Regelbeschrei-

bungssprache TRIPLE innerhalb des Semantischen Webs. Es werden hier Aufbau, Funk-

tionsweise, Syntax und Eigenschaften der Sprache beschrieben. Diese werden abschlie-

ÿend anhand eines Beispiels veranschaulicht.

Im dritten Teil wird auf die Problematik der Integration heterogener Informationsquel-

len eingegangen. Dazu werden die Grundlagen beschrieben, sowie ein Überblick darüber

gegeben, welche Arten von Integrationskonikten auftreten können. Anschlieÿend wird

anhand von Beispielen erläutert, welche Möglichkeiten die modulare Regelbeschreibungs-

sprache TRIPLE auf dem Gebiet der Integration bietet.

Die Arbeit schlieÿt mit einer Zusammenfassung des gewählten Themas.

2 Semantisches Web

I have a dream for the Web ... and it has two parts. In the rst part, the

Web becomes a much more powerful means for collaboration between people.

I have always imagined the information space as something to which everyone

has immediate and intuitive access, and not just to browse, but to create. [...]

Furthermore, the dream of people-to-people communication through shared

knowledge must be possible for groups of all sizes, interacting electronically

with as much ease as they do now in person.

In the second part of the dream, collaborations extend to computers. Machi-

nes become capable of analyzing all the data on the Web -the content, links,

and transactions between people and computers. A Semantic Web, which

should make this possible, has yet to emerge, but when it does, the day-to-

day mechanisms of trade, bureaucracy, and our daily lives will be handled

by machines talking to machines, leaving humans to provide the inspiration

and intuition. The intelligent agents people have touted for ages will nally

materialize. This machine-understandable Web will come about through the

implementation of a series of technical advancements and social agreements

that are now beginning. (siehe [Bern99]).

So beschreibt Tim-Berners Lee (vgl. auch [Bern04e]), der Direktor des W3C (Abkür-

zung von engl.: World Wide Web Consortium), seine Vision vom Web der nächsten

Generation, dem Semantischen Web. Neue Web-Standards sollen maschinell verständli-

che Semantiken für Information schaen und die Repräsentation von Daten vereinfachen.

Schon seit den 90er Jahren wird das Problem behandelt, wie es möglich ist, seman-

tische Metadaten in das WWW (Abkürzung von engl.: World Wide Web) zu integrieren

(vgl. [Krue04, 5]). Seither hat sich das W3C im Rahmen einer Initiative der weiteren

Entwicklung des Semantischen Webs verschrieben.

KAPITEL 2. SEMANTISCHES WEB

2.1 W3C

Das W3C ist ein Gremium, welches an der Entwicklung neuer Protokollspezikationen

und Architekturen für das World Wide Webarbeitet.

Es steht an der Spitze neuer Entwicklungen im Bereich der Dienstleistungen, Anwen-

dungen und auch sozialer Änderungen. Zu seinen Partnern zählen zur Zeit mehr als 450

Organisationen, darunter führende IT-Unternehmen, renommierte Forschungsinstitute

und groÿe Anwender. Weiters wird es von mehreren Universitäten unterstützt.

Um dem enormen Wachstum des WWW Rechnung zu tragen, setzt es seinen Schwer-

punkt auf WWW-bezogene Themen, welche in Kooperation mit seinen Mitgliedern und

anderen Organisationen bearbeitet werden. Durch diese Vereinigung von Energie und

das Wissen von hunderten Entwicklern, Forschern und Benutzern ist das W3C in der

Lage, bedeutende Errungenschaften für die Entwicklung des WWW zu erzielen. (vgl.

[Birk04]).

2.1.1 Geschichte

Gegründet wurde das W3C als eine unabhängige Non-Prot Organisation im Oktober

1994 am MIT/LCS (Abkürzung von engl.: MIT Laboratory for Computer Science) in

Boston (USA). Mittlerweile gibt es auÿerhalb der Vereinigten Staaten eine Niederlassung

in Frankreich (1995), an der Keio Universität in Tokio (1996) und in Deutschland (1998).

Das W3C nanziert sich über Mitgliedsbeiträge. Sowohl Organisationen als auch Spe-

zialisten können sich dem W3C anschlieÿen, wohingegen Privatpersonen von der Mit-

gliedschaft ausgeschlossen sind. Eine vollständige Mitgliedschaft kostet im Jahr $ 50.000.

Eine so genannte aliate Membership mit den gleichen Rechten wird weiters für Un-

ternehmen vergeben, deren Umsatz unter $ 50.000.000,- liegt, für Unternehmen ohne

Gewinnerzielungsabsicht oder für Regierungsbehörden (vgl. [Fisc04b]).

Das W3C wird heute von seinem Direktor, Tim Berners-Lee, geleitet. An den drei Nie-

derlassungen sind mittlerweile ca. 60 Personen dauerhaft beschäftigt (vgl. [Birk04]).

KAPITEL 2. SEMANTISCHES WEB

2.1.2 Aufgaben und Ziele

Die Aufgabe des W3C ist die Erstellung von Web-Standards und die Weiterentwicklung

von Internet-Techniken unter möglichst starker Einbeziehung von Organisationen, Ex-

perten und Anwendern.

Im Allgemeinen verfolgt es 7 Zielsetzungen: (vgl. [Fisc04a])

1. Universelle Zugangsmöglichkeiten

Wissen soll für alle Menschen nutzbar gemacht werden, unabhängig davon, welche

Hard- oder Software sie verwenden, welche Netzinfrastruktur vorhanden ist, wie

ihre Sprache, ihre Kultur, ihre geograsche Position oder ihre körperlichen oder

geistigen Fähigkeiten sind. Vor allem Aktivitäten in den Bereichen Internationa-

lization, Mobile access, Web on TV, Voice browser, Web Accessibility Initiative

veranschaulichen die Zielsetzung, universelle Zugangsmöglichkeiten zu schaen.

2. Das Semantische Web

Das Semantische Web ist eine Weiterentwicklung des WWW, wobei Information

mit Metadaten versehen wird, um deren Bedeutung zu denieren und die auto-

matische Verarbeitung von Daten und Wissen aus unterschiedlichen Quellen zu

ermöglichen. Dadurch soll vor allem im Bereich der Suche nach Information und

Dokumenten eine entscheidende Verbesserung erreicht werden. Als Bausteine für

das Semantische Web dienen unter anderem RDF, XML und URI, auf die in Ka-

pitel 2.5 genauer eingegangen wird.

3. Vertrauen

Die weitere Entwicklung soll dahingehend gelenkt werden, dass über digitale Signa-

turen geprüft werden kann, ob eine bestimmte Person ein Dokument geschrieben

oder eine Behauptung aufgestellt hat oder aber mit diesen übereinstimmt (vgl.

[Schw04]). Es soll in dieser Art ein vertrauenswürdiges Web (engl.: Web of Trust)

aufgebaut werden, das es den Benutzern möglich macht, Verantwortung für ih-

re Beiträge zu übernehmen (vgl. [Fisc04a]). Besonders auf sicherheitstechnische,

soziale und legale Bereiche soll hierbei eingegangen werden.

4. Interoperabilität

Das Ziel vom W3C ist es, das Internet unabhängig von Hard- oder Software zu

benützen. Interoperabilität erlaubt es den Leuten, frei zu entscheiden, welches Be-

triebssystem, welche Hardware oder Software sie einsetzen, ohne befürchten zu

KAPITEL 2. SEMANTISCHES WEB

müssen, dass bestimmte Inhalte nicht mehr angezeigt werden. Das W3C als un-

abhängige Organisation versucht dies durch die Entwicklung von oenen, nicht

proprietären Protokollen und Computersprachen zu gewährleisten, womit gleich-

zeitig die in der Vergangenheit herrschende Marktteilung verhindert werden soll

(vgl. [Fisc04a]).

5. Entwicklungsfähigkeit

Das WWW unterliegt einer enorm schnellen Entwicklung, wodurch die Gefahr be-

steht, dass Techniken, die wir heute benutzen, schon morgen veraltet sein können.

Das W3C arbeitet daher daran, ein Web aufzubauen, dessen aktuelle Technologien

in zukünftige reibungslos eingefügt werden können, um das problemlose und ab-

wärtskompatible Funktionieren des Webs zu gewährleisten, ohne das zu zerstören,

was bisher problemlos funktioniert. Die Prinzipien der Einfachheit, der Modulari-

tät, der Kompatibilität und der Erweiterbarkeit sind hierbei richtungsweisend (vgl.

[Fisc04a]).

6. Dezentralisierung

Unter diesem Punkt versteht man den Versuch der Reduktion von Engpässen und

der Anfälligkeit des Webs als Ganzes durch die Schaung einer Web-Architektur,

welche nur wenige zentrale Web-Einrichtungen aufweist. Die notwendige Begleiter-

scheinung von verteilten Systemen und damit das Herz und die Seele des Internets

ist Fehlertoleranz. Dem Web soll es somit erleichtert werden, sich global zu entfal-

ten, ohne seine Fehleranfälligkeit und Auswahlwahrscheinlichkeit zu erhöhen (vgl.

[Fisc04a]).

7. Attraktiveres Multimedia

Durch die Einbindung von Endbenutzer und unter Rücksichtnahme auf deren

Wünsche soll gewährleistet werden, dass durch Interaktivität, Sound, Videos, 3D-

Eekten und Animationen ein attraktives Web geschaen wird. Sprachen wie SVG

(Abkürzung von engl.: Scalable Vector Graphic) (vgl. auch [Lill04]) und SMIL

(Abkürzung von engl.: Synchronized Multimedia Integration Language)(vgl. auch

[Thie04]) dienen ebenfalls diesem Interesse (vgl. [Fisc04a]).

KAPITEL 2. SEMANTISCHES WEB

2.2 Die Idee des Semantischen Web

Tim Berners-Lee äuÿerte sich zum Semantischen Web folgendermaÿen:

Your data needs to be understood not by people,but by machines. (siehe

[Part04]).

Nach Tim Berners-Lee und Eric Miller (vgl. auch [Mill04a]) handelt es sich beim Seman-

tischen Web (abgeleitet vom Griechischen sem für Bedeutung) um eine Erweiterung

des gegenwärtigen Web,in dem Information eine wohldenierte Bedeutung hat,um die

Kooperation zwischen Mensch und Maschine zu erleichtern. Die W3C Semantic Web

Activity (vgl. auch [Mill04b]) erarbeitet in Kooperation mit einer groÿen Zahl von Part-

nern in der Industrie und Wissenschaftlern Standards und Technologien,um Daten im

Web derart zu denieren und miteinander zu verknüpfen,dass sie für eektivere Such-,

Automatisierungs- und Integrationsprozesse genutzt und über mehrere Anwendungen

hinweg wieder verwendet werden können (vgl. [Bern04a]).

Der Begri wohldenierte Bedeutung soll im Folgenden verdeutlicht werden:

<html>

<body>

<h1>Internet-Kurs</h>

<p>Dieser Kurs, der von Dr. John Doe vorgetragen wird, beschäftigt

sich mit den Grundzügen des Internets. Die Kursdauer beträgt 48 Stunden.

Preis: 30 ¿</p>

</body>

</html>

Abbildung 2.1: Beispiel für wohldenierte Bedeutung

Abbildung 2.1 zeigt einen ktiven HTML Code,der Angaben bezüglich Preis,Inhalt

und Dauer eines Weiterbildungskurses enthält. Jedoch ist für einen Rechner aus obiger

Repräsentation der Information beispielsweise Preis oder Dauer nicht extrahierbar,da

der Rechner nicht ohne weitere Hilfe auf die Bedeutung der Daten schlieÿen kann.

KAPITEL 2. SEMANTISCHES WEB

Das Semantische Web soll hier weiterhelfen, indem es Daten mittels Meta-Information

mit wohldenierter Bedeutung ausstattet (vgl. [Krue04]). So wird beispielsweise dem

Rechner verständlich gemacht, dass es sich bei der Zahlenkombination 35, nicht um

das Alter einer Person oder die Anzahl der Seiten eines Buches handelt, sondern um eine

Preisangabe. Mit dem Zeichen ¿ kann man in gleicher Weise verfahren, indem man

ihm hier die Bedeutung Währung gibt. Die Suche und Bewertung von Information soll

so eektiver werden.

2.3 Problemstellung

Das heutige Internet stellt eine bereits unüberschaubare Anzahl von Webseiten zur Verfü-

gung. Die Qualität der dargebotenen Information reicht dabei von aktuell und informativ

bis hin zu veraltet oder fehlerhaft. Dokumente werden vorwiegend in HTML (Abkür-

zung von engl.: Hypertext Markup Language) verfasst, wobei die Information derart

strukturiert wird, dass die HTML-Seite über einen Browser, der die Seite interpretiert,

in eine für den Menschen lesbare Form umwandelt. Das Problem dabei ist nun, dass

Webseiten zwar Information darüber enthalten, wie ihre Inhalte dargestellt werden. Die

inhaltliche Bedeutung der Webseite und die Beziehung dieser Inhalte zueinander bleibt

allerdings dem Rechner verborgen. Die Folge davon ist, dass dieses Datenmaterial bisher

schwer einheitlich rechnergestützt verarbeitet werden kann (vgl. [Krue04]). Die meisten

Daten des heutigen Webs sind somit nur dafür bestimmt, von Menschen gelesen zu wer-

den. Computer haben keine verlässliche Möglichkeit, auf die Bedeutung der Daten zu

schlieÿen. Das Semantische Web macht dies möglich, indem es die Bedeutung der Daten

für Softwarekomponenten durch die Denition von Metadaten erkennbar macht. Nach

[Hans01] handelt es sich bei Metadaten um

... Daten über Daten. Sie beschreiben Dateninhalte anhand eines be-

stimmten Vokabulars. Das Vokabular deniert, welche Attribute für welche

Dateninhalte vergeben werden können. (siehe [Hans01, 1050]).

Das Semantische Web greift jedoch nicht nur auf Information zu, die in Form von Web-

seiten gespeichert ist. Auch Information bezüglich einer Person, wie deren Kontaktin-

formation oder ihre Termine, können mit Metadaten versehen und online zur Verfügung

gestellt werden, um es Softwarekomponenten zu ermöglichen auf diese Daten zuzugreifen

(vgl. [Bern04d]).

KAPITEL 2. SEMANTISCHES WEB

Darüber hinaus gibt es verschiedenste Sprachen, unterschiedliche Ontologien, Auas-

sungen über die Bedeutung von Wörtern und unterschiedliche Datenbanksysteme, in

denen Information gespeichert wird. Das Konzept des Semantischen Webs stellt hier

einen Lösungsansatz dar, da es die Repräsentation von Daten vereinfacht.

Dieses Konzept verdeutlicht, dass es sich beim Semantischen Web nicht um ein eige-

nes revolutionäres Web, sondern vielmehr um eine Weiterentwicklung des gegenwärtigen

Webs handelt. Das Web wird alle seine Möglichkeiten erschlieÿen, wenn es zu einer Um-

gebung wird, in der Daten sowohl von automatischen Werkzeugen als auch von Menschen

genutzt und bearbeitet werden, erklären Tim Berners-Lee und Eric Miller in ihrem Bei-

trag mit dem Titel Das semantische Web hebt ab (vgl. [Bern04a]).

Semantische Web Technologien stecken zwar noch in der frühen Entwicklungsphase und

es fehlt an einer einheitlichen Zukunftsvision, aber Vorteile wie eine gezieltere Suche

oder intelligente Software-Agenten sind so überzeugend, dass mit einer allgemeinen,

wenn auch sehr allmählichen Ausbreitung des Semantischen Webs zu rechnen ist (vgl.

[Palm04]).

2.4 Anwendungen des Semantischen Webs

Tim Berners-Lee und Eric Miller beurteilen das Potential des Semantischen Webs wie

folgt:

Das Aufregendste am Semantischen Web ist nicht das, was wir uns al-

les damit vorstellen können, sondern das, was wir uns jetzt noch gar nicht

vorstellen können. (siehe [Bern04a]).

Das Semantische Web schat eine Vielzahl an neuen Möglichkeiten. Als ein Ausschnitt

wichtiger Anwendungsbeispiele wird im Folgenden auf intelligente Software-Agenten,

RSS sowie auf die Möglichkeit einer gezielteren Suche im Web exemplarisch eingegangen.

2.4.1 Software-Agenten

Die Denition von Metadaten und die Zuweisung von Semantik bietet die Möglichkeit,

Webseiten derart zu gestalten, dass sie von sogenannten Software-Agenten gelesen und

die enthaltene Information maschinell verstanden und weiterverarbeitet wird. Das Er-

gebnis kann anschlieÿend anderen Programmen zur Verfügung gestellt werden.

KAPITEL 2. SEMANTISCHES WEB

Nach Potemba

... kann eine intelligente Suchmaschine bzw. ein intelligenter Agent als ein

Softwareprodukt deniert werden, das Dienstleistungen verschiedenartiger

Natur für den Benutzer unabhängig von seiner direkten Kontrolle autonom

ausführt und sich dabei der Methoden und Mechanismen künstlicher Intelli-

genz bedient. (siehe [Pote98, 215]).

Ausgehend von dieser Denition enthalten die meisten Erklärungsansätze drei wichtige

Eigenschaften, die ein Programm aufweisen muss, um als Agent bezeichnet zu werden:

1. Vertrauen:

Der Agent verhält sich den Erwartungen des Benutzers entsprechend.

2. Personalisierbarkeit:

Der Agent kann entweder lernen oder explizit gelehrt bekommen, welche Aufgaben

er für jeden individuellen Nutzer zu erfüllen hat.

3. Autonomie:

Der Agent darf selbstständig ohne explizite Erlaubnis oder Mitteilung zumindest

einige Aktionen im Auftrag des Nutzers vornehmen (vgl. [Furc04, 4]).

Typische Anwendungen von Agenten umfassen Informationslterung (engl.: information

ltering), Informationsndung (engl.: information discovery) und intelligente Kalender.

Beim information ltering handelt es sich um den Prozess des Auslterns der für einen

Benutzer relevanten Information aus einer gröÿeren Masse (z.B. email ltering, news

ltering). Information discovery hingegen umfasst die aktive Suche nach neuen Informa-

tionsquellen, an Orten, die der Benutzer vorher nicht kannte (vgl. [Rohs04]).

Intelligente Kalender-Webseiten sind sowohl für Menschen als auch für Maschinen be-

stimmt. Für eine Person zeigt eine Intelligente Kalender-Webseite eine grasche Auf-

bereitung eines Kalenders mit Terminen und Veranstaltungen. Software-Agenten liefert

dieselbe Webseite über Metadaten die Angabe, dass es sich bei dieser Webseite um einen

Kalender handelt. Auch die einzelnen Kalendereinträge versteht ein Agent durch die

Denition des Inhaltes, wie zum Beispiel Datum, Betre, Autor et cetera, mittels Me-

tadaten.

KAPITEL 2. SEMANTISCHES WEB

Von einer Webseite zur nächsten zu surfen, um Kalender anderer Leute zu durchsuchen

und Termine mit den eigenen abzugleichen, ist inezient. Diese Aufgabe sollen Agenten

plattformübergreifend und softwareübergreifend übernehmen. In Verbindung mit On-

line Verkehrswebseiten könnten diese Agenten auch Staureports in die Terminplanung

miteinbeziehen und den Benutzer informieren, beispielsweise zehn Minuten früher los-

zufahren. Die Möglichkeiten sind vielfältig.

Das Semantische Web wird über kurz oder lang aber auch in unsere physische Welt

eindringen. Mittels URIs und RDF haben wir die Möglichkeit, nahezu alles anzusteuern,

einschlieÿlich physischer Geräte wie Handys, Handhelds oder Fernsehgeräte. Das erö-

net völlig neue Möglichkeiten. Beispielsweise könnte die Lautstärke aller lokalen Geräte

automatisch reduziert werden, wenn das Telefon läutet. Es wird nicht mehr nötig sein,

alle Geräte einzeln zu programmieren, sondern Geräte mit den Eigenschaften lokales

Gerät und einen Lautstärkeregler innehabend könnten zusammen angesprochen wer-

den (vgl. [Bern04d]).

Erste Schritte in diese Richtung sind bereits unternommen worden: CC/PP (Abkür-

zung von engl.: Composite Capability/Preference Prole) (vgl. auch [Butl04]) ist eine

RDF-Anwendung, die Eigenschaften von Geräten beschreibt. Über die Deklaration von

Prolen für die unterschiedlichen Geräte, wie Handys, PDAs und andere, kann die Dar-

stellung von Webinhalten auf diese zugeschnitten werden, sodass Webserver nur jene

Daten liefern, die von den Geräten dargestellt werden können. Bisherige Möglichkei-

ten sind für die Vielzahl an unterschiedlichen Zugangsgeräte, insbesondere dank hoch-

bandbreitiger Funknetze, nicht mehr ausreichend. CC/PP soll hier einen Lösungsansatz

bieten.

2.4.2 RSS

Eine weitere Anwendung des Semantischen Webs ist RSS (Abkürzung von engl.: Really

Simple Syndication).

Mittels RSS werden Inhalte von Webseiten in maschinenlesbarer Form bereitgestellt.

Diese Technik, welche auf RDF basiert, wird besonders in Verbindung mit Nachrichten-

meldungen genutzt. Die Idee dahinter ist, dass auf Nachrichten spezialisierte Suchma-

schinen das Web nach RSS Feeds durchsuchen und somit vollautomatisch umfassende

und durchsuchbare Nachrichtendatenbanken erstellen.

KAPITEL 2. SEMANTISCHES WEB

Benutzer erhalten Information über verschiedene Kanäle. Anbieter veröentlichen Ihr

Informationsangebot über Webseiten für ein nicht näher eingegrenztes Zielpublikum.

Interessierte werden mittels oener Newsletter regelmäÿig mit Hintergrundinformation

versorgt. Nebenbei gibt es geschlossene Mailinglisten, um Mitteilungen schnell weiterzu-

leiten.

Trotz dieser scheinbar klaren Trennung ist es nicht immer einfach zu entscheiden, wel-

che Information für wen relevant ist und wo sie am sinnvollsten untergebracht wird.

Der Empfänger der Information steht vor einem Dilemma. Hat er sich für die passive

Informationsversorgung entschieden, muss er zwischen unerwünschten und willkomme-

nen E-Mails stets neu entscheiden. Hat er sich für die aktive Informationsversorgung

entschieden, muss er sich selbst auf Informationssuche begeben, ein meist sehr zeitinten-

sives Unterfangen angesichts der enormen Anzahl an Webseiten. Zusätzlich steht er in

einer Holschuld, denn durch die immer kürzer werdende Verfallszeit einzelner Websites

muss der Nutzer regelmäÿig die betroenen Seiten aufsuchen, um über Änderungen am

Laufenden zu bleiben (vgl. [Mazz04]).

RSS stellt hier eine Neuerung dar. Information mit Nachrichtencharakter wird über

RSS-Kanäle veröentlicht. Eigene Programme, sogenannte Feedreader, lesen diese In-

formationen ein und entlasten somit die Mailboxen der Adressaten. Anhand der Über-

schrift und eines Lead-Textes können Nutzer nun entscheiden, ob die Information für sie

interessant ist und ob sie die dazugehörige Website aufrufen möchten.

Die Vorteile von RSS für Anbieter und Leser sind vielfältig:

X Anbieter können Nachrichten zeitnah zu ihrer Entstehung veröentlichen, einen In-

formationskanal, einzelne Artikel, oder Bilder beschreiben und Redundanzen durch

den Verweis auf ursprüngliche Quellen vermeiden.

X Leser ihrerseits können Information aus verschiedenen Kanälen mittels Feedreader

abonnieren und so ihr individuelles Informations-Portfolio zusammenstellen. Durch

popUp-Fenster können sie auf neu eingetroene Nachrichten hingewiesen und vom

Aussortieren irrelevanter E-Mails entlastet werden (vgl. [Mazz04]).

KAPITEL 2. SEMANTISCHES WEB

2.4.3 Gezieltere Suche

Die Idee des Semantischen Webs kann hervorragend anhand der Notwendigkeit nach

einer ezienteren Suche im WWW verdeutlicht werden. Aufgrund der steigenden Dy-

namisierung und der wachsenden Anzahl an Webseiten im Internet wird es für uns

Menschen immer schwieriger, die für einen selbst relevante Information in adäquater

Zeit zu nden. Zum Zweck der Suche nach diesen Daten stehen dem Anwender ezient

arbeitende Suchmaschinen, wie zum Beispiel Google, Yahoo oder Lycos zur Verfügung.

Doch selbst diese liefern heutzutage nur noch eine unübersichtlich groÿe Anzahl an mög-

lichen Treern. Dem Nutzer bleibt es dann selbst überlassen, die Suchergebnisse einzeln

zu überprüfen und so die für ihn relevanten Treer herauszultern. Das grundlegende

Problem ist, dass Internetseiten zwar Angaben über ihre Struktur, nicht aber über die

Bedeutung ihrer Inhalte enthalten. Auch wie die Inhalte zueinander in Beziehung stehen

bleibt für den Rechner unbekannt, wodurch eine maschinelle Verarbeitung der Inhalte

behindert wird. Die bisherige Suchstrategie liegt in der Volltextsuche. Es werden Be-

grie aus der Menge an Webinhalten geltert, die eine syntaktische Übereinstimmung

aufweisen. Diese Form der Suche ist allerdings beschränkt:

X Die semantische Bedeutung wird nicht erfasst.

X Information auÿerhalb des Dokumentes wird nicht miteinbezogen.

X Mögliche Synonyme des Suchbegris bleiben unberücksichtigt.

X Mehrsprachige Suche ist nur indirekt über Übersetzungsalgorithmen möglich.

X Kenntnis der Booleschen Operatoren notwendig.

X Irreführende und falsche Suchergebnisse.

X Man muss wissen, was man sucht.

Als Beispiel dient hier die Bildersuche von www.google.at: Gibt man in das Suchfeld

den Begri Apache ein, liefert Google an die 540.000 Treer (Stand 27. Oktober 2004).

Abbildung 2.2 zeigt einen Ausschnitt des Bildmaterials. Bei Bild 1) der Abbildung 2.2

handelt es sich um einen Kampfhubschrauber, Bild 2) zeigt eine Schriftart mit dem Na-

men Apache, bei Bild 3) handelt es sich um einen Apache-Indianer und Bild 4) zeigt ein

Logo des Apache.org Webserver Projektes. Nun ist zu erkennen, dass diese Bilder zwar

alle mit dem Begri Apache übereinstimmen, jedoch unterschiedliche Bedeutung auf-

weisen. Dies kann dadurch erklärt werden, dass der Suchvorgang nur auf die syntaktische

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2004
ISBN (eBook): 9783836640701
DOI: 10.3239/9783836640701
Dateigröße: 3.2 MB
Sprache: Deutsch
Institution / Hochschule: Wirtschaftsuniversität Wien – Wirtschaftsinformatik
Erscheinungsdatum: 2010 (Januar)
Note: 3,0
Schlagworte: ontologie software-agenten digitale signatur wirtschaftsinformatik schema
Produktsicherheit: Diplom.de

Autor

Markus Hochleitner (Autor:in)

Semantisches Web, TRIPLE und Integration von heterogenen Informationsquellen

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Details

Autor

Markus Hochleitner (Autor:in)