Lade Inhalt...

Natural Language Web Mapping Service unter OGC Standard

Am Beispiel von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-Stadt Bremen

©2003 Diplomarbeit 93 Seiten

Zusammenfassung

Inhaltsangabe:Zusammenfassung:
Diese Diplomarbeit wurde im Rahmen des EU-Projekts EDEN (Electronic Democracy European Network) erstellt. In diesem Projekt geht es um die Entwicklung von elektronischen Werkzeugen zur Vereinfachung der Beteiligung von Bürgerinnen und Bürgern an Planungs- und Entscheidungsprozessen in Politik und Verwaltung. Das zu entwickelnde EDEN-Toolkit umfasst insgesamt sieben Subsysteme. Eines davon wird Natural Language Map (NLMap) genannt. Damit soll u.a. bei regional- und stadtplanerischen Prozessen eine Kommunikation auf der Basis geographischer Informationssysteme (GIS) mit Hilfe natürlichsprachiger Eingaben ermöglicht werden, die User müssen komplexere Fragen nicht mit booleschen Operatoren (UND, AND, OR...) verknüpfen, sie suchen online nach die Karten und die Dokumentationen durch eine Fragestellung in natürliche Sprache (im Gegensatz zu Formalen Sprache).
Der Beitrag dieser Diplomarbeit besteht darin, eine flexible, effiziente, natürlichsprachliche Schnittstelle zu entwickeln, die mit der OGC-Schnittstelle vom GeoServer beim Amt für Stadtplanung und Bauordnung kommunizieren kann und die die EDEN NLP Tools mit deutscher Grammatik benützt, sowie die Kartensuch-Funktionen des Waller-Heerstrasse Projekts vom Amt für Stadtplanung und Bauordnung Bremen zu integrieren. Damit wird den Bremer BürgerInnen ein benutzerfreundlicher Zugang zu Stadtplanungen und Bauordnungen in Bremen ermöglicht.
Um es genauer zu beschreiben, gibt der Nutzer z.B. eine Anfrage in deutscher Sprache im Web Browser ein: „Bitte zeigen Sie mir alle Bauplanungen der Waller-Heerstrasse.“ Dann solle die Bauplanungskarte der Waller-Heerstrasse, alle entsprechenden Dokumente und die Information des Ansprechpartners usw. zurückgeliefert werden. Der Nutzer kann verschiedene Kartenausschnitte wählen, einen Kartenausschnitt vergrößern/verkleinern, die Dokumente online lesen, oder eine Frage direkt an den jeweiligen Ansprechpartner stellen (z.B. per E-Mail), usw.
Im zweiten Kapitel „Grundlagen“ wird zunächst der Begriff „Natural Language Processing“ unter Verwendung der semiotischen Kategorien Syntax, Semantik und Pragmatik erläutert. Dann wird auf Natural Language Systems (NLS) eingegangen. Anschließend werden geographische Informationssysteme definiert und der Stand der Anwendung im Internet sowie Spezifikationen des OpenGIS-Konsortium geschildert.
Bei der Behandlung der Anforderungen an den Prototypen im dritten Kapitel wird zunächst das Anwendungsprojekt […]

Leseprobe

Inhaltsverzeichnis


Hong Xiang
Natural Language Web Mapping Service unter OGC Standard
Am Beispiel von einer NLMapping Middleware für die Integration des EDEN NLP Tools in
der Pilot-Stadt Bremen
ISBN-10: 3-8324-9754-4
ISBN-13: 978-3-8324-9754-5
Druck Diplomica® GmbH, Hamburg, 2006
Zugl. Universität Bremen, Bremen, Deutschland, Diplomarbeit, 2003
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
© Diplomica GmbH
http://www.diplom.de, Hamburg 2006
Printed in Germany



Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel von
einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-Stadt
Bremen
Vorgelegt von Hong Xiang
Seite I
Inhaltsverzeichnis
1 Einleitung...1
1.1 Hintergrund ...1
1.2 Motivation ...3
1.3 Zielsetzung ...5
1.4 Kapitelüberblick...7
2 Grundlage ...8
2.1 Natural Language Processing (NLP)...8
2.1.1 Begriffe ...8
2.1.2 Probleme und Lösungen...9
2.1.3 Natural Language System (NLS)...13
2.2 Geographische Informationssystem (GIS) ...14
2.2.1 Hintergrund ...14
2.2.2 Begriffe ...15
2.2.3 GIS Daten...17
2.2.4 GIS im Internet ...19
2.2.5 OpenGIS Konsortium (OGC) Spezifikationen ...22
2.2.6 XML im GIS...24
3 Anforderungen an den Prototypen ...26
3.1 Sanierungsgebiet Waller Heerstraße Projekt ...26
3.2 Anforderungsanalyse ...27
3.2.1 Funktionalität ...27
3.2.2 Usability ...28
3.2.3 Interoperabilität...29
4 Software für den Prototypen...30
4.1 Software aus der bestehenden Infrastruktur...30
4.1.1 NLP im EDEN Projekt ...30
4.1.2 AED GeoServer...32
4.2 Neu ausgewählte Software...37
4.2.1 Apache XML-RPC Protokoll...37

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel von
einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-Stadt
Bremen
Vorgelegt von Hong Xiang
Seite II
4.2.2 Java Servlet & Jakarta Tomcat 4.0.4 ... 40
4.2.3 Datenbank Server ­ MySQL ...41
5 Der Prototyp NLMap Middleware ... 43
5.1 Entwurf ... 43
5.1.1 NLMap Middleware Architektur ...44
5.1.2 NLMap Middleware Klassendiagramme ...47
5.1.3 Das NLMap Middleware Komponentendiagramm ...52
5.1.4 Planung der Datenbank... 54
5.2 Implementierung & Integration ...56
5.2.1 Die deutsche Grammatik für den EDEN NLP ... 57
5.2.2 Parser für die Integration... 59
5.2.3 Probleme und Lösungen... 59
6 Testen des Prototypen NLMap Middleware ...65
6.1 Funktionalitätstest...66
6.1.1 Black-Box-Test ...66
6.1.2 White-Box-Test... 69
6.2 Usability Test ... 71
6.2.1 Explorativ Test ...72
6.2.2 Vergleichstest ... 75
6.3 Interoperabilitätstest...76
6.4 Performance Test...77
7 Zusammenfassung und Ausblick... 79
7.1 NLP Integration im GIS ...79
7.2 NLMap Middleware System Architektur ... 80
7.3 Ausblick... 81

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Seite III
Abkürzungsverzeichnis
Bezeichnung
Bedeutung
CGI
Common Gateway Interface
DBMS
DataBase Management System
DCP
Distributed Computing Plattform
DTD
Document Type Definition
EDEN
Electronic Democracy European Network
GIS
Geographic Information System
GIV
Geographischen Informationsverarbeitung
GML
Geography Markup Language
HTML
Hypertext Markup Language
HTTP
Hypertext Transfer Protocol
IK
Informations- und Kommunikationstechnik
IST
Information Society Technologies
JDBC
Java Database Connection
JSP
Java Server Pages
KI
Künstlichen Intelligenz
LAN
Local Area Network
MIME
Multipurpose Internet Mail Extensions
NLMap
Natural Language Map
NLP
Natural Language Processing
NLS
Natural Language System
ODBC
Open DataBase Connectivity
OGC
Open GIS Consortium
OS
Operating System
OWS
OGC Web Service
SQL
Structured Query Language
SRS
Spatial Reference System
UML
Unified Modeling Language
URL
Uniform Resource Locator
WCS
Web Coverage Service

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Seite IV
Bezeichnung
Bedeutung
WFS
Web Feature Service
WMS
Web Map Service
XML
Extensible Markup Language

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 1
1 Einleitung
1.1 Hintergrund
Die modernen Informations- und Kommunikationstechniken (IK) ermögli
chen eine neue Informationsgesellschaft. Die Integration von Informations
verarbeitung, Telekommunikation und Informationsinhalte schreitet sehr
schnell voran. Die Europäische Gemeinschaft strukturiert diese Entwick
lung um so genannte Rahmenprogramme. Das 5. Rahmenprogramm
1
(FP5) legte die Prioritäten - einschließlich des IST (Information Society
Technologies) Programms - für die Forschung der EU, technologische
Entwicklung und Demonstrations (RTD) Tätigkeiten während der Periode
1998-2002 dar. Diese Prioritäten sind auf der Grundlage von einen Satz all
gemeiner Kriterien gekennzeichnet worden, welche die Hauptinteressen der
Erhöhung der industriellen Wettbewerbsfähigkeit und der Lebensqualität
für europäische BürgerInnen in einer globalen Informationsgesellschaft
reflektieren.
Die Benutzerfreundliche Informationsgesellschaft, das IST-Programm glie
dert sich in vier Hauptaktionen (Key Actions) sowie in die Bereiche gene
rische Forschung , Entwicklung und Forschungsinfrastruktur. In dem Ak
tionsbereich eDemocracy entwickelte sich das Projekt EDEN
2
(Electronic
Democracy European Network). Unter dem Begriff eDemocracy werden
Diskussionen darüber zusammengefasst, wie sich die informations- und
kommunikationstechnische Infrastruktur dazu nutzen lässt, demokratische
Kommunikations- und Beteiligungsstrukturen zu beleben. Im weiteren
Sinne umfasst eDemocracy auch die Bemühungen, die Bürger stärker in
politische Meinungsbildungs- und Selbstorganisationsprozesse einzubezie
hen [GISP01].
1
http://www.cordis.li/fp5/home.html
2
http://www.edentool.org/index.htm

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 2
Die EDEN Projekt Partner sind aus verschieden Städten in verschieden EU
Länden
1
, Amt für Stadtplanung und Bauordnung Bremen
2
und Uni Bremen
3
sind auch dabei.
Das strategische Ziel des Projektes EDEN ist die Verbesserung der Kom
munikation zwischen der öffentlichen Verwaltung und den BürgerInnen in
Entscheidungsprozessen. Konkret geht es dabei um qualitative, quantitative
und wirtschaftliche Verbesserungen bzw. Optimierungen im Bereich der
BürgerInnen-Beteiligung. Zur qualitativen Verbesserung soll unter
anderem die Vereinfachung des Zugangs zu qualifizierten
Informationen/Daten durch ,,Natural Language Processing" (NLP)
4
unter
stützt werden.
Im Mittelpunkt des Projektes EDEN steht die Entwicklung von Werkzeugen
(Tools) zur BürgerInnen-Beteiligung. Diese Tools sollen in bereits be
stehende Infrastrukturen integriert werden und den BürgerInnen den Dialog
mit der öffentlichen Verwaltung in ihrer Muttersprache ermöglichen.
Besonderes Augenmerk wird dabei darauf gelegt, dass diese neuen Tools
eine direkte, vorstrukturierte und gleichzeitig reichhaltigere Interaktion
ermöglichen und fördern. Die neuen Tools sollen zudem für Mehrzweck-
Anwendungen geeignet sein, d.h. für möglichst viele Aspekte der Bürge
rInnen-Beteiligung genutzt werden können [EDEN02].
Das EDEN Toolkit besteht aus sieben interaktiven Sub-Systemen, eines da
von heißt NLMap (Natural Language Map)
5
. Aus der Perspektive der
Funktion des NLMap Moduls bietet das NLMap Modul die BürgerInnen
einen Zugang zum Geographische Informationssystem (GIS)
6
, die Nutzer
müssen komplexere Fragen nicht mit booleschen Operatoren (UND, AND,
1
Mehr Info. siehe http://www.edentool.org/partners.htm
2
http://www.bremen.de/info/stadtplanung-bauordnung/
3
http://www.edentool.org/Partners/tzi.htm
4
Mehr über NLP siehe S.8 Kapitel 2.1
5
http://www.edentool.org/presentationA.htm
6
Mehr Info. über GIS siehe S.14 Kapitel 2.2

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 3
OR, ... ) verknüpfen, sie suchen online nach die Karten und die Doku
mentationen durch eine Fragestellung in natürliche Sprache
1
(im Gegensatz
zu Formalen Sprache
2
) .
1.2 Motivation
In den letzen Jahren haben viele europäische öffentliche Administrationen
sich durch Web Seiten im Internet präsentiert, die mehr oder weniger kom
plizierte Daten / Technik und graphisches Layout haben. Interaktion, ein
von den innovativsten Elementen in den Informations- und Kommunika
tionsnetzen, spielt dabei eine wichtige Rolle[ENPP02].
Der Begriff Interaktion leitet sich aus dem lateinischen "inter" für zwischen
und "agere" für handeln ab[HK97]. Natürlichsprachliche Interaktion mit
künstlichen Systemen (z.B. Computer System) geschieht im wesentlichen
zum Zweck verbaler Steuerung der Systeme oder der Informationsge
winnung durch natürlichsprachliche Anfragen. Das ist eine der wichtigsten
Anwendungen der Computerlinguistik
3
, ein großer Schritt in Richtung Be
dienbarkeit des künstlichen Systems. Natural Language Processing (NLP)
4
steht hinter den Funktionen für die natürlichsprachlichen Interaktionen.
Mit NLP soll ein Computer zum Beispiel auf die Frage: ,,Wo ist die Waller-
Heerstraße?" die richtige Antwort finden. Den Schlüssel dazu sehen
Linguisten in einer Software, die grammatikalische Regeln analysieren und
die Bedeutung von Wörtern und Sätzen erkennen kann. Die zwei spezi
fischen Probleme dabei sind die kontextsensitiven Konstruktionen und die
Mehrdeutigkeit. Man kann dafür keine allgemeine Lösung erwarten, son
dern nur ein inkrementelles Einschränken der Probleme. [MH02]
1
Definition siehe S. 8 Kapitel 2.1.1
2
Definition der Formale Sprache http://www.hyperkommunikation.ch/lexikon/formale_sprache.htm
3
Siehe auch S.8 Kapitel 2.1.1
4
Siehe auch S.8 Kapitel 2.1.1

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 4
Dann stellt sich die Frage:
Wie sehr müssen die Theorien/Methoden/Implementationen der kognitiven
Sprachverarbeitung dem Denken des Menschen entsprechen?
Eine Web Anwendung mit NLP Tools ist Problemorientiert, die Funktio
nalität und Interaktivität der Anwendung ist beschränkt durch viele Eigen
schaften: der Anwendungszweck, der Anwendungsbereich, die Datensätze
des Systems, die angewendeten NLP Tools, usw.
Aus diesem Grund findet man kein allgemeines und sehr genaues natür
lichsprachliches Zugangssystem, das den Dialog mit dem Computer in
gesprochener oder geschriebener Sprache ermöglicht
1
bzw. Zugang zu
anderen Informationssysteme
2
, z.B. Geographische Informationssystem
(GIS)
3
.
Bereits Ende der 50er Jahre begannen die Entwicklungen, die später zum
Entstehen von GIS führten. Probleme werden während der Entwicklung des
GIS immer wieder auftauchen und sind zu lösen. Geographische Informa
tionssysteme leisten heute wertvolle Dienste in allen Belangen räumlicher
Datenverwaltung und Entscheidungsfindung. Einen wesentlichen Beitrag
hierzu hat die Entwicklung weg von graphikorientierten hin zu informa
tionsorientierten (objektorientierten) Systemen geleistet. Natural Language
Processing vereinfacht den Zugang zu den informationsorientierten geo
graphischen Systemen. [RS97]
In Indien wurde NLP in einer GIS Anwendung integriert, und zwar, mit
den Methoden der Künstlichen Intelligenz (KI) [MKR00]. Im Projekt Geo
NODE
4
(Geospatial News on Demand Environment) von der Firma Mitre
1
http://www.ai.univie.ac.at/~harald/nlu-lehre.html
2
Der Begriff Informationssystem wird in der Literatur sehr uneinheitlich und undifferenziert verwendet und sogar
im Lexikon nicht einheitlich definiert, siehe: http://www11.informatik.tu-
muenchen.de/publications/da/huber97/node10.html
3
Mehr siehe S.14 Kapitel 2.2
4
http://www.mitre.org/resources/centers/it/g061/geonode/

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 5
wurde NLP Alembic
1
im News Precessing BNN
2
(Broadcast News Naviga
tor) integriert und die entsprechende Geoinformationen werden durch Web
Map Service ArcViewGIS
3
im Browser dargestellt.
Aber es gibt kein System das sämtliche Aufgaben, die allgemein im GIS-
Umfeld auftauchen lösen kann [SM96]. Bis jetzt gibt es keine realisierte
Anwendung eines GIS mit der NLP Integration in Europa.
In wiefern können NLP Tools den Zugang zu Informationssysteme
vereinfachen und den Nutzer helfen, die wenige technische Kenntnisse
haben? Wie können mehr Geodaten online als Informationsquelle zur
Verfügung stehen? Was für eine Rolle spielen näturlichsprachliche
Zugangssysteme bei e-Democracy? Über diese Fragen werden immer noch
wissenschaftliche Diskussionen geführt.
1.3 Zielsetzung
Diese Arbeit befasst sich mit Natural Language Processing (NLP) und Geo
graphische Informationssysteme.
Der Ursprung dieser Arbeit war das NLMap Modul vom EDEN Projekt mit
deutscher Grammatik in einem Geographischen Informationssystem unter
dem OGC
4
Standard zu integrieren und lokalisieren.
Das EDEN NLMap Modul benutzt NLP Tools von einem italienischen Pro
jektpartner Omega Generation
5
, die auf der Entwicklungsplattform von
einem weiteren Projektpartner YANA Research
6
(aus Italien) entwickelt
werden. Um das NLMap Modul in Deutsch integrieren zu können, muss
1
http://www.mitre.org/resources/centers/it/g063/nl-index.html
2
http://www.mitre.org/resources/centers/it/g061/bnn/bnn_1_2.pdf
3
http://www.esri.com/software/arcgis/arcview/
4
http://www.opengis.org/
5
http://www.edentool.org/Partners/omega.htm
6
http://www.edentool.org/Partners/yana.htm

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 6
man die deutsche Grammatik für die EDEN NLP Tools entwickeln, das ist
die Aufgabe des deutschen Projektpartners Uni Bremen
1
.
Die Integration des NLMap Moduls in das Projekt Sanierungsgebiet Waller
Heerstraße
2
in der Pilot-Stadt Bremen bzw. beim Amt für Stadtplanung und
Bauordnung Bremen basiert auf der bestehenden Infrastruktur. Das Geo
graphische Informationssystem, das beim Amt für Stadtplanung und Bau
ordnung Bremen installiert ist, heißt GeoServer
3
, dies ist ein Produkt von
AED Graphics AG
4
.
Mein eigener Beitrag für diese Arbeit ist es, eine flexible, effiziente, natür
lichsprachliche Schnittstelle zu entwickeln, die mit der OGC Schnittstelle
vom Geoserver beim Amt für Stadtplanung und Bauordnung Bremen kom
munizieren kann, und die die EDEN NLP Tools mit deutscher Grammatik
benützt, sowie die Kartensuch Funktionen des Waller-Heerstrasse Projekts
vom Amt für Stadtplanung und Bauordnung Bremen
5
zu integrieren. Damit
wird den bremer BürgerInnen ein benutzerfreundlicher Zugang zu Stadtpla
nungen und Bauordnungen in Bremen ermöglicht.
Um es genauer zu beschreiben, gibt der Nutzer z.B. eine Anfrage in deut
scher Sprache im Web Browser ein: ,,Bitte zeigen Sie mir alle Baupla
nungen der Waller-Heerstrasse." Dann solle die Bauplanungskarte der
Waller-Heerstrasse, alle entsprechenden Dokumente und die Information
des Ansprechpartners usw. zurückgeliefert werden. Der Nutzer kann ver
schiedene Kartenausschnitte wählen, einen Kartenausschnitt
vergrößern/verkleinern, die Dokumente online lesen, oder eine Frage direkt
an den jeweiligen Ansprechpartner stellen (z.B. per E-Mail), usw.
1
http://www.edentool.org/Partners/tzi.htm
2
http://www.bremen.de/info/stadtplanung-bauordnung/waller-heerstrasse/, Siehe auch Kapitel 3.1
3
http://www.geoserver.de/
4
http://www.aed-graphics.de/
5
Http://www.bremen.de/info/stadtplanung-bauordnung/waller-heerstrasse/

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 7
Bei der Entwicklung der deutschen Grammatik bzw. EDEN NLP Tool mit
der deutschen Grammatik sind viele Probleme aufgetaucht
1
, im Arbeitszeit
raum dieser Diplomarbeit steht bisher noch kein richtig funktionierendes
EDEN NLP Tool mit der deutschen Grammatik zur Verfügung. Als Zwi
schenlösung werden ein Parser und eine Datenbank von mir entwickelt, um
die deutschsprachige Abfrage zu analysieren, die angeforderte Karten vom
GeoServer zu holen und die entsprechenden Sachdaten aus der Datenbank
auszulesen.
1.4 Kapitelüberblick
Bisher haben wir uns mit den Hintergründen, mit der Motivation und mit
der Zielsetzung für diese Diplomarbeit auseinander gesetzt. Danach folgt
der Haupt Bestandteil der Arbeit.
Zunächst werden theoretische Grundlagen und Begriffe im 2. Kapitel erläu
tert, die zum späteren Verständnis der Arbeit wichtig sind. Auf einige
schon vorgestellten Begriffe wird noch detaillierter eingegangen, einige
Beispiele werden dazu vorgestellt.
Die Anforderungen an den Prototypen werden im Kapitel 3 analysiert und
definiert, der in dieser Arbeit entwickelt werden soll. Dabei gibt es eine
Kurze Vorstellung von dem Sanierungsgebiet Waller Heerstrasse Projekt,
in dem der Prototyp integriert werden soll.
Im 4. Kapitel wird eine Liste von Anforderungen an die Software zu
sammengestellt, die in der Entwicklung gebraucht werden. Dabei werden
zuerst allgemeine Anforderungen gesucht, die Haupteigenschaften von der
jeweiligen Software werden detailliert vorgestellt, und es wird auch be
gründet, weshalb diese Software für diese Arbeit ausgewählt wurde.
1
Mehr Info. Siehe Kapitel 4.3.2

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 8
Im 5. Kapitel haben wir dann die Kenntnisse, um den Entwurf dieses Sys
tems kennenzulernen. Die System Architektur Diagramme, Klassen Dia
gramme und Komponenten Diagramme werden dargestellt. Darüber hinaus
wird noch eine Datenbank geplant. Die Probleme und die Lösungen werden
erläutert, die in der Implementierung und der Integration des Prototypen
aufgetaucht sind. Die Implementierung wird dokumentiert.
Die System Tests werden im 6. Kapitel protokolliert und diskutiert. Dabei
werden die Funktionalitäten, Usability und Inteoperabilitäten des Prototypen
mit verschiedenen Test-Methoden getestet.
Eine Zusammenfassung und ein Ausblick werden die Arbeit dann ab
schließen.
2 Grundlage
Bevor die Integration des EDEN NLMap Moduls und meine eigene
Entwicklung vorgestellt werden kann, gilt es auf den zwei Forschungsge
bieten, Natural Language Processing (NLP) und Geographische Informa
tionssystem (GIS), einzugehen.
2.1 Natural Language Processing (NLP)
Können Computer die menschliche Sprache verstehen? Wie können /
sollen sie die menschliche Sprache verstehen?
2.1.1 Begriffe
Auf der Seite http://www.dictionary.com/ findet man folgende Definitionen
zu Natural Language Processing (NLP) und Natural Language:
Natural Language Processing: Computer understanding, analysis, manipulation, and/or
generation of natural language.
Natural Language: A language spoken or written by humans, as opposed to a language use
to program or communicate with computers.

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 9
Im deutschsprachigen Raum wird NLP auch als Computerlinguistik oder
Maschinelle Spracheverarbeitung bezeichnet:
Computerlinguistik ist jene Disziplin, die sich mit der maschinellen Ver
arbeitung natürlicher Sprache beschäftigt [MH02].
Noch einige wichtige Begriffe aus dem Bereich Computerlinguistik werden
hier aus einem Online Glossar
1
zitiert:
·
Ein Parser ermittelt die Syntaxstruktur sowie die Morphologie von Wortformen eines
Satzes. Ein Parser ist eine Prozedur, welche eine Eingabe (z.B. ein Satz) mit der
Grammatik des Programmes vergleicht und entscheidet, ob die Eingabe der Grammatik
entspricht.
·
Der Begriff Grammatik wird verwendet, um mehrere Wissensbereiche zu bezeichnen:
Traditionsgemäß sind dies die morphologischen und syntaktischen Eigenschaften einer
menschlichen Sprache. Folgende Bereiche können mit dem Begriff Grammatik abge
deckt werden:
·
Ein System struktureller Regeln, welche die Grundlage der linguistischen
Generierung und des Sprachverständnisses sind.
·
Eine Sprachtheorie oder ein Modell linguistischer Kompetenz.
·
Systematische Beschreibung der formalen Regularitäten einer natürlichen
Sprache in Form eines Nachschlagewerkes oder Lehrbuchs.
·
Ein Lexikon ist eine Zusammenstellung von Wörtern und des damit verbundenen
Wissens. Ein Lexikon für Sprachwissen kann Einzelheiten beinhalten: über die
grammatische Struktur eines jeden Wortes, über die Lautstruktur , seine Wortart, und
die Bedeutung des Wortes in unterschiedlichen Textzusammenhängen, z.B. je nachdem,
welches Wort oder Satzzeichen diesem Wort vorangeht oder folgt.
2.1.2 Probleme und Lösungen
Natural Language Processing (NLP) / Computerlinguistik (CL) ist kein
neues Forschungsgebiet. Schon 1946 gab es Versuche, menschliche Spra
che mit Computern zu verarbeiten. Wegen der politischen Situation zu
dieser Zeit konzentrierten sich Versuche hauptsächlich auf maschinelle
1
http://www.ifi.unizh.ch/cl/Glossar/

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 10
Übersetzung und fast ausschließlich auf die Übersetzung vom Russischen
ins Englische. [DJ00]
In den letzten Fünfzig Jahren sind viele Probleme bei der Entwicklung von
NLP immer wieder aufgetaucht und wurden gelöst bzw. nur teilweise ge
löst. Die meisten Probleme sind von der linguistischen Analyse, die der
Kern der Computerlinguistik ist.
Die linguistische Analyse erfolgt in der Reihenfolge Morphologie/Lexikon,
Syntax, Semantik, Pragmatik.
·
Die morphologische Analyse führt die Wortformen
1
auf ihre Grundform
zurück und bestimmt ihre Wortkategorie (Nomen, Verb, etc.) und Eigen
schaften wie z.B. die Zeitform bei Verben. Für diese Analyse wird nor
malerweise auch ein Lexikon verwendet, welches die nötigen Informa
tionen über die Wörter enthält. Das Lexikon muss auch Informationen
für die Syntax- und Semantik Komponenten enthalten. Darauf entsteht
das Grundproblem der morphologische Analyse, dass ihr Umfang sehr
groß ist. Eine Lösung ist: man versucht die Wortformen regelbasiert zu
zerlegen, das Lexikon speichert dann nur die kleinsten Einheiten eines
Wortes, sog. Morpheme, z.B. lern für das Wort lernen. Aber diese Me
thode erhöht allerdings die Komplexität stark und somit die Rechenzeit
des Systems. [CR97]
·
Syntax
Die Syntax beschreibt einerseits die wohlgeformten Sätze mit gramma
tischen Regeln und ist andererseits Grundlage für die semantische Interpre
tation, indem sie die Struktur eines Satzes analysiert. Die Syntaxanalyse
liefert zum Beispiel Subjekt, Verb und Objekte des Satzes.
Für die Syntaxanalyse werden Grammatiken verwendet, die aus rekursiven
Regeln bestehen. Sie werden auch generative Grammatiken genannt, weil
1
Das Wort Buch hat zum Beispiel die Wortformen Buch, Buches, Bücher und Büchern. Buch ist dann das Grund
form.

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 11
durch wieder-holtes (unendliches) Anwenden der Grammatikregeln eine
Menge von Sätzen generiert werden kann. Bei der Syntaxanalyse werden
dann genau die von der Grammatik generierbaren Sätze auch als wohlge
formt erkannt. Die von der Grammatik generierte Satzmenge sollte im Ide
alfall genau gleich wie die einer natürlichen Sprache sein. Es gibt aber noch
keine generativen Grammatiken, welche eine natürliche Sprache genau
generieren, da die Konstruktion einer solchen Grammatik sehr aufwendig
ist. [CR97]
Ein großes Problem bei der Syntaxanalyse und bei der Sprachverarbeitung
allgemein sind die Mehrdeutigkeiten. So hat der Satz ,,Susanne beobachtete
den Mann mit dem Fernglas" zwei verschiedene Möglichkeiten einer kor
rekten Syntaxanalyse. Eine Analyse von englischen Texten mit einem
einfachen Parser hat bei etwa 80% der Sätze Mehrdeutigkeiten festgestellt.
Solche Mehrdeutigkeiten lassen sich eigentlich nur durch das Einbeziehen
des Kontextes korrekt auflösen. Da dies aber erst mit Hilfe der seman
tischen und pragmatischen Analyse möglich ist, werden oft auch heuris
tische Verfahren zur Auflösung der Mehrdeutigkeiten verwendet. [CR97]
·
Semantik und Pragmatik
Die Semantik und Pragmatik befassen sich beide mit der Bedeutung eines
Satzes. Die Bedeutung eines Satzes zu kennen heißt, zu wissen wie die Welt
wäre, wenn der Satz wahr wäre. [CR97]
Ein großes Problem dabei ist, dass die natürliche Sprache viele Ungenauig
keiten enthalten. Beispiele für solche Ungenauigkeiten sind Ausdrücke wie
vielleicht, wahrscheinlich, einige, die meisten, viele etc. Die Mehrdeutigkei
ten Probleme sind auch noch dabei. Viele Wörter haben mehrere Bedeu
tungen, aber auch ganze Sätze können neben den bereits erwähnten syn
taktischen Mehrdeutigkeiten auch semantische Mehrdeutigkeiten enthalten.
Beim Satz ,,Alle Schüler saßen auf dem Tisch." ist nicht klar, ob alle Schü

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 12
ler auf dem gleichen Tisch saßen oder auf verschiedenen Tischen, die syn
taktische Struktur bleibt aber immer gleich. [CR97]
Pronomen (er, sie, es, ...) müssen bei der pragmatischen Analyse durch die
von ihnen referierten Objekte im Textkontext ersetzt werden. Die Nomen
müssen mit Referenzen auf Objekte aus dem Situationskontext ersetzt
werden. [CR97]
Die heutigen Semantik- und Pragmatiktheorien umfassen noch lange nicht
alle Phänomene der natürlichen Sprachen. Es existieren auch nur sehr
wenige Implementationen dieser Theorien in größeren Systemen. [CR97]
Alle Anstrengungen der Wissenschaftler, den Computer das Verstehen von
menschlichen Sprache beizubringen, sind in den Kinderschuhen stecken
geblieben, obwohl die Maschinen inzwischen enorm leistungsfähig ge
worden sind. Denn die menschliche Sprache ist so komplex, dass der
Computer schon bei scheinbar einfachen Fragen in höchste Verlegenheit
gerät.[PS02] Die zwei spezifische Probleme der Syntaxanalyse natürlicher
Sprachen: Kontextsensitiver Konstruktionen und Mehrdeutigkeit, die im
Einleitung schon genannt werden, sind immer die wichtige Gründe der
beschränkten Entwicklung von Natural Language Systemen. [MH02]
Informatiker und Computerlinguistiker diskutieren schon lange über den
richtigen Weg, um dieses Problem zu lösen. Soll man dem Computer
beibringen, möglichst viele Regeln zu bestimmten Situationen anzu
sammeln ­ wie in einem Schachprogramm? Die Folge: Der Rechner kann
dann dieses Problem lösen, aber eben nur nur dieses eine Problem. Oder
soll man versuchen, Muster im Sprachverhalten zu erkennen und, ähnlich
wie die Wettervorhersage, mit Wahrscheinlichkeitsrechnungen arbeiten?
Das Problem: ein immenser Rechenaufwand, der selbst heutige Computer
überfordert, und zugleich zu wenig auswertbare Daten liefert. [PS02]

Diplomarbeit Natural Language Web Mapping Service unter OGC Standard am Beispiel
von einer NLMapping Middleware für die Integration des EDEN NLP Tools in der Pilot-
Stadt Bremen
Vorgelegt von Hong Xiang
Kapitel
Seite 13
2.1.3 Natural Language System (NLS)
Ein System, das irgendeine Eigenschaft der nachfolgenden Aufzählung ent
hält, wird als Natural Language System (NLS) betrachtet. Beispiele für sol
che Systeme sind [NLP01]:
·
Natürlichsprachliche Zugangssysteme, die den Dialog mit dem Computer in gespro
chener oder geschriebener Sprache ermöglichen.
·
Textverstehende Systeme, die Informationen aus Dokumenten extrahieren.
·
Sprache erkennende Systeme, die gesprochene Sprache in Text übertragen.
·
Maschinelle Übersetzungssysteme (MÜS).
·
Sprachsynthese, etwa zum Vorlesen elektronisch gespeicherter Texte.
·
Systeme für Grammatik- und Stilkorrektur, die das Formulieren und Verfassen von
Texten erleichtern.
Die Aufgaben, die ein umfassendes NLS bewältigen können müsste, wären
[MH02]:
·
Analyse: Der Eingabesatz muss syntaktisch, semantisch und u.U. auch
pragmatisch analysiert werden, wobei ,,pragmatisch" v.a. Heißt, den Si
tuationskontext zu erfassen und z.B. den Dialog aktiv zu steuern,
Benutzermodelle aufzubauen etc.
·
Auswertung: Das Resultat muss ausgewertet werden, und zwar im um
gangssprachlichen Sinn, d.h. ``inhaltlich'' verwendet, nicht im später zu
erörternden Sinn der Modelltheorie.
·
Synthese: Die sprachliche Reaktion des Systems muss u.U. synthetisiert
(generiert) werden, z.B. w
enn der Benutzer eine Anfrage gestellt hatte, muss die
Antwort darauf ausformuliert werden.
Zentrale Schwerpunkte alle NLS [MH02] sind:
·
Repräsentation von sprachlichen Inhalten: Wissensrepräsentation
·
Schlussfolgerungen ziehen aus sprachlichen Inhalten: Wissensver
arbeitung

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2003
ISBN (eBook)
9783832497545
ISBN (Paperback)
9783838697543
DOI
10.3239/9783832497545
Dateigröße
2.4 MB
Sprache
Deutsch
Institution / Hochschule
Universität Bremen – Mathematik / Informatik (FB 3)
Erscheinungsdatum
2006 (August)
Note
2,0
Schlagworte
kartensuchfunktion opengis
Zurück

Titel: Natural Language Web Mapping Service unter OGC Standard
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
93 Seiten
Cookie-Einstellungen