Lade Inhalt...

Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche

Studienarbeit 2008 43 Seiten

Informatik - Computerlinguistik

Zusammenfassung

Inhaltsangabe:Einleitung:
Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssysteme ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabemedium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen - Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprachdialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser erreichbaren Service zu bieten.
Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Entwicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora genannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen repräsentieren, können robuste und flexible Spracherkennungssysteme entwickelt werden. Sie sind immer weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.
Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäßig. Obwohl die Forschung die Technologie vorantrieb, waren die Sprachkorpora für nur wenige, große Sprachen verfügbar. Dies hat sich mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind. Die Suche im Katalog des Linguistic Data Consortium zeigt eine Sammlung unterschiedlicher Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäßig - für Deutsch und Französisch sind in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch keins.
Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts aufgenommen. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.
Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nacharbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für die Aufnahme um das mehrfache übersteigt. […]

Details

Seiten
43
Erscheinungsform
Originalausgabe
Jahr
2008
ISBN (eBook)
9783842821118
Dateigröße
2.2 MB
Sprache
Deutsch
Katalognummer
v228642
Institution / Hochschule
Universität Stuttgart – Institut für maschinelle Sprachverarbeitung, Studiengang Computerlinguistik
Note
1,0
Schlagworte
lëtzebuergesch luxemburg computerlinguistik spracherkennung syxtus gaal

Autor

Zurück

Titel: Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche