Lade Inhalt...

Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche

©2008 Studienarbeit 43 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssysteme ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabemedium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen - Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprachdialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser erreichbaren Service zu bieten.
Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Entwicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora genannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen repräsentieren, können robuste und flexible Spracherkennungssysteme entwickelt werden. Sie sind immer weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.
Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäßig. Obwohl die Forschung die Technologie vorantrieb, waren die Sprachkorpora für nur wenige, große Sprachen verfügbar. Dies hat sich mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind. Die Suche im Katalog des Linguistic Data Consortium zeigt eine Sammlung unterschiedlicher Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäßig - für Deutsch und Französisch sind in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch keins.
Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts aufgenommen. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.
Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nacharbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für die Aufnahme um das mehrfache übersteigt. […]

Leseprobe

Inhaltsverzeichnis


Syxtus Gaal
Automatische phonetische Annotation - ein HMM-basierter Aligner für das
Lëtzebuergesche
ISBN: 978-3-8428-2111-8
Herstellung: Diplomica® Verlag GmbH, Hamburg, 2011
Zugl. Universität Stuttgart, Stuttgart, Deutschland, Studienarbeit, 2008
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.
verbliebene fehlerhafte Angaben und deren Folgen.
© Diplomica Verlag GmbH
http://www.diplomica.de, Hamburg 2011

Danksagung
Es sind die Ideen mehrerer Personen, die diese Arbeit mitgeprägt haben. Peter Gilles
führte mich in die lëtzebuergesche Phonetik ein, betreute fachlich diese Arbeit so-
wie stellte eine Sammlung wertvoller Sprachaufnahmen bereit. Stefan Rapp und Antje
Schweizer stellten das Programm zur Verfügung, auf dem diese Arbeit aufbaut und op-
ferten hilfsberet ihre Zeit, um mich darin einzuarbeiten. Wolfgang Wokurek hat einen
sinnvolen Skopus dieses Projekts deniert. Die Korrekturen von Nils Herda trugen zu
einer klaren Strukturierung, sowie einer hohen Qualität des Textes bei. Okko Buss ist
Autor des Transkriptionsprogramms, das ich während der Korpuserstellung verwen-
det habe. Wojciech Przystas machte mich bereits beim ersten Entwurf auf potentielle
Fehlerquellen aufmerksam und erteilte wertvolle L
A
TEX-Tipps. Diese Arbeit verwendet
z.T. seine L
A
TEX-Codefragmente.
Bei allen diesen Personen möchte ich mich zutiefst bedanken.
2

Inhaltsverzeichnis
1 Einleitung
5
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2 Lëtzebuergesch
6
2.1 Geschichte Luxemburgs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2 Luxemburgisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3 Dialekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.4 Koiné . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.5 Phonetik der luxemburgischen Koiné . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.6 Phonetik des Deutschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen . . . . . . . . . . . . . . . 11
3 Phonetische Alignierung als Erkennungsproblem
12
3.1 Toolgestütze Spracherkennung mit dem Aligner . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Phoneminventar und Aussprachelexikon . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Abbildung der lëtzebuergeschen Phoneme auf deutsche Sprachlaute . . . . . . . . . . . 14
4 Aufbereitung der Sprachdaten
14
4.1 Vorhandene Sprachdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Aufteilung der Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Vorbereitung der Daten - Gilles-Korpus . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3.1 Orthographische Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3.2 Erstellung eines Aussprachelexikons . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3.3 Generierung der phonetischen Transkriptionen . . . . . . . . . . . . . . . . . . 19
4.3.4 Korpusstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.4 Vorbereitung der Daten - das 6000-Wierder-Korpus . . . . . . . . . . . . . . . . . . . . 22
4.4.1 Bereinigung des Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4.2 Aufteilung für Test und Training . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3

4
5 Implementierung
23
5.1 Alignieren der phonetischen Annotation mithilfe des deutschen Aligners . . . . . . . . 24
5.2 Alignierte phonetische Annotation - Ersetzung der deutschen Phonemmarkierungen
mit den lëtzebuergeschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.3 Erstellung der Hidden-Markov-Modelle für lëtzebuergesche Phoneme . . . . . . . . . . 24
5.4 Integration der neuen Modelle in den Aligner. . . . . . . . . . . . . . . . . . . . . . . . 26
5.5 Anpassung der Vorverarbeitungskomponenten des Aligners . . . . . . . . . . . . . . . 26
5.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Evaluierung
27
6.1 Vergleich der Aligner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2 Programm zur automatischen Evaluierung der Ergebnisse . . . . . . . . . . . . . . . . 27
6.3 Korrektur und zweiter Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.4 Manuelle und automatische Alignierung . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7 Zusammenfassung und zukünftige Forschung
30
7.1 Erweiterung der Funktionalität des Aligners . . . . . . . . . . . . . . . . . . . . . . . . 31
7.2 Entwicklung eines lëtzebuergschen Aligners . . . . . . . . . . . . . . . . . . . . . . . . 32
7.3 Entwicklung eines Sprachkorpus für Lëtzebuergesch . . . . . . . . . . . . . . . . . . . . 32
AGilles-Korpus: Fragebuch Lëtzebuergesch
36
B Die Perl-Funktionssammlung ConversionLibrary.pm
38

5
1 Einleitung
1.1 Motivation
Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang
des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssyste-
me ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabe-
medium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme
und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen -
Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprach-
dialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser
erreichbaren Service zu bieten.
Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Ent-
wicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die
immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora ge-
nannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen reprä-
sentieren, können robuste und exible Spracherkennungssysteme entwickelt werden. Sie sind immer
weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.
Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäÿig. Obwohl die Forschung die Tech-
nologie vorantrieb, waren die Sprachkorpora für nur wenige, groÿe Sprachen verfügbar. Dies hat sich
mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind.
Die Suche im Katalog des Linguistic Data Consortium [Lin07] zeigt eine Sammlung unterschiedlicher
Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäÿig - für Deutsch und Französisch sind
in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist
das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch
keins.
Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung
von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts [Dra97] aufgenom-
men. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.
Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nach-
arbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für
die Aufnahme um das mehrfache übersteigt. Nach Gillis [GDG06] kann das Verhältnis von Annota-
tionszeit zur Aufnahmezeit von 35:1 bis zu 60:1 betragen. Demnach kann die Bearbeitung von einer
Minute eines Audiosignals bis zu einer Stunde dauern.
1
1.2 Aufgabenstellung
Die Aufgabe ist es, einen Aligner zu entwickeln, der die Zeit und Kosten für die Entwicklung eines
Sprachkorpuses des Luxemburgischen drastisch reduzieren soll. Der Aligner ist ein Werkzeug, das eine
Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen
1
Gillis nennt aber nur die Schätzungen für eine breite phonetische Annotation; für die enge Transkription ist dieser
Aufwand noch gröÿer.

6
2 LËTZEBUERGESCH
Sprachlaute, die Phoneme, auf der Zeitachse zu 'alignieren'. Das Alignieren ist ein Prozess, in dem die
vorgegebene phonetische Transkription mit Zeitstempeln für den Anfang und das Ende eines jeden
Phonems versehen wird. Der Aligner akzeptiert als Eingabe eine Sprachaufnahme, die dazugehörige
orthographische Transkription sowie ein Aussprachelexikon mit dem verwendeten Wortschatz. Als
Ausgabe liefert er eine Datei, die eine mit Zeitstempeln versehene phonetische Transkription der Äu-
ÿerung enthält. Diese Transkription kann danach manuell geprüft, und, falls die Alignierung fehlerfrei
verlaufen ist, als eine Komponente eines Spracherkennungs- oder Synthesesystems genutzt werden.
Die Aufgabe stellt somit eine Variante des Henne-Ei-Problems dar. Um einen Aligner für das Lu-
xemburgische zu entwickeln, sind phonetisch annotierte und alignierte Sprachdaten erforderlich. An-
dererseits wird für die Erstellung solcher Sprachdaten ein Aligner benötigt. Das manuelle Alignieren
der Trainigsdaten ist möglich, jedoch im Zeitrahmen dieser Arbeit nicht realisierbar.
Um ein Aligner zu entwickeln, der die Aufnahmen unterschiedlicher Sprecher analysieren kann,
sind Trainigsdaten aus unterschiedlicher Sprechergruppen notwendig. Hierfür wird das Gilles-Korpus
[Gil99] sowie aus dem 6000-Mots-Korpus [ele07] eingesetzt. Da es sich hierbei um reine Sprachaufnah-
men handelt, werden diese zuerst manuell phonetisch annotiert. Die Annotierung erfolgt gleichzeitig
im deutschen und luxemburgischen Lautsystem [Wel95]. Danach folgt eine automatische Alignierung
mit dem deutschen Aligner, der von Stefan Rapp [Rap95] am Institut für Maschinelle Sprachverarbei-
tung der Universität Stuttgart entwickelt wurde. Die deutschen Phonemmodelle werden um die für
das Luxemburgische typischen Sprachphänomene (siehe Abschnitt 2.7) ergänzt und in den Aligner
integriert. Der deutsche und der luxemburgische Aligner werden auf einem Testdatensatz evaluiert
und die Testergebnisse automatisch ausgewertet.
Ziel dieser Arbeit ist es einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lëtzebu-
ergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Aligniereung mindestens so
präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen
ist.
2 Lëtzebuergesch
2.1 Geschichte Luxemburgs
Die geographische Lage Luxemburgs sowie die turbulente Geschichte haben die linguistische Ent-
wicklung der Region stark beinusst. [Gil99, S. 3-5] enthält eine Zusammenfassung der wichtigsten
Ereignisse in der Geschichte des Landes. Die Tatsache, dass Luxemburg an der Grenze des romani-
schen und Germanischen Kulturraumes liegt, trug zu der Mehrsprachigkeit der Bewohner sowie der
Vielzahl der Dialekte bei. Die ersten Anzeichen einer kulturellen Dualität stammen bereits von 1340,
als Johann der Blinde (de blanne Jhang), Herrscher Luxemburgs, das Land zum ersten Mal in das
quartier wallon und das quartier allemand teilte. Bisher ist es jedoch umstritten, ob diese Aufteilung
administrative oder linguistische Gründe hatte.
Die gröÿten politischen Änderungen, die die moderne Sprachentwicklung maÿgeblich beeinusst ha-
ben, fanden in der 1. Hälfte des 19. Jahrhunderts statt. Infolge des Wiener Kongresses von 1815
musste das Land den östlichen Teil der deutschsprachigen Gebiete an Preuÿen abgeben. Eine weite-

2.2 Luxemburgisch
7
re Teilung folgte 1839; als Konsequenz des damals unterschriebenen Londoner Vertrags hat Belgien
den nahezu gesamten französischsprachigen Teil Luxemburgs annektiert. Die heutigen politischen
Grenzen des Landes haben sich seit der 1839 nicht mehr verändert. Dieses Jahr markiert auch die
Gründung des Nationalstaates und das Erlangen der Unabhängigkeit. Man muss dabei sagen, dass
das heutige Gebiet des Landes nahezu ausschlieÿlich aus historisch germanophonen Regionen besteht.
Die Tatsache, dass das Land an einer bi- bzw. trilingualen Tradition festhält, kann man jedoch sozial-
psychologisch erklären. Die Verschmelzung der Kulturen ist ein Teil der luxemburgischen Geschichte
und ein wichtiger Aspekt der nationalen Identität.
2.2 Luxemburgisch
Nach [Gil99, S. 7,8] ist das Lëtzebuergesche (Luxemburgische) aus dem Westmoselfränkischen ent-
standen. Es kommt aus der westfränkischer Bucht hervor - einer Region, die durch die fränkischen
Expansionsbewegungen bis ins Pariser Becken gekennzeichneten wurde. Eine umfassende Analyse zu
dem Thema ist u.a. in [Bru53] zu nden.
Heutzutage stehen Deutsch, Französisch und Lëtzebuergesch in einem triglossischen Verhältnis zu-
einander. Lëtzebuergesch ist dabei die Muttersprache; sie wird als erste gelernt und am häugsten
verwendet. Die Verwendung beschränkt sich nicht auf die Gespräche im Alltag, sondern ist in den
Medien und in der Politik präsent. Die beiden weiteren Sprachen werden erst in der Schule gelernt
und werden als Fremdsprachen wahrgenommen.
In der schriftlichen Domäne kommen alle drei Sprachen vor. Das Lëtzebuergesche wird hauptsächlich
im privaten und halböentlichen Kontext verwendet. In den anderen Bereichen kommen alle drei
Sprachen vor, wobei der lëtzebuergesche Anteil in der Literatur konstant steigt. Die Tageszeitungen
sind zwei- oder dreisprachig. Die Texte des öentlichen Bereichs werden entweder auf Deutsch oder
Französisch verfasst. Für Gesetzestexte wird aus historischen Gründen Französisch verwendet.
Nach [Gil99, S. 9] ist Luxemburg, was den mündlichen Sprachgebrauch angeht, strikt einsprachig. Ein
domänengebundener Wechsel in das Deutsche oder das Französische ndet nicht statt. Diese Tatsache
trit unabhängig von Bevölkerungsschicht und Altersstufe der Sprecher zu. Das Code Switching
2
, das
integraler Bestandteil der mehrsprachigen Gesellschaft in der Schweiz und in Belgien ist, ndet in
Luxemburg nicht statt.
Die Sprache wurde in die Norm 639 der International Organization for Standardization aufgenom-
men, die zwei- bzw. dreistellige Sprachenkürzel für den Einsatz in der Datenverarbeitung deniert.
Die ozielle ISO-639-1-Abkürzung für Lëtzebuergsch ist lb. In dem Standard ISO-639-2 [Int98] wur-
de diese Bezeichnung auf ltz erweitert. In dieser Arbeit wird jedoch die Locale-Bezeichnung lb-LU
(Luxemburgisch, gesprochen in Luxemburg) verwendet, da sich diese Notation in kommerziellen Spra-
cherkennern durchgesetzt hat.
2
Code Switching (auch: Sprachwechsel, Kodewechsel) Das Metzler-Lexikon Sprache [Glü05] deniert es alsWechsel
zwischen zwei Sprachen oder Dialekten innerhalb einer Äuÿerung oder eines Dialogs bei bilingualen Sprechern/Schrei-
bern, meist durch Kontextfaktoren bedingt.

8
2 LËTZEBUERGESCH
2.3 Dialekte
Das Moselfränkische wird in Luxemburg, Teilen von Deutschland sowie kleinen Gebieten in Belgien
und Frankreich gesprochen. Es ist jedoch nicht homogen und kann in mehrere Varietäten kategorisiert
werden. [Gil99, S. 50] listet neun Varietäten auf, die in 16 Regionen zu nden sind, drei davon in
Luxemburg.
Eine grobe Aufteilung der Luxemburger Dialekte bendet sich in [Gil99, S. 63]. Demnach kann das
Luxemburgische entlang der geographischen Regionen in vier Dialektgruppen unterteilt werden:
· Zentrum (Luxemburg-Stadt und Alzettetal)
· Süden (rund um Esch-sur-Alzette)
· Norden (Ösling)
· Osten (das Gebiet zwischen Grewenmacher und Vianden entlang der östlichen Staatsgrenze)
2.4 Koiné
Der Begri 'Koiné' stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Spra-
che zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist [Gil99, S. 14].
Die Koinéisierung ist das Verschmelzen von Dialekten zu einer überregionalen Sprachvarietät. Das
klassische Griechisch ist vermutlich durch das Auftreten dieses Prozesses entstanden.
Dieser Begri wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet.
Es gibt unterschiedliche Meinungen, wie die luxemburgische Koiné entstanden ist. Man nimmt an, das
sie entweder als eine diatopische Verallgemeinerung, oder als Produkt der Koinéisierung zu betrachten
ist. Für eine ausführliche Diskussion wird auf [Gil99, S. 12-22] verwiesen.
Es herrscht jedoch relative Einigkeit darüber, dass die Koiné am häugsten im Zentrum und im Süden
des Landes gesprochen wird und sich eher von da aus auf die restlichen Länderteile ausgebreitet hat.
Da sie als die allgemeine und universal verständliche Form des Luxemburgischen gilt, wird sich diese
Arbeit auf der Phonetik dieser Dialektvarietät fokussieren.
2.5 Phonetik der luxemburgischen Koiné
Die unten aufgeführte Klassizierung der luxemburgischen Phonetik basiert auf den Untersuchungen
von Peter Gilles ([Gil99, S. 75], [Gil06]). Eine detaillierte Darstellung ist wichtig, um einen Vergleich
mit dem deutschen Lautsystem, auf dem der Aligner basiert, zu ermöglichen. Auf die Unterschiede
zwischen den beiden Systemen wird in Abschnitt 2.7 näher eingegangen.
Die folgenden Paaren stellen einen Diphtong sowie dessen freie Variante dar:
· ei - @i
· ou - @u
· æ;i - a;i

2.6 Phonetik des Deutschen
9
Tabelle 1: Konsonanten im Lëtzebuergeschen nach [Gil07]
plosiv nasal frikativ approximant
lateral
approx.
bilabial
p b
m
labiodental
f v
w
dental
aleveolar
t d
n
s z
l
postalveolar
S Z
retroex
präpalatal
C ý
j
velar
k g
N
x È
uvular
ö
pharyngal
glottal
P
h
Tabelle 2: Vokale im Lëtzebuergeschen nach [Gil06]
vorn
zentral
hinten
ungerundet gerundet
gerundet
i: i
y: y
u: u
geschlossen
e: e
ø:
@ 8
o: o õ
halb geschlossen
E:
£E
÷:
5
halb oen
a:
æ: æ
A
ã
oen
Die fett markierten Vokale kommen im Lëtzebuergeschen nur selten vor.
Abbildung 1: Diphtonge im Lëtzebuergeschen, nach [Gil06]
· æ;U - a;U
2.6 Phonetik des Deutschen
Der Aligner für das Luxemburgische baut auf der deutschen Version des Programms auf. Der ur-
sprüngliche Aligner ist imstande sämtliche Phoneme, die im deutschen Lautsystem vorkommen, zu
alignieren. Da dieses System die Grundlage für den luxemburgischen Aligner darstellt, wird es hier

10
2 LËTZEBUERGESCH
kompakt vorgestellt. Die unten vorgestellte Klassizierung der deutschen Konsonanten, Vokalen und
Diphtongen basiert auf [PM03]. In Kapitel 3 wird anschlieÿend darauf eingegangen, wie dieses Inven-
tar der deutschen Phoneme im Aligner abgebildet wird.
Tabelle 3: Die deutschen Konsonanten nach [PM03, S. 265]
plosiv nasal frikativ approximant
lateral
approx.
bilabial
p b
m
labiodental
f v
dental
aleveolar
t d
n
s z
l
postalveolar
S Z
retroex
palatal
ç
j
velar
k g
N
(x)
uvular
(X) K
pharyngal
glottal
(P)
h
Abbildung 2: Die Deutschen Vokale nach [PM03, S. 266]
Abbildung 3: Diphtonge im Deutschen [PM03, S. 266]
Für Beispieläuÿerungen, die diese Phoneme enthalten, wird auf [PM03]verwisen. Man muÿ hierbei
vermerken, dass Arikate, da sie aus Paaren von den bereits aufgelisteten Phonemen bestehen, nicht
in der Zusamenstellung berücksichtigt werden.
Die Phoneme [x] und [X] sind ausgeklammert, da sie laut [PM03] als allophonische Varianten von [ç]
zu betrachten sind und nur unter bestimmten Umständen orthographisch transkribiert werden. Das
gleiche gilt für den Glottisverschluss ([P]), der nur vor initialen Vokalen auftritt und kein orthogra-
phisches Gegenstück besitzt.

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2008
ISBN (eBook)
9783842821118
DOI
10.3239/9783842821118
Dateigröße
2.2 MB
Sprache
Deutsch
Institution / Hochschule
Universität Stuttgart – Institut für maschinelle Sprachverarbeitung, Studiengang Computerlinguistik
Erscheinungsdatum
2011 (Oktober)
Note
1,0
Schlagworte
lëtzebuergesch luxemburg computerlinguistik spracherkennung syxtus gaal
Zurück

Titel: Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
43 Seiten
Cookie-Einstellungen