Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche

Gaal, Syxtus

Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche

Zusammenfassung

Inhaltsangabe:Einleitung:
Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssysteme ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabemedium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen - Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprachdialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser erreichbaren Service zu bieten.
Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Entwicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora genannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen repräsentieren, können robuste und flexible Spracherkennungssysteme entwickelt werden. Sie sind immer weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.
Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäßig. Obwohl die Forschung die Technologie vorantrieb, waren die Sprachkorpora für nur wenige, große Sprachen verfügbar. Dies hat sich mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind. Die Suche im Katalog des Linguistic Data Consortium zeigt eine Sammlung unterschiedlicher Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäßig - für Deutsch und Französisch sind in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch keins.
Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts aufgenommen. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.
Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nacharbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für die Aufnahme um das mehrfache übersteigt. […]

Leseprobe

Inhaltsverzeichnis

Syxtus Gaal

Automatische phonetische Annotation - ein HMM-basierter Aligner für das

Lëtzebuergesche

ISBN: 978-3-8428-2111-8

Herstellung: Diplomica® Verlag GmbH, Hamburg, 2011

Zugl. Universität Stuttgart, Stuttgart, Deutschland, Studienarbeit, 2008

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,

insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von

Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der

Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,

bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik

Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich

vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des

Urheberrechtes.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in

diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,

dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei

zu betrachten wären und daher von jedermann benutzt werden dürften.

Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können

Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder

Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.

verbliebene fehlerhafte Angaben und deren Folgen.

http://www.diplomica.de, Hamburg 2011

Danksagung

Es sind die Ideen mehrerer Personen, die diese Arbeit mitgeprägt haben. Peter Gilles

führte mich in die lëtzebuergesche Phonetik ein, betreute fachlich diese Arbeit so-

wie stellte eine Sammlung wertvoller Sprachaufnahmen bereit. Stefan Rapp und Antje

Schweizer stellten das Programm zur Verfügung, auf dem diese Arbeit aufbaut und op-

ferten hilfsberet ihre Zeit, um mich darin einzuarbeiten. Wolfgang Wokurek hat einen

sinnvolen Skopus dieses Projekts deniert. Die Korrekturen von Nils Herda trugen zu

einer klaren Strukturierung, sowie einer hohen Qualität des Textes bei. Okko Buss ist

Autor des Transkriptionsprogramms, das ich während der Korpuserstellung verwen-

det habe. Wojciech Przystas machte mich bereits beim ersten Entwurf auf potentielle

Fehlerquellen aufmerksam und erteilte wertvolle L

TEX-Tipps. Diese Arbeit verwendet

z.T. seine L

TEX-Codefragmente.

Bei allen diesen Personen möchte ich mich zutiefst bedanken.

Inhaltsverzeichnis

1 Einleitung

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Lëtzebuergesch

2.1 Geschichte Luxemburgs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Luxemburgisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3 Dialekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.4 Koiné . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5 Phonetik der luxemburgischen Koiné . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.6 Phonetik des Deutschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen . . . . . . . . . . . . . . . 11

3 Phonetische Alignierung als Erkennungsproblem

3.1 Toolgestütze Spracherkennung mit dem Aligner . . . . . . . . . . . . . . . . . . . . . . 12

3.2 Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.3 Phoneminventar und Aussprachelexikon . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.4 Abbildung der lëtzebuergeschen Phoneme auf deutsche Sprachlaute . . . . . . . . . . . 14

4 Aufbereitung der Sprachdaten

4.1 Vorhandene Sprachdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.2 Aufteilung der Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.3 Vorbereitung der Daten - Gilles-Korpus . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.3.1 Orthographische Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.3.2 Erstellung eines Aussprachelexikons . . . . . . . . . . . . . . . . . . . . . . . . 18

4.3.3 Generierung der phonetischen Transkriptionen . . . . . . . . . . . . . . . . . . 19

4.3.4 Korpusstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.4 Vorbereitung der Daten - das 6000-Wierder-Korpus . . . . . . . . . . . . . . . . . . . . 22

4.4.1 Bereinigung des Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.4.2 Aufteilung für Test und Training . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 Implementierung

5.1 Alignieren der phonetischen Annotation mithilfe des deutschen Aligners . . . . . . . . 24

5.2 Alignierte phonetische Annotation - Ersetzung der deutschen Phonemmarkierungen

mit den lëtzebuergeschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.3 Erstellung der Hidden-Markov-Modelle für lëtzebuergesche Phoneme . . . . . . . . . . 24

5.4 Integration der neuen Modelle in den Aligner. . . . . . . . . . . . . . . . . . . . . . . . 26

5.5 Anpassung der Vorverarbeitungskomponenten des Aligners . . . . . . . . . . . . . . . 26

5.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6 Evaluierung

6.1 Vergleich der Aligner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.2 Programm zur automatischen Evaluierung der Ergebnisse . . . . . . . . . . . . . . . . 27

6.3 Korrektur und zweiter Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.4 Manuelle und automatische Alignierung . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7 Zusammenfassung und zukünftige Forschung

7.1 Erweiterung der Funktionalität des Aligners . . . . . . . . . . . . . . . . . . . . . . . . 31

7.2 Entwicklung eines lëtzebuergschen Aligners . . . . . . . . . . . . . . . . . . . . . . . . 32

7.3 Entwicklung eines Sprachkorpus für Lëtzebuergesch . . . . . . . . . . . . . . . . . . . . 32

AGilles-Korpus: Fragebuch Lëtzebuergesch

B Die Perl-Funktionssammlung ConversionLibrary.pm

1 Einleitung

1.1 Motivation

Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang

des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssyste-

me ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabe-

medium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme

und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen -

Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprach-

dialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser

erreichbaren Service zu bieten.

Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Ent-

wicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die

immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora ge-

nannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen reprä-

sentieren, können robuste und exible Spracherkennungssysteme entwickelt werden. Sie sind immer

weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.

Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäÿig. Obwohl die Forschung die Tech-

nologie vorantrieb, waren die Sprachkorpora für nur wenige, groÿe Sprachen verfügbar. Dies hat sich

mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind.

Die Suche im Katalog des Linguistic Data Consortium [Lin07] zeigt eine Sammlung unterschiedlicher

Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäÿig - für Deutsch und Französisch sind

in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist

das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch

keins.

Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung

von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts [Dra97] aufgenom-

men. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.

Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nach-

arbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für

die Aufnahme um das mehrfache übersteigt. Nach Gillis [GDG06] kann das Verhältnis von Annota-

tionszeit zur Aufnahmezeit von 35:1 bis zu 60:1 betragen. Demnach kann die Bearbeitung von einer

Minute eines Audiosignals bis zu einer Stunde dauern.

1.2 Aufgabenstellung

Die Aufgabe ist es, einen Aligner zu entwickeln, der die Zeit und Kosten für die Entwicklung eines

Sprachkorpuses des Luxemburgischen drastisch reduzieren soll. Der Aligner ist ein Werkzeug, das eine

Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen

Gillis nennt aber nur die Schätzungen für eine breite phonetische Annotation; für die enge Transkription ist dieser

Aufwand noch gröÿer.

2 LËTZEBUERGESCH

Sprachlaute, die Phoneme, auf der Zeitachse zu 'alignieren'. Das Alignieren ist ein Prozess, in dem die

vorgegebene phonetische Transkription mit Zeitstempeln für den Anfang und das Ende eines jeden

Phonems versehen wird. Der Aligner akzeptiert als Eingabe eine Sprachaufnahme, die dazugehörige

orthographische Transkription sowie ein Aussprachelexikon mit dem verwendeten Wortschatz. Als

Ausgabe liefert er eine Datei, die eine mit Zeitstempeln versehene phonetische Transkription der Äu-

ÿerung enthält. Diese Transkription kann danach manuell geprüft, und, falls die Alignierung fehlerfrei

verlaufen ist, als eine Komponente eines Spracherkennungs- oder Synthesesystems genutzt werden.

Die Aufgabe stellt somit eine Variante des Henne-Ei-Problems dar. Um einen Aligner für das Lu-

xemburgische zu entwickeln, sind phonetisch annotierte und alignierte Sprachdaten erforderlich. An-

dererseits wird für die Erstellung solcher Sprachdaten ein Aligner benötigt. Das manuelle Alignieren

der Trainigsdaten ist möglich, jedoch im Zeitrahmen dieser Arbeit nicht realisierbar.

Um ein Aligner zu entwickeln, der die Aufnahmen unterschiedlicher Sprecher analysieren kann,

sind Trainigsdaten aus unterschiedlicher Sprechergruppen notwendig. Hierfür wird das Gilles-Korpus

[Gil99] sowie aus dem 6000-Mots-Korpus [ele07] eingesetzt. Da es sich hierbei um reine Sprachaufnah-

men handelt, werden diese zuerst manuell phonetisch annotiert. Die Annotierung erfolgt gleichzeitig

im deutschen und luxemburgischen Lautsystem [Wel95]. Danach folgt eine automatische Alignierung

mit dem deutschen Aligner, der von Stefan Rapp [Rap95] am Institut für Maschinelle Sprachverarbei-

tung der Universität Stuttgart entwickelt wurde. Die deutschen Phonemmodelle werden um die für

das Luxemburgische typischen Sprachphänomene (siehe Abschnitt 2.7) ergänzt und in den Aligner

integriert. Der deutsche und der luxemburgische Aligner werden auf einem Testdatensatz evaluiert

und die Testergebnisse automatisch ausgewertet.

Ziel dieser Arbeit ist es einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lëtzebu-

ergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Aligniereung mindestens so

präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen

ist.

2 Lëtzebuergesch

2.1 Geschichte Luxemburgs

Die geographische Lage Luxemburgs sowie die turbulente Geschichte haben die linguistische Ent-

wicklung der Region stark beinusst. [Gil99, S. 3-5] enthält eine Zusammenfassung der wichtigsten

Ereignisse in der Geschichte des Landes. Die Tatsache, dass Luxemburg an der Grenze des romani-

schen und Germanischen Kulturraumes liegt, trug zu der Mehrsprachigkeit der Bewohner sowie der

Vielzahl der Dialekte bei. Die ersten Anzeichen einer kulturellen Dualität stammen bereits von 1340,

als Johann der Blinde (de blanne Jhang), Herrscher Luxemburgs, das Land zum ersten Mal in das

quartier wallon und das quartier allemand teilte. Bisher ist es jedoch umstritten, ob diese Aufteilung

administrative oder linguistische Gründe hatte.

Die gröÿten politischen Änderungen, die die moderne Sprachentwicklung maÿgeblich beeinusst ha-

ben, fanden in der 1. Hälfte des 19. Jahrhunderts statt. Infolge des Wiener Kongresses von 1815

musste das Land den östlichen Teil der deutschsprachigen Gebiete an Preuÿen abgeben. Eine weite-

2.2 Luxemburgisch

re Teilung folgte 1839; als Konsequenz des damals unterschriebenen Londoner Vertrags hat Belgien

den nahezu gesamten französischsprachigen Teil Luxemburgs annektiert. Die heutigen politischen

Grenzen des Landes haben sich seit der 1839 nicht mehr verändert. Dieses Jahr markiert auch die

Gründung des Nationalstaates und das Erlangen der Unabhängigkeit. Man muss dabei sagen, dass

das heutige Gebiet des Landes nahezu ausschlieÿlich aus historisch germanophonen Regionen besteht.

Die Tatsache, dass das Land an einer bi- bzw. trilingualen Tradition festhält, kann man jedoch sozial-

psychologisch erklären. Die Verschmelzung der Kulturen ist ein Teil der luxemburgischen Geschichte

und ein wichtiger Aspekt der nationalen Identität.

2.2 Luxemburgisch

Nach [Gil99, S. 7,8] ist das Lëtzebuergesche (Luxemburgische) aus dem Westmoselfränkischen ent-

standen. Es kommt aus der westfränkischer Bucht hervor - einer Region, die durch die fränkischen

Expansionsbewegungen bis ins Pariser Becken gekennzeichneten wurde. Eine umfassende Analyse zu

dem Thema ist u.a. in [Bru53] zu nden.

Heutzutage stehen Deutsch, Französisch und Lëtzebuergesch in einem triglossischen Verhältnis zu-

einander. Lëtzebuergesch ist dabei die Muttersprache; sie wird als erste gelernt und am häugsten

verwendet. Die Verwendung beschränkt sich nicht auf die Gespräche im Alltag, sondern ist in den

Medien und in der Politik präsent. Die beiden weiteren Sprachen werden erst in der Schule gelernt

und werden als Fremdsprachen wahrgenommen.

In der schriftlichen Domäne kommen alle drei Sprachen vor. Das Lëtzebuergesche wird hauptsächlich

im privaten und halböentlichen Kontext verwendet. In den anderen Bereichen kommen alle drei

Sprachen vor, wobei der lëtzebuergesche Anteil in der Literatur konstant steigt. Die Tageszeitungen

sind zwei- oder dreisprachig. Die Texte des öentlichen Bereichs werden entweder auf Deutsch oder

Französisch verfasst. Für Gesetzestexte wird aus historischen Gründen Französisch verwendet.

Nach [Gil99, S. 9] ist Luxemburg, was den mündlichen Sprachgebrauch angeht, strikt einsprachig. Ein

domänengebundener Wechsel in das Deutsche oder das Französische ndet nicht statt. Diese Tatsache

trit unabhängig von Bevölkerungsschicht und Altersstufe der Sprecher zu. Das Code Switching

, das

integraler Bestandteil der mehrsprachigen Gesellschaft in der Schweiz und in Belgien ist, ndet in

Luxemburg nicht statt.

Die Sprache wurde in die Norm 639 der International Organization for Standardization aufgenom-

men, die zwei- bzw. dreistellige Sprachenkürzel für den Einsatz in der Datenverarbeitung deniert.

Die ozielle ISO-639-1-Abkürzung für Lëtzebuergsch ist lb. In dem Standard ISO-639-2 [Int98] wur-

de diese Bezeichnung auf ltz erweitert. In dieser Arbeit wird jedoch die Locale-Bezeichnung lb-LU

(Luxemburgisch, gesprochen in Luxemburg) verwendet, da sich diese Notation in kommerziellen Spra-

cherkennern durchgesetzt hat.

Code Switching (auch: Sprachwechsel, Kodewechsel) Das Metzler-Lexikon Sprache [Glü05] deniert es alsWechsel

zwischen zwei Sprachen oder Dialekten innerhalb einer Äuÿerung oder eines Dialogs bei bilingualen Sprechern/Schrei-

bern, meist durch Kontextfaktoren bedingt.

2 LËTZEBUERGESCH

2.3 Dialekte

Das Moselfränkische wird in Luxemburg, Teilen von Deutschland sowie kleinen Gebieten in Belgien

und Frankreich gesprochen. Es ist jedoch nicht homogen und kann in mehrere Varietäten kategorisiert

werden. [Gil99, S. 50] listet neun Varietäten auf, die in 16 Regionen zu nden sind, drei davon in

Luxemburg.

Eine grobe Aufteilung der Luxemburger Dialekte bendet sich in [Gil99, S. 63]. Demnach kann das

Luxemburgische entlang der geographischen Regionen in vier Dialektgruppen unterteilt werden:

· Zentrum (Luxemburg-Stadt und Alzettetal)

· Süden (rund um Esch-sur-Alzette)

· Norden (Ösling)

· Osten (das Gebiet zwischen Grewenmacher und Vianden entlang der östlichen Staatsgrenze)

2.4 Koiné

Der Begri 'Koiné' stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Spra-

che zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist [Gil99, S. 14].

Die Koinéisierung ist das Verschmelzen von Dialekten zu einer überregionalen Sprachvarietät. Das

klassische Griechisch ist vermutlich durch das Auftreten dieses Prozesses entstanden.

Dieser Begri wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet.

Es gibt unterschiedliche Meinungen, wie die luxemburgische Koiné entstanden ist. Man nimmt an, das

sie entweder als eine diatopische Verallgemeinerung, oder als Produkt der Koinéisierung zu betrachten

ist. Für eine ausführliche Diskussion wird auf [Gil99, S. 12-22] verwiesen.

Es herrscht jedoch relative Einigkeit darüber, dass die Koiné am häugsten im Zentrum und im Süden

des Landes gesprochen wird und sich eher von da aus auf die restlichen Länderteile ausgebreitet hat.

Da sie als die allgemeine und universal verständliche Form des Luxemburgischen gilt, wird sich diese

Arbeit auf der Phonetik dieser Dialektvarietät fokussieren.

2.5 Phonetik der luxemburgischen Koiné

Die unten aufgeführte Klassizierung der luxemburgischen Phonetik basiert auf den Untersuchungen

von Peter Gilles ([Gil99, S. 75], [Gil06]). Eine detaillierte Darstellung ist wichtig, um einen Vergleich

mit dem deutschen Lautsystem, auf dem der Aligner basiert, zu ermöglichen. Auf die Unterschiede

zwischen den beiden Systemen wird in Abschnitt 2.7 näher eingegangen.

Die folgenden Paaren stellen einen Diphtong sowie dessen freie Variante dar:

· ei - @i

· ou - @u

· æ;i - a;i

2.6 Phonetik des Deutschen

Tabelle 1: Konsonanten im Lëtzebuergeschen nach [Gil07]

plosiv nasal frikativ approximant

lateral

approx.

bilabial

p b

labiodental

f v

dental

aleveolar

t d

s z

postalveolar

S Z

retroex

präpalatal

C ý

velar

k g

x È

uvular

pharyngal

glottal

Tabelle 2: Vokale im Lëtzebuergeschen nach [Gil06]

vorn

zentral

hinten

ungerundet gerundet

gerundet

i: i

y: y

u: u

geschlossen

e: e

ø:

@ 8

o: o õ

halb geschlossen

£E

÷:

halb oen

æ: æ

oen

Die fett markierten Vokale kommen im Lëtzebuergeschen nur selten vor.

Abbildung 1: Diphtonge im Lëtzebuergeschen, nach [Gil06]

· æ;U - a;U

2.6 Phonetik des Deutschen

Der Aligner für das Luxemburgische baut auf der deutschen Version des Programms auf. Der ur-

sprüngliche Aligner ist imstande sämtliche Phoneme, die im deutschen Lautsystem vorkommen, zu

alignieren. Da dieses System die Grundlage für den luxemburgischen Aligner darstellt, wird es hier

2 LËTZEBUERGESCH

kompakt vorgestellt. Die unten vorgestellte Klassizierung der deutschen Konsonanten, Vokalen und

Diphtongen basiert auf [PM03]. In Kapitel 3 wird anschlieÿend darauf eingegangen, wie dieses Inven-

tar der deutschen Phoneme im Aligner abgebildet wird.

Tabelle 3: Die deutschen Konsonanten nach [PM03, S. 265]

plosiv nasal frikativ approximant

lateral

approx.

bilabial

p b

labiodental

f v

dental

aleveolar

t d

s z

postalveolar

S Z

retroex

palatal

velar

k g

(x)

uvular

(X) K

pharyngal

glottal

(P)

Abbildung 2: Die Deutschen Vokale nach [PM03, S. 266]

Abbildung 3: Diphtonge im Deutschen [PM03, S. 266]

Für Beispieläuÿerungen, die diese Phoneme enthalten, wird auf [PM03]verwisen. Man muÿ hierbei

vermerken, dass Arikate, da sie aus Paaren von den bereits aufgelisteten Phonemen bestehen, nicht

in der Zusamenstellung berücksichtigt werden.

Die Phoneme [x] und [X] sind ausgeklammert, da sie laut [PM03] als allophonische Varianten von [ç]

zu betrachten sind und nur unter bestimmten Umständen orthographisch transkribiert werden. Das

gleiche gilt für den Glottisverschluss ([P]), der nur vor initialen Vokalen auftritt und kein orthogra-

phisches Gegenstück besitzt.

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2008
ISBN (eBook): 9783842821118
DOI: 10.3239/9783842821118
Dateigröße: 2.2 MB
Sprache: Deutsch
Institution / Hochschule: Universität Stuttgart – Institut für maschinelle Sprachverarbeitung, Studiengang Computerlinguistik
Erscheinungsdatum: 2011 (Oktober)
Note: 1,0
Schlagworte: lëtzebuergesch luxemburg computerlinguistik spracherkennung syxtus gaal
Produktsicherheit: Diplom.de

Autor

Syxtus Gaal (Autor:in)

Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Details

Autor

Syxtus Gaal (Autor:in)