Lade Inhalt...

Testkorpus für automatische Transkriptionssysteme

©2004 Magisterarbeit 121 Seiten

Zusammenfassung

Inhaltsangabe:Einleitung:
In dieser Magisterarbeit wird ein Testkorpus für polyphone automatische Transkriptionssysteme (ATS) erstellt. Ein Testkorpus ist eine Sammlung von digitalisierten Objekten und ihren symbolischen Repräsentationen. Ein Objekt kann zum Beispiel ein Bild oder eine Tonaufnahme sein. Digitalisierte Tonaufnahmen werden Recording genannt. Recordings haben häufig das WAVE- oder MP3-Format.
Die symbolischen Repräsentationen sind Beschreibungen der Recordings im MIDIFormat1. Das Testkorpus in dieser Arbeit besteht aus zehn polyphonen Recordings im WAVE-Format und zehn symbolischen Repräsentationen der Recordings im MIDIFormat. Der Musikstil der zehn Recordings im Testkorpus ist Barbershop. Barbershop ist unbegleiteter polyphoner Gesang (Hic91). Notation ist die schriftliche Fixierung von Musik. Der Begriff „Transkription“ wird in dieser Arbeit definiert als die Notation einer Recording. Das Transkriptionsergebnis wird Annotation genannt. ATS transkribieren Recordings automatisch. Die automatisch erstellte Annotation heißt automatische Annotation2.
ATS können dazu verwendet werden, um die Original-Partitur aus einem Musikstück wieder herzustellen oder um in einer Datenbank nach einer Partitur zu suchen. Eine Einführung in das Thema Musikerkennung bzw. automatische Transkription mit den Hinweisen auf die Anwendungsmöglichkeiten und Ziele der ATS ist in Kapitel 3 zu finden. In dieser Arbeit werden ATS dazu verwendet, um automatische Annotationen aus den Recordings zu generieren. Die ATS bieten Parameter, die eine Anpassung der ATS an den Musikstil erlauben. Die Parameter Polyphonie, Ambitus, minimale Tondauer und Instrumentierung werden für die Erstellung der automatischen Annotationen an den Barbershopmusikstil angepasst. Zum Beispiel wird die Anzahl der zu erkennenden Stimmen auf vier gesetzt und die Instrumentierung an den unbegleiteten Gesang angepasst. Die fünf ATS AKoff (AKo00), Amazing Midi (Ara03), IntelliScore (Inn03), SONIC (Mar03) und WIDI (Kur04), die in dieser Arbeit untersucht werden, erzeugen aus den zehn Recordings im WAVE-Format automatische Annotationen im MIDI-Format.
Das Testkorpus besteht aus Recordings und Annotationen. Die Recordings werden vom Testkorpus zu den ATS übermittelt. Aus den Recordings wird in den ATS eine automatische Annotation generiert. Das Evaluationsmodul empfängt die Annotation vom Testkorpus und die automatische Annotationen vom ATS. Im Evaluationsmodul wird die Ähnlichkeit zwischen der […]

Leseprobe

Inhaltsverzeichnis


ID 8679
Schalleck, Ramon: Testkorpus für automatische Transkriptionssysteme
Hamburg: Diplomica GmbH, 2005
Zugl.: Ludwig-Maximilians-Universität München, Magisterarbeit, 2004
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2005
Printed in Germany

Pfeuferstrasse 33
81373 München
Telefon 089/74791821
E-Mail ramon_schalleck@hotmail.com
Ramon Schalleck
Persönliche
Informationen
· Familienstand:
ledig
· Nationalität:
deutsch
· Alter:
28
· Geburtsort:
Kassel
Ausbildung
1999 2005
Ludwig-Maximilians-Universität
München
Magister Artium, Computerlinguistik
· Nebenfächer: Informatik und Musikwissenschaft
· Magisterarbeit zum Thema ,,Testverfahren in der Musikerkennung"
1997 1998
School of Audio Engineering
München
Creative Media Diploma
1996 1997
School of Audio Engineering
Singapur
Diploma in Audio Engineering
1996
Deutsche Schule Singapur
Singapur
Abitur
Sprachkenntnisse
Englisch, verhandlungssicher, vier Jahre Auslandsaufenthalt
Französisch, Schulkenntnisse, gelegentlicher Auslandsaufenthalt
Berufliche
Tätigkeiten
2000 2004
Happy Rikscha
München
Rikschafahrer Tollwood, Dachauer Volksfest, Oktoberfest, Fußball
2001 2003
Siemens AG
München
Werkstudent Internetrecherche, Cultural Repository für Ingenieure
2000 2001
Wissen digital Software Verlags GmbH München
PC-Hotline Lernsoftware für Schulkinder
1998 2000
Debitel
München
Promoter Kundenberatung für Mobilfunktelefone und -netze
1998 1999
Human Arts & Logic GmbH
München
Programmierer Steps CD-ROM zur Suchtprävention an Schulen
Wehrdienst
1999 Stabsdienstsoldat
München

Programmier-
Kenntnisse
·
Matlab, sehr gute Kenntnisse
Ähnlichkeitsalgorithmen für symbolische Repräsentationen von Musik
·
Perl, sehr gute Kenntnisse
KKF für symbolische Repräsentationen von Musik
·
Prolog, sehr gute Kenntnisse
Natürlichsprachliches Generierungs- und Analysesystem
·
LaTex, sehr gute Kenntnisse
Druckausgabe der Magisterarbeit
·
HTML, sehr gute Kenntnisse
WWW-Seiten des UniversitätsChors
·
Lingo, sehr gute Kenntnisse
Computer game programming ,,Risiko"
·
XML, sehr gute Kenntnisse
Tamino XML Server mit Patientendaten und Partituren
·
VoiceXML, sehr gute Kenntnisse
frame-based Dialogsystem für Fahrkartenbestellung
·
Java, gute Kenntnisse
Rapid Aimed Movement, Fitts' Law
·
Javascript, gute Kenntnisse
Formulareingabe bei Pizzabestellung und Musik-Online-Shop
·
Unix, gute Kenntnisse
Logfile-Auswertung und Serverdienste
·
C, gute Kenntnisse
MIDI Synthese und Analyse
·
SML, Grundkenntnisse
Rekursive Algorithmen
·
SQL, Grundkenntnisse
Kundendatenbank
Ehrenamtliche
Tätigkeiten
Vorstandsmitglied im UniversitätsChor München (Webmaster)
Freizeit
Ensemble-Gesang, Chor
Interessen
Kompressionsverfahren, Nachkorrekturverfahren, MIDI, Musikerkennung,
Testkorpus, Dialogsysteme, Prototyping, OCR
15.03.2005,

Pfeuferstrasse 33
81373 München
Deutschland
Phone +49 89 74791821
E-Mail ramon_schalleck@hotmail.com
Ramon Schalleck
Education
1999 2005
Ludwig-Maximilians-Universität
Munich
Master of Arts, Computational Linguistics
· Minor subjects: computer science and musicology
1997 1998
SAE Institute
Munich
Creative Media Diploma
1996 1997
SAE Institute
Singapore
Audio Engineering Diploma
Work experience
2000 2004
Happy Rikscha
Munich
Rickshaw cyclist
2001 2003
Siemens AG
Munich
Working student
2000 2001
Wissen digital Software Verlags GmbH Munich
Hotline operator
1998 2000
Debitel
Munich
Promoter
1998 1999
Human Arts & Logic GmbH
Munich
Programmer
Languages
German (fluent)
English (fluent)
French (working knowledge)

Erklärung
Hiermit erkläre ich, dass diese Magisterarbeit von mir selbstständig verfasst wurde.
September 2004, Ramon Schalleck

Zusammenfassung
It is difficult to find scores for popular music. For some songs scores do not exist be-
cause the creation process does not include a notation step. One approach to make the
scores available is to let a computer automatically generate a score from a recording.
An automatic transcription system (ats) analyzes a recording from a CD and genera-
tes a score. The development of ats stimulates demand for automated testing methods.
In this thesis five ats were tested with ten real recordings of barbershop music and
three similarity algorithms. The choice of barbershop music represents a balance bet-
ween simple monophonic solo and complex polyphonic orchestral music. Barbershop
features four human voices, syllabic chant, homophonic chord progressions, six chord
variations (major, minor, major 7th, minor 7th, half diminished and diminished) and a
harmonic model within the circle of fifths. The ranking of the ats is accomplished by
three similarity algorithms which compare the automatic annotations with the original
scores in terms of note distance, harmonic hierarchy weight and masking of correct
notes. The note distance is the number of operations (insertions, deletions, substituti-
ons) needed to convert the automatically generated score into the original score. The
harmonic hierarchy weight computes the perceived similarity between two chords e.g.
between a C major and a G minor chord. The masking algorithm compares the volume
of the wrong and the correct notes. The application of the three algorithms leads to
the conclusion that the ats need to be improved in terms of recognition of soft middle
voices, overtones, note onsets and note lengths. One proposition to improve ats is to
consider the musical style. E.g. barbershop features typical chord variations and inver-
sions with certain overtone characteristics and vowels with certain formant frequencies.

Inhaltsverzeichnis
1
Einleitung
1
2
Testkorpus
5
2.1
Recording . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.1.1
Musikauswahl
. . . . . . . . . . . . . . . . . . . . . . . . .
5
2.1.2
Barbershop . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.1.3
Informationen über die Recordings
. . . . . . . . . . . . . .
25
2.1.4
Musikalische Merkmale in den Recordings . . . . . . . . . .
27
2.2
Annotation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.2.1
Originalpartitur . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.2.2
Zwischenannotation . . . . . . . . . . . . . . . . . . . . . .
32
2.2.3
MIDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
2.3
Copyright . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
2.4
Zusammenfassung Testkorpus . . . . . . . . . . . . . . . . . . . . .
45
3
Automatische Annotation
47
3.1
Automatische Transkription
. . . . . . . . . . . . . . . . . . . . . .
48
3.2
Parameter der ATS . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.2.1
AKoff Music Composer . . . . . . . . . . . . . . . . . . . .
54
3.2.2
Amazing MIDI . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.2.3
IntelliScore . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.2.4
SONIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.2.5
WIDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.3
Zusammenfassung ATS . . . . . . . . . . . . . . . . . . . . . . . . .
56
4
Ähnlichkeitsalgorithmen
59
4.1
Repräsentation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.2
Melodische Ähnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.3
Polyphone Ähnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . .
64
4.3.1
Harmonisches Hierarchiegewicht
. . . . . . . . . . . . . . .
66
4.3.2
Edit Distance . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.3.3
Maskierung . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
4.4
Zusammenfassung Algorithmen . . . . . . . . . . . . . . . . . . . .
75
II

INHALTSVERZEICHNIS
III
5
Auswertung
76
5.1
Auswertung der ATS . . . . . . . . . . . . . . . . . . . . . . . . . .
78
5.2
Zusammenfassung
. . . . . . . . . . . . . . . . . . . . . . . . . . .
87
6
Fazit
89
A Partituren
91
A.1 IRISH BLESSING . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.2 I'M FOREVER BLOWING BUBBLES . . . . . . . . . . . . . . . .
91
A.3 I'M ALL ALONE . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.4 YOU'RE A GRAND OLD FLAG . . . . . . . . . . . . . . . . . . .
91
A.5 I LOVE YOU TRULY
. . . . . . . . . . . . . . . . . . . . . . . . .
91
A.6 IN THE GOOD OLD SUMMERTIME . . . . . . . . . . . . . . . . .
91
A.7 THANK YOU DEAR LORD, FOR MUSIC . . . . . . . . . . . . . .
91
A.8 SILVER THREADS
. . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.9 PRETTY BABY
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.10 ONE MORE SONG . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.11 WHISPERING . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
A.12 AULD LANG SIGN . . . . . . . . . . . . . . . . . . . . . . . . . .
91
B Matlab Skripten
92
B.1 Batch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
B.2 Polysimil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
B.3 Signallist
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
B.4 Edit Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
B.5 Tonarterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
100
B.6 Harmonisches Hierarchiegewicht . . . . . . . . . . . . . . . . . . . .
101
B.7 Maskierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
103

Kapitel 1
Einleitung
In dieser Magisterarbeit wird ein Testkorpus für polyphone automatische Transkripti-
onssysteme (ATS) erstellt. Ein Testkorpus ist eine Sammlung von digitalisierten Objek-
ten und ihren symbolischen Repräsentationen. Ein Objekt kann zum Beispiel ein Bild
oder eine Tonaufnahme sein. Digitalisierte Tonaufnahmen werden Recording genannt.
Recordings haben häufig das WAVE- oder MP3-Format.
Die symbolischen Repräsentationen sind Beschreibungen der Recordings im MIDI-
Format
1
. Das Testkorpus in dieser Arbeit besteht aus zehn polyphonen Recordings
im WAVE-Format und zehn symbolischen Repräsentationen der Recordings im MIDI-
Format. Der Musikstil der zehn Recordings im Testkorpus ist Barbershop. Barbershop
ist unbegleiteter polyphoner Gesang (Hic91).
Notation ist die schriftliche Fixierung von Musik. Der Begriff ,,Transkription" wird
in dieser Arbeit definiert als die Notation einer Recording. Das Transkriptionsergebnis
wird Annotation genannt. ATS transkribieren Recordings automatisch. Die automatisch
erstellte Annotation heißt automatische Annotation
2
.
ATS können dazu verwendet werden, um die Original-Partitur aus einem Musikstück
wieder herzustellen oder um in einer Datenbank nach einer Partitur zu suchen. Eine
Einführung in das Thema Musikerkennung bzw. automatische Transkription mit den
Hinweisen auf die Anwendungsmöglichkeiten und Ziele der ATS ist in Kapitel 3 zu
finden.
In dieser Arbeit werden ATS dazu verwendet, um automatische Annotationen aus den
Recordings zu generieren. Die ATS bieten Parameter, die eine Anpassung der ATS
an den Musikstil erlauben. Die Parameter Polyphonie, Ambitus, minimale Tondauer
und Instrumentierung werden für die Erstellung der automatischen Annotationen an
den Barbershopmusikstil angepasst. Zum Beispiel wird die Anzahl der zu erkennenden
Stimmen auf vier gesetzt und die Instrumentierung an den unbegleiteten Gesang ange-
passt. Die fünf ATS AKoff (AKo00), Amazing Midi (Ara03), IntelliScore (Inn03), SO-
NIC (Mar03) und WIDI (Kur04), die in dieser Arbeit untersucht werden, erzeugen aus
den zehn Recordings im WAVE-Format automatische Annotationen im MIDI-Format.
1
Musical Instrument Digital Interface (Ron94)
2
Die Terminologie beruht auf der Dokumentation von existierenden Testkorpora im Bereich der Spra-
cherkennung, die in (SDB
+
04) beschrieben werden.
1

KAPITEL 1. EINLEITUNG
2
Die Funktionsweise des Testkorpus wird in Abbildung 1.1 gezeigt. Das Testkorpus be-
steht aus Recordings und Annotationen. Die Recordings werden vom Testkorpus zu
den ATS übermittelt. Aus den Recordings wird in den ATS eine automatische Anno-
tation generiert. Das Evaluationsmodul empfängt die Annotation vom Testkorpus und
die automatische Annotationen vom ATS. Im Evaluationsmodul wird die Ähnlichkeit
zwischen der automatischen Annotation und der Annotation aus dem Testkorpus ver-
glichen.
Das Ziel dieser Arbeit ist eine Aussage darüber, welches der fünf zeitgenössischen ATS
Abbildung 1.1: Testprozeß
die polyphone Barbershopmusik im Testkorpus am besten transkribieren kann. Diese
Aussage über die Qualität der ATS bezieht sich auf die Ähnlichkeit der automatischen
Annotationen zu den Annotationen. Ähnlichkeitsalgorithmen, die sich auf die Musik
beziehen, arbeiten mit dem Abstand von Tonhöhen in Melodien (Mai98), der Mini-
mierung der Fläche zwischen zwei Tonhöhenkonturen (FNM00), dem Abstand von
Tönen (LGRC00), der Übereinstimmung von Tönen (DH02, Seite 4), der Ähnlichkeit
zwischen Tonartprofilen (al02, Seite 4) und den Tonansatzzeiten (MO01), werden in
Kapitel 4 beschrieben. In dieser Arbeit werden drei Algorithmen entwickelt. Ein Al-
gorithmus geht aus den erwähnten Algorithmen hervor. Die anderen zwei Algorithmen
sind selbstständig entwickelt.
Die drei Algorithmen hhw, ed und ma vergleichen die automatische Annotation mit
der Annotation in Bezug auf die Harmonik, den Tonabstand und die Maskierung. Die
Harmonik leitet sich aus den Akkorden ab. Um die Ähnlichkeit zwischen Akkorden
zu bestimmen, wird das harmonische Hierarchiegewicht verwendet, das aus (Kru90,
Seite 170) übernommen wurde. Das harmonische Hierarchiegewicht bestimmt, wie
gut die Tongeschlechter auf verschiedenen Grundtönen zueinander passen. Aus dem
harmonischen Hierarchiegewicht wird abgeleitet, wie gut Akkorde unterschiedlichen
Geschlechts und mit unterschiedlichem Grundton zueinander passen. Das Geschlecht

KAPITEL 1. EINLEITUNG
3
eines Akkords kann Dur oder Moll sein (Mic00a, Seite 86). Akkorde gibt es auf unter-
schiedlichen Grundtönen. Ein C-Dur Akkord hat den Grundton C und das Geschlecht
Dur. Durch den hhw-Algorithmus wird bestimmt, wie gut zum Beispiel ein C-Dur Ak-
kord zu einem G-Dur Akkord passt. Die Qualität der ATS in Bezug auf die Harmonik
bestimmt, wie gut die Akkorde in der automatischen Annotation zu den Akkorden in
der Annotation passen.
Mit dem Tonabstand ist der Abstand der Töne der automatischen Annotation zu den Tö-
nen in der Annotation gemeint. Der Abstand wird gemessen indem die Anzahl der Ope-
rationen gezählt wird, die nötig sind, um ein Objekt in ein anderes umzuformen(BD97,
Seite 22). Es gibt die drei Operationen ,,Einfügen" (Insert), ,,Löschen" (Delete) und
,,Verändern" (Modification). Die Qualität der ATS hängt von der Anzahl der benötig-
ten Operationen ab, um die Töne in der automatischen Annotation in die Töne in der
Annotation umzuformen. Der Abstand der Töne wird durch den ed-Algorithmus ge-
messen.
Die Maskierung wird durch die Lautstärke der Töne in der automatischen Annotation
bestimmt. Dabei wird gemessen, wie laut die falschen Töne in der automatischen An-
notation im Vergleich zu den richtigen Tönen in der automatischen Annotation sind.
Je höher die Lautstärke der falschen Töne ist, desto mehr werden die richtigen Töne
maskiert. Die Ermittlung der Maskierung von Tönen durch den ma-Algorithmus in
Kapitel 4 basiert auf den Erläuterungen in Sundbergs Buch ,,The Science of Musical
Sounds" (Sun91, Seite 65). Die Qualität der ATS in Bezug auf die Maskierung wird be-
stimmt durch den Grad der Lautstärke der richtigen Töne im Verhältnis zu der Lautstär-
ke der falschen Töne. Für die Bestimmung der Maskierung wird der ma-Algorithmus
verwendet.
Die Algorithmen werden zur Bestimmung der Ähnlichkeit von Objekten eingesetzt.
Eine Möglichkeit, um die Leistungsfähigkeit der Algorithmen bei der Bestimmung der
Ähnlichkeit zu verifizieren, ist, ihre Leistung beim Unterscheiden von Objekten zu be-
obachten. Als Objekte werden die Annotationen aus dem Testkorpus verwendet. Jede
der zehn Annotationen wird mit sich selbst und den anderen neun Annotationen ver-
glichen. Die Algorithmen liefern bei dem Vergleich einer Annotation mit sich selbst
den höchsten Wert. Bei dem Vergleich mit den anderen Annotationen ergeben sich
niedrigere Werte. Wenn die Differenz der höchsten und zweithöchsten Werte, die die
Algorithmen liefern, größer ist, als die Differenz der zweithöchsten und niedrigsten
Werte ist der höchste Wert mit Abstand der Höchste. Wenn die Werte für die Algorith-
men beim Vergleich der Annotationen mit sich selbst mit Abstand die höchsten Werte
sind, sind die Algorithmen geeignet, um Annotationen zu unterscheiden. Dies sind gu-
te Voraussetzungen, um sie bei der Ähnlichkeitsbestimmung einzusetzen. In Kapitel 5
wird die Verifizierung der Algorithmen durch dieses Verfahren beschrieben.
Nach der Verifizierung der Algorithmen werden sie für die Ähnlichkeitsmessung bei
den automatischen Annotationen und Annotationen eingesetzt. Die Ähnlichkeitswer-
te, die bei dem Vergleich der automatisch erzeugten Annotationen und den Original-
Annotationen im Testkorpus ermittelt werden, lassen auf die Qualität der ATS schlie-
ßen. Ebenso wie bei der Verifikation mit den Annotationen wird ermittelt, ob die Al-
gorithmen die automatischen Annotationen gut unterscheiden. Aus dem Ergebnis wird
abgeleitet, dass die ATS automatische Annotationen erzeugen, die den korrespondie-
renden Annotationen ähnlicher sind, als den nicht korrespondierenden. Die Unterschei-

KAPITEL 1. EINLEITUNG
4
dung von Musikstücken ist ein Kriterium bei der Aufgabe der Erzeugung von musika-
lischen Suchbegriffen. Die ATS erzeugen unterscheidbare symbolische Repräsentatio-
nen von Musikstücken und können daher für diese Aufgabe eingesetzt werden, solange
die gleichen Voraussetzungen wie im Testkorpus gegeben sind. Die Voraussetzungen
sind die Tempoanpassungen und die klingende Notation der Annotationen im Testkor-
pus. Die Originalpartituren der Barbershopmusik werden im Testkorpus so angepasst,
dass die Tempiwechsel denen in den Recordings entsprechen. Die Tonart der Annota-
tionen ist an die klingende Tonart in den Recordings angepasst. Diese Voraussetzungen
werden in Kapitel 2.2 beschrieben.
Bei der Bewertung der ATS in Bezug auf das Ziel der Erstellung einer Partitur wird
ermittelt, wie gut sie mit der Barbershopmusik im Testkorpus umgehen und es werden
Verbesserungsmöglichkeiten für die ATS aufgezeigt.
Musikalische Eigenschaften der Barbershop-Recordings im Testkorpus sind: Akkord-
progression, Grundtonhöhenschwankung und Embellishments. Im Barbershop ist auf
jeder Textsilbe ein Akkord und die Tonansätze sind simultan. Dies nennt man homo-
phon. Je schneller die Akkordprogressionen sind, desto mehr Akkordwechsel gibt es.
Je schneller die Akkorde wechseln, desto mehr Silben gibt es. In Kapitel 5 wird un-
tersucht, ob die Anzahl der Silben in den Recordings mit den Ähnlichkeitswerten der
Algorithmen zusammenhängt.
Die Grundtonhöhenschwankung ist die Schwankung der Tonhöhe von Beginn bis zum
Schluss einer Recording. Embellishments sind Effekte im Barbershop, die eine emo-
tionale Reaktion beim Zuhörer auslösen sollen. Ein Embellishment ist zum Beispiel
der tag, der eine verzögerte Schlusskadenz bildet. Das Tempo der Akkordwechsel in
den Akkordprogressionen beeinflusst die Transkriptionsergebnisse der ATS. Die ATS
zeigen Potential für Verbesserungen bei der Erkennung des Tonansatzes und Tondauer
der Mittelstimmen bei gehaltenen Akkorden. Weitere Verbesserungen der ATS ergeben
sich auf dem Feld der Erkennung von Obertönen und beim Erkennen der Gesamtgrund-
tonhöhe.
Die Untersuchung ergibt, dass noch weitere Verbesserungen der ATS nötig sind, um
Partituren zu erzeugen, die als Anleitung zum Musizieren verwendet werden können.
Für die Erstellung von musikalischen Suchbegriffen können die schon jetzt eingesetzt
werden.
Die zehn Recordings im Testkorpus bestehen aus Ausschnitten von Barbershopmusik-
stücken. Die Annotationen wurden aus den dazugehörigen Original-Partituren erstellt.
Dem Autor dieser Arbeit wurde eine nicht kommerzielle Nutzung der Musikstücke
und Partituren von den Verlegern gestattet. Die Beschreibung der Recordings und An-
notationen im Testkorpus erfolgt in Kapitel 2. Auf die Erstellung der automatischen
Annotationen durch die fünf ATS wird in Kapitel 3 eingegangen. Zur Bestimmung der
Ähnlichkeit zwischen der automatischen Annotation und der Annotation werden die
drei Algorithmen hhw, ed und ma in Kapitel 4 vorgestellt. Der Test der Algorithmen
und die Auswertung der ATS durch den Vergleich der automatischen Annotation mit
der Annotation in Verbindung mit den musikalischen Merkmalen im Barbershop, er-
folgt in Kapitel 5.

Kapitel 2
Testkorpus
2.1
Recording
Die Recordings existierender musikalischer Testkorpora basieren auf synthetischen Re-
cordings wie zum Beispiel bei (al02, Seite 8) und (LGRC00, Seite 4). Synthetische
Recordings sind Recordings, die durch die Synthese der Annotationen generiert wer-
den. Bei der Synthese einer Annotation wird zum Beispiel eine MIDI-Datei in eine
WAVE-Datei konvertiert. Es existieren auch gemischte Testkorpora aus Recordings
von Aufnahmen von Musik, die von Menschen aufgeführt wurde (Real Performance),
und synthetischen Recordings (Mar01, Seite 7). Die Recordings der Testkorpora für
automatische Spracherkennungssysteme sind Tonaufnahmen von menschlichen Spre-
chern (Sch98, Seite 3). Der Schritt von der Sprache zur Musik führt über den Gesang,
deshalb besteht das Testkorpus in dieser Arbeit aus Recordings von Real Performan-
ces von polyphoner Vokalmusik. Auf die Musikauswahl wird näher in eingegangen in
Kapitel 2.1.1. Für das Testkorpus wurden zehn Recordings mit dem polyphonen Vokal-
musikstil Barbershop ausgewählt. Der Barbershop-Musikstil und seine typischen mu-
sikalischen Eigenschaften werden in Kapitel 2.1.2 beschrieben. Die zehn Recordings
im Testkorpus haben Eigenschaften wie Harmonik, Progression, Akustik, Grundtonhö-
henschwankung und ,,Verschönerung", die in Kapitel 2.1.4 näher erklärt werden.
2.1.1
Musikauswahl
Im Vorfeld der Erstellung des Testkorpus muss eine musikalische Auswahl getroffen
werden. Die Entscheidung für die musikalische Auswahl der Recordings hängt zusam-
men mit der Leistungsfähigkeit der ATS in Bezug auf die Mehrstimmigkeit (Polypho-
nie) und den Ambitus
1
.
In dieser Arbeit werden fünf ATS getestet, die polyphone automatische Annotationen
ausgeben. Das heißt, dass die automatische Annotation mehrere simultane Noten bein-
1
Ambitus ist der Tonumfang zwischen dem tiefsten und dem höchsten Ton (Mic00a, Seite 91). Die männ-
liche Stimme hat zum Beispiel einen Ambitus von ungefähr zwei Oktaven.
5

KAPITEL 2. TESTKORPUS
6
haltet. Deshalb wurde polyphone Musik für die Sammlung von Recordings im Test-
korpus ausgewählt.
Eine Melodie ist monophon. Polyphonie beginnt beim Erklingen von zwei simultanen
Stimmen. Um Akkorde zu formen werden drei Stimmen benötigt. Fügt man nun noch
eine vierte Stimme hinzu, kann bereits ein großes Feld in der Harmonik abgedeckt
werden. Ein Akkord aus vier Stimmen heißt Vierklang. Vierklänge machen die Musik
um ein vielfaches reicher als Dreiklänge, da sich die Kombinationsmöglichkeiten ver-
vielfachen. Vierstimmigkeit ist ein Kompromiss zwischen einstimmiger Melodie und
komplexester Mehrstimmigkeit wie sie im Orchester vorkommen kann. Aus diesem
Grund bestehen die hier benutzten Recordings aus vierstimmiger Musik.
Vierstimmiger Satz kommt vor allem in der Vokalmusik vor. Der Gesang stellt die ur-
sprünglichste Form des künstlerischen Umgangs mit Musik dar. Sie ist die erste Form
von Musik, die der Mensch produziert hat. Noch bevor der Mensch Laute zu Worten
formte und so Sprachen entwickelte, gab es Gesang als Kommunikationsform. Diese
Erkenntnis beruht auf Beobachtungen in der Tierwelt. Der Biologe Geissmann beob-
achtete zum Beispiel eine Gibbonsart, die musikalische Gesänge für ihre Kommunika-
tion benutzt (Bet03).
Reine Vokalmusik ohne instrumentale Begleitung trägt die Besetzungsbezeichnung a
cappella (Mic00a, Seite 65). Die Vielfalt der geistlichen Vokalmusik erstreckt sich von
ersten einstimmigen liturgischen Gesängen im Mittelalter über doppelchörige Werke
Gabrielis in der Barockzeit bis zu zeitgenössischer Vokalmusik wie z.B. Gospel-Musik.
Neben der geistlichen schriftlich fixierten Vokalmusik, die im liturgischen Ablauf der
Messe als Kommunikation mit Gott und zur Besinnung auf den Glauben fungiert, gibt
es die Vokalmusik mit unterhaltender Funktion.
A cappella-Musik mit Besetzung durch gemischte Stimmen hat einen größeren Ambi-
tus als die rein männlich oder weiblich besetzte Vokalmusik. Der Ambitus der Stimme
ist nicht bei jedem Sänger gleich. Die tiefsten Töne eines professionellen Bassisten
liegen um den Ton A1
2
und die höchste Stimme eines Countertenors kann bis zum c3
gehen. Frauen singen ungefähr eine Oktave höher als Männer. Die Auswahl der Musik
für die Recordings besteht aus vierstimmiger männlicher a cappella Musik mit einem
Ambitus von G bis b1 (siehe Abbildung 2.28).
Vierstimmiger männlicher a cappella-Gesang kann im Chor oder von einem Quartett
mit vier Einzelstimmen ausgeführt werden. Ein vierstimmiger männlicher a cappella-
Gesangsstil, der im Quartett ausgeführt wird, ist Barbershop (siehe Abbildung 2.1).
2.1.2
Barbershop
Die automatische Transkription der zehn Recordings im Testkorpus wird durch die
musikalischen Merkmale des Musikstils der Recordings beeinflusst. Der Musikstil der
zehn Recordings im Testkorpus ist Barbershop.
2
Die Bezeichnung für Einzeltöne wird in dieser Arbeit wie folgt gehandhabt: Die Mitte des Tonraums
liegt beim kleinen c. In Oktavschritten nach oben folgen die Töne c1 (c in der eingestrichenen Oktave) c2
und c3. In Oktavschritten nach unten folgen das C (das große C) und das C1 (Kontra-C). Als Referenz für
die Tonhöhe gilt, das dass a1 eine Frequenz von 440Hz hat. Das A1 hat 55 Hz, das A 110 Hz, das a 220 Hz
und das a2 880 Hz.

KAPITEL 2. TESTKORPUS
7
Abbildung 2.1: Besetzung, Polyphonie und Ausführung der Musikauswahl
Entstehung
Barbershop entwickelte sich Mitte des 19. Jahrhunderts in den USA. Zu seinen Wur-
zeln gehören die minstrel quartets
3
, die als Unterhaltungskünstler auf Jahrmärkten von
Stadt zu Stadt fuhren, sowie die Gesänge von schwarzen Sklaven (Hic91, Seite 3-4) in
Amerika. Hinter der Musikstilbezeichnung Barbershop steht die Vorstellung des Bar-
biersalons, den die distinguierten männlichen Bewohner der neu gegründeten Städte
des westlichen Amerikas als Treffpunkt und Aufenthaltsort nutzen, und wo sie durch
den Gesang des Barbiers und seine Angestellten unterhalten wurden (Rei00b, Seite
139).
Der Barbier sang die Melodie eines bekannten Lieds worauf ein anderer versuchte die-
se mit passenden Tönen zu begleiten. Diese Art des improvisierten Musizierens heißt
woodshedding. Barbershop entstand aus dieser Praxis heraus. Die Stile des Barbershop
sind vielfältig und reichen von humorvoller Unterhaltung mit Slapstick-Einlagen zu
dramatischer und betont ernsthafter Wirkung. Der Text handelt von Themen des All-
tags und soll vom Publikum ohne Anstrengung verstanden werden.
Barbershop verbreitete sich in ganz Nordamerika. Dies kann darauf zurück geführt
werden, dass sich Amerika von den europäischen musikalischen Einflüssen abwandte.
1938 wurde die ,,Society for the Preservation and Encouragement of Barber Shop
Quartet Singing in America" (SPEBSQSA) von Owen Clifford Cash und Rupert Hall
gegründet. Im Jahre 1987 zählte die Organisation 36850 Mitglieder in Nordamerika
(Hic91, Seite 92). In der Organisationszentrale der SPEBSQSA, eine alte Villa im Tu-
dorstil genannt ,,Harmony Hall", lagern die Aufnahmen und Noten von 120000 Lie-
dertiteln. Außerdem publiziert die SPEBSQSA eine monatliche Zeitschrift den ,,Har-
3
Menestrels

KAPITEL 2. TESTKORPUS
8
monizer". Auf der Homepage
4
stehen MP3s und Noten zur Verfügung. SPEBSQSA
veranstaltet auch Barbershop-Conventions, auf denen Gesangs-Workshops stattfinden
und die besten Quartette und Chöre gekürt werden.
Funktion der Stimmen
Die Musik wird nur von Stimmen produziert und nicht mit Instrumenten begleitet
(Mic00a, Seite 65). Das einzige Instrument ist die pitch pipe
5
, die vor dem Gesang
den Referenzton angibt.
Im typischen Barbershopgesang wird jede Stimme von einem Sänger besetzt. Neben
den Quartetten mit Einzelstimmen gibt es auch Barbershop-Chöre, die ebenfalls auf
Wettkämpfen zugelassen sind. Es gibt männliche und weibliche Barbershop-Quartette
und -Chöre. Im späten 20. Jahrhundert wurden auch gemischte Barbershop-Chöre im-
mer populärer.
Die Funktion der männlichen Stimmen im Quartett ist nach Tonhöhe geordnet. Von
oben nach unten werden sie mit Tenor, Lead, Baritone und Bass bezeichnet, im Gegen-
satz zu der europäischen Bezeichnung: Counter Tenor, Tenor, Bariton und Bass.
Die männliche Singstimme hat zwei Register: Modal- und Falsettregister (Sun97, Seite
74). Das Modalregister wird auch Bruststimme und das Falsettregister wird auch Kopf-
stimme genannt. Eine eindeutige Terminologie gibt es jedoch in diesem Feld nicht.
Die Register können sich überschneiden. Es ist also möglich denselben Ton mit ver-
schiedenen Registern zu singen. Die Überschneidung liegt in dem Bereich von ca. 200-
350 Hz (Tonhöhe von g-f1). Bei ausgebildeten Sängern ist der Übergang vom Falsett-
ins Brustregister nicht wahrnehmbar.
Im Barbershop singt der Tenor meistens im Falsettregister, während der Lead das Mo-
dalregister benutzt. Bariton und Bass singen ebenfalls im Modalregister.
Der Lead singt meistens die Melodie. Die häufigsten Intervalle in Melodien sind kleine
Intervalle (Bre90, Seite 462). Kleine Intervalle sind einfacher zu singen, weshalb Inter-
valle, die größer sind als eine Quart vermieden werden.
Der Tenor harmonisiert über der Melodie, der Bass singt die tiefsten harmonisierenden
Töne und der Bariton vervollständigt den Akkord. Der Grund für diese Stimmauftei-
lung liegt in der klanglichen Zielsetzung des Barbershop. Es steht nicht die Melodie im
Vordergrund, die durch die Begleitung ummalt wird, sondern die Harmonie als klang-
licher Effekt. Durch das Setzen der Melodie in die höchste Stimme wird sie expo-
niert und besser von den anderen Stimmen unterscheidbar (siehe Abbildung 2.2 aus
(EM97)). Diese Satztechnik heißt glee club style (Hic91, Seite 4).
Höhere Frequenzen werden früher wahrgenommen als tiefe (Sun91, Seite 68). Obwohl
tiefere Frequenzen die höheren Frequenzen besser maskieren als umgekehrt (Sun91,
Seite 68), nehmen Menschen die höchsten Töne als Melodie wahr. Die Melodie im
Barbershop ist eine Mittelstimme. Sie fügt sich so sehr in das harmonische Gefüge,
dass sie zeitweise ohne vorherige Kenntnis der Melodie, nicht identifizierbar ist. Aus
diesem Grund beginnt der Lead in vielen Barbershop Stücken mit der Melodie, bevor
die anderen Stimmen hinzu kommen (siehe Abbildung 2.3 aus A.1). Diese kurze Ex-
ponierung reicht meist aus, um die Melodie zu identifizieren (Bre90, Seite 465). Für
4
http://www.spebsqsa.org/
5
kleines chromatisches Harmonikainstrument

KAPITEL 2. TESTKORPUS
9
kurze Passagen kann der Gesang auf weniger als vier Stimmen reduziert werden (siehe
Abbildung 2.5 aus A.11). Die Stimmanzahl in den Recordings schwankt also zwischen
kurzzeitiger Monophonie und Polyphonie aus vier Stimmen.
Die alleinige Funktion des Lead als Melodiestimme kann für kurze Zeit an eine andere
Stimme abgegeben werden, wenn es die Stimmführung erfordert (siehe Abbildung 2.4
aus A.9). Um die Lead Stimme weitestgehend zwischen Tenor und Bariton zu setzen,
ist der Ambitus der Melodie beschränkt. Der begrenzte Ambitus der Melodie ist auch
durch die Entstehung des Barbershop und den damit verbundenen laienhaften Cha-
rakter geprägt. Damit werden dem Barbershop musikalische Grenzen gesetzt. Bei der
automatischen Transkription der Recordings im Testkorpus wird der Ambitus und die
Polyphonie des Barbershop berücksichtigt. Die Parameter der ATS werden so justiert,
dass die Polyphonie aus vier Stimmen besteht und der Ambitus zwischen dem tiefsten
und dem höchsten Ton in der Barbershop-Musik liegt.
Abbildung 2.2: Beispiel für glee club style
Abbildung 2.3: Beispiel für Barbershop style
Harmonik
Die ATS werden im Evaluationsmodul nach der harmonischen Ähnlichkeit der auto-
matischen Annotation zur Annotation beurteilt. Die Harmonik wird durch Akkorde ge-
formt. Bei dem harmonischen Vergleich zwischen der automatischen Annotation und
der Annotation werden die Akkorde verglichen. Um die Akkorde vergleichen zu kön-
nen, müssen sie erst erkannt und bezeichnet werden. Da die Recordings im Testkorpus

KAPITEL 2. TESTKORPUS
10
Abbildung 2.4: Beispiel für Stimmkreuzung in Lead und Bariton in Takt 9 auf
Schlag 2+
Abbildung 2.5: Beispiel für kurze zweistimmige Passage im Barbershop

KAPITEL 2. TESTKORPUS
11
aus Barbershopmusik bestehen, werden nun die wichtigsten Akkorde im Barbershop
beschrieben.
Die Reduzierung der Polyphonie des Barbershop auf vier Stimmen, wirkt sich auf die
Harmonik aus. Die Begleitung der Melodie im Barbershop ist so angelegt, dass mög-
lichst keine Töne verdoppelt werden. Die Harmonik des Barbershop besteht daher zum
größten Teil aus Vierklängen.
Ein Drittel der Gesamtdauer eines Barbershop-Lieds muss aus Dur-Sept-Akkorden
(major 7th) bestehen (PA01, Seite 15). Dur-, Moll- und Moll-Sept-Akkorde (minor
7th), halbverminderte (minor 7 5) und verminderte Akkorde ( 7 5) gehören zu den
weiteren harmonischen Zutaten des Barbershop. Vermieden werden Sext- (6th) , Non-
(9th), 13er-Akkorde (13th), sowie Akkorde mit großer Septe (Major 7th).
Eine Akkordanalyse der zehn Recordings im Testkorpus wird in Abbildung 2.10 ge-
zeigt. In der Tabelle stehen die häufigsten Akkordvorkommen der Liedausschnitte. Da-
bei wurde jeder Akkord auf einer Silbe gezählt. Es wird nach Geschlecht (Dur/ Moll/
vermindert/ übermäßig), Variante (Grund-,7- und 7-Akkord), Lage (enge, erste weite,
zweite weite und dritte weite Lage) und Umkehrung (Grundstellung, erste, zweite und
dritte Umkehrung) getrennt. In der letzten Zeile steht die Platzierungen nach Akkord-
variantenvorkommen geordnet. Die häufigste Akkordvariante ist der Sept-Akkord mit
Geschlecht Dur mit 33,33%. Danach folgt der Dur-Grundakkord (24,32%), dann der
Moll-Sept (11,71%), an vierter Position der Halbverminderte (10,81%) an fünfter Stel-
le der Moll-Grundakkord (8,11%). Die fünf häufigsten Akkorde im Barbershop lassen
sich nach Geschlecht und nach Variante trennen. Es gibt die drei Ton-Geschlechter Dur,
Moll und vermindert, und die zwei Varianten Grund- und Sept-Akkord. Die Moll- und
verminderten-Akkorde werden aufgrund ihres seltenen Vorkommens und der Überein-
stimmung ihrer Akkordtöne zusammengefasst als Moll-Akkorde. Bei dem Vergleich
der automatischen Annotation mit der Annotation werden die zwei Tongeschlechter un-
terschieden durch das harmonische Hierarchiegewicht (hhw-Algorithmus). Die Unter-
scheidung der Varianten mit dem gleichen Geschlecht geschieht durch den ed-Algorithmus
und den ma-Algorithmus.
Der Lagenbegriff bezieht sich normalerweise auf die Unterscheidung zwischen Quint-,
Abbildung 2.6: Beispiel für Akkorde C-Dur und C-Dur 7 in enger Lage
Oktav- und Terzlage(Mic00a)[Seite 96]. Für diese Arbeit wird die Bezeichnung ,,Lage"
neu definiert. Die Lage bezeichnet den Abstand zwischen dem tiefsten und dem höch-
sten Ton im Akkord. Im Barbershop gibt es im Wesentlichen vier Lagen. Sie werden in
Abbildung 2.10 mit e, 1, 2 und 3 bezeichnet. Bei der engen Lage liegen die Akkordtöne

KAPITEL 2. TESTKORPUS
12
am engsten aneinander (siehe Abbildung 2.6). Ein C-Dur 7 Akkord in enger Lage kann
zum Beispiel aus den vier Tönen c, e, g, b
6
bestehen (siehe Abbildung 2.6[Takt 2]).
Bei Dreiklängen wird im vierstimmigen Satz normalerweise ein Akkordton
7
verdop-
pelt. Der Dreiklang C-Dur besteht in der engen Lage zum Beispiel aus den Tönen c,
e, g, c1 (siehe Abbildung 2.6 [Takt 2]). Der Grundton wurde verdoppelt. Der Abstand
zwischen dem tiefsten und dem höchsten Ton in der engen Lage bei Dreiklängen ist
eine Oktave. Bei den Vierklängen wie dem Dur-Sept ist der Abstand in der engen Lage
eine Septe.
Zwei Beispiele für die erste weite Lage stehen in Abbildung 2.7. Der höchste Ton ist
Abbildung 2.7: Beispiel für Akkorde C-Dur und C-Dur 7 in erster weiten Lage
einen Akkordton höher als in der engen Lage. Statt c1 ist der höchste Ton ein e1. Bei
Vierklängen ist das etwas komlizierter. Da es bei Vierstimmigkeit keine Verdoppelung
in einem Vierklang gibt, wird ein Akkordton übersprungen und der höchste Ton ist da-
mit der zweite über dem Grundton.
Die zweite weite Lage entsteht bei Erhöhung des höchsten Tons um einen weiteren
Abbildung 2.8: Beispiel für Akkorde C-Dur und C-Dur 7 in zweiter weiten Lage
Akkordton. Im Dreiklang und Vierklang in Grundstellung ergibt sich dadurch der Am-
bitus von einer Duodezime
8
(siehe Abbildung 2.8). Abbildung 2.9 zeigt die dritte weite
6
Die deutsche Bezeichnung für den Ton h entspricht dem englischen b. Ein deutsches b entspricht dem
englischen b . In dieser Arbeit wird die englische Schreibweise praktiziert, da es sich bei Barbershop um
einen amerikanischen Musikstil handelt.
7
Die Bezeichnung Akkordton bezieht sich auf Akkorde. Zum Beispiel hat ein Dur-Dreiklang drei Ak-
kordtöne: Grundton, große Terz und Quinte.
8
Oktave + Quinte=Duodezime

KAPITEL 2. TESTKORPUS
13
Abbildung 2.9: Beispiel für Akkorde C-Dur und C-Dur 7 in dritter weiten Lage
Lage im Drei- und Vierklang, die durch eine erneute Erhöhung des höchsten Tons um
einen Akkordton erreicht wird.
Die häufigste Akkordvariante ist der Sept-Akkord. Die häufigste Lage der häufigsten
Akkordvariante mit dem Geschlecht Dur ist die enge Lage mit 14 Vorkommen (sie-
he Abbildung 2.10). Der häufigste Akkord ist der Dur Grundakkord in enger Lage in
Grundstellung. Die Lagen unterscheiden sich durch die Töne und nicht durch das Ton-
geschlecht, also werden die Lagen durch den ed-Algorithmus und den ma-Algorithmus
unterschieden und nicht durch den hhw-Algorithmus.
Die Umkehrung des Akkords ist ein weiteres Merkmal. Es gibt den Akkord in Grund-
stellung, erster Umkehrung, zweiter Umkehrung und bei Vierklängen gibt es auch die
dritte Umkehrung. Die Umkehrung richtet sich nur nach dem Grundton. In Grund-
stellung ist der tiefste Ton der Grundton des Akkords. In erster Umkehrung liegt der
Akkord auf dem zweiten Akkordton. Das ist bei Dur die große und bei Moll die kleine
Terz. In der zweiten Umkehrung liegt der Akkord auf dem dritten Akkordton. Bei Dur
und Moll ist das die Quinte. In der dritten Umkehrung liegt der Akkord auf dem vierten
Akkordton. Bei einem Sept-Akkord ist das die Septe.
Die häufigste Umkehrung in der häufigsten Lage (enge Lage siehe oben)) der häufig-
sten Akkordvariante (Sept siehe oben) mit dem Geschlecht Dur ist die zweite Umkeh-
rung mit 18 Vorkommen (siehe Abbildung 2.10).
Während die Bezeichnung für Akkorde mit unterschiedlichen Geschlechtern und un-
terschiedlichen Lagen eindeutig ist, erzeugen Umkehrungen Akkordambiguitäten, da
die selben Einzeltöne in der selben Reihenfolge verschiedene Akkordbezeichnungen
tragen können. Ambiguität ist ein Begriff aus der Linguistik und bezeichnet die Mehr-
deutigkeit in der Sprache. Zum Beispiel werden die Worte ,,mehr" und ,,Meer" gleich
ausgesprochen, haben aber verschiedenen Bedeutungen wie in den Sätzen ,,Er wollte
mehr Schweinchen.ünd ,,Er wollte Meerschweinchen."deutlich wird.
Akkordambiguitäten ergeben sich durch das Konzept der Umkehrungen. Der Moll-
Sept Akkord in erster Umkehrung enge Lage besteht aus den gleichen Akkordtönen,
wie der Dur-6 auf der Dur-Parallele. Der c-moll-7 Akkord in erster Umkehrung und
enger Lage hat dieselben Einzeltöne wie der E -Dur-6 Grundakkord (in der kleinen
Oktave sind das die Töne e , g, b und c1 siehe Abbildung 2.11).
Auch der halbverminderte Akkord in der ersten Umkehrung ist identisch mit dem

KAPITEL 2. TESTKORPUS
14
Abbildung 2.10: Akkordvorkommen in den 10 Recordings des Testkorpus

KAPITEL 2. TESTKORPUS
15
Abbildung 2.11: Dieser Akkord kann als c-moll-7 oder als E -Dur-6 bezeichnet werden
Moll-6 Akkord in Grundstellung. D halbvermindert in erster Umkehrung in enger La-
ge und f-moll 6 bestehen zum Beispiel in der kleinen Oktave aus den Einzeltönen f, a ,
c1 und d1.
Welcher Akkord gemeint ist, wird nur aus dem Kontext ersichtlich. Die übermäßige 6
Abbildung 2.12: Ausschnitt aus ,,THANK YOU DEAR LORD, FOR MUSIC"
in einem Dur Akkord wird zum Beispiel im Barbershop als Durchgangsnote zur Septe
benutzt (siehe Abbildung 2.12[Takt 12]
9
) und die große 6 als Vorhalt zur Quinte (siehe
Abbildung 2.13[Takt 6]
10
), während der Moll-Sept Akkord in die IV. Stufe in Dur auf-
gelöst wird (siehe Abbildung 2.14[Takt 15-16]
11
).
Die Häufigkeit von Sextakkorden in Moll und Dur ist gegenüber den Moll-Sept Ak-
korden und den Halbverminderten beim Barbershop relativ gering (siehe Abbildung
2.10) 3 Dur-6 gegen 18 Moll-Sept Akkorde und 1 Moll-6 gegen 12 halbverminderte
Akkorde. Deshalb ist eine Unterscheidung (Disambiguierung) der oben angeführten
Akkorde bei dem Vergleich der automatischen Annotation und der Annotation nicht
notwendig.
9
Appendix A.7
10
Appendix A.1
11
Appendix A.4

KAPITEL 2. TESTKORPUS
16
Abbildung 2.13: Ausschnitt aus ,,IRISH BLESSING"
Abbildung 2.14: Ausschnitt aus ,,YOU'RE A GRAND OLD FLAG"
Klang
Die Auswahl der Akkorde im Barbershop hat mit der Bildung des Klangs zu tun. Ein
Ton besteht aus einem Grundton und den Obertönen. Die Obertöne bilden den Klang-
charakter. Generell gilt, je mehr Obertöne sich überschneiden, desto kräftiger und satter
ist der produzierte Klang. Die ATS müssen Grundtöne von Obertönen unterscheiden.
Falsche Töne in automatischen Annotationen sind oft auf starke Obertöne in den Re-
cordings zurückzuführen. Statt den Grundton notiert das ATS in einer Recording den
Oberton. Im Barbershop werden Obertöne und Vokale gezielt zur Klangbildung einge-
setzt.
Im Gegensatz zu anderen Musikstilen, wird beim Barbershop das Vibrato als Gesang-
stechnik vermieden (Sun91)[Seite 100], damit die Obertöne sich besser verstärken und
die Akkorde ,,einrasten".
Anhand der Abbildungen 2.15, 2.16, 2.17, 2.18 und 2.19 wird gezeigt, wie viele Ober-
töne sich bei den fünf Akkorden C-Dur, C-Dur 7, c-moll, c-moll 7 und C halbvermin-
dert mindestens zweimal mit einem anderen Oberton oder Akkordton überschneiden.
In Abbildung 2.15 in Takt 1 ist ein C-Dur Dreiklang in einer für Barbershop typischen
Lage abgebildet. Die folgenden vier Takte zeigen die Obertöne der Einzeltöne bis zum
c3 und die Einzeltöne des Akkords. Zum Beispiel in Takt 3 sind die Obertöne g1, d2,
g3 und b3 und der Grundton g des zweiten Akkordton g in Takt 1 notiert. In Takt 6 sind
die Obertöne abgebildet, die sich bei mindestens zwei Grundtönen überschneiden und
deshalb besonders verstärkt werden. Zum Beispiel überschneidet sich der Oberton g1

KAPITEL 2. TESTKORPUS
17
Abbildung 2.15: Obertonüberschneidungen im C-Dur Akkord
Abbildung 2.16: Obertonüberschneidungen im C-Dur 7 Akkord
Abbildung 2.17: Obertonüberschneidungen im c-moll Akkord
Abbildung 2.18: Obertonüberschneidungen im c-moll 7 Akkord

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2004
ISBN (eBook)
9783832486792
ISBN (Paperback)
9783838686790
DOI
10.3239/9783832486792
Dateigröße
4.1 MB
Sprache
Deutsch
Institution / Hochschule
Ludwig-Maximilians-Universität München – Sprach- und Literaturwissenschaften
Erscheinungsdatum
2005 (April)
Note
1,7
Schlagworte
musikerkennung testkorpus signalverarbeitung barbershop information language processing
Zurück

Titel: Testkorpus für automatische Transkriptionssysteme
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
121 Seiten
Cookie-Einstellungen