Untersuchung verschiedener Verfahren zur Grundfrequenzbestimmung mit Einstellung einer Applikation zur Midi-Konvertierung

Huber, Stefan

Untersuchung verschiedener Verfahren zur Grundfrequenzbestimmung mit Einstellung einer Applikation zur Midi-Konvertierung

Zusammenfassung

Inhaltsangabe:Einleitung:
In den letzten Jahrzehnten wurden viele Verfahren zur Grundfrequenzbestimmung erfunden. Es wurden verschiedene Versuche unternommen, die Grundfrequenz eines periodischen bzw. pseudoperiodischen akustischen Signals zu bestimmen. Dabei kommen Algorithmen im Zeitbereich sowie im Frequenzbereich zur Transformation zum Einsatz.
Die physikalischen Ansätze der Algorithmen weisen Stärken aber auch Schwächen auf. Keiner davon ist in der Lage, hundertprozentig akkurat und zuverlässig zu arbeiten. Bis heute existiert keine Formel, kein Modell und kein universeller Algorithmus, der die wahrgenommene Tonhöhe eines komplexen Tonales genau und fehlerlos bestimmen kann.
In dieser Arbeit werden verschiedene Verfahren zur Grundfrequenzbestimmung untersucht und versucht, die gewünschten Eigenschaften aller unterschiedlichen Algorithmen zu kombinieren, um ein bestmögliches Resultat bei einer Wandlung von analogen bzw. digitalisierten Audio-Signalen in das komprimierende Audio-Format Midi zu erzielen.
Die Idee dazu entstand aus der alltäglichen Praxis heraus. Beim Komponieren von Musik hat man schnell einen einfachen Rhythmus aus Schlagzeug und Bass zusammengestellt, die Komposition komplexerer, bereits im Kopf vorgedachter Melodien ist jedoch schwierig und zeitaufwendig.
Bei Melodieverläufen, die aus mehr als fünf Noten bestehen, kann man mittels einer Gitarre oder einem Klavier meist schnell die ersten drei bis fünf Noten bestimmen. Bei höherer Notenanzahl hören sich die ersten Noten oft nach dem gewünschten Melodieverlauf an, weitere Noten stehen aber oftmals in Dissonanz zur anfänglichen Notensequenz. Der bereits erstellte Melodieverlauf aus den ersten Noten muss wieder verworfen werden, um die im Gehirn vorhandene Melodie komplett im Einklang aller Noten zueinander komponieren zu können.
So erhöht sich der Zeitaufwand beim musikalischen Komponieren exorbitant, die anfängliche Euphorie durch das im Kopf gespeicherte Musikstück verliert sich mit der Zeit im Komponieren der gewünschten Melodie. Da es dem Menschen um ein Vielfaches leichter fällt, die Melodie im Kopf zu singen, zu pfeifen oder zu summen, soll die Applikation zur Midi-Konvertierung dem Musiker helfen, schnell und einfach ohne unnötige Hindernisse sein Ziel zu erreichen.
Der Fokus der Diplomarbeit liegt bei der Verarbeitung monophoner Audiosignale, da sich die Erkennung von mehreren Melodieverläufen, zusätzlichen Rhythmusstrukturen und anderen polyphonen Sounds weitaus […]

Leseprobe

Inhaltsverzeichnis

ID 7698

Huber, Stefan: Untersuchung verschiedener Verfahren zur Grundfrequenzbestimmung

mit Einstellung einer Applikation zur Midi-Konvertierung

Hamburg: Diplomica GmbH, 2004

Zugl.: Fachhochschule für Technik und Wirtschaft Berlin, Fachhochschule für Wirtschaft

und Technik, Diplomarbeit, 2003

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,

insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von

Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der

Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,

bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik

Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich

vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des

Urheberrechtes.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in

diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,

dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei

zu betrachten wären und daher von jedermann benutzt werden dürften.

Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können

Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die

Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine

Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.

Diplomica GmbH

http://www.diplom.de, Hamburg 2004

Printed in Germany

Inhaltsverzeichnis

...

Einleitung... 6

1.1

Schall ...7

1.2

Erzeugen von Sprache und Gesang ...7

1.3

Wahrnehmung durch Hören ...8

1.4

Aufbau von Tönen und Klängen ...9

1.5

Klangeigenschaften...11

1.6

Auftretende Probleme bei der Grundfrequenzerkennung ...11

...

Technische Grundlagen ... 14

2.1

Digitales Audio...14

2.2

Filter...15

2.3

Das Dateiformat Wave ...18

2.3.1

Das Dateiformat RIFF ... 18

2.3.2

Chunk Architektur ... 18

2.3.2.1

Wave- oder Header-Chunk ...19

2.3.2.2

Format-Chunk...19

2.3.2.3

Daten-Chunk ...20

2.3.2.4

Waveheader...20

2.3.2.5

Weitere Chunkarten ...21

2.3.3

Speicheranordnung ... 22

2.4

Der Standard MIDI ...22

2.4.1

Vergleich mit Waveformat ... 22

2.4.2

MIDI Hardware ... 23

2.4.3

MIDI Systeme ... 24

2.4.4

MIDI Sequenzer ... 25

2.4.5

MIDI Noten... 26

2.4.6

MIDI Dateien... 27

2.4.6.1

Header-Chunk...28

2.4.6.2

Zeitformat ...28

2.4.6.3

Track-Chunk...28

2.4.7

MIDI Events ... 29

2.4.7.1

Status- und Datenbytes...29

2.4.7.2

Befehlskategorien ...30

2.4.7.3

NoteOn Befehl...30

2.4.7.4

NoteOff Befehl ...31

2.4.7.5

Programm Change Befehl...31

2.4.7.6

End of Track Befehl...33

2.4.7.7

MIDI Text und Copyright...33

2.4.7.8

Noten- und Pausenlängen ...33

2.4.8

Delta-Time Kommando... 33

2.4.9

MIDI Tempo... 34

2.4.10

General MIDI ... 35

2.4.11

Little und Big Endian Datenformate ... 36

2.5

Faltung...37

2.6

Korrelation ...38

2.7

Fourier-Transformation...39

2.7.1

Fourier-Integral... 39

2.7.1.1

Definition ...39

2.7.1.2

Veranschaulichung...40

2.7.1.3

Inverse Fourier-Transformation...42

2.7.1.4

Parseval´sches Theorem...42

2.7.2

Fourier-Reihe... 43

2.7.3

Diskrete Fourier-Transformation, DFT... 43

2.7.3.1

Definition ...43

2.7.3.2

Komplexe Koeffizienten...44

2.7.3.3

Korrelation ...45

2.7.3.4

Symmetrie ...46

2.7.3.5

Zeit- und Frequenzauflösung...46

2.7.4

Inverse DFT... 47

2.7.5

Fast Fourier-Transformation, FFT... 47

2.7.5.1

Schnelle Berechnung...47

2.7.5.2

Zerlegung der Transformationslänge ...48

2.7.5.3

Architekturen der FFT...49

2.7.5.4

Butterfly ...50

2.8

Analyse ...51

2.9

Energieberechnung ...51

2.10

Fensterung aufgrund Spektralverbreiterung ...52

...

Verfahren zur Grundfrequenzbestimmung ... 54

3.1

Zeitbereich ...54

3.1.1

Nulldurchgangsrate... 54

3.1.2

Spektraltransformation mittels Bandpässen... 56

3.1.2.1

Definition ...56

3.1.2.2

Parallelschaltung ...56

3.1.2.3

Umsetzung ...56

3.1.2.4

Nachteile ...57

3.1.2.5

Maximumerkennung ...57

3.1.3

Autokorrelation... 59

3.1.3.1

Einführung ...59

3.1.3.2

Formel...59

3.1.3.3

Berechnung ...59

3.1.3.4

Bestimmung der Grundperdiode...60

3.1.4

Betragsdifferenzfunktion AMDF ... 62

3.2

Zeit- und Frequenzbereich kombiniert ...63

3.2.1

Autokorrelation im Zeit- und Frequenzbereich... 63

3.2.1.1

Vorteile ...64

3.2.1.2

Nachteile ...64

3.2.1.3

Autokorrelation mit Center-Clipping ...65

3.2.2

Cepstrum... 66

3.3

Frequenzbereich...68

3.3.1

Spektrale Kompression... 68

3.3.2

Spektrale Autokorrelation ... 71

...

Pitch2Midi Konverter ... 73

4.1

Philosophie...73

4.2

Dialogumgebung und Klassenhierarchie ...73

4.3

Benutzerführung ...74

4.4

Definitionen.h...77

4.5

Die Klasse Wave ...78

4.5.1

Headerdatei... 78

4.5.2

Funktionen... 79

4.5.2.1

Wavedatei öffnen und lesen...80

4.5.2.2

Wavedatei normalisieren ...81

4.5.2.3

Dateipfad speichern...82

4.5.2.4

Wavedatei erstellen ...82

4.5.2.5

Wavedatei prüfen...83

4.5.2.6

FOURCC Feld kopieren ...83

4.5.2.7

Tiefpass-Filterung ...83

4.5.2.8

Fensterfunktionen ...86

4.6

Die Klasse Midi...87

4.6.1

Headerdatei Midi.h... 88

4.6.2

MIDI Notenberechnung... 88

4.6.3

Initialisierung im Konstruktor ... 89

4.6.4

Funktionen... 90

4.6.4.1

Word Bit-Reverse ...90

4.6.4.2

DoubleWord Bit-Reverse...90

4.6.4.3

Deltatime schreiben...91

4.6.4.4

Zeit- und Frequenzauflösung setzen ...92

4.6.4.5

MIDI-Datei schreiben...92

4.7

Die Klasse FourTrans ...93

4.7.1

Komplexe Arithmetik ... 93

4.7.2

Koeffizienten in vorberechneten Arrays ... 94

4.7.3

Die Funktion Bit-Reverse... 95

4.7.4

Die Funktionen FFT und InverseFFT... 95

4.8

Spektrale Gewichtung ...96

4.8.1

Erklärung ... 96

4.8.2

Implementation... 97

4.9

Klassen zur Grundfrequenzbestimmung ...98

4.9.1

MIDI Konvertierung... 98

4.9.2

Die Klasse AMDF ... 101

4.9.3

Die Klasse Autokorrelation... 102

4.9.3.1

MIDI Konvertierung ...102

4.9.3.2

PufferProzess der schnellen AKF...102

4.9.3.3

PufferProzesse der geklippten AKF...103

4.9.3.4

PufferProzess der AKF im Zeitbereich ...104

4.9.3.5

PufferProzess der AKF im Frequenzbereich...104

4.9.4

Die Klasse Cepstrum ... 105

4.9.5

Die Klasse ErstesMaxima... 105

4.9.6

Die Klasse FrequenzAbstand ... 106

4.9.7

Die Klasse SpektraleKompression... 107

4.9.8

Die Klasse SpektralerIntervall... 107

4.10

Die Pitch2Midi Dialog-Klasse ...107

4.10.1

OnKonvertieren() ... 107

4.10.2

Kombinierer... 110

4.11

MFC-spezifische Hinweise...111

4.11.1

Schrift und Hintergrund in Dialogen färben... 111

4.11.2

Mehrere Registerkarten... 111

4.11.3

Bitmap Buttons ... 114

4.11.4

Textausgabe ... 115

4.11.5

CFileDialog ... 115

4.11.5.1

Wave öffnen...115

4.11.5.2

Speichern unter ...116

4.11.6

Globaler Zugriff... 116

4.11.7

Normalisierungs-Dialog... 117

...

Auswertung... 117

...

Zusammenfassung... 120

...

Literaturverzeichnis ... 121

Abbildungsverzeichnis

Abbildung 1.2 Menschliches Ohr ... 8

Abbildung 1.3 Komplexe Schwingung ... 10

Abbildung 2.4.2 MIDI Verbindung... 23

Abbildung 2.4.3 a) Minimales MIDI System... 24

Abbildung 2.4.3 b) PC und MIDI... 24

Abbildung 2.4.3 c) Live MIDI System... 25

Abbildung 2.7.1 b) Eine Frequenzkomponente... 40

Abbildung 2.7.1 d) Drei Frequenzkomponenten... 41

Abbildung 2.7.5.3. a) Decimation in Time... 49

Abbildung 2.7.5.3. b) Decimation in Frequency... 49

Abbildung 4.3 a) Dominante Grundfrequenz... 57

Abbildung 4.3 b) Dominante Oberwellen... 58

Abbildung 3.1.3.4. b) Autokorrelations-Ergebnis ... 61

Abbildung 3.1.4 AMDF-Koeffizienten... 62

Abbildung 3.2.1.3 a) Abgetrenntes Audiosignal... 65

Abbildung 3.2.1.3 b) Geklipptes Autokorrelations-Ergebnis... 65

Abbildung 3.2.2 b) Cepstrumbereich, Wurzelbildung ... 68

Abbildung 3.3.1 a) Fourierspektrum ... 69

Abbildung 3.3.1 b) komprimiertes Spektrum... 69

Abbildung 3.3.1 c) verrauschtes Fourierspektrum ... 70

Abbildung 3.3.1 d) komprimiertes Spektrum verrauscht ... 70

Abbildung 3.3.2 a) Fourierspektrum ... 72

Abbildung 3.3.2 b) Autokorrelation im Frequenzbereich... 72

Abbildung 4.4 Linienspektrum... 96

Abbildung 4.9.1 PAP... 99

1. Einleitung

In den letzten Jahrzehnten wurden viele Verfahren zur Grundfrequenzbestimmung erfun-

den. Es wurden verschiedene Versuche unternommen, die Grundfrequenz eines periodi-

schen bzw. pseudoperiodischen akustischen Signals zu bestimmen. Dabei kommen Algo-

rithmen im Zeitbereich sowie im Frequenzbereich zur Transformation zum Einsatz.

Die physikalischen Ansätze der Algorithmen weisen Stärken aber auch Schwächen auf.

Keiner davon ist in der Lage, hunderprozentig akkurat und zuverlässig zu arbeiten. Bis

heute existiert keine Formel, kein Modell und kein universeller Algorithmus, der die

wahrgenomme Tonhöhe eines komplexen Tonals genau und fehlerlos bestimmen kann.

In dieser Arbeit werden verschiedene Verfahren zur Grundfrequenzbestimmung unter-

sucht und versucht, die gewünschten Eigenschaften aller unterschiedlichen Algorithmen

zu kombinieren, um ein bestmögliches Resultat bei einer Wandlung von analogen bzw.

digitalisierten Audio-Signalen in das komprimierende Audio-Format Midi zu erzielen.

Die Idee dazu enstandt aus der alltäglichen Praxis heraus. Beim Komponieren von Musik

hat man schnell einen einfachen Ryhtmus aus Schlagzeug und Bass zusammengestellt, die

Komposition komplexerer, bereits im Kopf vorgedachter Melodien ist jedoch schwierig

und zeitaufwendig.

Bei Melodieverläufen, die aus mehr als fünf Noten bestehen, kann man mittels einer Gi-

tarre oder einem Klavier meist schnell die ersten drei bis fünf Noten bestimmen. Bei höhe-

rer Notenanzahl hören sich die ersten Noten oft nach dem gewünschten Melodieverlauf

an, weitere Noten stehen aber oftmals in Dissonanz zur anfänglichen Notensequenz. Der

bereits erstellte Melodieverlauf aus den ersten Noten muss wieder verworfen werden, um

die im Gehirn vorhandene Melodie komplett im Einklang aller Noten zueinander kompo-

nieren zu können.

So erhöht sich der Zeitaufwand beim musikalischen Komponieren exorbitant, die anfäng-

liche Euphorie durch das im Kopf gespeicherte Musikstück verliert sich mit der Zeit im

Komponieren der gewünschten Melodie. Da es dem Menschen um ein Vielfaches leichter

fällt, die Melodie im Kopf zu singen, zu pfeifen oder zu summen, soll die Applikation zur

Midi-Konvertierung dem Musiker helfen, schnell und einfach ohne unnötige Hindernisse

sein Ziel zu erreichen.

Der Fokus der Diplomarbeit liegt bei der Verarbeitung monophoner Audiosignale, da sich

die Erkennung von mehreren Melodieverläufen, zusätzlichen Ryhtmusstrukturen und an-

deren polyphonen Sounds weitaus schwieriger gestaltet. Die erstellte Anwendung

Pitch2Midi ist auf menschlichen Gesang optimiert, kann aber auch zur Konvertierung von

Instrumentenklängen angewandt werden.

1.1 Schall

Schall besteht aus Schwingungen, die sich in elastischen Medien wie Luft, Wasser oder

Metall als Longitudinalwellen fortpflanzen und die die Moleküle der Medien beim Auf-

treten der Welle zusammenpressen. Je höher der Schalldruck, desto stärker werden die

Moleküle zusammengedrückt.

Vibrieren Objekte, Gegenstände und Oberflächen, werden die Luftmoleküle in der Um-

gebung entsprechend der Stärke und der Frequenz der Vibration gepresst und wieder

entlastet, wodurch Schallwellen in der Luft erzeugt werden. Die Luft wird durch die

Schwingungen einer Gitarrenseite, von Blasinstrumenten oder den Oberflächen von

Perkussionsinstrumenten angeregt. Blasinstrumente nutzen den Luftstrom der menschli-

chen Lunge und erzeugen durch Brechung, Reflexion, Beugung und Interferenz der

Schallwellen ihr charakteristisches Klangbild.

Der Schalldruck wird in Dezibel gemessen und gibt den Druckunterschied zwischen

zwei Molekülzuständen an. Die Gesamtleistung eines Schalls ist das Integral der Intensi-

tät über eine Oberfläche.

Schall-Lautstärke L in dB =

REFERENZ

log

Schall-Leistung P in dB =

REFERENZ

log

Die Referenz-Leistung gibt den atmosphärischen Schalldruck an, der eine Druckreferenz

auf die gemessene Schall-Leistung gibt und bei P

REFERENZ

= 0,00002 Pa liegt. Ein

Schallunterschied von 20 dB bedeutet zehnfachen Schalldruck, 6 dB entsprechen zwei-

fachem Schalldruck und bei 6 dB wird der Schalldruck halbiert. Typische Leistungen

sind 10

W für Sprache, 1 mW für eine Geige und 100 W für einen Lautsprecher.

1.2 Erzeugen von Sprache und Gesang

Die menschliche Sprachproduktion kann in zwei Teile unterschieden werden. Der Kehl-

kopf mit seinen Stimmbändern erzeugt aus dem Luftdruck der Lunge ein Signal, das

vom nachfolgenden Vokaltrakt, also der Mund- und Nasenraum sowie die Abstrahlung

über Zunge, Lippen und Mund, gefiltert wird.

Sprache und Gesang ist mathematisch die Faltung eines Anregungsimpulses mit den im

Vokaltrakt gegebenen Filtern. Durch Luftdruck aus der Lunge werden diese akustischen

Filter im Mund- und Nasenraum angeregt. Die Stimmbänder des Kehlkopfs werden

durch den Luftstrom der Lunge in Schwingung versetzt und verwandeln diesen in ein

regelmäßiges, periodisches Anregungssignal, das im nachfolgenden Vokaltrakt durch

Resonanzen verändert wird, um die charakterlichen Merkmale eines Tones zu erzeugen.

Der Vokaltrakt des Menschen stellt in Äquivalenz zu einem Musikinstrument den Hohl-

raum zur Klangspektrenbildung durch Resonatoren dar. Durch Veränderung von Form

und Volumen des Hohlraumes werden die Resonanzeigenschaften des Vokaltraktes ge-

steuert, sodass Frequenzbereiche abgesenkt oder angehoben werden.

Die gepresste Luft der Lunge führt zu einem Druckanstieg, der die durch die Muskelan-

spannung der Stimmbänder geschlossene Stimmritze öffnet. Die Luftentweichung ver-

mindert den Druck und lässt die Stimmritze wieder schliessen. Dies führt zu quasiperi-

odischen Luftstromimpulsen im nachfolgenden Vokaltrakt in Abhängigkeit des Luft-

stromdruckes und Spannung und Lage der Stimmbänder. Diese Impulse bestimmen die

einhüllende Kurve einer Tonhöhenperiode und verursachen die Grundfrequenz.

Das Ergebnis aus Luftstrom und Filterung durch den Vokaltrakt ist ein nichtstationärer

Prozess, da beide Parameter jederzeit ihr Verhalten ändern können. Dies führt zu den

starken Veränderungen der zeitlichen Struktur eines Sprachsignals. Nur für sehr kurze

Zeitintervalle kann ein quasistationärer Zustand angenommen werden.

Zusammenfassend können die Stimmbänder des Kehlkopfes und der Luftstrom der Lun-

ge als Impulsgenerator angesehen werden. Die Tonhöhe wird durch unterschiedliches

Spannen der Stimmbänder im Kehlkopf bestimmt. Die Impulse werden von einer Anzahl

an Filtern im Vokaltrakt bearbeitet. Die Ausgabe geschieht über Schallabstrahlung durch

Mund und Nase.

1.3 Wahrnehmung durch Hören

Um im Gehirn gespeicherte Informationen mittels Sprache oder Gesang fehlerlos ausge-

ben zu können, bedarf es einer Rückkopplung der Ausgabe zum Gehirn, um dem kon-

trollierenden Organ mitzuteilen, ob die zuletzt ausgeführten Befehle entsprechend genau

gesungen oder gesprochen wurden. Dies geschieht mittels dem Hörorgan Ohr, welches

Schallwellen analysiert und dem Gehirn die ermittelten Ergebnisse mitteilt.

Das menschliche Ohr wird in drei gröbere Bereiche unterteilt, Aussenohr, Mittelohr und

Innenohr. Den genaueren Aufbau verdeutlicht Abbildung 1.2.

Abbildung 1.2 Menschliches Ohr

Das äussere Ohr umfasst die Ohrmuschel a, den äußeren Gehörgang b und das Trommel-

fell c. Das Mittelohr, die Paukenhöhle d, besteht aus den drei Knochen Hammer e, Am-

boss f und Steigbügel g, und verbindet das Trommelfell mit dem Innenohr. Dieses setzt

sich aus der Schnecke k und dem Gehörnerv m zusammen.

An den Windungen der Schnecke befinden sich schwingungsempfindliche Nervenbän-

der, die über den Gehörnerv mit dem Gehirn verbunden sind. Treffen Schallwellen auf

die Ohrmuschel, ändert sich der Luftdruck im Gehörkanal, wodurch das Trommelfell zu

schwingen beginnt. Der mit dem Trommelfell verbundene Hammer aktiviert den Am-

boss im Mittelohr. Über den Steigbügel wird die Flüssigkeit im Innenohr durch die über-

tragenen Schwingungen in Bewegung versetzt.

Die frequenzempfindlichen Nervenfasern in der Schnecke erfassen die Schwingungen

und setzen diese in Frequenzen um. Hochfrequente Schwingungen werden von Nerven

nahe dem Eingang zur Schnecke erkannt, tiefe Frequenzen von Nervenbändern im Inne-

ren der Schnecke.

Um von Sprache und Gesang Informationen zu extrahieren, wie etwa Sprachinhalte,

Merkmalsvektoren zur Erkennung des Sprechers, Unterscheidung der Stimmencharakte-

risitken in rauhe, verschnupfte, gelispelte und klare Simmen, Männer- und Frauenstim-

men oder eben die Grundfrequenz des Signals, wurden Algorithmen entwickelt, die die

Funktionen eines Hörorgans nachbilden.

Aufgrund der Komplexität des Ohres sind aber bis heute noch nicht alle Funktionen und

Phänomene des Hörorgans vom Menschen entschlüsselt worden, obwohl seit Jahrzehn-

ten Forschung in dieser Richtung betrieben wird. Insbesondere das Innenohr und die

Weiterleitung der Informationen an das Gehirn bringen noch grossen Klärungsbedarf mit

sich. Daher sind Maschinenprogramme dem natürlichen Ohr in vielen Anwendungsge-

bieten weit unterlegen und produzieren Fehler.

Die Wahrnehmung periodischer Signale spielt eine wichtige Rolle beim Hören und zum

Verständnis der komplexen Akustik. Das menschliche Ohr ist gegenüber Änderungen

der Grundfrequenz empfindlicher als bei Änderungen anderer Sprachsignalparameter.

1.4 Aufbau von Tönen und Klängen

Ein komplexer Tonal ist in der Literatur als ein hörbarer Ton beschrieben, der nicht si-

nusförmig ist und sich aus einer Überlagerung reiner harmonischer Schwingungen oder

Töne zusammensetzt, deren Grundfrequenz durch die Wiederholungsfrequenz der peri-

odischen Schwingung gegeben ist. Tonalität beschreibt die Bezogenheit aller Töne auf

einen Grundton.

Ein Ton ist eine vom Gehör wahrgenommene Schwingung der Luft, kurz Schallschwin-

gung, mit sinusförmigem Schwingungsverlauf, also ein harmonischer Ton bzw. Sinus-

Ton. Da das Schallspektrum eines Tons im Unterschied zum Klang nur eine einzige Fre-

quenz enthält, wird er auch als reiner oder einfacher Ton bezeichnet. Die charakteristi-

schen Merkmale eines Tons sind Tonhöhe und Tonstärke, die durch Frequenz, Phase

und Amplitude der zugehörigen Schwingung des Schalls bestimmt sind.

( )

(

)

sin

Die Amplitude A beschreibt die maximale Grösse einer Schwingung und wird mit einer

Sinusfunktion multipliziert, die die einzelnen Positionen einer Schwingung durchläuft.

Die Phase

definiert die horizontale Verschiebung auf der Zeitachse.

Klang ist ein Gemisch aus mehreren Tönen, bei dem die Frequenzen der einzelnen Töne

ganzzahlige Vielfache der Frequenzen bzw. Obertöne des tiefsten im Klang vorhande-

nen Tones sind, des Grundtones. Anzahl und Stärke der Obertöne verleiht jedem Klang

seine charakteristische Klangfarbe. Der Gesang eines Menschen oder der Klang eines

Instruments besteht folglich aus vielen überlagerten Frequenzen, die das Klangbild cha-

rakterisieren.

Folgende Tabelle verdeutlicht die Zusammenhänge.

physikalisch

psychoakustisch musiktheoretisch

Sinusschwingung

Sinuston

Ton

zu einer harmonischen Frequenzreihe

zusammengesetzte Sinusschwingungen

Ton

Klang

zu einer inharmonischen Frequenzreihe

zusammengesetzte Sinusschwingungen

Tongemisch

Klang

zu 2 oder mehr harmonischen Frequenzrei-

hen zusammengesetzte Sinusschwingungen

Klanggemisch

Klang

Nichtperiodische Schwingungen

weißes und farbi-

ges Rauschen

Geräusch

Ein Ton oder Klang lässt sich in drei zeitliche Phasen aufteilen. Nach dem Einschwing-

vorgang wird ein quasistationärer Zustand gehalten, bis der Ausschwingvorgang den

Ton schliesst. Der Einschwingvorgang ist beendet, wenn die Amplitude des Schwin-

gungsverlaufs 3 dB unterhalb des mittleren Energieverlaufs des quasistationären Zustand

erreicht. Der Ausschwingvorgang ist bei Unterschreitung eines Amplitudenwertes von -

60 dB zum quasistationären Zustand beendet.

Der Grundton oder die Grundfrequenz stellen die inverse Beziehung zur fundamentalen

Periode dar, die als Tonhöhe wahrgenommen wird. Klänge und Töne bestehen aus ei-

nem sich mit der Grundfrequenz wiederholenden periodischem Muster, das sich in kur-

zen Zeitabständen nahezu deckungsgleich zum vorhergehenden Muster verhält. Als Mu-

ster ist hierbei die periodische Wiederholung des Amplitudenverlaufes anzusehen.

Abbildung 1.3 Komplexe Schwingung

Der Kehrwert der Periodendauer entspricht der Grundfrequenz. Die Periodendauer eines

komplexen Tonals ist die Zeitdifferenz zwischen Beginn und Ende einer Grundperiode.

Bei obigem Beispiel wurde die Periodendauer an den Nulldurchgängen der Schwingung

gemessen. Die Differenz von Periodenende bei 225,1 ms und Periodenbeginn bei 215,8

ms beträgt 9,3 ms, woraus sich eine Grundfrequenz von 107,53 Hz ergibt.

Die Grundfrequenz entspricht der fundamentalen Frequenz des oszillierenden Kehlkopfs

im Hals, also der Vibrationsgeschwindigkeit des Vokaltrakts, und ist in der Regel die

stärkste Frequenz im Spektrum. Die Grundperiode ist die Antwort des Vokaltrakts auf

einen Anregungsimpuls und ist exponentiell gedämpft.

1.5 Klangeigenschaften

Verschiedene Sprachmuster wie Flüstern, mit normaler Lautstärke reden und brüllen

bilden ihre charakteristischen Klangeigenschaften durch Zusammensetzung bestimmter

Obertonverhältnisse.

Stimmen von Männern klingen anders als die Stimmen ihrer weiblichen Mitmenschen.

Es fällt schwer, eine Stimme des anderen Geschlechts nachzuahmen. Man singt zwar die

gleiche Tonhöhe und hält die gleiche Grundperiode, die Spektren der Obertöne und de-

ren Idensitäten im zeitlichen Verlauf sind jedoch verschieden, sodass unterschiedliche

Klangstimmungen zu Männer- und Frauenstimmen führen.

Man spricht von Klangfarben, von bestimmten Klangspektren eines Instrumentes bei

Zuordnung zu einer Instrumentengruppe, da diese Klangeigenschaften das Klingen eines

Instrumentes bzw. einer menschlichen Stimme charakterisieren. Es erfolgt keine Wahr-

nehmung aller Einzeltöne, sondern die Wahrnehmung des komplexen Klangspektrums.

Die wahrgenommene Tonhöhe wird von der tiefsten Frequenz bestimmt.

Formanten sind bekannte Frequenz-Regionen bzw. Spektrums-Hüllkurven, die von Re-

sonanzen im Schall erzeugenden Körper eines Instrumentes hervorgerufen werden und

sehr stark das Klangbild eines Tones bestimmen. Bei der menschlichen Stimme werden

die Resonanzen und deren Aufhebungen im Vokaltrakt gebildet. Ein Formant wird im

englischen Sprachgebrauch als 'timbre' bezeichnet, was mit Klangfarbe zu übersetzen ist.

Phasenbeziehungen zwischen den harmonischen Obertönen untereinander spielen bei

der Wahrnehmung von Klängen kaum eine Rolle, obwohl im physikalisch-technischen

Sinne oder in der Mechanik dies sehr wohl von Bedeutung ist, da eine Phasenverschie-

bung bei gleichbleibender Frequenz den Amplitudenverlauf stark verändert.

1.6 Auftretende Probleme bei der Grundfrequenzerkennung

Erkennung und Wiedergabe von komplexen Tonalen bereiten dem Menschen Schwie-

rigkeiten und sind individuell unterschiedlich. Jeder Mensch hat eine andere Wahrneh-

mung bezüglich der Tonhöhe. Untersuchungen, bei denen die Zuhörer einen Sinuston

fester Frequenz dadurch bestimmen sollten, indem ein folgender, variabler Sinuston zu-

geordnet werden musste, haben ergeben, dass dies für die meisten Teilnehmer kein Pro-

blem darstellte. Die Tonhöhe wurde exakt oder nur unwesentlich daneben bestimmt.

Ersetzt man den Sinuston durch einen komplexen Ton gleicher, fest definierter Grund-

frequenz und wiederholt das Experiment, so ist die Bandbreite der zugeordneten Fre-

quenzen wesentlich grösser, die erkannte Tonhöhe liegt öfter und weiter vom Ergebnis

entfernt.

Einige Klangquellen weisen inharmonische Komponenten auf, die Obertöne stehen nicht

im ganzzahligen Verhältnis des Grundtones und sind keine harmonischen Vielfachen der

Grundperiode. Obertöne können in ihrer Amplitude stärker als die Grundfrequenz sein

oder sich von Periode zu Periode in ihrem Amplitudenverlauf ändern. Dadurch entstehen

die typischen Klangspektren gehörter Schallwellen.

In manchen Signalen ist der Grundton nicht enthalten, sodass die Grundfrequenz aus der

Gesamtheit der Oberwellen, oder genauer aus den Abständen der Obertöne, vom

menschlichen Gehör rekonstruiert wird. Dieses Phänomen wird Residuum genannt.

In folgenden Beispielen ist die Grundfrequenz nicht enthalten, wird aber gehört:

- Billige Lautsprecher sind oft nicht in der Lage, Frequenzen unterhalb 100 Hz wieder

zugeben, der Grundfrequenz-Region der männlichen Stimme.

- Die Übertragungsbandbreite beim Telefongespräch ist so eingeschränkt, dass die

Grundfrequenz bzw. Frequenzen unterhalb 300 Hz und höher frequente Obertöne

überhalb 8000 Hz bei einem normalen Gespräch abgeschnitten werden.

- Das Spektrum von Glockentönen besteht aus wenigen Harmonischen überhalb 1000

Hz, aber die wahrgenommene Grundfrequenz liegt bei 100 Hz.

Erklingen harmonische Teiltöne eines einzelnen musikalischen Tones, empfindet das

Gehör eine Grundtonhöhe. Aufgrund dieser psychoakustischen Gründe spricht man von

der Wahrnehmung einer virtuellen Tonhöhe.

Das hochkomplex aufgebaute menschliche Gehör kann dies naturgemäss verarbeiten,

der Grundfrequenzerkennung durch Algorithmen bereitet dies zusätzlich gravierende

Probleme.

Weiter tritt das Problem auf, dass alle Obertöne in der Nähe eines Vielfachen des Grund-

tones liegen, die Frequenzen jedoch nicht exakt dem theoretischen Frequenzwert ent-

sprechen und um diesen variieren. Mit steigender Obertonzahl nimmt der Abstand zwi-

schen den Harmonischen zu oder ab, wodurch höherfrequente Obertöne die Bestimmung

der Grundfrequenz erschweren.

Die Fähigkeit, die exakte Frequenz eines Tones ohne externe Referenz zu erkennen,

wird als Phänomen der absoluten Tonhöhe bezeichnet. Beherrscht dies ein Mensch, be-

sitzt er ein absolutes Gehör, eine absolute Frequenz-Referenz, die durch ein internes Ab-

bild jedes in der Musik definierten Tones gewährleistet wird. Dadurch kann jeder Ton

identifiziert und zugeordnet sowie wieder reproduziert werden.

Diese Gabe besitzen nur wenige Menschen, wie z. B. Ludwig van Beethoven. Er kom-

ponierte seine neunte Symphony trotz fast völliger Taubheit. Manche Orchester spielen

dieses Stück lieber mit Instrumenten, die von der Note A 4 mit 442 Hz ausgehend ge-

stimmt wurden, da sich dies besser anhöre.

In der Musik werden fast alle Instrumente nach der Note A 4 enstsprechend 440 Hz ge-

stimmt. Demnach hätte die Note A 3 entsprechend 220 Hz, was auch in Notentabellen, z.

B. in der MIDI-Spezifikation, so angegeben wird. Untersuchen aber ergaben, dass Men-

schen diese Frequenz etwas über 218 Hz einordnen, obwohl die Grundperiode der

Schwingung exakt 220 Hz betrug.

Höhere Obertöne werden vom menschlichen Ohr zu hoch wahrgenommen. Je höher die

zu bestimmende Frequenz liegt, desto grösser ist auch der Abstand zur eigentlichen,

theoretischen Obertonfrequenz. Analog dazu werden tiefe Frequenzen vom Gehör etwas

tiefer wahrgenommen als die theoretische Frequenz.

Hier ist das Ergebnis von Untersuchungen zu sehen, bei dem die Note A 3 und deren

Obertöne von verschiedenen Versuchspersonen mit absolutem Gehör bestimmt werden

sollte. Gestrichelte Linien stellen die erkannten und durchgezogene Linien die realen,

theoretischen Frequenzen dar.

Abbildung 1.5 a) Obertonwahrnehmung

Das gleiche Phänomen tritt auf, wenn die Grundfrequenz und der erste Oberton ausge-

blendet wurden.

Abbildung 1.5 b) Obertonwahrnehmung ohne Grundfrequenz

Dies erschwert die Grundfrequenzerkennung, da Menschen durch die unterschiedliche

Wahrnehmung oder schlechte Gesangeskünste Töne und deren Frequenzen beim Singen

nicht ganz perfekt treffen oder die Tonhöhe nicht exakt auf gleicher Höhe halten können

und in der Frequenz schwanken.

Folgende Gleichung veranschaulicht diesen Sachverhalt:

,...

;

ist die Frequenz des n-ten Obertones, f

die Grundfrequenz und ä der Verschiebungs-

faktor. Ist ä = 1.0, sind alle Obertöne im harmonischen Intervall und die Formel be-

schreibt eine harmonische Serie. Liegt ä ober- oder unterhalb 1.0, wird das Spektrum

verzerrt. Der Verschiebungsfaktor ä kann dabei auch variieren, also bei niedrigen Fre-

quenzen unterhalb 1.0 und mit steigender Frequenz überhalb 1.0 liegen, oder umgekehrt.

Ein weiteres Problem tritt auf, wenn subharmonische Obertöne auftreten, die z. B. im

Abstand einer halben Grundfrequenz zwischen den Obertönen erscheinen, was vor allem

für Instrumentenklänge gilt.

Da der Mensch bei der Generierung von Sprache und Gesang sein ausgesendetes Signal

über das Gehör zum Gehirn rückkoppelt, bringt ein schlechtes Hörvermögen das Pro-

blem mit sich, die Schallwellen auf die gewünschte Frequenz zu bringen bzw. die Fre-

quenz konstant zu halten. Gehörlosen Menschen fällt es auffallend schwer, Sprache kor-

rekt zu artikulieren.

Eine gesungene Stimme weist sehr stark harmonische Obertöne aufgrund von Formanten

im Sprachverlauf auf, die das Ergebnis einer FFT-Analyse verwaschen und einen fol-

genden Algorithmus zur Tonhöhenfindung täuschen können.

Bei schlechtem Signal-Rausch Verhältnis und zu geringem Störabstand, der Differenz

zwischen Nutz- und Rauschsignal, lässt sich die Grundfrequenz schwerer erkennen als

bei qualitativ höherwertigen Audiodaten.

2. Technische Grundlagen

2.1 Digitales Audio

Schallwellen werden von einem Mikrophon aufgenommen und vorverstärkt, um einen

nachgeschalteten Analog-Digital Wandler ausreichend auszusteuern. Dieser tastet das

Signal mit einer voreingestellten Samplingrate pro Sekunde ab und gibt für jeden ge-

messen analogen Signalpegel den entsprechenden amplituden-diskreten Wert in digitaler

Form wieder.

Die gewählte Bitbreite des AD-Wandlers ist gleichzeitig die Wordbreite der erhaltenen

Audiowerte, die im technischen Audiobereich oft Samples genannt werden. Bei einer

Bitbreite von 8 Bit wird ein möglicher Signalpegel in 2

Bit = 256 Amplitudenbereiche

unterteilt, bei 16 Bit beträgt die Unterteilung 65536.

Besteht eine Differenz zwischen dem analogen Eingangspegel und dem digitalen Wert,

liegt ein Quantisierungsfehler vor, der aus der Differenz zwischen Eingangs- und Aus-

gangswert berechnet wird.

Bei einer Samplingrate von 44,1 kHz in CD-Qualität wird das Aufnahmesignal 44100

mal pro Sekunde abgetastet. Die Abtastrate muss dem Nyquist-Theorem entsprechen

und soll immer mindestens doppelt so hoch sein wie die höchste Frequenz des zu digita-

lisierenden Signals, um Artefakte im Ergebnis zu vermeiden.

Da der Mensch höchstens bis zu 20 kHz Hörvermögen besitzt und somit höhere Frequn-

zen redundant sind, hat sich eine Samplingrate von über 40000 Hz als ausreichend für

Standard-Anwendungen erwiesen. Oft werden auch Tiefpassfilter mit einer Grenzfre-

quenz von 20 kHz zwischen analogem Aufnahmegerät und AD-Wandler geschaltet.

Das gleiche Prinzip nur umgekehrt wird zur Ausgabe von digitalen Audiodaten in einen

kontinuierlichen Amplitudenverlauf verwendet. Eine Applikation teilt einem Digital-

Analog Wandler Samplingrate und Wordbreite der Audio-Samples mit und füllt in an-

gemessenen Zeitintervallen einen Puffer mit Samples, die der DA-Wandler in entspre-

chende Spannungspegel umsetzt.

2.2 Filter

Frequenzbezogene Signaltransformationen sind Filterprozesse, die die Bandbreite eines

Signals begrenzen, bestimmte Frequenzbereiche anheben oder absenken und uner-

wünschte Nebeneffekte wie Rauschen, Klirren, Störspitzen usw. herausfiltern. Die Än-

derungen im Frequenzverlauf eines Signals bringen auch eine Änderung des Phasen-

gangs der Signale mit sich, die meistens von der verwendeten Filterschaltung abhängen.

Ein Filter ist ein elektrisches Netzwerk, das Frequenzen selektiv überträgt oder unter-

drückt. Das Ausgangssignal einer Filterung setzt sich aus der Multiplikation und Additi-

on des Eingangssignals mit den Filterkoeffizienten zusammen, einer Faltung im Zeitbe-

reich.

Filter werden allgemein in analoge und digitale Filter unterschieden. Analoge Filter be-

stehen aus spezieller Hardware wie Widerständen, Spulen und Kondensatoren, die zu

einem Netzwerk zusammengeschaltet sind. Digitale Filter können deren Verhalten an-

hand der verwendeten Formeln simulieren und nachahmen.

Die Differenzengleichung beschreibt im Allgemeinen ein System zur digitalen Signal-

verarbeitung. Die diskrete Abtastfolge des Ausgangssignals y(k) wird aus dem Ein-

gangssignals x(k) bestimmt.

( )

(

)

(

)

Durch Aufsummieren der Multiplikationsergebnisse zwischen Koeffizienten und Ein-

gangs- oder Ausgangssignal wird das Ausgangssignal berechnet.

Ein mit unendlicher Impulsantwort arbeitender Filter wird als Infinite Impulse Respon-

se Filter oder kurz IIR-Filter bezeichnet. Im Gegensatz dazu können mit digitaler Tech-

nik Finite Impulse Response Filter, kurz FIR-Filter, mit endlicher Impulsantwort pro-

grammiert werden, die es als analoges Pendant gar nicht gibt, da diese Filter keine Pol-

stellen besitzen und auf eine Anregung mit einer endlich ausschwingenden Impulsant-

wort reagieren.

Diese beiden grundsätzlichen Filtertypen können anhand ihres Rekursionverhaltens er-

kannt werden. IIR-Filter beziehen bereits berechnete Ausgangswerte in die Kalkulation

des aktuellen Samplewertes mit ein, indem diese durch Multiplikation mit den b

Koeffizienten gewichtet in die Filterung rückgeführt werden. Fliessen nur Werte der

Eingangsfolge mit Gewichtung durch a

-Koeffizienten in die Berechnung mit ein, liegt

ein FIR-Filter vor.

Das rekursive IIR-Filter benötigt weniger Koeffizienten als ein qualtativ gleichwertiges

FIR-Filter, kann aber eventuell Stabilitätsprobleme aufgrund der Resonanzfähigkeit des

Filters verursachen. Beim nicht-rekursiven FIR-Filter können Frequenz- und Phasen-

gang separat definiert werden.

Das Maximum der Impulsantwort eines FIR-Filters tritt aufgrund höherer Koeffizien-

tenzahl und einem daraus resultierenden erhöhten Rechenbedarf zeitlich später und

zeitlich kürzer auf als bei einem vergleichbaren IIR-Filter, dessen Impulsantwort we-

sentlich länger ausfällt.

Der Durchlassbereich eines Filters ist die Menge aller Frequenzen, die der Filter durch-

lässt. Der Sperrbereich ist die Menge aller Frequenzen, die ein Filter nicht durchlässt.

Die Übertragungsfunktion ist eine gebrochen-rationale Funktion und kennzeichnet alle

linearen Systeme. Der rekursive Teil, das Nenner-Polynom der Gleichung, ist für die

Lage der Pole, der nicht-rekursive Teil, das Zähler-Polynom, ist für die Lage der Null-

stellen verantwortlich.

Durch Variation der Pol- und Nullstellen kann somit das Verhalten eines Filters gesteu-

ert werden, woraus sich unterschiedliche Koeffizienten-Werte ergeben. Vor Durchfüh-

rung einer Filterung müssen die Filterkoeffizienten a

und b

berechnet werden, um das

Verhalten des Filters für die gewünschte Grenzfrequenz neu festzulegen.

Da ein Filter frequenzselektiv arbeiten soll, ist es einfacher, die Filterung im Frequenz-

bereich vorzunehmen. Eine Frequenzfilterung ist zwar auch im Zeitbereich möglich, je-

doch mit erhöhtem Aufwand verbunden.

Soll ein analoges Filter in digitaler Form programmiert werden, muss die Übertragungs-

funktion H(s) der analogen Vorlage bekannt sein. Man gelangt von der Zeitebene in die

Frequenzebene, indem die im Zeitbereich erstellte Übertragungsfunktion H(s) mittels

der bilinearen Transformation zu einer frequenzabhängigen Gleichung H(z) umgewan-

delt werden.

Bilineare Transformation:

Ein Koeffizient der z-Transformation entspricht einem Punkt auf dem Einheitskreis. Im

digitalen Bereich ersetzt

T das analoge Pendant

Die bilineare Transformation stellt ein Mittel dar, Gleichungen vom analogen in den di-

gitalen Bereich oder umgekehrt zu wandeln. Diese Transformation bildet die j

-Achse

wiederholend um den Einheitskreis exp(j

) ab.

Digitale Filter werden durch die Übertragungsfunktion H(z) definiert und durch die Dif-

ferenzengleichung implementiert.

Digitales Filter 1. Ordnung:

Übertragungsfunktion:

)

(

Differenzengleichung:

y (n) = a

x(n) + a

x(n-1) b

y(n-1)

Digitales Filter 2. Ordnung:

Übertragunsfunktion:

)

(

Differenzengleichung:

y (n) = a

x(n) + a

x(n-1) + a

x(n-2)

y(n-1) - b

y(n-2)

Bei Filtern höherer Ordnung gestalten sich diese Gleichungen dementsprechend kom-

plexer.

Cutoff-Frequency:

Per Definition ist festgelegt, dass die Cutoff-Frequency an der Stelle liegt, an der das

Signal um 3 dB gegenüber dem Durchlassbereich abgedämpft ist, da dies der halben

Leistung zur vollen Aussteuerung entspricht. Der Übergang vom Sperrbereich in den

Durchlassbereich oder umgekehrt erfolgt nicht abrupt, sondern eher einer steilen Flanke

entsprechend. Diese Flankensteilheit wird in dB pro Oktave angegeben.

Vorteile digitaler Filter:

- hoher Störabstand, keine Schwankungen der Filterparameter durch Temperatur- und

Alterungseffekte

- exakte Reproduzierbarkeit des gewünschten Übertragungsverhaltens, da sich keine

Bauteiltoleranzen auf die Kennwerte des Filters auswirken

- hohe Flexibilität des Übertragungsverhaltens, keine starre Verlötung

- einfache Realisierbarkeit, auch bei komplexen Filter mit sehr steilen Flanken

Nachteile digitaler Filter:

- Hochfrequente Signale werden aufgrund der Laufzeit der arithmetischen Operatoren

nicht optimal gefiltert

- das analoge, weiche Klingen eines Filters wird in ein starres, weniger dynamisches

Verhalten umgewandelt

- durch die nicht zu vermeidende Benutzung von Variablen endlicher Wortlänge ver-

wandelt sich jedes digitale Filter in ein nichtlineares System, da

a) Abweichungen im gewünschten Frequenzverhalten der Filter durch Rundung der

Filterkoeffizienten entstehen

b) Überlauferscheinungen Stabilitätsfehler verursachen, das Filter wird instabil

c) Stabilitätsfehler durch Rundung der einzelnen Stützpunkte auftreten, insbesondere

bei Signalen niedrigerer Amplitude

d) Quantisierungsrauschen durch inkorrekt aufgenommene Samplewerte

2.3 Das Dateiformat Wave

2.3.1 Das Dateiformat RIFF

Mit den Multimedia-Erweiterungen für Windows 3.11 wurde von Microsoft ein noch

heute gültiges Dateiformat für die Speicherung von Musik bzw. deren gesampelten

Werte geschaffen. Das spezielle Format 'Wave' ist ein abgeleitetes Unterformat vom

Standard 'RIFF' und ein Abkömmling des EA IFF 85 Formats.

Abbildung 2.3 Entstehung des Wave-Formates

IFF steht für Interchange File Format, RIFF für Ressource IFF und AIFF für Audio IFF.

Vom Interchange File Format sind weitere Dateiformate abgeleitet, z. B. Video for

Windows AVI.

2.3.2 Chunk Architektur

Wave- oder Riff-Dateien bestehen aus mehreren sogenannten Chunks, die beliebig in-

einander verschachtelt werden können. Das Wort Chunk stammt aus dem Englischen

und kann mit Klotz oder Stück übersetzt werden. Jeder Chunk enthält eigene Headerin-

formationen und Daten können optional nachfolgen, je nach Art des Chunks. Das For-

mat eines Chunks setzt sich aus dem einleitenden Identifikator der Grösse vier Byte, ei-

ner Längenangabe der Grösse vier Byte und den darauffolgenden Daten in beliebiger

Länge zusammen.

Bei einer ungeraden Anzahl an Bytes für einen Chunk folgt am Schluss noch ein Füll-

byte, um eine gerade Anzahl von Bytes zu erzielen, da das RIFF-Format Daten wort-

weise organisiert ist. Alle Daten müssen daher immer an einer mindestens 2 Byte

grossen Grenze ausgerichtet werden.

Der Identifikator wird oft als Four Charakter Code (FOURCC) benannt, da er aus vier

zusammengehörenden ASCII-Zeichen besteht. Der erste Chunk ist immer der Wave-

header, der mit der FOURCC-Kennung 'RIFF' beginnt. Die Kennung für die Datei als

eine Wave-Datei erfolgt später, da unter dem Begriff 'RIFF' auch Video-, Bitmap- oder

MIDI-Dateien Anwendung finden.

2.3.2.1 Wave- oder Header-Chunk

Der Header-Chunk einer RIFF-Datei oder der Wave-Chunk einer Wavedatei ist fol-

gend aufgebaut.

Offset Bytes Erklärung

0x00h

4 Signatur 'RIFF' zur Formatkennung

0x04h

4 Headergrösse in Bytes ab Offset 0x08h

0x08h

4 Signatur 'WAVE' zur RIFF-Typenbezeichnung

Der einleitenden Kennung 'RIFF' folgt die Längenangabe für den Waveheader, der

aus Header-Chunk inclusive Format-Chunk und Daten-Chunk besteht. Abgezogen

werden aus der Summe der drei Chunks acht Bytes für die Längenangabe selbst und

die Formatkennung. Abgeschlossen wird der Wave-Chunk durch die Bezeichnung

'WAVE' zur Deklaration einer Wavedatei.

2.3.2.2 Format-Chunk

Der Format-Chunk beschreibt das Datenformat einer Wavedatei, also mit welcher

Qualität die Daten in welcher Anordnung vorliegen. Die zur Interpretation der Datei

erforderlichen Parameter wie Kanalanzahl, Samplebreite und Abtastauflösung wer-

den angegeben.

Offset Bytes Erklärung

0x00h

4 FOURCC-Kennung des Format Chunks: 'fmt '

Die Abkürzung eines Format-Chunks 'fmt' mit anschliessendem

Leerzeichen "Space", dem ASCII-Zeichen 20h.

0x04h

4 Gibt die Länge dieses Format-Chunks an.

0x08h

2 Enthält die Format-Kategorie, den Codierungstyp:

0x0001 = Microsoft PCM

0x0101 = IBM mu-law

0x0103 = IBM ADPCM

0x0Ah

2 Gibt die Anzahl der Kanäle dieser Datei an:

1 = Mono, 2 = Stereo

0x0Ch

4 Angabe der Abtastfrequenz, wie oft wurde das Signal pro Sekun-

de abgetastet:

11,025 kHz 0x02B11h

22,050 kHz 0x05622h

44,100 kHz 0x0AC44h (CD-Qualität)

48,000 kHz 0x0BB80h (Studio-Qualität)

0x10h

4 Durchschnittliche Byteanzahl pro Sekunde:

nAvgBytesPerSec = nSamplesPerSec * nBlockAlign

Bestimmt den mittleren Datendurchsatz in Bytes. Wird von Wa-

ve-Playern benutzt, um die Puffer-Grösse festzulegen.

0x14h

2 Anzahl der Bytes pro Sample:

8 Bit Mono

= 1

8 Bit Stereo = 2

16 Bit Mono = 2

16 Bit Stereo = 4

24 Bit Stereo = 6

0x16h

2 Datenbreite der Samples:

8-Bit-Datenbreite 0x08h

12-Bit-Datenbreite 0x12h

16-Bit-Datenbreite 0x16h

2.3.2.3 Daten-Chunk

Ein Daten-Chunk gibt die Länge des folgenden Datenblocks an und zeigt auf dessen

Beginn.

Offset Bytes Erklärung

0x00h

4 FOURCC-Kennung eines Datenchunks: 'data'

0x04h

4 Gibt die Länge des Datenblocks an.

0x08h

n Beginn des Datenbereiches.

2.3.2.4 Waveheader

Die Mindestanforderung zur definitiven Erkennung einer Wavedatei ist der einleiten-

de Wave-Chunk, gefolgt vom Format-Chunk. Danach zeigt der Header eines Daten-

chunks den Beginn der Dateninformationen an.

Chunk-Eintrag Chunk-Bezeichnung Beschreibung

'RIFF'

Wave Chunk

Kennzeichnet eine Wavedatei als solche.

'fmt '

Format Chunk

Enthält Informationen über Art der Wavedatei.

'data'

Daten Chunk

Speichert die Daten der Wavedatei.

Wavedateien können noch weitere Chunks enthalten, was bei einigen Programmen zu

Problemen führen kann, da viele Programmierer nur dieses Minimum an Struktur be-

nötigen und voraussetzen. Weitere Chunks werden nicht beachtet oder produzieren

Fehler.

Daher spricht man auch vom Waveheader und lässt die Philosophie weiterer Chunks

aussen vor. Der Waveheader fasst die drei notwendigen Chunks sequentiell zusam-

men.

Der Aufbau eines Waveheaders ist in folgender Reihefolge definiert.

Bezeichnung

Erklärung

ckID

Chunk-ID 'RIFF'

ckSize

Chunk Size

wave_ckID

Wave Chunk-ID 'WAVE'

fmt_ckID

Format Chunk-ID 'fmt '

fmt_ckSize

Format Chunk Size

nformatTag

Format Typ

nChannels

Number of Channels, Kanalanzahl

nSamplesPerSec Samples Per Second, Samplingrate

nAvgByPerSec Average Bytes Per Second, Datenrate

nBlockAlign

Block Alignment, Anordnung der Datenblöcke

nBitsPerSample Bits Per Sample, Bitbreite eines Datenwertes

data_ckID

Data Chunk-ID 'data'

data_ckSize

Data Chunk Size

2.3.2.5 Weitere Chunkarten

Die Definition des Wavestandards erlaubt weitere Chunks:

Chunk Name Beschreibung

Cue Point

Cue (Hinweis) deutet auf mehrere Markierungen im Datenfluss hin,

um diese Stellen direkt anspringen zu können.

Playlist

Enthält Informationen, in welcher Reihenfolge die Cue-Marken ab-

zuspielen sind.

Sampler

Definiert Parameter für Musik-Instrumente, z. B. welches Gerät für

diese Datei verwendet werden sollte, welcher Effekt wie angewandt

werden soll, Zeitstempel zur Daten-Synchronisation usw.

Fact

Angaben zum Aufzeichnungsformat, falls nicht PCM benutzt wird.

Instrument

Bezeichnet weitere Angaben zur Musik, z. B. den Bereich der ver-

wendeten Notenskala, die Tonhöhe oder die Lautstärke eines Daten-

Chunks .

Cuelist und Playlist sind wichtige Arbeitshilfen zum Schneiden von Audiosignalen.

Eine solche Liste enthält einen Ablaufplan über die Abfolge der Schritte, die zur ge-

samten Audiodatei führen, indem einzelne Audiostücke aneinander gereiht werden.

Weiterhin legt eine Liste fest, wie ein Übergang vom vorhergehenden zum nächsten

Audioteil vorgenommen werden soll.

Dadurch ist ein effizientes Mischen, Schneiden, Überblenden, Überspringen usw.

beim Bearbeiten einer Audio-Datei gegeben. Eine Cuelist ist somit eine Tabelle von

markierten Zeitpunkten innerhalb einer Wave-Datei, die entweder einen Punkt, eine

spezifische Cursorposition oder einen bestimmten Bereich darstellt.

2.3.3 Speicheranordnung

Die Daten einer Wavedatei werden bei einer Mono-Aufnahme sequentiell hintereinan-

der abgespeichert. Die Audio-Samples werden im Little Endian Format nach Intel-

Konvention gespeichert. Bei Wordbreiten ab einer Quantisierung mit 16 Bit oder höher

wird das niederwertigste Byte am Anfang, das höchstwertigste Byte am Schluss gespei-

chert.

Im Stereo-Modus mit zwei Kanälen wird zuerst ein Sample des linken Kanals gespei-

chert, gefolgt von einem Samples des rechten Kanals. Beide Werte entsprechen dem

gleichen Zeitindex, wurden also zur selben Zeit getrennt voneinander abgetastet.

Beim Schreiben und Lesen einer Wavedatei muss darauf geachtet werden, die Datei im

Binärmodus statt im Textmodus zu behandeln, um die Konvertierung des Zeilenumbru-

ches, des Newline-Zeichens '\n' zu unterbinden.

2.4 Der Standard MIDI

Das Akronym MIDI steht für Musical Instrument Digital Interface und wurde von einem

Zusammenschluss aus Herstellern von Musikgeräten wie Roland, Yamaha, Sequential

Circuits, Oberheim und weiteren Firmen im Jahre 1983 erfunden, die einen internationa-

len Standard für die Kommunikation zwischen elektronischen Musikinstrumenten benö-

tigten. Dieser Firmenbund firmiert unter dem Namen MIDI Manufacturers Association

Incorporated.

Dabei steht MIDI für die dazu benötigte Hardware, das MIDI-Protokoll zur seriellen

Datenübertragung sowie das MIDI-Datenformat mit der Endung .mid. Die MIDI-Norm

umfasst die elektronischen Gegebenheiten und die sprachlichen Regelungen der Steuer-

befehle.

2.4.1 Vergleich mit Waveformat

Im Gegensatz zum Waveformat speichert MIDI die Musikdaten in notenähnlicher

Form ab. Es wird festgehalten, wie lange welche Tonhöhe von welchem Instrument

wie laut und mit welchem Effekt zu spielen ist. Daher benötigt eine Minute an Audio-

information beim Waveformat ungefähr 10 MByte Speicherplatz, verglichen mit ge-

ringen 10 kByte Speicherbedarf bei Speicherung als MIDI-Datei.

Das Waveformat beinhaltet alle Informationen einer Audioaufnahme, die Klangcha-

rakteristik des Sängers, des Instruments, des Raumes und der verwendeten Effekte.

Bei MIDI sind diese akustischen Inhalte nicht vorhanden. Es kann ein Instrument aus-

gewählt, ein Effektparameter eingestellt oder eine Note gespielt werden, die Repro-

duktion einer analogen Aufnahme, eines Musikstückes ist aber nur mit grossen Verlu-

sten möglich.

Die Spezifikation definiert nur 16 unterschiedliche MIDI-Kanäle, mehr Geräte oder

Klangerzeuger können nicht angesteuert werden. Ein Multitimbrales MIDI-

Instrument, das mehrere Kanäle zur gleichen Zeit wiedergeben kann, ist ebenfalls auf

16 verschiedene Instrumente beschränkt. Für Standard-Anwendungen der Rock- und

Popmusik mit Drum, Bass, Gitarre, Klavier und Stimme können MIDI-Lieder dem

Audio-Original ähneln.

Die leichte Editierbarkeit der MIDI-Noten, Auslöschung, Frequenzan- oder absen-

kung, Hinzufügen oder zeitliches Versetzen einer MIDI-Note in einem Programm ver-

einfacht das Komponieren oder Verändern von MIDI-Dateien, was bei einer Waveda-

tei mit grossen Rechenaufwand verbunden wäre. Der Tausch eines Instrumentenklan-

ges ist bei Wave kaum realisierbar, bei MIDI nur ein Mausklick.

Daten werden beim MIDI-Format im Big Endian Format von Motorola gespeichert,

beim Waveformat wird alles im Little Endian Format von Intel angeordnet.

2.4.2 MIDI Hardware

Ein MIDI-Interface ist ein Hardwarebaustein, der den Austausch von MIDI-

Informationen zwischen Instrumenten und Computern ermöglicht.

Eine MIDI-Schnittstelle besteht mindestens aus einer MIDI-IN Buchse zur Aufnahme

und einer MIDI-OUT Buchse zur Wiedergabe von MIDI-Noten. Standard ist mittler-

weile auch die MIDI-THROUGH Buchse. Diese gibt Daten der MIDI-IN Buchse di-

rekt an weitere Geräte im Verbund weiter, schleift als Eingangsdaten durch, die nicht

für dieses MIDI-Instrument bestimmt sind.

Die serielle MIDI-Datenübertragung erfolgt über ein spezielles 5poliges DIN-Kabel

und endet an einem 5poligen Stecker. Die maximal zulässige Kabellänge beträgt 15 m.

Abbildung 2.4.2 MIDI Verbindung

MIDI-Kabel müssen mit einem Optokoppler zur Vermeidung von Brummschleifen

versehen werden, da sonst keine ordnungsgemässe Daten-Übertragung zustande

kommt. Durch unterschiedliche Potentialebenen an beiden Steckern erfolgt ohne opti-

sche Kopplung keine oder nur eine verrauschte MIDI-Übermittlung.

Die Bitrate bei der Übertragung beträgt 31.250 Baud. Es werden 3.125 Bytes pro Se-

kunde übertragen. Daraus resultiert eine Zeitauflösung für die Übertragung eines

Bytes von 0,32 ms. Durch den geringen Bandbreitenbedarf der MIDI-Technik ist ein

zeitsynchrones Verhalten auch bei mehreren Teilnehmern gegeben. Zeitliche Proble-

me treten auf, wenn sehr viele Noten pro Zeitintervall auftreten, sodass der zu übertra-

gende Datenstrom die bereitgestellte Übertragungsbandbreite übersteigt und Verzöge-

rungen oder eine Blockierung im Datenfluss auftreten.

Der MIDI Standard wurde im Laufe der Zeit immer wieder den technischen Neuerun-

gen angepasst. Instrumente erweiterter MIDI-Standards sind zu älteren MIDI-Geräten

abwärtskompatibel. Es muss bei MIDI auch nicht ausschliesslich über ein spezielles

MIDI-Kabel kommuniziert werden. Mittlerweile sind Technik-Standards wie MIDI

über IEEE 1394 Firewire verabschiedet.

2.4.3 MIDI Systeme

Mit MIDI System wird die Verkabelung zwischen einzelnen Kommunikationsteil-

nehmern in einem Verbund von MIDI-Geräten bezeichnet. Es gibt immer mindestens

einen Sender, den Master, und einen Empfänger, den Slave. Die Minimalkonfiguration

eines MIDI-Systems besteht aus einem midierzeugenden und midisabpielenden Gerät.

Abbildung 2.4.3 a) Minimales MIDI System

Bei dieser Konfiguraton fungiert der Keyboard Controller als MIDI-Master und das

MIDI Sound Modul als MIDI-Slave. Die MIDI-OUT Buchse des Masters wird mit der

MIDI-IN Buchse des Slave verbunden. Alle auf dem Keyboard gedrückten Tasten er-

zeugen eine Note im MIDI-Notenerzeuger des Keyboard-Controllers. Der MIDI-

Klangerzeuger im MIDI Sound Module spielt die Noten ab und gibt die Schalldaten

analog zur Ausgabe auf einer Stereoanlage aus.

Das gleiche System kann mit einem PC als Master erstellt werden, wenn ein MIDI-

Interface vorhanden ist. Alle gängigen Soundkarten beherrschen mittlerweile die MI-

DI-Unterstützung und kommunizieren mit anderen MIDI-Geräten über den Joystick-

Port. Vor Implementierung der MIDI-Schnittstelle über die Soundkarte waren externe

MIDI-Interfacegeräte verbreitet, die über die COM- oder Druckerschnittstelle mit dem

Computer Daten austauschen.

Abbildung 2.4.3 b) PC und MIDI

Auf vielen Soundkarten befindet sich heutzutage nicht nur ein MIDI-Interface, son-

dern auch ein on-board Synthesizer, der MIDI-Noten mit guter Soundqualität abspielt

und von vielen unterschiedlichen Anwendungen genutzt wird. Ein Master kann mehre-

re MIDI-OUT Buchsen besitzen und somit mehrere Slaves bedienen.

Ein Live-Setup für zwei Keyboarder, deren Tastaturen kein Modul zum Sounderzeu-

gen besitzen, können über die MIDI Through Buchse gemeinsam ein Soundmodul an-

sprechen. Das MIDI-Interface des zweiten Keyboarders leitet die MIDI-Daten des er-

sten Keyboarders an das tonerzeugende Gerät weiter.

Abbildung 2.4.3 c) Live MIDI System

2.4.4 MIDI Sequenzer

Mittels dem Format MIDI können Notensequenzen beschrieben werden, die von

Klangerzeugern in Hard- und Software abgespielt werden können. Die Aufnahme von

MIDI-Noten erfolgt mit einem MIDI-Sequenzer, der eingespielte Noten von einem

Klavier, einer Tastatur oder sonstigen MIDI-Ausgabegeräten aufzeichnet. Weitere

Aufgaben von Sequenzern sind das Editieren, das Mischen und die Wiedergabe von

Noten und Notenspuren.

MIDI-Sequenzer wurden zuerst in elektronischen Keyboards und Synthesizern im-

plementiert, nicht nur, um selbst gespielte Noten zu speichern und wiederzugeben,

sondern auch um Begleitautomatiken für Alleinunterhalter zu ermöglichen oder um

komplette Musikstücke automatisch abspielen zu können.

Weiter ist damit die Steuerung eines oder mehrerer MIDI-fähiger Geräte möglich,

z. B. das Umschalten eines Instrumentenklanges, das Ändern eines Parameters und

zeitsynchrone Abläufe durch MIDI-Triggerung. Einzelne MIDI-Geräte können unter-

einander und mit einem PC kommunizieren und automatisiert werden.

Durch die Popularität des Personal Computers fand das MIDI-Protokoll auch Einzug

in die PC-Welt. Musste der Hardware-Sequenzer zuvor umständlich über Menüstruk-

turen auf kleinen LDC-Displays programmiert werden, kann nun die Bearbeitung ei-

nes Software-Sequenzers auf einem grossen Computer-Monitor mit grafischer Ober-

fläche viel komfortabler und übersichtlicher erfolgen.

Somit wandelte sich der anfänglich einfache MIDI-Sequenzer zum Komponieren ein-

zelner Notenfolgen in eine komplette Tonstudio-Umgebung mit Unterstützung vieler

Audioformate, Steuerung aller Geräte im Studio und zusätzlichen Applikationen, so-

dass mittlerweile von Audio/Midi-Sequenzern gesprochen wird. Durch Einführung der

Virtual Studio Technology VST der Hamburger Firma Steinberg können aufgenomme

MIDI-Spuren einem applikationsinternen VST-Software-Synthesizer zugewiesen wer-

den, sodass nicht mehr qualitativ niederwertige Soundkarten-Presets, sondern hoch-

wertige Algorithmen die Soundausgabe produzieren.

2.4.5 MIDI Noten

Die MIDI-Note mit Index 0 entspricht der Note C 0. Alle Indexe entsprechen der weit-

läufigen 12-Ton Skala. Index 60 entspricht ebenfalls der Note C 5, also 5 Oktaven hö-

her. Für weitere kleinere Unterteilungen kann durch Bewegen des Pitch Wheel Rades

die aktuelle Tonhöhe leicht angehoben oder abgesenkt werden. Das Pitch Wheel Rad

besitzt 14 Bit Auflösung.

Die MIDI Spezifikation definiert Frequenzen zwischen etwas unterhalb 8 Hz bis leicht

unterhalb 13000 Hz. Höhere und tiefere Frequenzen werden weggelassen, da diese

Frequenzen vom Menschen kaum oder überhaupt nicht wahrnehmbar sind.

Die einzelnen MIDI-Frequenzen können mit folgender Formel berechnet werden:

enz

Stimmfrequ

Frequenz

Der Platzhalter Stimmfrequenz steht für die Frequenz einer Note, nach der die Skala

gestimmt werden soll. Ausgehend von dieser Notenfrequenz werden alle weiteren Fre-

quenzen relativ zur Bezugsfrequenz wie beim Klavierstimmen bestimmt. Oft wird

nach dem Kammerton A 4 bei 440 Hz gestimmt. Der Platzhalter x steht für den jewei-

ligen Index einer MIDI-Note.

Note

MIDI-

Noten-

Nummer Frequenz Note

MIDI-

Noten-

Nummer Frequenz Note

MIDI-

Noten-

Nummer Frequenz

C 0

8.18 C 4

130.81 C 8

2093.00

C# 0

8.66 C# 4

138.59 C# 8

2217.46

D 0

9.18 D 4

146.83 D 8

2349.32

D# 0

9.72 D# 4

155.56 D# 8

2489.02

E 0

10.3 E 4

164.81 E 8

100

2637.02

F 0

10.91 F 4

174.61 F 8

101

2793.83

F# 0

11.56 F# 4

185.00 F# 8

102

2959.96

G 0

12.25 G 4

196.00 G 8

103

3135.96

G# 0

12.98 G# 4

207.65 G# 8 104

3322.44

A 0

13.75 A 4

220.00 A 8

105

3520.00

A# 0

14.57 A# 4

233.08 A# 8

106

3729.31

H 0

15.43 H 4

246.94 H 8

107

3951.07

C 1

16.35 C 5

261.63 C 9

108

4186.01

C# 1

17.32 C# 5

277.18 C# 9

109

4434.92

D 1

18.35 D 5

293.66 D 9

110

4698.64

D# 1

19.45 D# 5

311.13 D# 9

111

4978.03

E 1

20.60 E 5

329.63 E 9

112

5274.04

F 1

21.83 F 5

349.23 F 9

113

5587.65

F# 1

23.12 F# 5

369.99 F# 9

114

5919.91

G 1

24.50 G 5

392.00 G 9

115

6271.93

G# 1

25.96 G# 5

415.30 G# 9 116

6644.88

A 1

27.50 A 5

440.00 A 9

117

7040.00

A# 1

29.14 A# 5

466.16 A# 9

118

7458.62

H 1

30.87 H 5

493.88 H 9

119

7902.13

Details

Seiten
Erscheinungsform: Originalausgabe
Erscheinungsjahr: 2003
ISBN (eBook): 9783832476984
ISBN (Paperback): 9783838676982
DOI: 10.3239/9783832476984
Dateigröße: 1.4 MB
Sprache: Deutsch
Institution / Hochschule: Hochschule für Technik und Wirtschaft Berlin – Ingenieurwissenschaften I
Erscheinungsdatum: 2004 (Februar)
Note: 1,7
Schlagworte: wave tiefpass spektrum korrelation
Produktsicherheit: Diplom.de

Autor

Stefan Huber (Autor:in)

Untersuchung verschiedener Verfahren zur Grundfrequenzbestimmung mit Einstellung einer Applikation zur Midi-Konvertierung

Zusammenfassung

Leseprobe

Inhaltsverzeichnis

Details

Autor

Stefan Huber (Autor:in)