Lade Inhalt...

Nachhallfreie Audioproduktion und stereoskopische Videoproduktion und Postproduktion eines Streichquartetts

©2014 Diplomarbeit 128 Seiten

Zusammenfassung

Wie kann man akustische und optische Räume virtuell und doch plausibel erfahren?
Um ein solches "Eintauchen" in virtuelle Welten dreht sich alles in der vorliegenden Arbeit. Ausgehend von der Wahrnehmungspsychologie des Menschen und den physiologischen Grundlagen seines Sehapparates steht zunächst das stereoskopische Sehen im Mittelpunkt. Mittels der darauf folgend aufgezeigten Grundlagen und Grenzen der visuellen Wahrnehmung kann die technische Realisation einer CAVE - einer virtuellen Umgebung - konzipiert werden. Dazu werden vorhandene optische Aufnahme- und Wiedergabesysteme sowie Verfahren der Stereoskopie untersucht. Auch die Grundlagen und Grenzen der auditiven Wahrnehmung sowie das notwendige akustische Aufnahmesystem für eine CAVE werden dargestellt. In den folgenden Abschnitten werden die akustischen wie auch optischen künstlerischen Inhalte in eine virtuelle Umgebung integriert. Dazu wurden ein Audiomitschnitt eines Streichquartetts in einem reflexionsarmen Raum und im darauf folgenden Kapitel ein stereoskopischer Videomitschnitt des Streichquartetts vor einer Greenscreen-Leinwand durchgeführt. Nach der Postproduktion beider Aufnahmen erfolgt die Integration der Audio- und Videoaufnahmen in die CAVE.

Leseprobe

Inhaltsverzeichnis


3.4.1.2 FABIAN ­ ein System zur automatisierten Akquise kopfbezogener BRIRs ... 59
3.4.2 Akustisches Wiedergabesystem für eine CAVE ... 61
4 Nachhallfreie Audioproduktion eines Streichquartetts ... 64
4.1 Vorbereitung ... 64
4.2 Durchführung ... 66
4.3 Postproduktion ... 71
4.4 Fehler und Hemmnisse bei nachhallfreien Audioproduktionen ... 73
5 Stereoskopische Videoproduktion und Postproduktion eines Streichquartetts ... 74
5.1 Ermittlung der Perspektiven ... 75
5.2 Vorbereitung ... 78
5.3 Durchführung ... 79
5.4 Postproduktion und Visual Composing ... 84
5.5 Fehlerquellen und Probleme bei stereoskopischen Videoproduktionen... 93
6 Integration der Streichquartett-Panoramen in die CAVE ... 95
7 Zusammenfassung und Ausblick ... 98
Abkürzungen ... 100
Quellenverzeichnis ... 102
Anhang ... 108
Abbildungsverzeichnis ... 121

Alle erwähnten Firmen- und Markennamen gehören ihren
Eigentümern.


1
1 Einleitung
1.1 Motivation
Die Fähigkeit zur dreidimensionalen Wahrnehmung des Raumes ist ein wichtiges Resultat
der evolutionären Entwicklung des Menschen, das in großem Maße zu seinem Überleben
beigetragen hat. Mit Hilfe der zwei Augen, deren Sichtfelder sich überlagern ist das Gehirn in
der Lage, ein visuelles, räumliches Abbild der Umwelt zu konstruieren und eine genaue
Abschätzung der Entfernung zu Objekten zu ermöglichen. Ebenso ist die Ortung und
räumliche Wahrnehmung von Schallwellen mit Hilfe der Ohren und die neuronale Weiter-
verarbeitung der daraus resultierenden auditiven Signale möglich. Obwohl der Mensch fünf
Sinne besitzt, werden zur räumlichen Erfassung der Umwelt im Wesentlichen der dominie-
rende visuelle und der auditive Sinn eingesetzt. In unmittelbarer Umgebung spielt der taktile
(Tast) Sinn noch eine Rolle, jedoch nicht bei Distanzen, die über die Armlänge, die natürliche
Grenze taktiler Erfassungen, hinausgehen.
Um die im Fokus stehende Raumwahrnehmung unter Laborbedingungen untersuchen zu
können, bietet sich die Schaffung einer virtuellen Umgebung an. Je höher in dieser so
genannten virtuellen Realität (VR
1
) der Grad der Immersion ­das Gefühl des ,,Eintauchens"-
für die Probanden ist, umso plausibler ist die VR. Da der Mensch seine Informationen für die
Wahrnehmung aus den visuellen und der auditiven Sinneseindrücken bezieht, muss eine
virtuelle Umgebung so gestaltet sein, dass die erzeugten Informationen für die Sinnes-
eindrücke denen der Realität möglichst gleichen [1, S. 84]. Die Generierung dieser die
Realität repräsentierenden Informationen stellt eine große Herausforderung an eine
technische Realisierung einer VR dar, insbesondere hinsichtlich der vom visuellen Sinn zu
erfassenden 50 Milliarden bzw. der vom auditiven Sinn zu erfassenden eine Million Bit je
Sekunde an Information [2, S. 13].
Die DFG-Forschergruppe SEACEN
2
hat sich im Rahmen des Teil-Projektes P9 "audio-visual
perception of acoustical environments"
3
das Ziel gesetzt eine möglichst plausible, virtuelle
Umgebung zu schaffen, um den Einfluss akustischer und optischer Eigenschaften von
Konzertsälen als Stimuli für die visuelle und auditive Raumwahrnehmung zu untersuchen.
Dazu stellt die Forschergruppe am Fachgebiet Audiokommunikation der TU Berlin eine opto­
akustische virtuelle Umgebung - eine CAVE
4
- her. Die CAVE besteht aus einem stereosko-
pischen 180° umfassenden Panorama-Projektionssystem, das mit Binauraltechnik
5
zu einer
___________________________________________________________________________
1 Virtual Reality
2
Simulation and Evaluation of Acoustical Environments ­ Simulation und Evaluierung von akustischen Umge-
bungen
3
audio-visuelle Wahrnehmung von akustischen Umgebungen
4
CAVE - Cave Automatic Virtual Environment ­ mittels Computer simulierte künstlich erschaffene Umgebung
5
Verfahren zur Reproduktion realer Schallfelder [2, S. 14]

2
plausiblen virtuellen Umgebung kombiniert wurde (Abbildung 1). Darin werden den
Probanden sechs akustische und optische virtuelle Räume dargeboten, die unabhängig
voneinander variiert werden können. Durch die Integration der stereoskopischen Halb-
panoramen von sechs Konzertsälen mit deren jeweiliger binauraler
1
Klangcharakteristik und
einem im Vordergrund befindlichen stereoskopisch aufgenommenen Streichquartett soll eine
plausible Immersion bei den Probanden erzeugt werden. Des Weiteren können insbeson-
dere cross modale
2
Effekte zwischen visueller und auditiver Wahrnehmung, die beispiels-
weise bei der Kombination eines stereoskopischen Konzertsaal-Hintergrundbildes mit der
Binaural-Charakteristik eines anderen Konzertsaales auftreten, untersucht werden (Abbil-
dung 2). Die Auswertung der physikalischen und perzeptiven Messergebnisse soll bei der
Schaffung eines empirischen Modells helfen. Mit dessen Hilfe sollen die Parameter der
Raumwahrnehmung auf der Grundlage der physikalischen Raumeigenschaften prognosti-
ziert werden können. Die gewonnenen Erkenntnisse sollen zur Erhöhung des Verständnis-
ses von intramodalen Prozessen der Wahrnehmung beitragen. Sie sind eine wichtige
Voraussetzung für die Weiterentwicklung der Simulationstechnik und der Gestaltung von
audio-visuellen, virtuellen Umgebungen [3, S. 189 -190].
Die vorliegende Arbeit führt zunächst in die Grundlagen des menschlichen stereoskopischen
Sehens, in grundlegende stereoskopische Aufnahme- und Wiedergabeverfahren in der
Videotechnik und in die technischen Grundlagen zur Realisation einer virtuellen Umgebung
ein. In Kapitel 4 wird die Schaffung von technischen Voraussetzungen und die Durchführung
der Audioaufnahmen eines Streichquartetts im reflexionsarmen Raum am Institut für
Technische Akustik der TU Berlin dokumentiert. Die Aufnahmen dieser nachhallfreien
Audioproduktion werden anschließend mit den bereits akquirierten Impulsantworten der
sechs Konzertsäle gefaltet und können so den Ohren als binaurales, plausibles Schallfeld
dargeboten werden. In Kapitel 5 wird die stereoskopische Greenscreen-Videoaufnahme
3
des
Abbildung 1: Prinzip der CAVE an der TU Berlin
[3, Abb. S. 209]
Abbildung 2: Untersuchung cross modaler Effekte
[3, Abb. S. 211]
___________________________________________________________________________
1
lat. ,,mit beiden Ohren"
2
Überschneidungseffekte
3
Film-/ Videoaufnahmetechnik zur Erzeugung eines transparenten Bildhintergrundes

3
Streichquartetts erläutert. Unter Beachtung von Perspektiventoleranz und korrekter Montage
von stereoskopischem Streichquartett-Greenscreen-Video mit den Konzertsaal-Panoramen
folgt die Darstellung der stereoskopischen Video-Postproduktion. Durch synchrone, aber
variable Kombination der binauralen Audioaufnahmen der sechs Konzertsäle mit dem im
Vordergrund befindlichen Streichqunartett-Video und den stereoskopischen Hintergrund-
panoramen der sechs Konzertsäle entstand die in Kapitel 6 beschriebene Integration zu
einer virtuellen Umgebung - der CAVE. Nach einer Zusammenfassung wird ein kurzer
Ausblick in die weitere Entwicklung und mögliche Anwendungsbereiche des vorliegenden
variablen, binauralen, stereoskopischen 180° umfassenden Panorama-Projektionssystems
gegeben.
1.2 Stand der Forschung
Um eine virtuelle Realität mit einer plausiblen Immersion zu schaffen, ist es notwendig, den
Wahrnehmungsprozess zu verstehen. Die in diesem Zusammenhang auftretenden Fragen
grenzen z.T. an Bereiche der Philosophie in Bezug auf grundsätzliche Fragestellungen wie:
Was ist Realität? Was nimmt der Mensch mittels seiner Sinne von der Umwelt wahr? Wie
kann die erfahrbare Realität mittels Technik so realistisch wie möglich abgebildet werden?
Um die komplexen Mechanismen der menschlichen Wahrnehmung zu verstehen, wurde ein
Modell entwickelt, das den Wahrnehmungsprozess in einzelne Schritte untergliedert (Abbil-
dung 3). Die kreisförmige Anordnung veranschaulicht die Dynamik und die ständigen Verän-
derungen des Prozesses [4, S. 4]. Die vom Menschen erfassten Reize (beachtete Stimuli)
erregen die Rezeptoren der Sinnesorgane. Auf der Netzhaut (Retina) des Auges entsteht ein
Abbild des beachteten optischen Reizes, und der von den Gehörknöchelchen auf das
Trommelfell auftreffende Schall wird als erregende Schwingung weiter ins Innenohr geleitet.
Die Sinneszellen wandeln die Erregungen in elektrische Signale um (Transduktion), die über
neuronale Netze an das Gehirn weitergeleitet werden. Im Seh- bzw. Hörzentrum erfolgt die
neuronale Verarbeitung der in elektrische Signale transformierten Stimuli (Abbildung 4). Die
Auswertung der zahlreichen neuronalen Signale ermöglicht schließlich eine bewusste,
sensorische Erfahrung ­ die Wahrnehmung. Um die wahrgenommenen Reize in zutreffende
Kategorien einordnen zu können, ist Erkennen notwendig. Der Unterschied zwischen
Wahrnehmung und Erkennen wird bei der Betrachtung von Dr. P., dessen Erkennen nur
fehlerhaft funktionierte, deutlich. So wurde von ihm eine wahrgenommene Parkuhr
fälschlicherweise als Mensch erkannt, obwohl bei ihm keine Beeinträchtigung im Sehen
bestand. Die Ursache war ein Hirntumor, der die Fähigkeit, bekannte Objekte korrekt zu
erkennen bzw. einzuordnen, verhinderte (Agnosie). Während der neuronalen Verarbeitung
werden die aufgenommenen Informationen mit bereits vorhandenen im Gehirn

4
Abbildung 3: Wahrnehmungsprozess
[4, Abb. S. 4]
Abbildung 4: drei Teilschritte des Wahrnehmungs-
prozesses [4, Vgl. Abb. S. 5]
gespeicherten Informationen bzw. vorhandenem Wissen verglichen und können so genauer
klassifiziert und bewertet werden. Als wichtiges Resultat des Wahrnehmungsprozesses wird
von einigen Forschern Handlung insbesondere zur Sicherung des Überlebens angesehen.
Ein genaues Abbild der Umwelt schafft Voraussetzungen zur Handlung und ermöglicht da-
durch dem Menschen, wie auch anderen Lebewesen, eine optimale Anpassung an die Um-
welt. Da sich die Umwelt bzw. der Bezug zu ihr (z.B. durch eine vorangegangene Handlung)
ständig ändert, ist eine permanente Wahrnehmung der Umwelt und eine entsprechend
angepasste Handlung notwendig. Daraus resultiert die kreisförmige Anordnung aller Teil-
schritte des Wahrnehmungsprozesses (Abbildung 3) [4, S. 4-7].
Diese Erkenntnisse aus der Wahrnehmungspsychologie wurden bzw. werden z.T. bei der
Erzeugung virtueller Umgebungen berücksichtigt. So ist neben der Erzeugung von stereos-
kopischen Bildern und Filmen mit immer besserer Qualität und Auflösung, die Synchronität
sowie eine hohe zeitliche Auflösung von Filmen wichtig. Insbesondere sollte die virtuelle
Umgebung Handlung als Reaktion auf die (virtuelle) Wahrnehmung erlauben, ohne dass
dabei Beeinträchtigungen der Immersion entstehen. Das war bei den seit Anfang der 70er
bis Mitte der 80er Jahre des 20. Jh. entwickelten HMDs
1
nicht immer der Fall. Dabei sind
zwei direkt vor den Augen des Benutzers positionierte kleine Anzeigen in einem helm-
ähnlichen Gehäuse untergebracht [1, S. 87]. Während sich der Benutzer durch Kopfbewe-
gungen in der virtuellen Welt umsehen kann (Handlung), werden aufgrund des HMD-
Gewichtes der taktile und auch der Gleichgewichtssinn gereizt, wodurch die Immersion
gestört werden kann. Die durch diese und weitere Nachteile wie eine geringe Bildauflösung
und schnelles Ermüden gekennzeichneten HMD-Systeme wurden zunehmend durch
Projektionssysteme mit größeren Darstellungen in hoher Auflösung verdrängt [1, S. 87].
___________________________________________________________________________
1
Head Mounted Display ­ eine mit dem Kopf verbundene Anzeige

5
Anfang der 90er Jahre des 20.Jh. wurde in Chicago an der University of Illinois die CAVE
entwickelt (Abbildung 5). Diese mittels 3D Projektoren und leistungsfähigen, bildverarbeiten-
den Computern auf Leinwänden realisierte würfelförmige virtuelle Umgebung befreite die
Anwender von den schweren HMD-Systemen und machte eine neue Art der virtuellen
Realität erfahrbar (Abbildung 6). Obwohl VR-Anwendungen in Bereichen wie Automobil-
industrie, Medizin oder Architektur eingesetzt werden [5, S. 9-12], sind Zusammenhänge
bzw. Wechselwirkungen zwischen Sehen und Hören bislang nur wenig erforscht. Es
existieren zahlreiche Studien im Bereich Wahrnehmung von Raumakustik, die sich jedoch
darauf konzentrieren, technisch messbare (,,objektive") Raumeigenschaften zu finden mit
deren Hilfe Voraussagen über (,,subjektive") Raumwahrnehmungen wie Raumeindruck,
auditiv wahrgenommene Raumgröße oder Präsenz möglich sind. Nur wenige Studien
beziehen sich auf die technische Simulation von Realität in der Raumakustik. Die bisher
vorwiegend empirisch untersuchten audio-visuellen Wechselwirkungen sind im Wesentlichen
noch Teil der Grundlagenforschung [3, S. 189-192]. Eine der wenigen vergleichbaren CAVE-
Anwendungen wurde an der RWTH Aachen umgesetzt [8]. Mit drei Teil-Projekten zu raum-
akustischen Themen u.a. ,,Perceptual-based optimization of room acoustic auralization
parameters" ist die RWTH Aachen ebenfalls in das SEACEN-Projekt mit eingebunden [9].
Abbildung 5: Prinzip-Aufbau einer CAVE
[6]
Abbildung 6: in einer CAVE
[7]
1.3 Die CAVE an der TU Berlin - eine plausible, stereoskopische, virtuelle Umgebung
Das Ziel von VR Anwendungen besteht darin, Sinneswahrnehmungen zu erzeugen, die eine
plausible Immersion, also ein vollständiges Eintauchen in die virtuelle Welt, ermöglichen [1,
S. 84]. Dabei liegt die auf Teilaspekte fokussierte Forschungsstrategie beim SEACEN-
Projekt, im Gegensatz zu den wenigen zum Thema Audio Visuelle Raumwahrnehmung
existierenden Studien, auf einem integrierten, opto - akustisch ausgewogenen Ansatz. Durch
die Schaffung methodischer Voraussetzungen soll die experimentelle Trennung von
akustischen und optischen Einflüssen auf die Raumwahrnehmung ermöglicht werden. Dazu

6
werden die, wie in der vorliegenden Arbeit später dargestellt, zuvor akquirierten Daten bzw.
Aufnahmen der musikalischen Aufführung eines Streichquartetts als opto-akustische Reize
verwendet. Diese Film- und Audiodaten können mittels Greenscreen-Technik mit den bereits
akquirierten stereoskopischen Panorama-Hintergründen von sechs Konzertsaal-Abbildungen
zu einer stereoskopischen, virtuellen Umgebung kombiniert werden. Zunächst kann mittels
Bewertung durch Probanden die Plausibilität der CAVE eingeschätzt werden. Darüber
hinaus können durch die unabhängige Variation von akustischen und optischen Räumen, in
diesem Fall Konzertsälen, cross-modale Wechselwirkungen erforscht und abgeschätzt
werden [3, S. 189 -190].
Um die hohen Anforderungen einer plausiblen Immersion zu erreichen, wurden für die TU-
CAVE (Abbildung 7) neben qualitativ hochwertigem Equipment, wie fünf hoch auflösenden,
mit hoher Bildfrequenz betriebenen Projektoren und stereoskopischen Shutter-Brillen,
insbesondere neue Verfahren für die Daten-Akquise verwendet. Auf diese Verfahren, welche
Daten liefern, die eine plausible, virtuelle Umgebung erzeugen können, wird in dieser Arbeit
in den Kapiteln 4 zur Audioproduktion und Kapitel 5 zur Videoproduktion eingegangen.
Abbildung 7: Grundriss der CAVE am Fachbereich Audiokommunikation der TU Berlin

7
2 Grundlagen des stereoskopischen Sehens
Um eine plausible, virtuelle, stereoskopische Umgebung zu erzeugen, sind Kenntnisse über
das stereoskopische menschliche Sehen notwendig. Diese Grundlagen sollen im Folgenden
dargelegt werden. Einführend sollen dabei die Grundlagen des menschlichen visuellen
Systems erläutert werden.
2.1 Physiologische Grundlagen
Das menschliche Auge ist das Sinnesorgan des Menschen, das optische Reize durch
Lichteinfall erfasst und zum Gehirn weiterleitet (Abbildung 8). Es ist kugelförmig und hat
einen Durchmesser von ca. 2,5 cm. Vom umgebenden Gewebe wird das Auge durch die
schützende Lederhaut abgegrenzt. Die darunter befindliche Aderhaut versorgt das Auge mit
Nährstoffen. Die unterste Schicht ­die Netzhaut­ dient dank ihrer lichtempfindlichen Rezep-
toren als ,,Leinwand" auf der das Abbild der Umwelt entsteht. Der gallertartige Glaskörper
hält das Auge in Form und schützt alle empfindlichen Teile. Die außen liegende Hornhaut
bricht das einfallende Licht, das nur durch den durchsichtigen Teil der Hornhaut einfallen
kann. Durch das Zusammenwirken von Linse und Hornhaut entsteht auf der Netzhaut ein
scharfes, verkleinertes, umgekehrtes, spiegelverkehrtes Bild (Abbildung 9). Da sich die Netz-
haut nur langsam an Änderungen der Leuchtdichte anpassen kann, regelt die sich durch An-
bzw. Entspannung der Muskulatur schnell schließende Regenbogenhaut (Iris) die Menge
des einfallenden Lichtes und schützt so die Netzhaut vor zu großer Lichteinstrahlung.
Die Iris
funktioniert also ähnlich einer Kamerablende auch in der Hinsicht, dass beim Nahsehen eine
Verkleinerung der Pupille (Blende) eine Erhöhung der Tiefenschärfe zur Folge hat [10, S. 12-
13].
Abbildung 8: Anatomie des menschlichen Auges [11, Vgl. Abb. S. 2]

8
Die in der Netzhaut vorhandenen Fotorezeptorzellen sind aus lichtempfindlichen Molekülen
aufgebaut, die sich bei Lichteinfall strukturell verändern. Entsprechend ihren Eigenschaften
sind die Rezeptoren in Zapfen und Stäbchen unterteilt (Abbildung 9, rechts). Während die
Stäbchen eine eher geringe Auflösung und weniger scharfes schwarz-weiß Sehen
ermöglichen, gewährleisten die Zapfen das Farbsehen, eine hohe Auflösung und Schärfe.
Insbesondere sind in der Fovea centralis -dem Punkt des schärfsten Sehens- (kleines Areal
innerhalb des Gelben Fleckes) viele Zapfen konzentriert, woraus die Eigenschaft dieser
Region ­scharfes und hoch auflösendes Farb-Sehen- resultiert. Bei Fixation eines Objektes
werden die Augen so gedreht, dass das Objekt auf die Fovea centralis fällt und damit scharf
und hoch aufgelöst wahrgenommen werden kann (Abbildung 9, links). In der Peripherie des
Sehfeldes auf der Netzhaut werden dagegen hauptsächlich globale und Bewegungsinforma-
tionen erfasst [12, S. 50-51]. Die in den Rezeptoren enthaltenen, lichtempfindlichen soge-
nannten Sehpigmente lösen nach einer Stimulation mit Licht elektrische Signale aus, die
durch ein Netzwerk von Neuronen fließen [4, S. 30]. Dabei gelangen die Informationen über
eine synaptische Verbindung zu (bipolaren) Nervenzellen. Diese sind wiederum mit
Ganglienzellen verbunden, deren Ausläufer (Axone) sich im optischen Nerv bündeln und aus
dem Auge heraus weiter zum Gehirn führen. Jede der 800.000 Ganglienzellen enkodiert
Informationen aus einem kleinen Netzhaut­Areal. Die Feuerrate des Axons einer
Ganglienzelle entspricht in ihrem Betrag der auf diese Ganglienzelle auftreffenden
Lichtmenge [12, S. 51].
Abbildung 9: Objektabbildung auf der Netzhaut (links); Rezeptoren in der Netzhaut (rechts) [4, Abb. S. 30]
Jede Netzhaut ist senkrecht in eine linke und eine rechte Hälfte geteilt ist. Dementsprechend
werden auch die in elektrischen Signalen verschlüsselten Informationen auf geteilten Wegen
weitergeleitet. An der Kreuzung der Sehbahnen (Chiasma opticum) verzweigen sich die
optischen Nerven beider Augen derart, dass die rechte Hälfte jeder Netzhaut in der rechten
Großhirnhemisphäre und die linke Hälfte jeder Netzhaut in der linken Großhirnhemisphäre
repräsentiert werden (Abbildung 10). Das ermöglicht dem visuellen System den örtlich
direkten Vergleich beider Netzhaut-Teilbilder, was letztlich die Grundlage der Wahrnehmung
räumlicher Tiefe darstellt. Der größte Teil der Sehnervenfasern (90%) enden im sogenannten
seitlichen Kniehöcker (CGL - Corpus Geniculatum Laterale) im Thalamus des Zwischenhirns

9
­ der ersten höheren Verarbeitungsstufe. In dieser Schaltstation werden Informationen
vorgefiltert und z.T. bewertet [10, S. 26]. Vom CGL werden die Informationen über die
Sehbahnen weiter zu der im hinteren Schädelbereich befindlichen primären Sehrinde
geleitet. In dieser scheckkartengroßen 3 mm dicken primären Sehrinde erfolgt die Daten-
analyse. Entsprechende Forschungen an Katzen zeigten, dass sich die Sehrinde in ab-
wechselnde für das linke und das rechte Auge senkrecht durch parallele Schichten
verlaufende Blöcke gliedert. In dieser Zauberwürfel ­ ähnlichen Struktur verarbeitet jeder
,,Mini-Würfel" die Signale eines spezifischen Netzhaut-Bereiches (Abbildung 11). Somit wird
die gesamte Netzhaut als zusammenhängendes Areal in der Sehrinde repräsentiert.
Letztlich
entsteht im Gehirn mittels komplex miteinander verbundener Nervenzellen das dreidimen-
sionale Abbild unserer komplexen Umwelt [10, S. 30-31].
2.2 Stereoskopisches Sehen
Das räumliche Sehen ermöglicht dem Menschen sich optimal in seiner Umwelt zu orientieren
und zu bewegen. Insbesondere können Abstände zwischen bzw. Entfernungen von Objekten
genau bestimmt werden. Zu den wichtigsten Voraussetzungen des stereoskopischen
Sehens gehört die dicht nebeneinander liegende Anordnung der Augen im Abstand von
durchschnittlich 6,3 cm, woraus sich ein großer Überlappungsbereich der beiden Gesichts-
felder ergibt. Die daraus resultierende, wichtigste Komponente des visuellen Systems für die
Tiefenwahrnehmung ist die Querdisparation. Diese führt zu einer durch den Augenabstand
bedingten leicht unterschiedlichen Perspektive jedes Auges [1, S. 85]. Damit verbunden ist
Abbildung 10: Schnitt durch das Gehirn mit den
wichtigsten Stationen der Sehbahnen [10, Abb. S. 30]
Abbildung 11: Aufbau der Sehrinde [10, Abb. S. 31]

10
eine leicht verschobene Abbildung auf jeder der beiden Netzhäute. Da sich die Sehbahnen
so kreuzen, dass die rechte Hälfte jeder Netzhaut in der rechten und die linke Hälfte jeder
Netzhaut in der linken Großhirnhemisphäre repräsentiert werden (Abbildung 10; Vgl.
Abschnitt 2.1, S. 8), ist eine Überlappung und ein Vergleich der Bilder des rechten und linken
Auges und damit die Verarbeitung der stereoskopischen Information am gleichen Ort in der
Sehrinde möglich. Bei einem gedachten Übereinanderlegen beider Netzhäute ergibt sich in
der Mitte bzw. auf dem Horopter eine Übereinstimmung der Bildinformation währenddessen
an den Rändern jeweils unterschiedlich abgebildet wird (Abbildung 12). Dabei sind Punkte,
die an den gleichen Stellen jeder Netzhaut liegen als korrespondierende Netzhautpunkte mit
den jeweils gleichen Stellen im visuellen Cortex
1
verbunden. Die Bildinformationen eines
Objektes, die auf beiden korrespondierenden Netzhautpunkten gleich abgebildet werden,
liegen auf einer aus dem Strahlengang resultierenden Kreislinie ­ dem Horopter, auf der
auch der Fixationspunkt liegt (Abbildung 13). Da diese korrespondierenden Netzhautpunkte
jedoch die gleiche Bildinformation besitzen, tragen sie nicht zum stereoskopischen Sehen
bei. Im Gegensatz dazu gewinnt das visuelle System die stereoskopische Information aus
F ­ Fixationspunkt auf Horopter
H ­ nicht fixierter Punkt auf Horopter
U ­ Punkt hinter Horopter (ungekreuzte Querdisparation)
K ­ Punkt vor Horopter (gekreuzte Querdisparation
Abbildung 12: Blick von hinten auf die Netzhaut und auf
die Überlagerung beider Netzhäute bei Abbildung ver-
schiedener Punkte auf den Netzhäuten
Abbildung 13: Bei Fixation von F treten disparate
Netzhautpunkte von K (gekreuzte Querdisparation)
und
U
(ungekreuzte
Querdisparation)
und
korrespondierende Netzhautpunkte von F und H
auf [10, Vgl. Abb. S. 41]
___________________________________________________________________________
1
Sehrinde

11
den nichtkorrespondierenden Netzhautpunkten, die unterschiedliche Bildinformationen
enthalten. Deshalb werden diese Punkte auch als disparate Netzhautpunkte bezeichnet.
Dabei wird unterschieden, ob sich ein Objekt vor oder hinter dem Horopter befindet. Wenn
das Objekt vor dem Horopter liegt, handelt es sich um eine gekreuzte Querdisparation, bei
der das Objekt auf den äußeren Randbereichen der Netzhäute abgebildet wird. Bei der
ungekreuzten Querdisparation befindet sich das Objekt hinter dem Horopter und wird auf
den inneren Randbereichen der Netzhäute abgebildet (Abbildung 12, 13). Aus diesen
Entfernungszuordnungen auf bestimmte Netzhautareale kann das visuelle System ableiten,
welche Objekte sich vor bzw. hinter dem fixierten Objekt befinden. Durch diese
Informationen ist das Gehirn in der Lage ein stereoskopisches Abbild der Umwelt zu
erzeugen. Auf neuronaler Ebene gibt es eine Spezialisierung von Nervenzellen im primären
visuellen Cortex und den nachfolgenden Verarbeitungsbereichen. So reagierten in
Tierversuchen bestimmte Nervenzellen auf die Reizung zweier an gleicher Stelle jedes
Auges befindlichen Netzhautpunkte mit unterschiedlichem Bildinhalt. Diese binokularen
Neuronen reagieren nur bei Reizung beider Netzhautpunkte, was zeigt, dass ihre Funktion
mit der Tiefenwahrnehmung zusammenhängen muss [10, S. 39-42].
2.3 Wahrnehmung der Raumtiefe
Im Folgenden soll erläutert werden, welche weiteren visuellen Anhaltspunkte das mensch-
liche visuelle System nutzt, um einen stereoskopischen Raumeindruck zu bekommen.
Neben der Querdisparation als wichtigstes Kriterium für räumliche Tiefe, kann das visuelle
System auf einige weitere so genannte Tiefenkriterien der Raumwahrnehmung (Abbildung
14) zurückgreifen. Diesen Tiefenkriterien liegen verschiedene Eigenschaften zugrunde. So
erhält das visuelle System neben binokularen
1
Informationen durch die Querdisparation, eine
Vielzahl an Informationen durch monokulare
2
, okulomotorische
3
und bewegungsinduzierte
Kriterien.
Durch die Auswertung der Augenstellung und der Spannung der Augenmuskeln gewinnt der
visuelle Apparat Informationen über Entfernungen von fixierten und nicht fixierten Objekten.
Damit geben diese als Konvergenz und Akkommodation bezeichneten okulomotorischen
Tiefenkriterien dem visuellen System wichtige Anhaltspunkte für die Tiefenwahrnehmung.
Wird ein Objekt betrachtet, so drehen sich die Augen nach Innen und die Blickrichtungen
konvergieren bzw. schneiden sich im fixierten Punkt. Der von den Sehachsen eingeschlos-
sene Konvergenzwinkel ist bei geringen Entfernungen groß und nimmt mit zunehmender
___________________________________________________________________________
1
mit beiden Augen sehend
2
mit einem Auge sehend
3
Bewegungen des Auges

12
EIGENSCHAFT
TIEFENKRITERIUM
ENTFERNUNG
0 ­ 2 m
2 ­ 30 m
über 30 m
binokular
Querdisparation
okulomotorisch
Konvergenz
Akkommodation
monokular
Verdeckung
Relative Größe
Relative Höhe
Atmosphärische
Perspektive
Zentralperspektive
Texturgradient
bewegungsinduziert
Bewegungsparallaxe
Zu- und Aufdecken
von Flächen
Abbildung 14: Systematik der Tiefenkriterien der Raumwahrnehmung und ihre Anwendung in verschiedenen
Entfernungsbereichen [4, Vgl. Abb. S. 191 bzw. 14, Vgl. Tab. 8.1, S. 106]
Entfernung des Fixationspunktes ab. Durch trigonometrische Berechnungen mit Hilfe des
Konvergenzwinkels können absolute Objektentfernungen bestimmt werden. Bei sehr großen
Objektentfernungen sind die Augen bzw. die Sehachsen parallel zueinander orientiert,
wodurch ein Konvergenzwinkel von Null entsteht. Befindet sich das Objekt in Augennähe,
entsteht ein großer Konvergenzwinkel. Dabei verdickt sich die Linse wodurch das Objekt
fokussiert werden kann. Diese Akkommodation ermöglicht dem visuellen System eine
Anpassung an die Objektentfernung unter zwei bis drei Metern (darüber ist keine Linsen-
krümmung erforderlich), indem die Abbildung auf der Netzhaut durch die Krümmung der
Linse scharf gestellt wird. Gleichzeitig nutzt das Gehirn den Akkommodationszustand der
Linse als Anhaltspunkt zur Einschätzung der Objektentfernung [10, S. 42-43].
unendlich weit nah
Abbildung 15: unterschiedliche Konvergenz-
winkel in Abhängigkeit von der Objektentfernung
[10, Abb. S. 43]
Abbildung 16: Anpassung des Auges an unterschiedliche
Objektentfernung
durch
Verdickung
der
Linse
­
Akkommodation [13, Abb. S. 11]

13
Neben bewegungsinduzierten Tiefenkriterien gibt es noch Tiefenhinweise, die mit einem
Auge erfasst und bewertet werden können. Zu diesen monokularen Tiefenkriterien gehören
Verdeckung, relative Größe, relative Höhe, perspektivische Atmosphäre, Zentralperspektive
und Texturgradient.
Die Verdeckung von Objekten ist für das visuelle System ein hinreichender Hinweis für
unterschiedliche Entfernungen von Objekten. Wenn ein Objekt durch ein anderes davor
platziertes nicht mehr oder nur noch teilweise sichtbar ist, handelt es sich um Verdeckung
(Abbildung 17) [4, S. 187]. Durch die Rekonstruktion bzw. Ergänzung der fehlenden
Teilstücke des verdeckten Objektes, kann das Gehirn folgern, dass sich das verdeckte
Objekt hinter dem anderen befinden muss [5, S. 15]. Das verdeckte Objekt wird als weiter
entfernt wahrgenommen als das vordere Objekt, jedoch können durch die Verdeckung keine
absoluten sondern nur relative Entfernungen zwischen den betrachteten Objekten abge-
schätzt werden [4, S. 187].
Wenn Objekte bekannter Größe unterschiedlich groß erscheinen, folgert das visuelle System
daraus, dass sich die Objekte wegen der Größenkonstanz in einer unterschiedlichen Entfer-
nung befinden müssen. Aufgrund dieses Tiefenkriteriums der relativen Größe kann der
Mensch einschätzen, welches der Objekte sich am dichtesten und welches Objekt bzw.
welche Objekte sich weiter entfernt befinden (Abbildung 17) [5, S. 14].
Je höher der tiefste Punkt eines Objektes im Gesichtsfeld liegt, desto weiter weg erscheint
das Objekt. Dieser als relative Höhe bekannte Tiefenhinweis liefert einen weiteren Anhalts-
punkt für die Entfernung eines Objektes (Abbildung 17) [4, S. 187].
Bei der Betrachtung von weiter entfernten Objekten muss das visuelle System durch das
Medium Luft hindurch sehen. Da Luft aufgrund von schwebenden Partikeln (z.B. Staub- oder
Wasserteilchen) eine Trübheit aufweist, wirken Objekte mit zunehmender Entfernung
weniger scharf und kontrastärmer, was als atmosphärische Perspektive bezeichnet wird
(Abbildung 18) [4, S. 188].
Parallele Linien konvergieren nach den geometrischen Gesetzen der Zentralperspektive in
der Ferne. Diese Zusammenhänge nutzt das visuelle System ebenfalls zur Konstruktion
räumliche Tiefe (Abbildung 17, 19) [10, S. 48].
Treten sich wiederholende, in bestimmten Abständen entfernte, gleiche bzw. ähnliche
Grundelemente auf, erscheinen diese mit zunehmender Entfernung dichter gepackt. Dieser
als Texturgradient bezeichnete Tiefenhinweis steht im Einklang mit dem Kriterium der
relativen Größe, d.h. die einzelnen Grundelemente des Texturgradienten erscheinen mit
zunehmender Entfernung kleiner [4, S. 189].

14
In Abbildung 17 ist die Wirkung mehrerer monokularer Tiefenkriterien besonders anschaulich
dargestellt. Drei in der Ebene maßstabsgerechte, identische Abbildungen einer Frau sind so
angeordnet und mit einem perspektivischen Hintergrund in Beziehung gesetzt, dass das
visuelle System andere Schlussfolgerungen bezüglich der Körpergröße der Frauen im
dreidimensionalen Raum zieht. Wenn nur das Kriterium der relativen Größe betrachtet wird,
erscheinen die drei Frauen gleich groß. Unter Einbeziehung des perspektivisch dargestellten
Hauses erscheinen jedoch die mittlere und die rechte Frau größer als die linke Frau (Die
Frau rechts kann auf das Dach sehen). Durch das Kriterium der relativen Höhe in
Kombination mit dem Tiefenhinweis der Perspektive erscheint die mittlere Frau größer und
weiter entfernt als die linke Frau. Die rechte Frau erscheint größer und weiter entfernt als die
anderen Frauen. Trotz der Zweidimensionalität des Bildes versucht das Gehirn, auch bei
Betrachtung des Bildes mit nur einem Auge, eine Raumtiefe zu konstruieren.
Wichtige Anhaltspunkte zur Raumwahrnehmung können schließlich durch bewegungsindu-
zierte Tiefenhinweise, die bei der Bewegungsparallaxe und beim fortschreitenden Zu- und
Aufdecken von Flächen auftreten, gewonnen werden.
Die Bewegungsparallaxe ist beim Vorbeibewegen an verschieden entfernten Objekten zu
beobachten. Dabei bewegen sich nah gelegene Objekte scheinbar schneller an uns vorbei
als weiter entfernte Objekte. Dieser Effekt wird anhand von Abbildung 20 deutlich. Während
das Abbild des weit entfernten Hauses beim Vorbeibewegen nur den relativ geringen Netz-
hautbereich von H
1
bis H
2
überstreicht, wird der Baum hingegen von B
1
bis nach B
2
über
einen sehr großen Bereich der Netzhaut abgebildet. Damit Abbildungen nah gelegener
Objekte in der gleichen Zeit einen längeren Weg als entfernte Objekte auf der Netzhaut
zurücklegen können, müssen sich diese nahen Objekte schneller am Auge vorbei bewegen,
als entfernte Objekte [4, S. 190].
Das fortschreitende Zu- und Aufdecken von Flächen ist ein weiteres bewegungsinduziertes
Tiefenkriterium. Ein Beobachter kann durch eine fortschreitende Bewegung ein entferntes
Abbildung 17: Verdeckung,
relative Größe, relative Höhe,
Perspektive [14, Abb. 8.2 S.
100]
Abbildung
18:
atmosphärische
Perspektive [15, Abb. S. 232].
Abbildung 19: Zentralperspektive [16]

15
Objekt durch ein nah gelegenes Objekt zu- oder aufdecken, was den Tiefenhinweis liefert,
dass das zu- bzw. aufgedeckte Objekt weiter entfernt als das zu- bzw. aufdeckende Objekt
ist (Abbildung 21) [4, S. 190].
Abbildung 20: Bewegungsparallaxe [4, Vgl. Abb. S.
190]
Abbildung 21: fortschreitendes Zu- und Aufdecken von
Flächen [10, Vgl. Abb. S. 45]
2.4 Raumwahrnehmung für die stereoskopische Videoproduktion und die CAVE
Im vorangegangenen Abschnitt wurde deutlich, dass die Querdisparation die wichtigste
Komponente für eine räumliche Tiefenwahrnehmung ist. Die Beeinflussung der Querdispara-
tion erfolgt technisch durch die genaue Justage der Stereobasis, die den Abstand zwischen
beiden Augen bzw. den zur Aufnahme verwendeten beiden Kameraobjektiven darstellt.
Um eine möglichst plausible stereoskopische Wahrnehmung zu erzeugen, muss auch die
Deviation berücksichtigt werden. Dieses Maß stellt die Differenz zwischen dem Versatz des
linken und rechten Teilbildes des entferntesten stereoskopischen Punktes (Fernpunkt) und
dem Versatz des linken und rechten Teilbildes des dichtesten stereoskopischen Punktes
(Nahpunkt) dar. Es sollte in der Regel 1/30 der gesamten ohne Kopfverdrehen erfassbaren
Bildbreite nicht überschreiten [17, S. 1-2]. Neben der Querdisparation sind Akkommodation
und Konvergenz als binokulare Tiefenkriterien relevant für die stereoskopische Video-
produktion und die CAVE. Diese beiden Mechanismen sind beim realen Sehen gekoppelt.
Während die Augen durch Konvergenz auf den Fixationspunkt gerichtet sind, fokussieren die
Augen automatisch auf diesen Punkt (Akkommodation). Dagegen muss der Betrachter diese
beiden Mechanismen bei technisch realisierten stereoskopischen Bildern und Filmen in
separate Prozesse trennen. Während die Augen auf die Leinwand bzw. den Monitor
fokussieren, kann der Konvergenzpunkt bei einer stereoskopischen Szenerie vor oder hinter
dem Monitor bzw. der Leinwand liegen. Da der Konvergenzpunkt und der Akkommodations-
punkt nicht immer übereinstimmen, muss der Betrachter versuchen beide Prozesse getrennt
zu steuern, was jedoch zu Ermüdungen und Kopfschmerzen führen kann [13, S. 15].

16
Von den monokularen Tiefenkriterien müssen nur einige bei der Planung und Durchführung
der stereoskopischen Videoproduktion bzw. bei der Filmwiedergabe in der CAVE
berücksichtigt werden. Wegen der geringen Entfernung des Betrachters zur Leinwand von
ca. zwei Meter, kann die atmosphärische Perspektive vernachlässigt werden. Ebenso treten
keine kleinen, zahlreichen Elemente auf, die als Texturgradient Tiefenhinweise für die
Raumwahrnehmung liefern könnten. Hingegen muss bei den mittels Greenscreen­Technik
in den Hintergrund eingefügten Konzertsälen im Hinblickung auf Verdeckung durch das im
Vordergrund befindliche Streichquartett darauf geachtet werden, dass an den
Verdeckungsbereichen keine unnatürlichen Effekte wie Ausfransen oder grünliches Leuchten
durch die Anwendung des Greenscreen­Verfahrens erzeugt werden. Beim Zusammenfügen
des Streichquartetts mit den Konzertsaal-Panoramen müssen die relative Größe, die relative
Höhe und die Perspektive beachtet werden. Das Streichquartett muss dabei in der richtigen
relativen Größe zur Bühne bzw. zum Konzertsaal dimensioniert und gleichzeitig in der
richtigen relativen Höhe platziert werden. Darüber hinaus muss der Streichquartett-
Aufsichtwinkel so angepasst werden, dass keine für das visuelle System scheinbare
perspektivische Verzerrungen auftreten. Da sich in der CAVE weder Objekte der Projektion
noch Versuchspersonen bewegen, sind bewegungsinduzierte Tiefenkriterien hier nicht von
Bedeutung.

17
3 Technische Realisation einer virtuellen Umgebung
Im Folgenden sollen die Grundlagen und Grenzen des visuellen und des auditiven Systems
für die menschliche Wahrnehmung anhand ihrer spezifischen Eigenschaften dargestellt
werden. Die genaue Kenntnis über diese Eigenschaften mit ihren Möglichkeiten und
Grenzen ist eine wichtige Voraussetzung für die technische Erzeugung einer virtuellen
Realität. Die Nutzung der daraus resultierenden Erkenntnisse für eine technische Adaption
wird in den sich anschließenden Kapiteln erläutert. Unter Berücksichtigung aller Faktoren
und technischen Möglichkeiten wird die Realisierung einer CAVE untersucht und anhand der
CAVE an der TU Berlin dargestellt.
3.1 Grundlagen und Grenzen der visuellen Wahrnehmung
3.1.1 Sichtbares Licht
Die grundlegende Voraussetzung für visuelle Sinneswahrnehmungen ist die Existenz von
Licht. Das sichtbare Licht, das das menschliche Sehen erst ermöglicht, ist nur ein Teil des
elektromagnetischen Spektrums, was ein Kontinuum elektromagnetischer Energie darstellt
(Abbildung 22).
Charakterisiert wird diese Energie durch die Wellenlänge. Der Wertebereich
der Wellenlänge erstreckt sich über ca. 16 Zehnerpotenzen, d.h. von 10
-12
Meter (Gamma-
strahlung) - 10
4
Meter
(Radiowellen). Das menschliche visuelle System kann jedoch nur
Wellenlängen zwischen 400 und 700 Nanometern wahrnehmen. Die im sichtbaren Licht
vorhandenen Wellenlängen korrelieren mit den vom menschlichen visuellen System
wahrnehmbaren Farben. Die Wahrnehmung von Objekten ist nur dadurch möglich, dass das
Licht von Objekten direkt in unser Auge reflektiert wird und auf der Netzhaut ein Bild der
Objekte erzeugt. Neben diesen Welleneigenschaften besitzt das Licht noch Teilchen-
eigenschaften, nach denen das Licht in Form von Energieportionen ­als Photonen­ auftritt.
Sowohl die Wellen- als auch die Teilcheneigenschaften des Lichtes spielen eine wichtige
Rolle bei der visuellen Wahrnehmung [4, S. 31].
Abbildung 22: Wellenlängen des sichtbaren Lichtes als Teil des elektromagnetischen Spektrums [4, Vgl. Abb. S.
31]

18
3.1.2 Hellempfindlichkeit und Empfindungsbereich
Wie genau die Augen an bestimmte Wellenlängen angepasst sind, wird bei der Betrachtung
von spektralen Hellempfindlichkeitskurven deutlich. Aus Abbildung 23 geht hervor, dass die
Empfindlichkeit der Augen generell zu den mittleren sichtbaren Wellenlängen hin, welche
überwiegend Farben zwischen dunkelgrün und gelb entsprechen, am größten ist. Der
Unterschied zwischen Stäbchen- und Zapfensehen zeigt sich in einer höheren
Empfindlichkeit der Stäbchen für kurzwelliges Licht (Maximum bei 500nm) gegenüber der zu
relativ langwelligem Licht (Maximum 560nm) verschobenen Empfindlichkeit der Zapfen.
Daraus resultiert eine höher werdende Empfindlichkeit für kurzwelliges Licht zum grün-blau
gehen-den Spektrum hin bei der Adaption an Dunkelheit, die mit einer Verlagerung des
Sehens von den Zapfen zu den Stäbchen einhergeht. Diese Farbempfindlichkeits-
verschiebung wird nach ihrem Entdecker als Purkinje Effekt bezeichnet (Abbildung 23) [4, S.
43].
Die größere Lichtempfindlichkeit von Stäbchen gegenüber Zapfen hat mehrere Ursachen.
Zum einen wird weniger Licht benötigt, um eine Reaktion eines Stäbchenrezeptors im
Vergleich zu einem Zapfenrezeptors auszulösen. Des Weiteren werden die Antworteinheiten
mehrerer, mit einer Ganglienzelle verschalteten, Stäbchen aufsummiert und können dadurch
die Empfindlichkeitsschwelle der Ganglienzelle eher überschreiten als die jeweils nur mit
einer Ganglienzelle verschalteten Zapfen (Abbildung 24). Aus dieser für die hohe Licht-
empfindlichkeit optimierten Verschaltung der Stäbchen resultiert ein geringeres räumliches
Auflösungsvermögen bzw. eine geringere Sehschärfe gegenüber der Verschaltung der
Zapfen. Werden z.B. entsprechend Abbildung 24 die äußeren Zapfen bzw. Stäbchen von je
einem Lichtpunkt stimuliert, so liefert nur eine Stäbchenganglienzelle, aber beide äußeren
Zapfenganglienzellen eine Antwort. Da die Zapfenganglienzellen örtlich getrennt sind,
werden die zugehörigen Netzhautpunkte der Zapfen getrennt registriert, was einer höheren
örtlichen Auflösung entspricht [4, S. 49-51].
Abbildung 23: spektrale Hellempfindlichkeitskurven für das
Stäbchen- und Zapfensehen [18, Vgl. Abb. S. 4]
Abbildung
24:
Verschaltung
von
Stäbchen und Zapfen [4, Vgl. Abb. S. 49]

19
Das menschliche visuelle System ist nach einer gewissen Zeit in der Lage seine
Helligkeitsempfindlichkeit in einem sehr weiten Bereich von ca. 8 Zehnerpotenzen an die
Umgebungsleuchtdichte anzupassen. Der genaue Zusammenhang zwischen Reizstärke und
dem resultierenden Empfindungsunterschied lässt sich über einen weiten Bereich der
Reizstärke durch das nichtlineare, logarithmische Weber-Fechner-Gesetz beschreiben. Es
besagt, dass die Änderung der Helligkeitsempfindung E proportional zum Verhältnis aus
Leuchtdichteänderung
L und der Leuchtdichte L ist [19, S. 20-21]:
L
E = k
L
Grenzwert-
bildung
dL
dE = k
L
Integration
L
E = k ln
L
0
E ­ Helligkeitsempfindung
E ­ Änderung der Helligkeitsempfindung
L ­ Leuchtdichte
L ­ Leuchtdichteänderung
L
0
­ Leuchtdichte-Wahrnehmungsschwelle
k ­ Proportionalitätskonstante
[20, S. 4-6]
Entsprechend der logarithmischen Kennlinie (Abbildung 25) werden niedrige Lichtreize nahe
der Leuchtdichte-Wahrnehmungsschwelle L = L
0
(entspricht R
0
in Abbildung 25) verstärkt
und so ,,gut empfindbar" gemacht. Dagegen werden sehr große Lichtreize stark abge-
schwächt. Dadurch wird das visuelle System vor Überlastung geschützt und kann hohe
Helligkeitswerte in der Regel problemlos wahrnehmen [20, S. 6]. Das bedeutet, dass der
Mensch relative Helligkeitsunterschiede sehr gut wahrnehmen kann [21, S. 40]. Die
Helligkeitswahrnehmung hängt jedoch noch von anderen Faktoren ab. Sie wird u. a. von
angrenzenden oder umgebenden Arealen beeinflusst. Dieser als Simultankontrast bezeich-
nete und hier auf die Helligkeit bezogene Effekt kann anhand Abbildung 26 nachvollzogen
werden. Obgleich der fast geschlossene Ring nur einen Grauwert besitzt, wirkt das linke
offene Ende des Ringes heller als das rechte offene Ende des Ringes. Offenbar beeinflusst
der umgebende Hintergrund die Helligkeitswahrnehmung. Die retinalen Zellen auf die der
helle Hintergrund fällt, werden stark stimuliert, sodass diese die Zellen im Bereich der rech-
ten Ringhälfte stark hemmen. Dieser Effekt der so genannten lateralen Inhibition (seitliche
Hemmung) bewirkt andererseits, dass die Zellen auf die der schwarze Hintergrund fällt die
Zellen der eingeschlossenen linken Ringhälfte nur schwache hemmen. Da die Zellen unter
der linke Ringhälfte weniger von den umgebenden Zellen in ihrer Aktivität gehemmt werden,
wird ihre Antwort weniger reduziert als die Antwort der unter der rechten Ringhälfte
befindlichen Zellen, die somit stark reduziert wird. Diese Zellen feuern weniger, wodurch das
offene Ende der rechten Ringhälfte dunkler wirkt als das offene Ende der linken Ringhälfte.
Nur an der unteren geschlossenen Ringhälfte ist dieser Effekt nicht zu beobachten. Das

20
bedeutet, dass man das Phänomen nicht allein mit lateraler Inhibition erklären kann [4, S.
56-57].
Abbildung 25: Qualitativer Zusammenhang zwischen Reiz R
und Empfindung E [20, Abb. S. 5]
Abbildung 26: simultaner Helligkeitskontrast
3.1.3 Farbwahrnehmung
Wie schon in Abschnitt 3.1.1 beschrieben, ermöglichen die Zapfen bei ausreichender
Leuchtdichte die Wahrnehmung von Farben, die mit den Wellenlängen des sichtbaren
Lichtes korrelieren.
Durch Untersuchungen der Netzhaut wurde festgestellt, dass sich die vorwiegend in der
Fovea centralis lokalisierten Zapfen in drei verschiedene Gruppen einteilen lassen, die für
jeweils eine Farbe eine besonders hohe Empfindlichkeit aufweisen. Dem entsprechend
besitzen die S-Zapfen
1
für blaues Licht, die M-Zapfen
2
für grünes Licht und die L-Zapfen
3
für
rotes Licht die jeweils höchste Empfindlichkeit. Jeder der drei Zelltypen reagiert jedoch nicht
nur auf eine Farbe, sondern auf einen bestimmten Bereich des Farbspektrums (Abbildung
27). Während sich die S-Zapfen auf einen eher schmalen Bereich beziehen, decken die L-
Zapfen das breiteste Spektrum ab. Die Reizantworten der verschiedenen Zapfen-Typen
werden schon auf der retinalen Ebene vorverarbeitet [22, S. 81-82]. Diese Kombination
verschiedener Reizantworten basiert auf dem Prinzip der additiven Mischung, bei der aus
den drei Farbwerten Rot, Grün und Blau die entsprechenden Mischfarben erzeugt werden.
Beispielsweise wird die Farbe Gelb aus der Mischung der Reizantworten roter und grüner
Zapfengruppen wahrgenommen [23, S. 69]. Dieser additive Mischprozess der verschiedenen
___________________________________________________________________________
1
S ­ kurze Wellenlänge; engl. short wavelength
2
M ­ mittlere Wellenlänge; engl. medium wavelength
3
L ­ lange Wellenlänge; engl. long wavelength

21
Farbanteile erfolgt über mehrere Zwischenschritte. Während zunächst aus Rot und Blau ein
gemischter Farbanteil erzeugt wird, ergibt sich aus Grün und Blau ein weiterer gemischter
Farbanteil. Dann wird aus diesen beiden Mischfarbtönen der Blau-Gelb-Anteil berechnet.
Parallel dazu findet die Berechnung eines Mischfarbtones aus Rot und Grün statt. Nach
einer weiteren additiven Mischung dieser beiden Farbanteile ergibt sich daraus die
endgültige Farbtonmischung, die schließlich an das Gehirn weitergeleitet wird (Abbildung
28). Parallel zu der Farbtonmischung kann durch die Analyse der drei Farbanteile die
Helligkeit ermittelt werden, die ebenfalls an das Gehirn weitergeleitet wird. Die in Abbildung
28 grau dargestellten, helligkeitsempfindlichen Stäbchen erreichen bei Tageslicht ihre
Sättigung (hellstes Weiß) und liefern so am Tage keine Helligkeitsdifferenzen mehr. Durch
diese gesamte retinale Vorverarbeitung wird die notwendige Rechenleistung zur
Weiterverarbeitung im Gehirn deutlich verringert [24].
Mittels der Farbtonmischung aus den drei Zapfentypen ist es dem visuellen System möglich
ca. 10 Millionen Farben zu unterscheiden. Darüber hinaus ist es in der Lage sich durch
chromatische Adaption innerhalb von maximal 30 Minuten an Beleuchtungsquellen mit Licht
unterschiedlicher Wellenlängen bzw. an eine unterschiedliche so genannte Farbtemperatur
des Lichtes anzupassen [26, S. 91]. Diese Farbtemperatur ist eine äquivalente, quantitative
Darstellung des Spektrums einer Lichtquelle, die die relativen Anteile der unterschiedlichen
Wellenlängen in dieser Lichtquelle widerspiegelt. Damit ist es möglich, den Farbton von
Lichtquellen gleicher Intensität auf einer linearen Skala (in Kelvin) abzubilden (Abbildung 29).
Die Farbtemperatur entspricht der Temperatur eines erwärmten schwarzen Körpers, bei der
dieser schwarze Körper Licht der gleichen Farbe wie die Lichtquelle abgibt [27]. Trotz
Objektbeleuchtungen mit unterschiedlich spektral zusammengesetzten Lichtquellen ver-
Abbildung 27: relative Empfindlichkeit der
drei Zapfentypen in Abhängigkeit von der
Wellenlänge [25]
Abbildung 28: Erfassung und Vorverarbeitung des Lichtreizes
durch Frequenz- bzw. Farbanalyse mittels der drei Zapfentypen
bei Tageslicht [24]

22
schiedener Intensitäten liefert das visuelle System des Menschen konstante Farbeindrücke.
Diese für die Objekterkennung wichtige Eigenschaft des visuellen Systems wird durch die
relative Konstanz im Verhältnis der Rezeptorantworten ermöglicht. Daraus resultiert die
Farbkonstanz in der menschlichen Wahrnehmung [14, S. 82]
Abbildung 29: Einordnung natürlicher und künstlicher Lichtquellen [28, Tab. S. 217] auf der Skala der
Farbtemperaturen [29, Abb. S. 101]
3.1.4 Sensumotorik
Die visuelle Wahrnehmung kann als sensumotorischer Prozess betrachtet werden. Der
Seheindruck entsteht dabei aus der Zusammensetzung der Augenbewegungen und den
Lichtreizungen der Netzhaut. Forschungen mit retinal stabilisierten Bildern ergaben, dass die
Blickbewegungen des Auges für das bewusste Sehen notwendig sind. Insbesondere werden
auch bei Fixationen immer -wenn auch nur sehr kleine- Augenbewegungen ausgeführt, die
offenbar für die visuelle Wahrnehmung notwendig sind. Im Gegensatz zu technischen
Systemen mit stabilen Abbildungen auf Leinwänden bzw. Bildschirmen treten daher keine
permanent stabilen Bilder auf der Netzhaut auf. Die wichtigsten sensumotorischen
Leistungen des Sehens werden durch Akkommodation und Konvergenzbewegungen der
Augen erbracht. Bei der Akkommodation wird die Fokussierung von unterschiedlich
entfernten Objekten auf der Netzhaut durch Steuerung der Ziliarmuskeln, die die Linse
wölben, ermöglicht. Die Fixation eines Punktes wird durch die Eindrehung beider Augen
nach Innen erreicht. Durch diese Konvergenzbewegungen ist die Erfassung von Objekten in
unterschiedlicher Entfernung möglich. Je näher sich das betrachtete Objekt am Auge
befindet, desto größer ist der dabei entstehende Winkel. Aus diesem Konvergenzwinkel und
der Auswertung des Akkommodationszustandes der Linse kann das Netzhaut-Bild im Gehirn
zu einem scharfen stereoskopischen Eindruck des fokussierten Objektes verrechnet werden
(Vgl. Abschnitt 2.3, S. 11-12). Dieser resultierende Seheindruck eines Objektes fungiert in
der Regel als Steuergröße für die Ausführung weiterer motorischer Augenbewegungen.
Unbewusst werden während des Sehvorganges ständig Ziliarmuskeln für die Akkommo-
dation kontrahiert, der Konvergenzwinkel angepasst sowie kleine Blickverlagerungen bei der
Fixation ausgeführt [22, S. 91-93]. Um Objekte genauer erfassen zu können, führen die
Augen schnelle Bewegungen, so genannte Sakkaden, aus. Mittels kamerabasierter Eye-
tracker, die die aktuelle Position der Pupille und damit den Blickwinkel des Auges ermitteln,

23
lassen sich Blickbewegungsverläufe genauer untersuchen (Abbildung 30). In diesem
Zusammenhang wurde festgestellt, dass Versuchspersonen Objekte durch eine Folge sich
abwechselnder Fixationen und Sakkaden betrachteten (Abbildung 31) Typischerweise
werden bei der Betrachtung eines Objektes bzw. einer Szenerie drei Fixationen in einer
Sekunde ausgeführt [4, S. 133-134]. Das Ineinandergreifen von motorischer Verarbeitung, in
Form von Augenbewegungen, und die sensorische Verarbeitung, in Form der Reizung
lichtempfindlicher Fotorezeptoren, können als zusammenwirkende Prozesse des Sehens
verstanden werden [22, S. 92].
3.1.5 Örtliches Auflösungsvermögen
Die höchste Farbunterscheidungsfähigkeit und die beste örtliche Auflösung der Netzhaut
werden in der Fovea centralis, die nur einen sehr geringen Teil der Netzhaut einnimmt,
erreicht (Vgl. Abschnitt 2.1, S. 8). Damit möglichst viele fokussierte, hoch aufgelöste
Farbbildinformationen eines Objektes mittels der vielen Zapfen in der Fovea centralis erfasst
und an das Gehirn weitergeleitet werden können, müssen möglichst viele Bereiche des
Objektes in der Fovea centralis abgebildet werden. Dies wird durch die schnelle Abfolge von
Fixationen und Sakkaden zur Objektbetrachtung möglich [22, S. 78-79]. Trotz der
ausschließlichen Erfassung von scharfen Farbbildern in der Fovea centralis kann der
Mensch einen großen Bereich der Umwelt mit einem Blick visuell wahrnehmen. Dieses durch
beide aber mindestens durch ein Auge erfassbare Gesichtsfeld, das ein Mensch bei einer
festen Kopf- und Augenstellung wahrnehmen kann, beträgt entsprechend perimetrischen
1
(Gesichtsfeld-) Messungen (Abbildung 32) horizontal ca. 180° und vertikal ca. 130°.
Aufgrund der unterschiedlichen Verteilung bzw. Dichte von Stäbchen und Zapfen ist das
Gesichtsfeld für farbige Reize kleiner als für Hell / Dunkel Reize. Durch die Überlagerung der
Gesichtsfelder beider Augen ist in einem Bereich von ca. 120° (horizontal) binokulares
Abbildung 30: Eyetracker; dient der Erfassung von
Blickbewegungsverläufen [30]
Abbildung 31: individueller Blickbewegungsverlauf
einer Person beim Betrachten eines Bildes
gelbe Punkte: Fixationen
rote Linien: Sakkaden [4, Abb. S. 134]

24
Sehen möglich (Abbildung 33). Dadurch kann das visuelle System nach Weiterverarbeitung
der Bilder Tiefe wahrnehmen und Entfernungen bzw. Abstände genau bestimmen [31, S. 76-
77].
Abbildung 32: Gesichtsfeld des Menschen
(perimetrische Messung) [31, Abb. S. 77]
Abbildung 33: horizontales und vertikales Gesichtsfeld des
Menschen (Daten entsprechend Abbildung 32)
Das kleine Netzhautareal der scharfen Farbbilderfassung in der Fovea centralis erzeugt
dagegen sowohl vertikal als auch horizontal im Gesichtsfeld des Menschen nur einen kleinen
scharf abgebildeten Bereich von 1,5° [32, S. 6]. Das bedeutet, dass die Wahrnehmung feiner
Details und damit ein hohes Auflösungsvermögen nur im Bereich der Fovea centralis, also
im direkten Blickmittelpunkt des Gesichtsfeldes gewährleistet wird.
Das örtliche Auflösungsvermögen gibt an, bei welchem Abstand zwei Punkte oder Linien
gerade noch als getrennt wahrgenommen, also aufgelöst werden können. Je geringer dieser
Abstand ist, desto höher ist die, auch als Sehschärfe bekannte, örtliche Auflösung. Um die
Auflösung unabhängig vom Objektabstand zu dimensionieren, wird als Maß der Sehschärfe
ein Winkel definiert. Dieser Winkel befindet sich zwischen den beiden Strahlen, die von den
Messpunkten/-linien ausgehend sich im Knotenpunkt des Auges schneiden [33].
Um das Auflösungsvermögen zu quantifizieren, wird untersucht, wie viele Schwarz/Weiß-
Linienpaare im Blickfeld bezogen auf ein Grad noch als getrennt wahrgenommen werden
können. In Abbildung 34 ist der Zusammenhang zwischen der menschlichen Wahrnehmung
von Helligkeitsunterschieden bzw. Kontrasten und der Raumfrequenz dargestellt. Dabei ist
zu erkennen, dass mit zunehmender, auch als Ortsfrequenz bezeichneter, Liniendichte, die
Unterscheidbarkeit abnimmt. Die Grenze bei der noch separate Linien wahrgenommen
werden können, liegt bei ca. 30 LP/° (Linienpaaren je Grad), d. h. 60 Linien / 1 Grad. Daraus
ergibt sich: bei 1Grad = 60 Winkelminuten
60 Linien / 60 Winkelminuten

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2014
ISBN (PDF)
9783961161478
ISBN (Paperback)
9783961166473
Dateigröße
14.5 MB
Sprache
Deutsch
Institution / Hochschule
Technische Universität Berlin – Audiokommunikation
Erscheinungsdatum
2017 (August)
Note
2,0
Schlagworte
Audio Video Technik 3D Stereoskopie VR virtual reality
Zurück

Titel: Nachhallfreie Audioproduktion und stereoskopische Videoproduktion und Postproduktion eines Streichquartetts
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
book preview page numper 26
book preview page numper 27
128 Seiten
Cookie-Einstellungen