Lade Inhalt...

Reliabilität und Validität der Messung von beruflichem Status

Vergleich von offenen, geschlossenen und multiplen Messindikatoren

©2005 Diplomarbeit 156 Seiten

Zusammenfassung

Inhaltsangabe:Gang der Untersuchung:
In dieser Arbeit wird der zur Reliabilitätsbestimmung erforderliche Vergleich zweier Messungen anhand des multiplen Messformats verfolgt. Dabei werden die Messformate anhand innerhalb Deutschlands gängiger Skalen zur Messung des Berufes operationalisiert. Die Beurteilung der Messkriterien Validität und Reliabilität erfolgt dabei anhand von Strukturgleichungsmodellen. Diese ermöglichten es, explizite Annahmen über die Messung des sozio-ökonomischen Status zu formulieren.
Die Modelle basieren auf dem sehr gut untersuchten Statuserwerbsmodell von Blau & Duncan (1967), dass auch auf das Gebiet der Bundesrepublik Deutschland angewendet wurde. Die im Pfadmodell formulierten Kausalbeziehungen können als weitestgehend bestätigt gelten. Dies ermöglicht die Messformate hinsichtlich der erwarteten Zusammenhänge auf Messgenauigkeit und Gültigkeit zu untersuchen.
In einem weiteren Schritt wurde die Veränderung der Zusammenhänge untersucht, den die Schätzung des beruflichen Status mit Hilfe multipler Indikatoren bewirkt. Somit war es möglich festzustellen, ob das Modell über eine höhere Erklärungskraft im multiplen Fall verfügt, oder ob eine Schätzung auf Basis eines Messindikators ausreichend ist. Zusätzlich wurde untersucht, ob Effekte aufgrund von Geschlecht und Alter des Befragten die Zusammenhänge innerhalb der Strukturgleichungsmodelle beeinflussen.
Die zentralen Forschungsfragen dieser Arbeit waren demnach:
Wie hoch ist die Qualität der Indikatoren für den beruflichen Status insgesamt?
Wie reliabel und valide sind die Messformate, wenn man sie miteinander vergleicht?
Ist es sinnvoll den beruflichen Status anhand mehrerer Indikatoren zu bestimmen?
Die vorliegende Arbeit ist in fünf Teile gegliedert. Das zweite Kapitel befasst sich mit den messtheoretischen Grundlagen, die für diese Arbeit benötigt werden. Es wird zunächst bestimmt was unter dem Vorgang des „Messens“ verstanden werden soll. Des weiteren werden Kriterien vorgestellt mit deren Hilfe beurteilt werden kann, wie gut ein Messinstrument ein bestimmtes Phänomen misst. Es handelt sich dabei um die Gütekriterien Reliabilität und Validität. Neben der theoretischen Darstellung der Kriterien werden verschiedene Methoden zur empirischen Bestimmung der Kriterien besprochen.
Das Konzept des sozio-ökonomischen Status soll in dieser Arbeit anhand zweier Indikatoren gemessen werden. Um eine Vorstellung zu bekommen, was genau gemessen werden soll, widmet sich das […]

Leseprobe

Inhaltsverzeichnis


ID 8781
Schmider, Marco: Reliabilität und Validität der Messung von beruflichem Status -
Vergleich von offenen, geschlossenen und multiplen Messindikatoren
Hamburg: Diplomica GmbH, 2005
Zugl.: Universität Mannheim, Diplomarbeit, 2005
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2005
Printed in Germany

Kapitel 1: Einleitung
... 7
Kapitel 2: Messtheoretische Grundlagen
... 11
2.1 Einleitung ... 11
2.2. Messtheoretische Ansätze ... 11
2.2.1. Die Direkte Messung... 11
2.2.2 Die Latent-Trait-Theorie ... 13
2.2.3 Klassische Testtheorie (KTT) ... 14
2.2.3.1 Klassische ,,wahre Werte" und platonische ,,wahre Werte" ... 16
2.2.4 Die Messfehler ­ Testtheorie ... 17
2.2.4.1 Die Reliabilität einer Messung... 17
2.2.4.2 Auswirkungen fehlender Reliabilität ... 19
2.2.4.3 Empirische Bestimmung der Reliabilität ... 21
2.2.4.4 Arten der Reliabilitätsschätzung: ... 23
2.2.4.4.1 Die Test-Retest-Methode: Reliabilität als Stabilität zweier Messungen... 23
2.2.4.4.2 Die Alternatitive-Form Methode: Reliabilität als die Äquivalenz und
Stabilität alternativer Testausführungen... 25
2.2.4.4.3 Split-Half-Verfahren: Reliabilität als die Äquivalenz von Testhälften... 26
2.2.4.4.4 Interne-Konsistenz-Methode: Reliabilität als interne Konsistenz... 27
2.2.4.5 Die Validität ... 29
2.2.4.5.1 Zufälliger und Systematischer Messfehler... 29
2.2.4.5.2 Zusammenhang zwischen Reliabilität und Validität... 30
2.2.4.5.3 Arten der Validitätsschätzung ... 32
2.2.4.5.3.1 Kriteriumsvalidität ... 32
2.2.4.5.3.2 Inhaltsvalidität... 34
2.2.4.5.3.3 Konstruktvalidität... 34
2.2.5 Die Test-Retest-Studie zum ALLBUS 1984... 38
2.2.5.1 Ergebnisse der Test-Retest-Studie ... 39
2.3 Zusammenfassung... 40
2

Kapitel 3: Berufsklassifikationen
... 41
3.1.Einleitung ... 41
3.2 Status ­ sozialer Status ­ sozio-ökonomischer Status ... 42
3.3 Die Klassifikation von Berufen ... 45
3.3.1 Klassifikation nach beruflichen Tätigkeiten ... 46
3.3.1.1 International Standard Classification of Occupations (ISCO-88)... 46
3.3.1.1.1 Hintergrund und Struktur ... 46
3.3.1.1.2 Zusammenfassung... 48
3.3.1.2 Internationale Berufsprestige-Skala von Treiman (SIOPS) ... 49
3.3.1.3 Die internationale Skala des sozio-ökonomischen Status von Ganzeboom et al.
(ISEI)... 50
3.3.1.4 Die Magnitude-Prestigeskala (MPS) von Wegener ... 51
3.3.4.1 Magnitude-Skalierung... 52
3.3.4.2 Vor- und Nachteile der MPS... 53
3.3.2 Klassifikation nach beruflichen Stellungen... 54
3.3.2.1 Tegtmeyers Skala des sozio-ökonomischen Status (TSES)... 54
3.3.2.2 Tegtmeyers Skala des Berufsprestiges (TGP)... 55
3.3.2.3ndls Skala des sozio-ökonomischen Status (HSES)... 56
3.3.2.4 Mayers Berufsprestigeskala (MBP) ... 57
3.4 Zusammenfassung... 58
Kapitel 4 : Das multiple Messformat zur Messung von Berufen...
59
4.1 Offener und geschlossener Fragetypus ... 60
4.1.1 geschlossene Fragen... 60
4.1.2 Offene Fragen... 61
4.2 Die Umsetzung des offenen und geschlossenen Frageformats ... 62
4.3 Erwartungen über die Güte der Berufsindikatoren ... 63
3

Kapitel 5 Strukturgleichungsmodelle
... 67
5.1 Einführung... 67
5.2 Geschichte und Typologie von Strukturgleichungsmodellen... 67
5.2.1 Pfadanalyse... 68
5.2.2 Strukturgleichungsmodelle... 68
5.2.3 Allgemeine Schätzverfahren ... 70
5.3 Der Prozess des Statuserwerbs... 71
5.3.1 Das Grundmodell des Statuszuweisungsprozesses bei Blau & Duncan 1967 ... 71
5.3.2 Quantitativ-empirische Untersuchungen in der Bundesrepublik Deutschland ... 74
5.4 Vollständige Strukturgleichungsmodelle ... 75
5.4.1 Teile vollständiger Strukturgleichungsmodelle ... 75
5.4.1.1 Das Strukturmodell ... 76
5.4.1.2 Das Messmodell ... 80
Kapitel 6: Empirische Analysen ...
82
6.1 Datenbasis ... 82
6.1.1 Die Datenquellen... 82
6.1.2 Variablenauswahl ... 84
6.1.3 Variablenbildung und -transformation ... 85
6.1.3.1 Variablenbildung... 85
6.1.3.1.1 Einkommensvariable... 85
6.1.3.1.2 Bildungsvariablen... 86
6.1.3.1.3 Geschlechtsvariable... 86
6.1.3.1.4 Die Skalierung der Berufsvariablen ... 86
6.1.3.2 Die Güte der Indikatoren im zeitlichen Verlauf... 90
6.1.4 Datenanalyse ... 91
6.2. Die vollständigen Strukturgleichungsmodelle ... 93
6.2.1 Das Messmodell ... 93
6.2.2 Messmodelle für die Berufsprestigeindikatoren ... 93
6.2.3 Darstellung der vollständigen Modelle ... 95
4

6.2.4 Modellidentifikation und Modellparameter ... 97
6.2.4.1 Modellidentifikation... 97
6.2.4.2 Identifikation der Modelle... 99
6.2.5 Die Auswahl des Schätzverfahrens ... 101
6.2.6 Beurteilung der Schätzergebnisse ... 102
6.2.6.1 Modellanpassung ­ Gesamtstruktur der Strukturgleichungsmodelle... 102
6.2.6.2 Beurteilung der Teilstrukturen der Strukturgleichungsmodelle... 106
6.2.6.2.1 Beurteilung der Residuen ... 106
6.2.6.2.1 Beurteilung des Critical Ratio (C.R) ... 107
6.2.6.3 Zusammenfassung der Modellevaluation... 108
6.2.7 Korrelationsanalyse... 108
6.2.7.1 Zusammenfassung der Ergebnisse ... 112
6.2.8 Reliabilität der Indikatoren... 113
6.2.8.1 Arten äquivalenter Messungen... 114
6.2.8.2 Die Bestimmung der Reliabilität von Indikatoren . ... 117
6.2.8.3 Alternatives Schätzverfahren für die Reliabilität ... 118
6.2.8.4 Reliabilität der offenen und geschlossenen Berufsprestigeindikatoren ... 120
6.2.8.4.1 Reliabilitäten im Zeitraum 1982 bis 1999... 121
6.2.8.4.2 Entwicklung der Reliabilitäten ­ Vergleich der 1980er-Jahre mit den
1990er-Jahren ... 122
6.2.9 Die Validität von Indikatorvariablen... 123
6.2.9.1 Alternatives Schätzverfahren für die Validität... 125
6.2.9.1.1 Standardisierte bzw. unstandardisierte Pfadkoeffizienten ... 126
6.2.9.1.2 Validität der offenen und geschlossenen Berufsprestigeindikatoren ... 126
6.2.5.1.1 Validität der Indikatoren im gesamten Zeitraum ... 127
6.2.5.1.1 Die Entwicklung der standardisierten Validitätskoeffizienten im zeitlichen
Verlauf... 128
6.2.10 Stärke der reproduzierten Zusammenhänge zwischen offenem, geschlossenem
und multiplen Modell ... 128
6.2.10.1 Bildungs-, Berufsprestige- und Einkommenserwerbsmodelle für die Frauen
und Männer im Zeitraum 1982-1999 ... 129
6.2.10.2 Plausibilität der Strukturgleichungsmodelle ... 129
6.2.10.3 Strukturelle Beziehungen zwischen Bildung, Berufsprestige und Einkommen
... 133
5

6.2.10.4 Vergleich der Indikatorenmodelle... 134
6.2.10.5 Zusammenfassung... 135
6.2.11 Zusammenfassung... 136
Anhang ...
139
Literaturverzeichnis...
149
6

Kapitel 1: Einleitung
Seit dem Erscheinen der grundlegenden Studie von Blau und Duncan 1967 ist die Statuszu-
weisungsforschung ein Forschungsansatz mit dem Mobilitätsprozesse untersucht werden. In
diesem Forschungsprogramm wird untersucht, durch welche Prädiktoren die Platzierung von
Individuen auf einer abgestuften vertikalen Skala des sozio-ökonomischen Status oder sozia-
len Prestige am besten vorausgesagt werden können. Ein wichtiges Instrument der Statuser-
werbsforschung sind Berufsprestigeskalen auf denen die Individuen eingeordnet werden. Die
Einordnung auf solchen Skalen ist Produkt der Bewertung eines Berufes nach höher und tie-
fer, wichtiger und weniger wichtig, schwer und weniger schwer etc. Daraus ergibt sich eine
Wertschätzung, die in Relation zu den anderen Berufen als Prestige des Berufes bezeichnet
wird. Berufsprestigeskalen werden neben anderen individuellen Eigenschaften der befragten
Person, beispielsweise Herkunftsstatus, Ausbildungsniveau oder Aspiration, als Prädiktoren
in verschiedenen multivariaten Regressionsrechnungen (Pfadanalyse, Strukturgleichungsmo-
delle) angewendet. Im klassischen Statuszuweisungsmodell von Blau und Duncan (1967)
wird beispielsweise postuliert, dass die Bildung und das Berufsprestige des Vaters einen Ein-
fluss auf das Bildungsniveau einer Person haben. Das Bildungsniveau wiederum bestimmt
zusammen mit den beiden Herkunftsvariablen das Berufsprestige dieser Person. Untersu-
chungen über den Statuserwerbsprozess wurden auch in Deutschland im Laufe der 1970er-
Jahre von Müller 1972, 1975, Müller und Mayer 1976 durchgeführt.
In den letzten Jahren hat die Statuserwerbsforschung für die Schichtungsforschung an Be-
deutung verloren. Die Berufsprestigeskalen sind dagegen nach wie vor Bestandteil vieler na-
tionaler und internationaler Bevölkerungsumfragen wie beispielsweise ALLBUS oder ISSP.
Standardmäßig werden dort das Berufsprestige auf standardisierten Skalen, z.B. Treimann-
Skala, Magnitude-Prestige-Skala nach Wegener oder ISEI, erhoben. Trotz Erhebung und re-
gelmäßiger Verwendung solcher Berufsprestigeskalen in vielerlei empirischen Untersuchun-
gen wurde bislang wenig Augenmerk auf die Qualität, d.h. Reliabilität und Validität, dieses
Messinstrumentes gelegt.
Die bisher einzige Untersuchung zur Bestimmung der Güte von sozio-ökonomischen Variab-
len fand Anfang der 1980er-Jahre statt. Die Test-Retest-Studie zur Allgemeinen Bevölke-
rungsumfrage der Sozialwissenschaften (ALLBUS) 1984 untersuchte das Ausmaß, in dem
Befragungspersonen eine bestimmte Frage über mehrere Erhebungszeitpunkte hinweg konsi-
7

stent, also mit dem gleichen Response, beantworteten. Anhand der Messung der Stabilitäten
war es möglich, Aussagen über die Messgenauigkeit (Reliabilität) der Fragen zu erhalten.
In den meisten Fällen ist es nicht möglich aufwendige und teure Test-Retest-Verfahren zur
Reliabilitätsbestimmung eines Messinstrumentes durchzuführen. Wenn man nicht gänzlich
auf die Beurteilung der Messinstrumente verzichten will, dann stellt sich die Frage, nach wel-
chen Kriterien die Instrumente beurteilt werden und mit Hilfe welcher Methode die Kriterien
berechnet werden. In dieser Arbeit wird ein Verfahren zur Bestimmung der Güte, bzw. Qua-
lität, von Indikatoren des sozio-ökonomischen Status zu formuliert. Die in dieser Arbeit ver-
folgte Methode geht auf einen Konferenzbeitrag von Harry Ganzeboom und Jannes de Vries
aus dem Jahr 2004 zurück, der während der Tagung der ,,International Sociological Associa-
tion Research Committee on Social Stratification and Mobility (RC28)" in Neuchatel vorge-
stellt wurde.
1
Im Beitrag von Ganzeboom und de Vries (2004) ging es darum ein multiples Indikatorenmo-
dell für den beruflichen Status zu entwickeln und anhand von empirischen Daten zu überprü-
fen. Dabei wurde zwei Messformate, ein offenes und ein geschlossenes Indikatorenformat,
zur Messung des beruflichen Status vorgestellt. Das offene Indikatorenformat bezeichnet
dabei eine Berufsskala auf der von einem geschulten Interviewer die detaillierten Berufsbe-
schreibungen des Befragten klassifiziert werden. Demgegenüber steht das geschlossene Indi-
katorenformat, bei dem sich der Befragte auf einer Skala mit nur wenigen Kategorien selbst
klassifiziert. Eine solche multiple Operationalisierung des beruflichen Status ermöglicht es
Aussagen über die Reliabilität und Validität der einzelnen Indikatoren zu treffen, indem die
beiden Indikatoren in Bezug miteinander gesetzt werden. Ganzeboom und de Vries kamen
zum Ergebnis, dass das weniger detaillierte geschlossene Messformat zu reliableren Messun-
gen des beruflichen Status führt als das offene Messformat.
In dieser Arbeit wird der zur Reliabilitätsbestimmung erforderliche Vergleich zweier Mes-
sungen anhand des gerade beschriebenen multiplen Messformats verfolgt. Dabei werden die
Messformate anhand innerhalb Deutschlands gängiger Skalen zur Messung des Berufes ope-
rationalisiert. Die Beurteilung der Messkriterien Validität und Reliabilität erfolgt dabei an-
hand von Strukturgleichungsmodellen. Diese ermöglichten es, explizite Annahmen über die
Messung des sozio-ökonomischen Status zu formulieren. Die Modelle basieren auf dem sehr
1
Beitrag kann unter
http://www.sidos.ch/method/RC28/abstracts/Harry%20Ganzeboom.pdf
heruntergeladen
werden.
8

gut untersuchten Statuserwerbsmodell von Blau & Duncan (1967), dass wie schon erwähnt
auch auf das Gebiet der Bundesrepublik Deutschland angewendet wurde. Die im Pfadmodell
formulierten Kausalbeziehungen können als weitestgehend bestätigt gelten. Dies ermöglicht
die Messformate hinsichtlich der erwarteten Zusammenhänge auf Messgenauigkeit und Gül-
tigkeit zu untersuchen. In einem weiteren Schritt wurde die Veränderung der Zusammenhänge
untersucht, den die Schätzung des beruflichen Status mit Hilfe multipler Indikatoren bewirkt.
Somit war es möglich festzustellen, ob das Modell über eine höhere Erklärungskraft im mul-
tiplen Fall verfügt, oder ob eine Schätzung auf Basis eines Messindikators ausreichend ist.
Zusätzlich wurde untersucht, ob Effekte aufgrund von Geschlecht und Alter des Befragten
die Zusammenhänge innerhalb der Strukturgleichungsmodelle beeinflussen.
Die zentralen Forschungsfragen dieser Arbeit waren demnach:
Wie hoch ist die Qualität der Indikatoren für den beruflichen Status insgesamt
Wie reliabel und valide sind die Messformate, wenn man sie miteinander vergleicht?
Ist es sinnvoll den beruflichen Status anhand mehrerer Indikatoren zu bestimmen?
Die vorliegende Arbeit ist in fünf Teile gegliedert. Das zweite Kapitel befasst sich mit den
messtheoretischen Grundlagen, die für diese Arbeit benötigt werden. Es wird zunächst be-
stimmt was unter dem Vorgang des ,,Messens" verstanden werden soll. Des weiteren werden
Kriterien vorgestellt mit deren Hilfe beurteilt werden kann, wie gut ein Messinstrument ein
bestimmtes Phänomen misst. Es handelt sich dabei um die Gütekriterien Reliabilität und Va-
lidität. Neben der theoretischen Darstellung der Kriterien werden verschiedene Methoden zur
empirischen Bestimmung der Kriterien besprochen.
Das Konzept des sozio-ökonomischen Status soll in dieser Arbeit anhand zweier Indikatoren
gemessen werden. Um eine Vorstellung zu bekommen, was genau gemessen werden soll,
widmet sich das dritte Kapitel der Bestimmung des Konzepts. Nach der Begriffsbestimmung
werden Skalen dargestellt mit denen der berufliche Status einer Person gemessen werden
kann. Die Skalen lassen sich unterschieden, in solche die den Beruf nach Tätigkeitsbezeich-
nungen differenzieren und solchen, die nach sozialrechtlichen Positionen unterscheiden.
Im vierten Kapitel geht es um die Beschreibung von Messformaten, die das Konzept des so-
zio-ökonomischen Status auf unterschiedliche Weise messen. Mit den Indikatorenformaten
9

sind Vor- und Nachteile verbunden, die für das jeweilige Format beschrieben werden. Anhand
der Stärken und Schwächen der Indikatorenformate lassen sich Aussagen treffen, wie die reli-
abel und valide die Indikatoren den sozio-ökonomischen Status in den empirischen Analysen
messen.
Das fünfte Kapitel befasst sich mit dem statistischen Verfahren das in den empirischen Analy-
sen verwendet wird. Es wird ein allgemeiner Überblick über das Verfahren der Strukturglei-
chungsmodelle gegeben. Die Modelle anhand denen die Indikatoren geprüft werden, gehen
auf das Pfadmodell über den Prozess des Statuserwerbs von Blau & Duncan (1967) zurück.
Dieses Modell wird daher näher erläutert und anhand von Untersuchungen aus den 1970er-
Jahren auf das Gebiet der alten Bundesrepublik Deutschland übertragen. Dazu werden die
Ergebnisse der Untersuchungen von Müller 1975 und Handl 1977 vorgestellt. Im empirischen
Teil werden die Ergebnisse wieder aufgegriffen, um sie auf Übereinstimmung mit den Ergeb-
nissen dieser Arbeit zu überprüfen. Weiterhin wird das Strukturmodell anhand von Hypothe-
sen, die aus den Statusmodellen von Blau/Duncan abgeleitet wurden, in leicht modifizierter
Form dargestellt.
Das letzte Kapitel dieser Arbeit befasst sich mit der empirischen Untersuchung. Es werden die
Datenbasis, die verwendeten Variablen und deren Transformationen erläutert. Danach werden
die Messmodelle der Strukturgleichungsmodelle spezifiziert und in vollständige Strukturglei-
chungsmodelle überführt. Im Analysesteil werden zunächst die Strukturen der Modelle be-
wertet. Anhand von einfachen Korrelationsanalysen wird festgestellt, ob der theoretisch ange-
nommene Zusammenhang auch empirisch nachweisbar ist. Die Indikatoren werden nach dem
Grad an Übereinstimmung untereinander wie auch hinsichtlich der zentralen anderen Modell-
variablen untersucht. Abschließend werden die Ergebnisse der Reliabilitäts- und Validitätss-
chätzungen der Berufsprestigeindikatoren dargelegt. Die Schlussdiskussion versucht die Er-
gebnisse zusammenzufassen und in bezug zu den anderen empirischen Untersuchungen zu
setzen.
10

Kapitel 2: Messtheoretische Grundlagen
2.1 Einleitung
In der folgenden Arbeit sollen Indikatoren zur Messung des beruflichen Status von Befragten
nach deren Güte beurteilt werden. Soll die Bewertung der Leistungsfähigkeit dieses Instru-
mentes nicht willkürlich sein, so muss auch diese Beurteilung in einen theoretischen Rahmen
eingebettet werden. Gegenstand einer solchen Theorie ist das Beziehungsverhältnis zwischen
dem subjektiven, nicht beobachtbaren Phänomen, das gemessen werden soll, und den beob-
achtbaren Reaktionen. Die Theorie definiert die Regel, die bestimmt, wie von den Reaktionen
auf das latente Konstrukt geschlossen werden soll. Der Messvorgang beinhaltet somit ein zu-
fälliges, dem Geschmack des Forschers überlassenes, Moment, d.h. es könnten auch andere
Regeln gewählt werden. Aus diesem Grund ist es notwendig, die für diese Arbeit in Frage
kommenden Ansätze zu explizieren und den für diese Arbeit relevanten Ansatz anzugeben.
Von den in Frage kommenden Messansätzen, sollen im Folgenden drei vorgestellt werden.
Anhand der drei Ansätze soll verdeutlicht werden, dass verschiedene Zuweisungsregeln exis-
tieren und welcher der Ansätze für diese Arbeit verwendet wird. Bei den vorgestellten Para-
digmen handelt es sich um die ,,Messtheorie der direkten Urteilstheorie", der ,,Theorie der
Latent-Trait-Messung" und der ,,Messfehler-Testtheorie".
2.2. Messtheoretische Ansätze
2.2.1. Die Direkte Messung
Die Wertung oder Antwort, die ein Befragter während eines Experimentes oder Umfrage gibt,
muss nicht zwangsläufig mit der ,,wahren" Einstellung des Befragten übereinstimmen. Die
Einstellung kennt nur derjenige, der sie hat. Der Befragte ist somit die zentrale Skalierungsin-
stanz. Dies ist ausschließlich dann der Fall, wenn der Befragte seine Empfindungen oder Ein-
stellungen selbst metrisch umsetzen kann und wenn bei dem Resultat nicht die Notwendigkeit
einer rechnerischen Weiterverarbeitung besteht, weil die Angaben, die der Befragte gemacht
hat selbst informative Skalenwerte sind. Unabhängig vom Skalierungsprozess stellt sich dem
Forscher die Frage, welche Bedeutung er den gegebenen Antworten zubilligt. Er könnte bei-
spielsweise der Meinung sein, dass alle Antworten, die von einem Befragten abgegeben wer-
11

den, prinzipiell mit einem Fehler behaftet sind (Annahme der Messfehler-Testtheorie). Dieses
Misstrauen führt den Forscher dazu, die gegebenen Antworten nachträglich von dem erwar-
teten Fehler zu bereinigen. Es kann aber auch sein, dass die Berichte der Befragten in einen
Bezug gestellt werden, der die Gesamtheit einer möglichen Befragtenpopulation involviert
und Schlüsse von Häufigkeitsverteilungen von Antwortmustern auf die Verteilung von Ein-
stellungswerten zulässt (Latent-Trait-Messung ).
Bei der direkten Messung wird den Berichten des Befragten eine besonders hohe und ver-
wertbare Qualität zuerkannt. Die Antworten des Befragten sind innerhalb dieses Messansatzes
immer ,, richtig" und ,,bedeutungsvoll".
Ein Beispiel für ein direktes Skalierungsverfahren ist die ,,Magnitude-Messung". Der
Befragte übernimmt bei diesem Verfahren die alleinige Initiative bei der Skalierung und stellt
anhand von Instruktionen eine Zuordnung von Messwerten zu Objekten her. Es werden dem
Befragten nicht wie bei anderen Verfahren Antwortmöglichkeiten vorgegeben, sondern er
wird aufgefordert, in bezug auf eine Reizserie implizite Verhältnisurteile abzugeben
(Wegener, 1980). Im Bereich der Einstellungsmessung werden vor allem zwei Möglichkeiten
zur Angabe eines Verhältnisses (Reaktionsmodalitäten) angewendet: Zahlenangaben und das
Zeichnen von Linien. Bei der Angabe von Zahlen wird der Befragte gebeten, eine Zahl zu
nennen, deren Höhe die Empfindungsstärke im Vergleich zu einer Vergleichzahl ausdrückt.
Bei der Messung durch Linienzeichnen werden die Befragten gebeten, eine Linie zu zeichnen,
deren Länge der Empfindungsintensität im Vergleich zu einer Vergleichslinie entsprechen
soll. Die Skalenwerte aus den Messungen ergeben sich aus dem Mittelwert der Quotienten
zwischen dem vom Befragten abgegebenen Zahlen-/Linienwert und deren Vergleichswerte (-
linie).
Das Magnitude-Skalierungsverfahren wird nicht nur im Bereich der Einstellungsmessung
verwendet, sondern ist Grundlage für die Konstruktion von anderen sozialwissenschaftlichen
Skalen. So hatWegener (1985) die Magnitude-Skalierung für die Konstruktion einer Berufs-
prestigeskala eingesetzt und Opp u.a. (1984) verwendete die Magnitude-Messungen für er-
wartete Sanktionsstärken. Die von Wegener vorgeschlagene Berufsprestigeskala wird im
weiteren Verlauf dieser Arbeit näher erläutert.
12

2.2.2 Die Latent-Trait-Theorie
Im Gegensatz zur direkten Messung wird beim Latent-Trait-Ansatz die Metrisierungsleistung
nicht auf den Befragten übertragen, sondern die Befragtenreaktionen werden ,,indirekt" auf
die Skalenwerte übertragen. Die Datenbasis für solche Werte sind dichotome Urteile der Be-
fragten, d.h. dem Befragten werden dichotome Urteilsmöglichkeiten vorgegeben (,,Ja" oder
,,Nein"; ,,Stimme zu" oder ,,Stimme nicht zu"), zwischen denen er wählen kann. Aufgabe der
Latent-Trait-Messung ist die Konstruktion einer Skala subjektiver Werte auf Grundlage der
angesprochenen Urteile.
Um den dichotomen Befragtenurteilen Skalenwerte zuteilen zu können, macht die Latent-
Trait-Theorie drei Annahmen:
1. Das dichotome und diskrete Antwortverhalten eines Befragten hat seine Ursache in
den Ausprägungen auf einer und nur einer kontinuierlichen latenten Variable.
2. Die kausale Wirkung ist zufallsabhängig, bzw. nicht deterministisch.
3. Null- bzw. Eins-Antworten können in einer Erhebungsstichprobe durch
Häufigkeitsverteilungen angegeben werden.
Die genannten Modellforderungen bestimmen die Gleichung der Latent-Trait-Theorie als:
ij
i
j
p k
f
wobei:
ij
p k
die Wahrscheinlichkeit ist, dass der Befragte j ( j=1,..., m) bezüglich des Items
i positiv (
) oder negativ (
1
ij
k
0
ij
k
) antwortet
j
entspricht der Ausprägung auf der latenten Dimension
Die Gleichung wird auch als ,,Item-Charakteristik-Kurve" bezeichnet bei der die Funktionen
i
f so gewählt werden, dass diese für beliebige Items i (i=1,..., n) eines Tests simultan lösbar
sind.
Ist die Funktion bestimmt, so können die Skalenwerte
j
für individuelle Befragte j bestimmt
werden. Skalenwerte werden demnach dadurch erhalten, dass nicht Einzelindividuen be-
13

trachtet werden, sondern eine Population von Befragten. Oder anders ausgedrückt, nicht der
einzelne Befragte ist die Skalierungsinstanz, sondern die Gesamtheit der Befragten. Auf Basis
der dichotomen Antworten der einzelnen Befragten entsteht auf der kollektiven Ebene die
Skala.
Für eine Schätzung der obigen Funktion legt die Latent-Trait-Theorie in der Regel eine logis-
tische oder normalogive Wahrscheinlichkeitsverteilung zugrunde. Ein Beispiel für eine Skala
auf Basis der Normalogiven-Funktion ist die Thurstone-Skala.
2.2.3 Klassische Testtheorie (KTT)
Bei der klassischen Testtheorie wie sie von Autoren wie Lord & Novik (1968) vertreten wird,
handelt es sich um ein Model, dass es ermöglicht, Messfehler zu bestimmen und zu beschrei-
ben. Die klassische Testtheorie geht vom Vorhandensein von Zufallsfehlern in jeglicher Art
von Messung aus. Das bedeutet, dass es trotz erheblicher Anstrengungen und raffiniertester
Techniken nicht möglich sein wird, zufällige Messfehler zu vermeiden. Beispielsweise führt
eine Geschwindigkeitsmessung mit Hilfe des Radars zwar zu einer recht exakten Angabe der
Geschwindigkeit eines Objekts, die Messung kann allerdings nicht als perfekt angesehen wer-
den, da Schwankungen der Radarmechanik, Umwelteinflüsse oder Bedienungsfehler nicht
ausgeschlossen werden können. Die Verabschiedung von der Vorstellung einer ,,perfekten
Messung", d.h. einer exakten und fehlerfreien Messung, führte zur Formulierung von Axio-
men über die Eigenschaften von Messfehlern.
Grundmodell der klassischen Testtheorie nimmt an, dass ein realisierter Messwert (X) aus der
Summe eines ,,wahren Wertes" (t) und eines Zufallsfehlers ( ) besteht, der die Messung be-
einflusst:
X = t + i
Messfehler sind nach dieser Gleichung Differenzen zwischen ,,wahren" Werten und beo-
bachteten Werten und können somit für jede Messung angegeben werden. Der ,,wahre" Wert
einer Messung existiert für eine Messung nur theoretisch und ist nicht beobachtbar. Er kann
nur angegeben werden, indem man den Mittelwert aus unendlich vielen unabhängigen Mes-
sungen desselben Objektes bildet. Dieser Vorstellung unterliegt, dass sich die zufälligen Stö-
rungen einer Messung symmetrisch um den ,,wahren" Wert verteilen. Das heißt, dass bei
14

einer Messung der wahre Wert unterschätzt wird, bei einer anderen Messung dagegen
überschätzt wird, in der Summe sich aber alle Zufallstörungen gegenseitig aufheben:
1. E( ) = 0. Der Mittelwert der Messfehler ist Null.
Wäre dies nicht der Fall, so entspräche der Mittelwert der Messung nicht dem Wert
einer korrekten Messung. Würde beispielsweise das Radargerät dauerhaft hohe Ge-
schwindigkeiten überschätzen, so wäre auch der Mittelwert der Messfehler ungleich
Null.
Im weiteren umfasst die klassische Testtheorie drei weitere Axiome:
2.
(
t,
) = 0.
Die Korrelation zwischen ,,wahren" Wert und Fehlerwert ist gleich Null, d.h. die
Größe des Messfehlers darf nicht vom ,,wahren" Wert abhängig sein. Für unser Radar-
gerät würde dies bedeuten, je höher die Geschwindigkeit des Fahrzeugs ist, desto grö-
ßer ist auch die Überschätzung der Geschwindigkeit.
2
3.
(
t
1
,
2
) = 0.
Der Messfehler einer Messung korreliert nicht mit dem ,,wahren" Wert einer anderen
Messung. Die Größe der Überschätzung der Geschwindigkeit durch das Radargerät
darf somit nicht mit der tatsächlichen Höchstgeschwindigkeit korreliert sein, die das
gemessene Fahrzeug erreichen kann.
4.
(
1
,
2
) = 0.
Der Fehlerwert einer Messung ist nicht mit dem Fehler einer anderen Messung korre-
liert. Wenn das Radargerät zufällig die Geschwindigkeit überschätzt, so sollte dieser
Zufallsfehler nicht mit dem Wagentyp korreliert sein. (Beispielsweise wird die Ge-
schwindigkeit von Automobilen der Marke Daimler-Chrysler vom Radargerät immer
höher gemessen als von Automobilen anderer Hersteller).
Aus oben genannten Axiomen lässt sich eine Anzahl von Aussagen über Messgenauigkeit
usw. ableiten.
2
In der Realität stimmt dies auch. Für unsere Axiome der Messtheorie lassen wir den Idealfall gelten.
15

2.2.3.1 Klassische ,,wahre Werte" und platonische ,,wahre Werte"
Die Sichtweise der klassischen Testtheorie des ,,wahren" Wertes ist nicht die einzige Inter-
pretationsmöglichkeit dieses Begriffs. Sutcliff (1965) stellte dieser Interpretation die platoni-
sche Interpretation ,,wahren" Werte gegenüber.
Die platonische Interpretation geht davon aus, dass der ,,wahre" Wert fehlerbehaftet sein
kann. Somit sind verzerrte (biased) Messungen der interessierenden Variable ti möglich. Dar-
aus folgt, dass nicht ti sondern ti* die platonische Zufallsvariable der ,,wahren" Werte ist.
Daher ist der Erwartungswert von Xi ungleich dem wahren Wert ti, bzw. E( ) 0 ist.
Weiterhin gilt:
COV(ti*; ) = COV(ti*; ti*- Xi) = VAR(ti*) - COV(ti*; Xi),
d.h. dass Fehler und ,,wahre" Werte korreliert sind. Zusätzlich ist die Varianz der ,,wahren
Werte" verzerrt:
VAR(Xi) = VAR(ti*) + VAR( i) + 2 COV(ti*; ti*- i).
In diese Arbeit sollen die ,,wahren" Werte im Sinne der klassischen Testtheorie interpretiert
werden. Dies ist keine Frage des Geschmacks des Autors, sondern eine Tatsache, die uns der
Gegenstand sozialwissenschaftlicher Forschung aufzwingt. Die meisten Phänomene, die uns
interessieren entziehen sich im Gegensatz zu physikalischen Gegebenheiten oder beobachtba-
rem Verhalten der Möglichkeit direkter Verifikation. Die klassische Testtheorie liefert uns
eine operationale Definition der ,,wahren" Werte, indem sie annimmt, dass der ,,wahre" Wert
als Erwartungswert bestimmt wird. Auf Basis der bereits vorgestellten Axiome lassen sich
damit die Ausprägungen von ti herstellen.
Die platonische Interpretationsweise setzt im Gegensatz dazu voraus, dass der ,,wahre" Wert
einer Variablen verifizierbar ist. Dies ist eine aus den gerade genannten Gründen eine nicht
akzeptierbare Annahme.
Mit der Akzeptanz der Annahmen der Klassischen Testtheorie sollte uns aber bewusst sein,
dass diese Operationalisierung weitreichende Konsequenzen mit sich bringt. Wir akzeptieren
16

mit der klassischen Testtheorie stillschweigend die Möglichkeit, dass unsere ,,wahren" Werte
systematisch mit einem Fehler konfundiert sind.
Im nächsten Abschnitt geht es um die Bestimmung der Gültigkeit und Richtigkeit der Werte,
die aus einer empirischen Messung resultieren. Es werden dazu zwei Maße zur Bestimmung
der Güte von Messungen eingeführt: die Reliabilität und Validität.
2.2.4 Die Messfehler ­ Testtheorie
2.2.4.1 Die Reliabilität einer Messung
Aus den im vorherigen Abschnitt vorgestellten Axiomen der Klassischen Testtheorie lassen
sich Gütekriterien für eine Messung erstellen. Zunächst wollen wir uns mit dem Kriterium
der Reliabilität näher befassen. Es soll zunächst der Begriff definiert werden, dann die Her-
leitung der Reliabilität aus den Axiomen der Testtheorie, sowie auf Probleme eingegangen
werden , die durch fehlende Reliabilität entstehen.
Wenn wir davon sprechen, dass ein Messinstrument reliabel ist, so meinen wir, dass das
Messinstrument in wiederholten Messungen eines Phänomens, die gleichen Ergebnisse liefert.
Hohe Reliabilität bedeutet eine hohe tendenzielle Übereinstimmung der Messergebnisse oder
auch geringe Varianz der Messwerte über eine unbestimmte Anzahl an Messwiederholungen
hinweg.
Das Kriterium der Reliabilität leitet sich aus den Grundannahmen der klassischen Testtheorie
ab. Der in einer Messung beobachtete Wert setzt sich aus einem unbeobachteten ,,wahren"
Wert und einem Zufallsfehler zusammen:
E(X) = E(t) + E( )
Unter Annahme unendlicher Wiederholungsmessungen entspricht der erwartete Messwert
dem ,,wahren" Wert. Axiom 1 besagt, dass E( ) = 0. Deshalb folgt aus obiger Gleichung:
E(X) = E(t)
Diese bezieht sich allerdings auf Wiederholungsmessungen einer einzelnen Variable für eine
einzige Person. Normalerweise aber interessieren in den Sozialwissenschaften Wiederho-
17

lungsmessungen von Merkmalen, die in einer bestimmten Gruppe verteilt sind. Dies erfordert
die Umformulierung der Ausgangsgleichung in die Varianzschreibweise:
VAR(X) = VAR(t + ) = VAR(t) + 2 COV(t, ) + VAR( )
Axiom 2 besagt, dass die Korrelation und Kovarianz zwischen ,,wahrem" Wert und Fehler-
wert Null ist. Daraus ergibt sich:
VAR (X) = VAR(t) + VAR( )
Die Summe der Varianz der wahren Werte und der Fehlervarianz ergibt die Varianz der beo-
bachteten Messwerte. Die Reliabilität ist das Verhältnis der ,,wahren" Werte zu den beobach-
teten Werten:
x
= VAR(t) / VAR(X)
oder in Schreibweise der Fehlervarianz :
x
= 1 ­ [VAR( ) / VAR(X)]
3
Aus letzter Gleichung ergibt sich, dass die Reliabilität
x
zwischen 0 und 1 liegt. Sie ist Null,
wenn die erhaltenen Messwerte allein auf Zufallsfehler zurückzuführen sind: 1 ­ (1/1) = 0
Die Reliabilität ist 1, wenn kein Zufallsfehler die Messung eines Phänomens beeinflusst:
1 ­ (0/1) = 1. Eine weitere Schlussfolgerung lässt sich aus obigen Gleichungen ableiten.
Wenn uns die Reliabilität eines Messinstruments bekannt ist, so können wir anhand der beo-
bachteten Varianz die unbeobachtete Varianz der wahren Werte eines Phänomens errechnen:
VAR(t) = VAR(X) *
x
3
da
x = VAR(t) / VAR(X) = [VAR(X) - VAR( )]/ VAR(X) = x = 1 ­ [VAR( ) / VAR(X)]
3
18

2.2.4.2 Auswirkungen fehlender Reliabilität
Nach der Klärung des Begriffs Reliabilität gilt es festzustellen, welche Auswirkungen feh-
lende Reliabilität haben kann. Wir wissen bereits, dass es trotz noch so reliablen Messinstru-
menten keine perfekten Messungen geben kann. Deshalb gibt es auch keine perfekten oder
perfekt reliablen Messinstrumente. Wir müssen immer ein gewisses Maß an Unreliabilität
akzeptieren. Das Wissen um nicht-perfekt reliable Messungen stellt uns vor die Frage, ob der
Mangel an Reliabiliät nicht Konsequenzen für die weitere Datenanalyse hat. Ein wichtiger
Teil solcher Analysen sind statistische Verfahren wie sie in dieser Arbeit angewendet werden.
Somit ist es wichtig zu wissen, ob statistische Maßzahlen, wie beispielsweise Mittelwerte,
Kovarianzen, Korrelationskoeffizienten oder Regressionskoeffizienten durch die Größe des
Zufallsfehlers beeinflusst werden.
Wenn wir uns zunächst mit den Mittelwerten beschäftigen, so zeigt sich, dass solange die
Fehlereinflüsse zufällig sind und E(E) = 0, die Mittelwerte der beobachteten Werte aus X und
den ,,wahren" Werten aus t gleich sind.
4
Somit führen auch Fehler auf dem Individualniveau nicht zu verzerrten Ergebnissen auf dem
Aggregationsniveau.
Ein ähnliches Bild zeigt sich bei den Kovarianzen. Die Kovarianzen zweier Variablen X und
Y werden nicht durch fehlende Reliabilität bzw. durch die Größe des Zufallsfehlers beein-
flusst. Da laut Axiom der klassischen Testtheorie gilt, dass die ,,wahren" Werte einer Zufalls-
variablen nicht mit den Zufallsfehler einer anderen Zufallsvariablen korreliert sind, lässt sich
zeigen, dass
;
(
)
,
x
y
COV T T
COV X Y
5
Die Kovarianz der wahren Werte lässt sich daher als die Kovarianz der beobachteten Werte
darstellen. Somit wird die Schätzung nicht durch das Ausmaß an Zufallsfehler beeinflusst.
Für die entsprechenden Korrelationen zweier Maße zeigt sich, dass die Größe des zufälligen
Fehlers die Korrelation beeinflusst. Aus der Korrelationsformel
)
var(
)
var(
)
cov(
y
x
y
x
t
t
t
t
t
t
y
x
lässt
sich
der Zusammenhang
Y
X
XY
t
t
y
x
ableiten.
4
Aus der Grundannahme der klassischen Testtheorie ableitbar: x= E(X) = E(t) = t
5
mathematische Beweise siehe Wegener,B. (1983), S.44ff.
19

Inhaltlich bedeutet diese Ableitung, dass sich die Korrelation zwischen den ,,wahren" Werten
zweier Messinstrumente der Korrelation zwischen den beobachteten Werten in dem Maße
annähert, in dem die Reliabilitäten der Messinstrumente sich dem Wert 1 nähern. Anders aus-
gedrückt, sind die Reliabilitäten kleiner als 1, so vermindert sich die geschätzte Korrelation
der wahren Werte. Die letzte Gleichung wird auch als ,,Minderungsformel" (oder ,,Attenuati-
ons-Formel") bezeichnet. Sie gibt das Ausmaß an, in dem die Korrelation der wahren Werte
zweier Tests durch Messfehler in den beobachteten Variablen verringert wird. (Lord & No-
vick, 1974: 69-74).
In Bezug auf Regressionskoeffizienten zeigt sich, dass auch hier fehlende Reliabilität diese
Koeffizienten beeinflusst. Allerdings muss hier zwischen unabhängiger und abhängiger Vari-
able unterschieden werden. Im Gegensatz zur Reliabilität der abhängigen Variablen beein-
flusst nur die Reliabilität der unabhängigen Variablen die Höhe des Regressionskoeffizienten.
Es lässt sich anhand einer bivariaten Regression der unabhängigen Variable X auf die abhän-
gige Variable Y zeigen, dass für die ,,wahren" Werte tx auf ty der -Koeffizient den Wert,
txty = xy/ x, hat. Für den Y-Achsenabschnitt hat den Wert:
txty = y ­ ( xy/ x)* x. An beiden Parametern der bivariaten Regression sieht man, dass
diese von den Messfehlern in der abhängigen Variable Y beeinflusst werden. Außerdem sieht
man, dass der Regressionskoeffizient der beobachteten Werte immer kleiner ist als der Reg-
ressionskoeffizient, der sich in bezug auf die ,,wahren" Werte ergibt. (es sei denn, die Relia-
bilität der unabhängigen Variable ist 1).
Auch bei der multiplen Regression werden die Partialkorrelationen durch fehlende Reliabilität
beeinflusst. Allerdings lässt sich die Richtung der Beeinflussung weniger genau angeben wie
im bivariaten Fall. In der Regel ist es so, dass die Partialkorrelationen zwischen den wahren
Werten von Messungen größer sind als die entsprechenden Korrelationen zwischen den beo-
bachteten Werten. Allerdings gibt es Ausnahmen für bestimmte Werte, bei denen die Partial-
korrelationen der wahren Werte kleiner sind als die entsprechenden Korrelationen der beo-
bachteten Werte., d.h. dass sie zu einer Vergrößerung der Korrelation führen. ( vgl.
Bohrnstedt, 1983).
Zusammenfassend lässt sich also sagen, dass zwar die Mittelwerte und Kovarianzen nicht von
der Höhe der Reliabilität des Messinstrumentes abhängig sind. Die Regressionskoeffizienten
und Korrelationen dagegen durch unreliable Messinstrumente beeinflusst werden und somit
zu ungenauen Ergebnissen der statistischen Verfahren führen können. Es zeigt sich auch hier,
dass die Bewertung der Güte von Messinstrumenten ein nicht zu vernachlässigender Teil der
20

Wissenschaftlichen Methodik ist und deren Vernachlässigung zu Verzerrungen der statisti-
schen Ergebnisse führen kann.
2.2.4.3 Empirische Bestimmung der Reliabilität
Im vorangegangenen Abschnitt wurde gezeigt, wie sich Reliabilität in Form von Varianzen
wahrer Werte und Fehlerwerte darstellen lässt. Wie aber lässt sich die Reliabilität eines
Messinstrumentes schätzen.
Die Abschätzung der Messfehler kann auf direktem Weg nur erreicht werden, wenn die Mög-
lichkeit vergleichbarer Messungen ein und derselben Eigenschaft T gegeben ist. Das heißt wir
können die Reliabilität dann angeben, wenn es uns gelingt zwei äquivalente Messungen zu
erzeugen. Wegener (1983, S.49-50) gibt unter Vorraussetzung linear experimenteller Unab-
hängigkeit
6
zweier Tests fünf Formen äquivalenter Messungen an. Er unterscheidet zwischen
Replikationen, parallelen Tests, -äquivalenten Tests, essentiell -äquivalenten Tests und
kongenerischen Test. Diese Arten äquivalenter Messungen unterscheiden sich im Ausmaß
oder der Strenge der Äquivalenzforderung. Es muss allerdings angemerkt werden, dass die
Bestimmung eines Reliabilitätswertes letztendlich abhängig ist von den experimentellen
Randbedingungen und variablen Annahmen. Es ist somit nicht haltbar, dass von der empiri-
schen Reliabilität des Messinstrumentes gesprochen werden kann, sondern nur von einem
Wert, der sich für diesen Typus von Reliabilität ergibt. Die Mehrdeutigkeit für die Reliabilität
hängt von den genannten Äquivalenzdefinitionen ab. In diesem Kapitel der Arbeit ist die pa-
rallele Messung von Bedeutung, da sie es erlaubt die Reliabilität eines Messinstruments rela-
tiv einfach zu operationalisieren. In späterem Verlauf dieser Arbeit wird sich zeigen, dass sich
die Annahmen der klassischen Testtheorie zu parallelen Messungen nicht aufrechterhalten
lassen. Im Kapitel über die Schätzung der Reliabilität innerhalb Strukturgleichungsmodellen
werden die anderen Arten äquivalenter Messungen näher besprochen. Für dieses Kapitel ent-
spricht eine äquivalente Messung den Annahmen paralleler Tests und erfüllt somit die Krite-
rien der klassischen Testtheorie zur Berechnung der Reliabilität. Die Reliabilität kann be-
stimmt werden, indem zwei parallele Messungen miteinander korreliert werden. Um parallele
Messungen handelt es sich dann, wenn zwei Messinstrumente identische wahre Werte auf-
weisen und die gleichen Varianzen haben. In Gleichungen ausgedrückt bedeutet das:
66
Lord & Novick (1974: 44-46) führen noch eine weitere (strengere) Form der Messunabhängigkeit ein, die der
experimentellen Unabhängigkeit.
21

X
X
sind dann parallel, wenn bei X
t
und X
t
gilt, dass
2
2
und t
t .
Inhaltlich heißt das, dass beide Messungen sich zwar unterscheiden, dass die Messungen sich
allerdings in zentralen Aspekten ähneln und vergleichbar sind. Sie unterscheiden sich dem-
nach nur hinsichtlich zufälliger Schwankungen, da die ,,wahren" Werte als gleich angenom-
men werden und die Differenzen allein auf Zufallsfehler bei der Messung zurückgeführt wer-
den können.
Die Korrelation zwischen parallelen Messungen kann durch Fehler-, Beobachtungs- und
wahre Werte ausgedrückt werden:
2
2
(
)
(
)
t
t
t
t
t
xx
xx
x
x
x
x
x
x
Aus den Annahmen der Klassischen Testtheorie, dass wahre Werte und Fehler nicht mitein-
ander korreliert sind, und der Annahme von Parallelmessungen, dass beide Messungen identi-
sche Varianzen haben (und somit natürlich auch gleiche Standardabweichungen), reduziert
sich die Gleichung auf:
2
2
xx
t
X
Somit entspricht die Korrelation zweier paralleler Messungen der Varianz der ,,wahren"
Werte dividiert durch die Varianz der beobachteten Werte. Es zeigt sich, dass die Varianz der
unbeobachteten ,,wahre" Werte
xx
und
2
X
errechnet werden kann:
2
2
t
xx
X
Die Varianz der ,,wahren" Werte setzt sich somit aus dem Produkt zwischen der Korrelation
paralleler Messinstrumente und der Varianz der empirischen oder beobachteten Werte zu-
sammen. Aus den genannten Gleichungen lässt sich die Schätzformel für die Reliabilität eines
Messinstrumentes ableiten:
2
2
2
2
x
t
X
X
xx
X
xx
22

Für die vorliegende Arbeit ergibt sich aus der Schätzformel für die Reliabilität, dass es uns
dann möglich sein wird die Reliabilität zu schätzen, wenn wir über mindestens zwei Items ein
und desselben Konzeptes oder einem einzelnen Item, dass zu zwei unterschiedlichen Zeit-
punkten gemessen wurde, verfügen.(Zeller & Carmines,1979, S.33).
Wir werden im empirischen Teil dieser Arbeit erneut auf den eben angesprochenen Punkt
zurückkommen.
Im nächsten Abschnitt werden nun verschiedene Methoden vorgestellt, wie die Reliabilität
eines empirischen Messinstruments geschätzt werden kann. Zusätzlich werden wir auf die
Vor- und Nachteile jeder dieser Methoden eingehen.
2.2.4.4 Arten der Reliabilitätsschätzung:
2.2.4.4.1 Die Test-Retest-Methode: Reliabilität als Stabilität zweier Messungen
Die einfachste Möglichkeit der Reliabilitätsbestimmung ist das Test-Retest-Verfahren. In die-
sem Verfahren wird eine latente Variable T durch zwei Messungen X1 und X2 zu zwei un-
terschiedlichen Zeitpunkten t1 und t2 erhoben. Es wird angenommen, dass beide Messungen
das gleiche latente Konstrukt repräsentieren. Die Korrelation beider Messungen ergibt den
Wert für die Reliabilität des Konstruktes. Es gilt
1
1
x
1
und
2
2
x
2
. Unter der An-
nahme, dass die Parallelitätsbedingung,
1
2
2
2
, gegeben ist und COV(E1,E2)=0 lautet die
Gleichung des Reliabilitätskoeffizienten
1 1
x x
x
Erhält man aus beiden Messungen X1 und X2 genau die gleichen Ergebnisse, dann hat der
Reliabilitätskoeffizient den Wert 1.00. Dabei handelt es sich allerdings um eine Idealvorstel-
lung einer Reliabilitätmessung. In der Regel wird die Korrelation der Messungen geringere
Koeffizientenwerte aufweisen, da Messungen die zu verschiedenen Zeitpunkten gemessen
wurden Instabilitäten aufweisen. Erklären lassen sich die instabilen Messergebnisse bei zeit-
lich versetzten Messungen durch veränderte Bedingungen der Befragungssituation. Es kann
beispielsweise sein, dass der Befragte zum ersten Messzeitpunkt andere Berufsprestigewerte
angibt als zum zweiten Messzeitpunkten, obwohl die Skala auf der gemessen wird die gleiche
ist. Es können vor allem hinsichtlich von Indikatoren, bei denen Urteile vom Befragten ver-
23

langt werden, Antworteffekte (,,response effects") auftreten. Urteile sind stark vom Kontext
abhängig und führen zu unterschiedlichen Interpretationen ein und derselben Frage.
7
Außer-
dem kann der Befragte abgelenkt sein, sich gesundheitlich unwohl fühlen, usw. (Bohrnstedt,
1970:85). Jedenfalls können alle diese Einflüsse zur Reduktion der Reliabilität eines empiri-
schen Messinstrumentes führen.
Problematisch am Test-Retest-Verfahren ist, dass es in den meisten Fällen dem Forscher nicht
möglich sein wird, zu zwei unterschiedlichen Zeitpunkten die gleichen Befragten zum glei-
chen Konstrukt zu messen, sei es weil es zu teuer ist oder schlichtweg nicht mehr möglich ist.
Schwerwiegender ist allerdings die Tatsache, dass Reliabilitätskoeffizienten aus Test-Retest-
Verfahren mit Vorsicht zu behandeln sind. Ein niedriger Reliabilitätskoeffizient muss nicht
bedeuten, dass das Messinstrument eine niedrige Reliabilität besitzt. Es kann einfach nur sein,
dass sich der unterliegende ,,wahre" Wert, d.h. das theoretische Konzept, im Zeitraum zwi-
schen beiden Messungen verändert hat. Beispielsweise könnte sich die Meinung des Befrag-
ten zur Bedeutung des Umweltschutzes zwischen den Messungen geändert haben, weil er
einen Bericht über die voraussichtliche Klimaveränderung aufgrund des Treibhauseffektes im
Fernsehen gesehen hat. Die Schwierigkeit der Interpretation beim Test-Retest-Verfahren ist
daher, zwischen Instabilität oder wahrem Wandel zu unterscheiden.
Ein weiteres Problem ergibt sich aus der Tatsache, dass Personen in Erhebungssituationen auf
die Art der Fragestellung oder auf den Interviewer reagieren. Diese Reaktivität kann meist
nicht von den eigentlichen auf die Frage bezogenen Reaktionen getrennt werden
8
. Die
Messergebnisse der beiden Tests werden somit verfälscht, was zu einer Unterschätzung der
Reliabilitätskoeffizienten führen kann. Häufiger allerdings werden die Test-Retest-Korrelati-
onen höher ausfallen als sie tatsächlich sind. Die Erinnerung des Befragten an die im ersten
Test gestellte Frage, vor allem dann wenn nur kurze Zeit zwischen den Messungen vergangen
ist, beeinflussen die Antworten im zweiten Test. Mit der zeitlichen Nähe zum ersten Test
steigt somit die Wahrscheinlichkeit, dass konsistente Antworten gegeben werden, die zu er-
höhten Reliabilitätskoeffizienten führen.
Ein weiteres Problem ergibt sich aus der Annahme der klassischen Testtheorie, dass die Mess-
fehler nicht miteinander korreliert sind. Es ist eher zu erwarten, dass im Falle einer Wieder-
holungsmessung die Messfehler beider Messungen nicht zufällig sind, sondern dass dieselben
Störfaktoren bei beiden Messungen wirken. Somit ist auch hier eine fehlerhafte Reliabilitätss-
chätzung zu erwarten.
7
siehe Survey Methods
8
Übersicht und Diskussion zu diesem Punkt siehe Esser (1986)
24

Verzerrte Reliabilitätskoeffizienten und die Schwierigkeit tatsächliche Veränderungen von
der Ungenauigkeit der Messung zu trennen sind die Schwächen dieses Reliabilitätsschätzver-
fahrens.
Das Konfundierungsproblem führte zu einer Revision des Test-Retest-Paradigmas (Heise,
1969; Wiley und Wiley, 1970; Werts, Jöreskog und Linn, 1971). Die Neuformulierung behält
die Annahmen der klassischen Testtheorie bei und erweitert das Test-Retest-Design, indem
Messungen zu drei Zeitpunkten vorgenommen werden. Dadurch gelingt es ,,wahre" Verände-
rung und Unreliabilität zu trennen. Die Modelle für die Reliabilitätsmessung zu drei Mess-
zeitpunkten unterscheiden sich in der Stärke der zusätzlich zur klassischen Testtheorie getrof-
fenen Annahmen. So wird im Modell von Heise (1969) angenommen, dass die Reliabilität der
Messungen bei den drei Zeitpunkten gleich ist.
9
Damit ist es möglich, die gemeinsame
Reliabilität und das Ausmaß der wahren Veränderung zu schätzen. Um die Restrikton
gleicher Reliabilitäten aufzuheben, veränderten Wiley und Wiley (1970) das Modell von
Heise. Dieses Reliabilitätsmodell nimmt an, dass im Pfadmodell nur direkte kausale Effekte
der Variable vorliegen, sowie exogene Störvariablen nicht miteinander korreliert sind und
dass der Messzeitpunkt auf die Variable eine Eins-zu-Eins-Korrespondez herstellt. Weiterhin
wird angenommen, dass zwischen den Messfehlern keine Korrelation besteht. Um die
Parameter schätzen zu können, legten Wiley und Wiley fest, das die Fehlervarianzen zu den
drei Zeitpunkten identisch sind. Mit diesem Modell ist es somit möglich, die Reliabilität für
unterschiedliche Erhebungswellen anzugeben. Dass die Annahme gleicher Fehlervarianzen
fallengelassen werden kann zeigten, Jöreskog und Linn (1971) indem sie vier Messzeitpunkte
berücksichtigten.
In einem späteren Abschnitt wird die "Test-Retest"-Zusatzstudie zum ALLBUS 1984 vorge-
stellt. Hier wurden die Reliabilitäten von Einstellungsmaßen sowie die gerade angesproche-
nen Modelle von Heise, Wiley und Wiley angewendet.
2.2.4.4.2 Die Alternatitive-Form Methode: Reliabilität als die Äquivalenz und Stabilität
alternativer Testausführungen
Wie im Test-Retest-Verfahren werden bei dem Alternative-Form-Verfahren Messungen zu
zwei Zeitpunkten und an denselben Personen durchgeführt. Dieses Verfahren unterscheidet
sich vom Test-Retest-Verfahren dadurch, dass bei der zweiten Messung dem Befragten nicht
der gleiche Test wie bei der ersten Messung vorgelegt wird. Der Befragte erhält eine alterna-
9
Durch die Annahme gleicher Reliabilitäten reduzieren sich die Anzahl unbekannter Parameter. Das zur
Bestimmung der Reliabilität verwendete Pfadmodell ist nun gerade identifiziert. (vgl. Jöreskog, 1979).
25

tive Repräsentation des Testes. Beispielsweise könnte man interessiert sein, bei Befragten die
Fähigkeit bezüglich arithmetischen Operationen zu untersuchen. Man konstruiert daher zwei
Tests vom gleichen Schwierigkeitsgrad, indem aus einer Anzahl möglicher Aufgaben nach
dem Zufallsprinzip die gleiche Anzahl an Aufgaben den beiden Testausführungen zugeordnet
wird. Die Korrelation beider Testergebnisse ergibt dann eine Schätzung der Reliabilität.
Das Verfahren der alternativen Testausführung hat gegenüber dem Test-Retest-Verfahren den
Vorteil, dass die Erinnerung an die Fragen des ersten Tests nicht das Testergebnis des zwei-
ten Tests beeinflussen können. Es findet keine Unterschätzung der Reliabilität statt. Aller-
dings bleibt das Problem der Trennung von wahrer Veränderung des theoretischen Konzeptes
und Unreliabilität bestehen. Wie beim Test-Retest-Verfahren kann mit Hilfe dieser Methode
das Konfundierungsproblem nicht gelöst werden.
Dieses Verfahren ist für die meisten Bereiche der sozialwissenschaftlichen Forschung unge-
eignet, da es in den meisten Fällen schwierig sein wird, alternative Befragungsbögen zu kon-
struieren bzw. die Parallelität solcher Fragebögen zu gewährleisten.
2.2.4.4.3 Split-Half-Verfahren: Reliabilität als die Äquivalenz von Testhälften
Bei den beiden bislang vorgestellten Verfahren konnte das Problem der ,,wahren" Verände-
rung einer latenten Variablen nicht gelöst werden. In den beiden nächsten Verfahren wird
dieses Problem umgangen, indem man die Möglichkeit der Veränderung des wahren Wertes
nicht zulässt. Dies wird dadurch erreicht, dass man die Items des Messinstrumentes als unab-
hängige Messwiederholungen interpretiert. Wie bei den vorangegangenen Verfahren wird
auch dieses Verfahren bei den gleichen Befragten durchgeführt. Man spricht deshalb auch von
Äquivalenz-Reliabilität. Es lassen sich zwei Arten unterscheiden: Halbierungsreliabilität
(split-half-Reliabilität) und Reliabilität als interne Konsistenz.
Split-Half-Verfahren:
Grundlage dieses Verfahrens ist wiederum die Annahme, dass für zwei parallele Messinstru-
mente die Reliabilität als Korrelation ihrer Messwerte ausgedrückt werden kann. Beim Split-
Half-Verfahren werden nicht Messwerte zweier Messungen korreliert, sondern es wird die
verfügbare Menge von Items, die das latente Konstrukt messen geteilt und die Messwerte
beider Hälften miteinander korreliert. Der Reliabilitätskoeffizient ist somit die Korrelation der
Testhälften. Vorraussetzung für dieses Verfahren ist allerdings die Annahme von Homogeni-
26

tät der Einzeltest, d.h. dass alle verwendeten Items dieselbe latente Dimension messen. Aus
der Korrelation der geteilten Items lässt sich zunächst die Reliabilität der Hälfte des Tests
angeben. Um die Reliabilität des gesamten Tests angeben zu können, muss mit Hilfe der
Spearman-Brown-Formel ,,statistisch korrigiert" werden. In der Regel ist die Länge des Ge-
samttestes doppelt so lange wie eine der Testhälften. Somit lautet die Formel für die Ge-
samtreliabilität als spezielle Form der Spearman-Brown-Formel:
2
1
xx
xx
xx
Die Split-Half-Reliabilität nimmt, wie aus der Formel ersichtlich, Werte zwischen 0 und 1 an.
Die Höhe der Koeffizienten der Halbierungs- und Gesamtreliabilität ist abhängig von der Art,
wie die Halbierung vorgenommen wird. Eine mögliche Strategie wäre beispielsweise, dass
alle Items mit geraden Zahlen der Sequenz der einen Testhälfte und alle Items mit ungeraden
Zahlen der anderen Testhälfte zugewiesen werden. Ein anderes Prinzip wäre die Halbierung
auf Basis einer Zufallsziehung der Items. Die Schwäche dieses Verfahrens ist somit, dass ab-
hängig vom Prinzip der Itemteilung andere Reliabilitätskoeffizienten angegeben werden kön-
nen (vgl. Zeller/Carmines(1980): S.42-43).
2.2.4.4.4 Interne-Konsistenz-Methode: Reliabilität als interne Konsistenz
Die Beliebigkeit der Halbierungstechniken und damit die Vielzahl möglicher Reliabilitäten
führte zum Versuch, die Reliabilität zusammengesetzter Tests ohne Halbierungen zu bestim-
men. Diese Techniken erfordern eine einfache Testausführung und führen zu einer eindeuti-
gen Schätzung der Reliabilität. Dies gelingt, indem nicht alleine eine Korrelation zwischen
den Testhälften benutzt wird, sondern gleichzeitig die Gesamtheit der Varianzen und Kovari-
anzen der Testitems. Die Reliabilität wird somit auf der Grundlage der internen Konsistenz
eines zusammengesetzten Tests geschätzt.
Ein gebräuchliches Maß der internen Konsistenz ist der Koeffizient von Cronbach(1951),
unter Annahme dass die Items gleiche Varianzen haben:
2
2
(
1) 1
i
X
N N
Y
27

Cronbachs
variiert zwischen 0 und 1 und stellt allgemein die untere Schranke der Reliabili-
tät eines zusammengesetzten Tests dar, d.h.
x
(Novick und Lewis, 1967). Dies gilt
allerdings nur dann, wenn alle Items eines zusammengesetzten Tests parallele, -äquivalente
oder essentiell -äquivalente Messungen sind. Cronbachs hängt von der mittleren Interi-
tem-Korrelation und der Anzahl der Items, die in der Skala benutzt werden ab.
10
(vgl. Zeller
und Carmines, 1980:45). Wenn die durchschnittliche Korrelation zwischen den Items und die
Anzahl der Items steigt, dann steigt auch der Wert von . Zeller und Carmines zeigen aber
auch, dass der Zuwachs an Reliabilität durch Hinzufügen von weiteren Items seine Grenze
hat. Die Größe des Gewinns an Reliabilität nimmt mit jedem neu hinzugefügten Item ab. Da-
her stellt sich stets die Frage, ob der Aufwand, den das Hinzufügen eines neuen Items verur-
sacht durch den Gewinn an Reliabilität gerechtfertigt werden kann. Der Koeffizient wird
bei multiplen Itemskalen verwendet. Um den Koeffizienten zu bestimmen, benötigt man nur
eine Testausführung. Der Koeffizient lässt sich einfach aus der Korrelationsmatrix bestim-
men. Zeller und Carmines (1980) geben an, dass für allgemein gängige Skalen der Wert von
nicht unter 0.8 liegen sollte.
Im nächsten Abschnitt wird das zweite Gütekriterium theoretisch und empirisch bestimmt ­
die Validität.
10
in Matrix-Schreibweise:
1
1
N
N
.
entspricht der mittleren Interitem-
Korrelation
28

2.2.4.5 Die Validität
Neben dem Gütekriterium der Reliabilität stellt die Validität das zweite zentrale Gütekrite-
rium einer Messung dar. Validität kann dabei wie folgt bestimmt werden. Validität ist das
Ausmaß, in dem ein Messinstrument das misst, was es vorgibt zu messen oder was es messen
soll.
Während Reliabilität sich darauf bezieht , inwiefern ein empirischer Indikator zu konsistenten
Ergebnissen bei Wiederholungsmessungen führt, geht es bei der Validität um die grundsätzli-
che Beziehung zwischen dem theoretischen Konstrukt und dem empirischen Indikator. Oder
anders ausgedrückt, wenn man für ein Messinstrument in den Sozialwissenschaften die Vali-
dität angeben möchte, dann macht man gleichzeitig Aussagen über das theoretische Kon-
strukt. Es wird also nicht die Validität des empirischen Indikators untersucht, sondern der
Nutzen, den der Indikator bei der Repräsentation des theoretischen Zusammenhangs hat. So
kann ein Intelligenztest beispielsweise valide sein für die Bestimmung der schulischen Leis-
tungen von Schülern. Dies bedeutet aber nicht, dass dieser Test auch valide für andere Zwe-
cke ist, zum Beispiel für die Bestimmung des Einkommens der Person.
Eng mit beiden Gütekriterien sind Aussagen verknüpft, wie sich Messfehler verteilen. Wie
schon im Abschnitt über die Reliabilität angesprochen, ist mit Reliabilität der Begriff des zu-
fälligen Messfehlers verknüpft. Im Gegensatz dazu ist die Validität mit dem Vorhandensein
von systematischen Messfehlern verbunden.
Beide Arten von Messfehlern werden im nächsten Abschnitt behandelt und deren Verbindung
zur Validität und Reliabilität.
2.2.4.5.1 Zufälliger und Systematischer Messfehler
Zufallsfehler sind alle zufälligen Faktoren oder Einflüsse, die eine Messung beeinflussen. Das
Ausmaß des Zufallsfehlers steht in umgekehrter Beziehung zum Ausmaß an Reliabilität eines
Messinstrumentes. Das heißt, je größer die Beeinflussung einer Messung durch zufällige
Fehler ist, desto geringer ist die Reliabilität des Messinstrumentes. So ist ein Radarmessgerät
nicht reliabel, wenn es bei wiederholten Messungen der Geschwindigkeit eines gleich blei-
bend schnell fahrenden Autos von der tatsächlichen Geschwindigkeit abweichende Messer-
gebnisse liefern würde. Wie schon im Abschnitt über die klassische Testtheorie behandelt,
wird davon ausgegangen, dass jeder Indikator ein gewisses Maß an Zufallsfehler beinhaltet.
Es stellt sich nicht die Frage ob, sondern wie viel Zufallsfehler eine Messung beeinflussen. Im
29

Bereich der Umfrageforschung kann der Zufallsfehler beispielsweise auf Codierungsfehler,
ungenaue Anweisungen oder Ermüdung des Befragten zurückgeführt werden.Der zweite
Typus von Messfehler, der ein empirisches Instrument beeinflussen kann wird als nicht-
zufälliger Messfehler bezeichnet. Im Gegensatz zum Zufallsfehler handelt es sich hier um
eine systematische Verzerrung der Messung. Ein Radargerät, das die Geschwindigkeit immer
um 10km/h niedriger misst als sie tatsächlich ist wäre somit von einem systematischen
Messfehler beeinflusst. In Bezug auf die Validität eines Messinstrumentes bedeutet dies, dass
je weniger systematische Messfehler die Messung beeinflussen, desto höher die Validität des
Messinstrumentes ist. Systematische Messfehler führen dazu, dass der Indikator nicht das
repräsentiert, was er soll, nämlich das theoretische Konstrukt.
2.2.4.5.2 Zusammenhang zwischen Reliabilität und Validität
Reliabilität eines Tests
x
mit den Messergebnissen x
X ist, wie bereits erläutert, das Ver-
hältnis der Varianz der wahren Werte zur Varianz der beobachteten Werte:
2
2
x
X
Die theoretische Validität eines Messinstrumentes mit den Beobachtungsergebnissen X ergibt
sich aus dem Grad der Übereinstimmung dieser Beobachtungswerte mit der zugrunde liegen-
den wahren Dimension T. Das Maß dafür ist die Korrelation
x
zwischen den wahren und
den beobachteten Werten. Diese ergibt sich aus der Quadratwurzel der Reliabilitätsgleichung:
( , )
x
X
Cov
x
da gilt, dass x
und
2
,
Cov
,
x
X
x
X
Cov
und
30

2
2
x
X
x
Die theoretische Validität wird von der empirischen Validität unterschieden (Lord und No-
vick, 1974:261). Die empirische Validität ist die Korrelation von X mit einer anderen beo-
bachteten Variable Y, von der angenommen wird, dass sie in einem bedeutsamen Zusammen-
hang mit X steht. Die empirische Validität ergibt sich somit aus der Assoziation mit einer
Beobachtungsvariablen, die von X unabhängig ist (Lord und Novick, 1974:72):
xy
x
y
x
Aus der Gleichung ergeben sich zwei Eigenschaften für die empirische Validität.
(1) Da es unendlich viele mögliche Variablen Y gibt, die unabhängig von X sind, ist nur
sinnvoll von der empirischen Validität eines Test in Bezug auf die gewählte Variable
Y zu sprechen und nicht von der einen empirischen Validität.
(2) Die obere Schranke der empirischen Validität
xy
kann die theoretische Validität
x
bzw. die Quadratwurzel der Reliabilität, nicht überschreiten.
Für die Beziehung zwischen Validität und Reliabilität lässt sich zusätzlich ableiten, dass die
Reliabilität die Vorraussetzung für eine valide Messung ist (bezüglich einer Kriteriumsvari-
ablen Y). Allerdings ist eine reliable Messung nicht unbedingt notwendig auch eine (empi-
risch) valide Messung.
So kann es der Fall sein, dass ein Messinstrument hochreliabel ist, dass es aber hinsichtlich
des theoretischen Konstruktes, das es messen soll gänzlich invalide ist. Beispielsweise ist das
im vorangegangenen Abschnitt als Beispiel genannte Radargerät, dass immer die Geschwin-
digkeit 10km/h unterschätzt, hochreliabel. Es misst immer und zwar konstant falsch die Ge-
schwindigkeit. Es ist somit ein sehr zuverlässiges durch keinen Zufallsfehler verzerrtes
Messinstrument. Es ist allerdings wenig valide, denn es misst nicht das, was es messen soll,
nämlich die exakte Geschwindigkeit eines Objekts.
Für die Vorgehensweise in dieser Arbeit ergibt sich daher, dass zunächst entschieden werden
sollte ob das verwendete Messinstrument überhaupt reliabel ist. Wenn es sich nämlich zeigt,
31

dass es völlig unzuverlässig in seinen Messungen ist, so kann die Validität dieses Messin-
strumentes auch nur unzureichend sein.
Der Wertebereich der theoretischen oder empirischen Validität als Produkt-Moment-Korrela-
tion lautet:
.
1.0
1.0
x
2.2.4.5.3 Arten der Validitätsschätzung
Die Validierung eines Messinstrumentes heißt, dass man überprüft, ob ein Messinstrument
das misst, was es messen soll. Dabei geht es nicht darum einen bestimmten Test zu validieren,
sondern vielmehr um die Validierung einer Interpretation von Daten, die aus einem spezifi-
schen Verfahren gewonnen wurden (Cronbach, 1971:447).
Anders ausgedrückt nicht das Messinstrument an sich wird validiert, sondern das Messin-
strument in Bezug zum Zweck, für den es eingesetzt wird. Analog zu der Angabe eines
Schätzwertes bei der Reliabilität lassen sich auch für die Validitätsschätzung mehrere Verfah-
ren angeben. In den folgenden Abschnitten werden die grundlegenden Verfahren und deren
unterschiedliche Bedeutung, ihre Verwendungsmöglichkeiten und deren Beschränkungen
besprochen.
2.2.4.5.3.1 Kriteriumsvalidität
Bei der Angabe der Kriteriumsvalidität werden die empirisch gemessenen Ergebnisse eines
Messinstrumentes mit einem anderen empirischen Kriterium in Bezug gebracht. Im vorange-
gangen Abschnitt wurde bereits unter dem Begriff empirische Validität ein Maß für die Krite-
riumsvalidität angegeben. Der Indikator des Grads an Übereinstimmung zwischen Messin-
strument und Kriterium wird normalerweise anhand der Größe der Korrelation geschätzt. Der
Validitätskoeffizient ergibt sich somit aus der Korrelation der Messergebnisse des Messin-
strumentes mit einer anderen empirischen unabhängigen Variablen. Je stärker die Messergeb-
nisse signifikant mit dem Kriterium korrelieren, desto valider ist die Aussagekraft des Tests
bezüglich der Kriteriumsvariablen. Beispielweise könnte man sich vorstellen, dass man einen
Schuleignungstest validiert, indem man dessen Ergebnisse mit den Leistungen der Personen
beim Schulexamen vergleicht. Stimmen die Leistungen des Schuleignungstests mit denen des
32

Details

Seiten
Erscheinungsform
Originalausgabe
Jahr
2005
ISBN (eBook)
9783832487812
ISBN (Paperback)
9783838687810
Dateigröße
841 KB
Sprache
Deutsch
Institution / Hochschule
Universität Mannheim – Sozialwissenschaften
Note
2
Schlagworte
sozialforschung statuserwerbsmodell strukturgleichungsmodell faktorenanalyse gütekriterien
Zurück

Titel: Reliabilität und Validität der Messung von beruflichem Status
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
book preview page numper 10
book preview page numper 11
book preview page numper 12
book preview page numper 13
book preview page numper 14
book preview page numper 15
book preview page numper 16
book preview page numper 17
book preview page numper 18
book preview page numper 19
book preview page numper 20
book preview page numper 21
book preview page numper 22
book preview page numper 23
book preview page numper 24
book preview page numper 25
book preview page numper 26
book preview page numper 27
book preview page numper 28
book preview page numper 29
book preview page numper 30
book preview page numper 31
book preview page numper 32
156 Seiten
Cookie-Einstellungen