Einfluss von Skalenveränderungen bei Fragebogenuntersuchungen

Petrow, Andreas

Einfluss von Skalenveränderungen bei Fragebogenuntersuchungen

Führen Skalenveränderungen zu unterschiedlichen Antworten?

von Andreas Petrow (Autor:in)

BWL - Offline-Marketing und Online-Marketing

Zusammenfassung

Inhaltsangabe:Einleitung:
Die Geschichte der Sozialforschung reicht vom fernen 17. Jahrhundert bis in die heutige Zeit und gewinnt stetig an Bedeutung. Politik-, Markt-, Meinungs- und Wirtschaftsforschung werden oft unter Sozial- und Marktforschung zusammengefasst, welche ein wichtiges Instrumentarium bei der Analyse von politischen und praktischen Entscheidungsprozessen sind.
Auch in unserem alltäglichen Leben fällen wir ständig Entscheidungen und das ist nicht immer einfach. Meistens sind es diese banalen, fast alltäglichen Entscheidungen, die uns schwer fallen. Mit unserer Untersuchung haben wir versucht Entscheidungsprozesse zu analysieren und zu quantifizieren. Dabei wurde der Fokus unserer Arbeit auf den Einfluss der Skalenkonstruktion sowie die subjektive Interpretation der Fragestellungen gelegt. Dabei spielten auch systematische Urteilsfehler eine bedeutungsvolle Rolle bei der Gestaltung der Fragebögen, denn Urteilsfehler resultieren aus der verzerrten Wahrnehmung und Interpretation der Realität, die eine (unerwünschte) Begleiterscheinung menschlicher Informationsverarbeitung sowie sozialer Einflussprozesse darstellt. Folglich mussten die aufgezählten Faktoren bei der Gestaltung der Fragebögen berücksichtigt werden.
Der Fragebogen zählt zu den wichtigsten und meistangewendeten Untersuchungsverfahren. Dieser findet nicht nur Anwendung in der psychologischen Forschung sondern auch auf soziologischer sowie auch wirtschaftlicher Ebene. Fragebögen sind aus der empirischen Sozial- und Marktforschung nicht mehr wegzudenken, denn sie sind das Instrument der gezielten Befragung der Probanden und der Lieferant von relevanten Daten. Die Konstruktion dieser Instrumente ist von immenser Wichtigkeit, denn schon bei der Erstellung der Fragebögen muss ein klar gezeichnetes Ziel vor Augen stehen. Die vorliegende Forschungsarbeit handelt aber nicht nur von der Konstruktion der Fragebögen und deren quantitativer Auswertung, sondern berücksichtigt weiterhin den psychologischen Aspekt im Bezug auf das Antwortverhalten der Probanden. Dabei besteht eine Art Wahrnehmung und Kommunikation zwischen Fragebogenkonstrukteur und Proband. Im späteren Verlauf werden wir den Forschungsstand, die Hypothesenformulierung und die Durchführung unserer Untersuchung erläutern sowie ein abschließendes Fazit begründen. Inhaltsverzeichnis:Inhaltsverzeichnis:
1.Einleitung3
2.Forschungsstand4
2.1Schätzung von Häufigkeiten4
2.2Bipolare / Unipolare Skalen […]

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Forschungsstand
2.1 Schätzung von Häufigkeiten
2.2 Bipolare / Unipolare Skalen (Skalenpolarität)
2.2 Konstruktion der Skala
2.3 Graphische Gestaltung der Skalen
2.4 Vergleichendes Urteil – Verknüpfte Fragen
2.5 Interpretation der Frage
2.6 Überblick

3. Durchführung

4. Auswertung
Frage I: Wie viele E-Mails bekommen Sie täglich im Durchschnitt?
Frage II: Wie viele Stunden surfen Sie monatlich privat im Internet?
Frage III: Wie hoch ist Ihr monatliches Nettoeinkommen?
Frage IV: Wie zufrieden sind Sie mit ihrem Leben?
Frage V:
Frage VI: Wie beurteilen Sie folgende Aussage? „Ich fühle mich körperlich top fit.“
Frage VII: Wie viel mal trinken Sie Alkohol in der Woche?
Frage VIII: Bitte bewerten Sie die Häufigkeit Ihrer durchschnittlichen Kinobesuche!
Frage IX: Wie beliebt sind Sie bei Ihren Arbeits- bzw. Studienkollegen?
Frage X: Bitte bewerten Sie die Häufigkeit mit der Sie Ihre Unterwäsche wechseln!
Frage XI: Wie viele Minuten telefonieren Sie privat im Monat?
Frage XII: Wie viel mal haben Sie Sex pro Woche?
Frage XIII: Wie viel mal hätten Sie gerne Sex pro Woche?
Frage XIV: Bitte bewerten Sie die Häufigkeit Ihrer durchschnittlichen Barbesuche!
Frage Nr. XV: Halten Sie sich für einen sparsamen Menschen?
Frage Nr. XVI: Wie viel Mal haben Sie sich im letzten Monat über Ausländer geärgert?
Frage Nr. XVII: Bitte schätzen Sie wie viele Kfz – Zulassungen von Studenten in Hessen im letzten Jahr beantragt wurden?
Frage XVIII: Wie viel Mal haben Sie im letzten Monat gelogen?
Frage XIX: Wie viele gute Freunde haben Sie?
Frage XX: Wie viele gute Freunde hätten Sie gerne?
Frage XXI: Wie viel Mal helfen Sie Ihren Mitmenschen in der Woche/Monat durchschnittlich?

5. Fazit und Ausblick

6. Literaturverzeichnis:

7. Anhang

Fragebogen (A)

Fragebogen (B)

8. Ehrenwörtliche Erklärung

1. Einleitung

Die Geschichte der Sozialforschung reicht vom fernen 17. Jahrhundert bis in die heutige Zeit und gewinnt stetig an Bedeutung. Politik-, Markt-, Meinungs- und Wirtschaftsforschung werden oft unter Sozial- und Marktforschung zusammengefasst, welche ein wichtiges Instrumentarium bei der Analyse von politischen und praktischen Entscheidungsprozessen sind.

Auch in unserem alltäglichen Leben fällen wir ständig Entscheidungen und das ist nicht immer einfach. Meistens sind es diese banalen, fast alltäglichen Entscheidungen, die uns schwer fallen. Mit unserer Untersuchung haben wir versucht Entscheidungsprozesse zu analysieren und zu quantifizieren. Dabei wurde der Fokus unserer Arbeit auf den Einfluss der Skalenkonstruktion sowie die subjektive Interpretation der Fragestellungen gelegt. Dabei spielten auch systematische Urteilsfehler eine bedeutungsvolle Rolle bei der Gestaltung der Fragebögen, denn Urteilsfehler resultieren aus der verzerrten Wahrnehmung und Interpretation der Realität, die eine (unerwünschte) Begleiterscheinung menschlicher Informationsverarbeitung sowie sozialer Einflussprozesse darstellt. Folglich mussten die aufgezählten Faktoren bei der Gestaltung der Fragebögen berücksichtigt werden.

Der Fragebogen zählt zu den wichtigsten und meistangewendeten Untersuchungsverfahren. Dieser findet nicht nur Anwendung in der psychologischen Forschung sondern auch auf soziologischer sowie auch wirtschaftlicher Ebene. Fragebögen sind aus der empirischen Sozial- und Marktforschung nicht mehr wegzudenken, denn sie sind das Instrument der gezielten Befragung der Probanden und der Lieferant von relevanten Daten. Die Konstruktion dieser Instrumente ist von immenser Wichtigkeit, denn schon bei der Erstellung der Fragebögen muss ein klar gezeichnetes Ziel vor Augen stehen. Die vorliegende Forschungsarbeit handelt aber nicht nur von der Konstruktion der Fragebögen und deren quantitativer Auswertung, sondern berücksichtigt weiterhin den psychologischen Aspekt im Bezug auf das Antwortverhalten der Probanden. Dabei besteht eine Art Wahrnehmung und Kommunikation zwischen Fragebogenkonstrukteur und Proband. Im späteren Verlauf werden wir den Forschungsstand, die Hypothesenformulierung und die Durchführung unserer Untersuchung erläutern sowie ein abschließendes Fazit begründen.

2. Forschungsstand

Zahlreiche Untersuchungen haben in der Vergangenheit gezeigt, dass das Antwortverhalten von befragten Personen im Rahmen von Fragebogenuntersuchungen häufig, von zunächst irrelevant erscheinenden Unterschieden bei der Formulierung der vorgegebenen Antwortmöglichkeiten, beeinflusst wird. Maßgeblich dabei sind, die verborgene Bedeutung und der Einfluss der Skalen. Laut Grice’s (Logic and Conversation, (1975), S. 45) Kooperationsprinzip stellen Menschen an Konversationsbeiträge (conversational contributions) die Anforderung notwendig, relevant, wahr, kurz, geordnet und unmissverständlich zu sein. Wenn jedoch die Bedeutung eines Satzes unklar ist, entwickelt der Mensch mit Hilfe der vorhandenen relevanten Informationen pragmatisch logische Schlussfolgerungen (Harris und Monaco, 1978); zitiert nach Sedlmeier (2006), S. 1). Betrachtet man einen Punkt auf der Skala eines Fragebogens als eben diesen Beitrag zur Konversation so liefert die Skala, welche die Antwortmöglichkeiten vorgibt, eben diese notwendigen Informationen. Dies bedeutet also, dass die Probanden, die durch die Skala gegebenen, Antwortvorgaben als eine Information nehmen und daraus ein Urteil über die Verteilung in der Gesamtpopulation fällen. Dabei betrachten die Probanden beispielsweise die mittlere Antwortoption, den Median, und interpretieren die Zahlen, welche dort steht, als den Mittelwert. In Abhängigkeit davon entscheidet der Proband wo er sich relativ zu diesem Punkt, welchen er als Mittelwert betrachtet, befindet und wählt die für ihn in diesem Kontext eher passende Antwortoption.

2.1 Schätzung von Häufigkeiten

Unter anderem haben Schwarz/Hippler/Deutsch/Starck (1985, S. 390). in einer Studie hinsichtlich der Einschätzung des eigenen TV Konsums deutliche Abweichungen festgestellt, welche auf die Formulierung der vorgegeben Skala zurückgeführt werden konnten. Die Verschiebung der Skala von maximal „mehr als 2 ½ Stunden“ auf maximal „ mehr als 4 ½ Stunden“ täglich, resultierte unter anderem darin, dass der prozentuale Anteil der Befragten, welche ihren eigenen TV Konsum auf „mehr als 2 ½ Stunden täglich“ schätzten von 16,2 % auf 37,5 % anstieg. Schwarz begründet diesen Effekt damit, dass es höchst unwahrscheinlich ist, dass die befragten Personen sich detailliert darin erinnern können, wie häufig sie in einem bestimmten Zeitraum eine alltägliche/banale Sache wie „Fernsehen“ gemacht haben. Diese immer wiederholten Verhaltensweisen, werden laut Schwarz (1990, S. 276) nicht separat im Gedächtnis gespeichert, sondern vermischen zu einem allgemeinen Gesamtbild dieses bestimmten Verhaltens. Aus diesem Grund sind die Befragten für gewöhnlich nicht in der Lage die exakte Häufigkeit eines alltäglichen Verhaltens auf Basis von wieder ins Gedächtnis gerufenen einzelnen Handlungen aus der Vergangenheit anzugeben. Viel mehr sind sie gezwungen logische Schlüsse zu ziehen, um die Häufigkeit ihres Verhaltens zu schätzen. Um dies zu tun, nutzen die Befragten jegliche ihnen zur Verfügung stehende Information, um eine angemessenen Antwort geben zu können (Bradburn et al., 1987, S. 160). Wie bereits erwähnt ist eine zweckdienliche Informationsquelle bei Untersuchungssituationen der Umfang bzw. die Spanne der Antwortalternativen, welche dem Befragten zur Verfügung stehen. Hierbei gehen die Befragten davon aus, dass die Werte in der Mitte der Skala das Verhalten einer durchschnittlichen Person repräsentieren und die Extrema auf der Skala als die Extrema in der Gesamtpopulation (Schwarz/Hippler/Deutsch/Strack, (1985), S. 390; Schwarz and Hippler (1987), S. 388 - 395 ).

Demnach nutzen Sie die Spanne der vorgegebenen Antwortalternativen als eine Art Anhaltspunkt, um die Häufigkeit ihres eigenen Verhaltens zu schätzen. Ausgehend von diesen Annahmen, erklärt Schwarz (Schwarz und Hippler, (1987), S. 388 - 395), dass der Einfluss die Auswahl/Spanne der Antwortmöglichkeiten desto ausgeprägter ist, je weniger andere für die Beantwortung der Frage relevante Informationen aus dem Gedächtnis leicht abrufbar sind.

Laut Felser (2007, S. 476) tritt diese Art von Effekten auch besonders häufig bei Laien d.h. Personen, welche sich in dem befragten Themengebiet nicht gut auskennen und daher gerne auf zusätzliche Informationen wie die Skalierung zurückgreifen, auf. Ebenso treten diese Effekte verstärkt in Bereichen auf, in denen es schwierig ist den Überblick zu behalten. Felser (2007, S. 476) zieht dabei das Beispiel der jährlichen Bankgebühren heran.

Besonders bei Fragebogenuntersuchungen bezüglich alltäglicher Dinge wie dem Fernsehkonsum bei Schwarz oder der Anzahl von Artikeln die man beispielsweise wöchentlich/monatlich im Supermarkt einkauft konnten deutliche Abweichungen aufgrund von Skalenverschiebungen nachgewiesen werden. Die Verwendung von Skalen, welche eher große Häufigkeiten aufwiesen, resultierte in mehr sexuellen Aktivitäten (Schwarz und Scheuring, (1988), S. 485 - 496), höheren Konsumausgaben (Menon et al., 1997 sowie Winter, 2002; zitiert nach V. Stocké No. 03-25 (2006), S.3), größerer Angst vor Kriminalität (Gaskell et al., 1994) sowie auch häufigerem Arztbesuchen (Schwarz, 1990).

2.2 Bipolare / Unipolare Skalen (Skalenpolarität)

Weiterhin bewirkt die Veränderung der Skala von bipolar zu unipolar eine signifikante Abweichung im Antwortverhalten der Probanden. Bei einer Befragung von Personen hinsichtlich dessen wie erfolgreich sie im Leben waren, stellten Schwarz, Knäuper, Hippler, Noelle-Neumann und Clark (1991, S. 570-582) fest, dass eine Skalenverschiebung von -5 (überhaupt nicht erfolgreich) bis +5 (sehr erfolgreich) auf 0 (überhaupt nicht erfolgreich) bis 10 (sehr erfolgreich), eine signifikante Veränderung des Antwortverhaltens nach sich zog. Hatten zuvor 13 % der Befragten einen Wert zwischen -5 und 0 angekreuzt so erhöhte sich nach der Skalenverschiebung der Anteil der Antworten in der unteren Hälfte der Skala auf 34 %. Schwarz et al. (1991, S. 570-582) begründet diesen Effekt mit der unterschiedlichen Interpretation der mehrdeutigen Bezeichnung des Endpunktes „überhaupt nicht erfolgreich“. Bei einer unipolaren Skala von 0 bis 10 wird die Bezeichnung „überhaupt nicht erfolgreich „ in Kombination mit 0 von den Probanden als das „Nichtvorhandensein“ von Erfolg interpretiert. Kombiniert man jedoch bei einer bipolaren Skala mit einem Wertebereich von -5 bis +5 dieselbe Bezeichnung des Endpunktes „überhaupt nicht erfolgreich“ mit dem Wert -5, so wird dies als das Vorhandensein von Versagen interpretierten.

Peter Sedlmeier (2006, S.1) konnte in einem Experiment mit Studenten ebenfalls eine signifikante Abweichung des Antwortverhaltens bei der Anwendung bipolarer und unipolarer Skalen nachweisen. Hierbei wurde eine Intervallskala angewendet und zwei Gruppen von Studenten die Frage „Wie relevant halten Sie diesen Kurs für das Studium Ihres Hauptfachs“ vorgelegt. Die eine Gruppe erhielt eine unipolare Skala von 0 = irrelevant bis 100 = sehr relevant, die andere eine bipolare Skala von -50 = irrelevant bis + 50 = sehr relevant. Das Ergebnis war, dass diejenige Gruppe von Studenten, welche die bipolare Skala vorliegen hatte den Kurs als signifikant relevanter einstufte als diejenige mit der unipolaren Skala. Als mögliche Begründung für dieses Ergebnis schreibt Sedlmeier, dass die Teilnehmer im Großen und Ganzen eine positive Meinung über Relevanz dese Kurses hatten und daher dazu tendierten allein positive Werte auf der bipolaren Skala anzukreuzen. Wurde ihnen jedoch eine unipolare Skala vorgelegt, welche allein aus positiven Werten bestand, nutzen Sie die ganze Spanne an Antwortmöglichkeiten.

Becker/Spörrle/Försterling (2003, PowerPoint S. 3) haben in Ihrer Studie bezüglich sozialer Erwünschtheit und Skalenformat in Verbindung mit der Beantwortung von Wahrscheinlichkeitsaussagen festgestellt, dass ein signifikanter Unterschied zwischen den Ergebnissen einer neutralen und negativen Skala bei sozial erwünschter Fragestellung besteht.

Grayson und Schwarz (1995) haben nachgewiesen, dass bereits die Verschiebung der Skala von 0 bis 10 auf 1 bis 11 in Kombination mit der Beschriftung 0 = selten bzw. 1 = selten und 10 = oft bzw. 11 = oft in einer signifikanten Abweichung der Ergebnisse von einander resultierte. Im Jahr 2003 haben durch Becker/Spörrle/Försterling (2003, PowerPoint S.3) eine erneute Studie bezüglich diese Effektes durchgeführt, welche die Ergebnisse von Grayson und Schwarz (1995) untermauerte. Laut Becker/Spörrle/Försterling (2003, PowerPoint S. 3) wird der Begriff „selten“ in Kombination mit 0 als niederfrequenter interpretiert wird als „selten“ mit 1. Grayson und Schwarz (1995) schreiben, dass Befragte „selten“ mit der Bedeutung von „nie“ verknüpfen, wenn „selten“ mit 0 kombiniert verwendet wird. Jedoch würde „selten“ in Kombination mit 1 als „geringe Häufigkeit“ verstanden.

2.2 Konstruktion der Skala

Weiterhin existiert zahlreiche Literatur, welche sich mit der optimalen Skala und Anzahl von Feldern in einer Skala beschäftigt. Green und Tull (1982, S. 162 ff., zitiert nach Broda S. (2006, S. 82) schreiben beispielsweise, dass zwar wenige Abstufungen in einer Skala zu sehr sicheren Ergebnissen führen, jedoch Unterschiede, die in der Realität auftreten nur schlecht abbilden können. Sie beschreiben die ideale Skala als Linienskala mit mindestens 6 und maximal 11 Feldern und weisen drauf hin, dass weniger als 6 Felder die Trennschärfe negativ beeinflussen, jedoch mehr als 11 Felder eine Linksverschiebung nicht ausschließen.

Krosnick (1999, S. 42) beschreibt in seiner Arbeit, dass im Falle von bipolaren Skalen die Reliabilität und Validität am höchsten sind, wenn diese etwa 7 Felder aufweist. Dabei bezieht er sich auch Matell & Jacoby (1971, S. 657 ff.). Unipolare Skalen hingegen sind optimal konstruiert, wenn sie aus ungefähr 5 Feldern bestehen, da sowohl Reliabilität als auch Validität hier im größten sind (Wikman & Warneryd (1990), zitiert nach Krosnick, (1999, S. 43).

Felser Georg beschreibt in seinem Buch Werbe und Konsumpsychologie (2007), die Existenz der „Tendenz zur Mitte“ bei Skalen des Likert –Typs. Dies bedeutet, dass die Befragten Extremwerte meiden und ihre Antworten um den mittleren Wert herum streuen (Felser, 2007, S. 471). Felser bezieht sich dabei unter anderem auf die Arbeiten von Benz (1976), welcher sich ausführlich mit Bedingungen und Problemen der Likert Skalierung beschäftigt hat. Gründe dafür können sein, dass die Befragten der Meinung sind, extreme Meinungen seien sozial nicht besonders angesehen oder extreme Urteile könnten unbedacht und grob wirken. Gemäßigte Antworten hingegen seien Ausdruck von Nachdenklichkeit und Abgeklärtheit.

2.3 Graphische Gestaltung der Skalen

Jedoch ist nicht allein die Skalenverschiebung d.h. die Veränderung der Ziffern einer Skala im Stande signifikante Abweichung im Antwortverhalten der Probanden zu erzeugen. So hat Smith (1995, S. 1050) herausgefunden, dass Probanden ähnlich wie bei den numerischen Werten einer Skala, Informationen über die Bedeutung der Ihnen vorliegenden Frage, auch aus dem graphischen Layout der Skala gewinnen. In seiner Untersuchung hat Smith Probanden unterschiedlicher Nationalitäten wie z.B. US-Amerikaner, Deutsche und Niederländer gebeten, auf einer Skala von 1 (top/oben) und 10 (bottom/unten) ihre eigne Position in der Gesellschaft einzutragen. Das Ergebnis der Untersuchung war, dass 37,1 Prozent der niederländischen Probanden, deren Skala von ungleich großen Boxen begleitet war und einem Pyramiden ähnlichen Aufbau folgte, sich selbst in die der untersten Kategorie, welche durch die größte Box dargstellt wurde, einordneten (Smith, 1995, S. 1050). Im Vergleich dazu gaben lediglich etwa 10 Prozent der Probanden aus Deutschland und den USA an, zur untersten sozialen Schicht zu gehören. Laut Smith liegt die Begründung dafür darin, dass die Boxen, welche die Skala begleiteten, sowohl bei den deutschen als auch amerikanischen Probanden gleich groß waren. Die niederländischen Probanden hingegen können auf Grund des Pyramiden-ähnlichen Aufbaus geschlossen haben, dass der Marktforscher ein Konzept verschiedener Gesellschaftsschichten im Kopf hatte, welches eine höhere Anzahl von Menschen am unteren Ende als in der Mitte vorsieht.

Dieser Effekt wurde in einer Studie von Knäuper und Schwarz (unveröffentlichte Daten, siehe Schwarz 1996) bezüglich der Selbsteinschätzung von Studenten hinsichtlich ihrer eigenen Leistungen erneut nachgewiesen. Hierbei stellten sie fest, dass die Probanden ihre eigenen Studienleistungen weniger gut bewerteten, wenn die Pyramide darauf hindeutete, dass sich ein größerer Anteil von Studenten am unteren Ende befinden müsste, als in der Mitte und am oberen Ende. Waren die Boxen hingegen alle gleich groß so stuften die Probanden ihre Leistungen deutlich besser ein.

2.4 Vergleichendes Urteil – Verknüpfte Fragen

Weiterhin existieren Untersuchungen zur Auswirkung von „comperative judgements“ beim Antwortverhalten der Probanden. Wie bereits erwähnt haben Schwarz/Hippler/Deutsch/Strack (1985, S. 390) in ihrer Studie bezüglich der Selbsteinschätzung des eigenen Fernsehkonsums herausgefunden, dass die Probanden sich vom Aufbau der ihnen vorgegebenen Skala leiten lassen. In einem weiteren Experiment haben Schwarz et al. 1985 untersucht in wie fern sich die Antworten der Probanden im Hinblick auf ihren Fernsehkonsum auf die nachfolgende Frage bezüglich der persönlichen Zufriedenheit mit den Dingen die diese Personen in ihrer Freizeit tun, auswirken. Diejenigen Personen denen die niedrigere Skala zur Beantwortung der Frage bezüglich des eigenen Fernsehkonsums zur Verfügung stand, schätzten den Stellenwert ihres Fernsehkonsum in ihrer Freizeit größer ein, als diejenigen, welche zur Einschätzung des eigenen Fernsehkonsums zuvor eine höhere Skala vorgelegt bekommen haben. Weiterhin waren die Probanden mit der zuvor niedrigeren Skala hinsichtlich des Fernesehkonsums, tendenziell weniger mit der Vielfältigkeit der Dinge, die sie in ihrer Freizeit tun, zufrieden (Schwarz et al., 1985, Experiment 2; zitiert nach Schwarz 1990, S. 276), als diejenigen mit der höheren Skala. In einer weiteren Studie aus dem Jahr 1988 konnten Schwarz und Scheuering nachweisen, dass diese Effekte nicht nur bei belanglosen Verhaltensweisen wie dem Fernsehkonsum existieren, sondern auch der Häufigkeit von Sexualverkehr und Masturbation sowie der daraus folgenden Zufriedenheit mit der eigenen Partnerschaft. So waren beispielsweise Studenten, die ihrer Antworten hinsichtlich der Häufigkeit ihrer Masturbation auf der niedriger frequentierten Skala eintragen mussten, mit ihrem/r Partner/in weniger zufrieden und mehr an anderen sexuellen Beziehungen interessiert, als diejenigen Probanden, welchen ihre Antworten auf der höheren Skala eingetragen haben. Dieser Unterschied ist darauf zurückzuführen, dass den Studenten durch die niedrigere Skala suggeriert wurde, sie würden häufiger als für „gewöhnlich normal“ masturbieren. Denjenigen Studenten mit der höheren Skala wurde suggeriert, sie würden „weniger häufig als normal“ masturbieren, was zur Auswirkung hatte, dass diese über das „comparative judgement“ ihre Zufriedenheit mit ihrem gegenwärtigen Partner/in höher einstuften.

2.5 Interpretation der Frage

Eine weitere wichtige Erkenntnis hinsichtlich der Häufigkeitsverteilung in Fragebögen ist die Interpretation der Frage selbst. Formale Eigenschaften, wie die bereits beschriebene Größenordnung der Skala, sind eine wichtige Informationsquelle für die Befragten. Zusätzlich spielt das Verständnis der Fragestellung eine maßgebliche Rolle bei der Beantwortung, wobei der Sinn der Frage in gewissen Fällen, erst aus der Antwortvorgabe erschlossen werden kann. Schwarz, Strack, Müller, und Chassein (1988, S. 107-117) haben dies, in einer Untersuchung hinsichtlich der Häufigkeit sich in der Vergangenheit richtig geärgert zu haben, nachgewiesen. Das Problem was sich dabei ergibt, ist dass der Befragte interpretieren muss was „richtig geärgert“ bedeutet. Unklar für den Befragten ist in einem solchen Fall, um welche Art von Ärger es sich handelt. Ist alltäglicher Ärger wie z.B. der über eine verpasste Straßenbahn oder langsamer Service im Restaurant oder bedeutender bzw. größerer Ärger der einen eventuell noch Tage, Wochen oder sogar Monate beschäftigt. Um diese Informationslücke zu schließen, greifen die Befragten auf die Häufigkeitsverteilung der Antwortskala zurück. So haben Schwarz , Strack, Müller, und Chassein (1988, S. 107-117) nachgewiesen, dass die Befragten von kleinerem Ärger ausgingen, wenn die ihnen vorgegebene Skala von „mehrmals täglich“ bis „weniger als 1 mal die Woche“ verlief, hingegen an gravierende Ärgernisse dachten, wenn die Skala eine Spanne von „mehrmals im Jahr“ bis „weniger als 1 mal in drei Monaten“ aufwies. Laut Schwarz et al. bedeutet dies, dass die gleiche Fragestellung in Kombination mit unterschiedlichen Skalenniveaus mit einer hohen Wahrscheinlichkeit verschiedene Erlebnisse bewertet, da die Befragten dies in mit Hilfe der vorgegebener Skala hineininterpretieren.

Dieser Effekt konnte von Gaskell, O’Muircheartaigh und Wright (1994, S. 241-254) in einer Studie bezüglich der Häufigkeit des Zähnesäuberns erneut nachgewiesen werden. In Abhängigkeit von vorgegeben Zeitraum wurde „Zähnesäubern“ durch die Befragten als eigenes Zähneputzen daheim oder auch als Zahnreinigung beim Zahnarzt interpretiert.

2.6 Überblick

Insgesamt ergibt sich das Bild, dass bereits eine Vielzahl unterschiedlicher Untersuchungen zum Themengebiet von Skalenniveaus bei Fragebögen durchgeführt worden sind. Speziell die Studien von Norbert Schwarz und weiteren daran beteiligten Wissenschaftlern haben besonders interessante Ergebnisse zu Skalenverschiebungen bei Fragebogenuntersuchungen ans Licht gebracht. Eine der bekanntesten Studien dieser Art, ist die von Norbert Schwarz und Hippler/Deutsch/Starck (1985, S. 390), welche eine Untersuchung hinsichtlich der Einschätzung des eigenen TV Konsums beim vorliegen unterschiedlicher Skalen im Fragebogen darstellt. Jedoch wurde wie bereits erwähnt auch in zahlreichen weiteren wissenschaftlichen Arbeiten, die Auswirkung unterschiedlicher Skalenniveaus auf das Antwortverhalten der Probanden untersucht. Weiterhin stehen in diesem Zusammenhang auch verknüpfte Fragen d.h. Fragen deren Skala sich auf das Antwortverhalten bei der Beantwortung einer anderen Frage auswirkt. So z.B. die Untersuchung von Schwarz et al (1985, Experiment 2), zur Auswirkung der Skala hinsichtlich des eigenen Fernsehkonsums auf die eigene Zufriedenheit mit der Vielfältigkeit der Dinge die man in seiner Freizeit tut. Auch die Konstruktion und die graphische Gestaltung der Skala sowie Interpretation der Frage selbst haben laut den Ergebnissen vorheriger Untersuchungen eine maßgebliche Auswirkung auf das Antwortverhalten der Probanden.

Die vorliegende Forschungsarbeit greift zentrale bereits erforschte Teilgebiete der Skalenvariation und deren Auswirkung auf das Antwortverhalten der befragten Personen auf und untersucht diese erneut.

Durch die Fragen I, IX und XVII soll getestet werden, ob die Probanden tatsächlich den Median als Anhaltspunkt bei der Beantwortung der Fragestellung nutzen bzw. sich durch die verschobene Skala und den damit verschobenen Median bei der Beantwortung beeinflussen lassen. Dabei wird unter anderem an die Studie von Schwarz/Hippler/Deutsch/Starck (1985, S. 390) hinsichtlich der Einschätzung des eigenen TV Konsums angeknüpft und die Existenz dieses Zusammenhangs erneut überprüft.

Bei den Fragen III und IV sowie auch V und VI handelt es sich um verknüpfte Fragen. Dabei wird durch die Verknüpfung untersucht ob die Veränderung der Skala bei Frage III eine Auswirkung auf das Antwortverhalten bei Frage IV zur Folge hat. Dabei wird bei Frage III eine Skalenverschiebung durchgeführt. Die Vorgehensweise ist bei den Fragen V und VI ähnlich. Hierbei wird jedoch die Skala von Frage V nicht verschoben sondern verlängert. Dadurch wird getestet ob dies eine Auswirkung auf das Antwortverhalten bei Frage VI hat. Dabei knüpfen wir unter anderem an die Studie von Schwarz et. Al 1985, Experiment 2, an, worin die Auswirkung der Skala hinsichtlich des eigenen Fernsehkonsums auf die eigene Zufriedenheit mit der Freizeitgestaltung untersucht wurde.

Die Fragen VII und XVI testen ob eine Verlängerung der Skala zu einem abweichenden Antwortverhalten der Befragten führt.

Die Fragen VIII und XIV zielen darauf ab zu untersuchen, ob der der Begriff „selten“ in Kombination mit 0 als niederfrequenter interpretiert wird als „selten“ mit 1. Wie bereits erwähnt, wird laut Grayson und Schwarz (1995) „selten“ durch die Befragten mit der Bedeutung von „nie“ verknüpft, wenn ersteres mit 0 kombiniert verwendet wird. Dieser Zusammenhang wird hier getestet.

Frage IV untersucht die Auswirkung einer Skalenverschiebung von einer positiv durchnummerierten Skala zu einer negativ durchnummerierten Skala und knüpft dabei an die Studie von Becker/Spörrle/Försterling (2003), in die eine neutrale Skala mit einer negativen Skala verglichen wurde.

Durch die Fragen X und XV soll geprüft werden, ob die Veränderung der Skala von bipolar zu unipolar tatsächlich eine signifikante Abweichung im Antwortverhalten der Probanden bewirkt wie sie von unter andrem von Schwarz, Knäuper, Hippler, Noelle-Neumann und Clark (1991) nachgewiesen wurde.

Frage XVIII untersucht den Sachverhalt ob und wenn ja wie stark sich eine Veränderung der Formulierung der Frage selbst auf das Antwortverhalten der Probanden auswirkt. Dabei wird die Skala nicht verändert. Es wird hierbei unter anderem an die Studie von Schwarz, Strack, Müller, und Chassein (1988) bezüglich der Häufigkeit sich in der Vergangenheit richtig geärgert zu haben angeknüpft. Jedoch wird in dieser Forschungsarbeit nicht der vorgegebene Zeitraum verändert, sondern die Formulierung des Kerninhalts der Frage (Lügen bzw. nicht die Wahrheit sagen) verändert.

Frage XXI beschäftigt sich mit der Interpretation der Frage ohne dabei eine Skalenverschiebung vorzunehmen. Hierbei wird ebenfalls an die Studie von Schwarz, Strack, Müller, und Chassein (1988) zur Häufigkeit des Ärgerns sowie die Studie von Gaskell, O’Muircheartaigh und Wright (1995) bezüglich des Zähnesäuberns angeknüpft. Dabei wird der vorgegebene Zeitraum verändert und geprüft ob dieser eine Auswirkung auf die Interpretation der Frage und damit auf das Antwortverhalten hat.

Des Weiteren wird der bisher noch nicht erforschte Zusammenhang untersucht, ob bei verknüpften Fragen mit sozial erwünschten Charakter, d.h. Fragestellungen beide denen ein bestimmtes Antwortverhalten von der Gesellschaft als allgemein wünschenswert angesehen wird, die erste Frage die Antwort auf die darauf folgende Frage insofern beeinflusst, als dass die gleiche Antwortoption bei beiden Fragestellungen durch die Probanden ausgewählt wird. Dieser Zusammenhang wird durch die Verknüpfung der Fragen XII und XIII sowie die Verknüpfung der Fragen XIV und XX getestet.

3. Durchführung

Zur Untersuchung des möglichen Einflusses von Skalenverschiebungen bei Fragebogenuntersuchungen und Beantwortung der Fragestellung, ob Skalenverschiebungen zu unterschiedlichen Antworten führen, wurde eine Datenerhebung vorgenommen. Diese wurde mittels einer Fragebogenuntersuchung in Papierform durchgeführt. Um eine möglichst homogene Gruppe von Personen befragen zu können und somit starke Abweichung bei der Beantwortung der Fragen, welche beispielsweise auf das Alter oder den Bildungsstand der Probanden zurückgeführt werden könnten, zu vermeiden, wurden ausschließlich Studenten auf dem Universitäts-Campus Westend der Goethe-Universität-Frankfurt am Main befragt. Insgesamt wurden 100 Fragebögen an 100 Personen verteilt, wobei sich die Probanden aus 50 Prozent Frauen und 50 Prozent Männern zusammensetzten.

Es wurden 50 Fragebögen Typ A und 50 Fragebögen Typ B ausgeteilt. Dabei erhielten sowohl 25 Männer als auch 25 Frauen den Fragebogen Typ A sowie weitere 25 Männer und 25 Frauen den Fragebogen Typ B. Die ausgeteilten Fragebögen wurden jedoch nicht mit den Bezeichnungen A und B versehen, um eine mögliche Beeinflussung der Befragten durch den Hinweis auf unterschiedliche Fragebogentypen, auszuschließen. Bei der Auswahl der Probanden wurden Personen ausgewählt, welche zum Zeitpunkt der Befragung weder im Gespräch mit anderen Personen noch am Telefon waren. Des Weiteren wurde darauf geachtet, dass der potentielle Proband/die potentielle Probandin währen der Beantwortung des Fragebogens alleine war d.h. keinen Kontakt zu anderen Personen hatte. Dadurch sollte ein Verfälschen der Antworten durch den Einfluss Dritter auf den Probanden ausgeschlossen und ein gemeinschaftliches Ausfüllen des Fragebogens durch mehrere Personen, welches ebenfalls die Antworten stark verfälschen könnte, vermieden werden. Den Probanden wurde erklärt, dass der Fragebogen der Untersuchung der persönlichen Verhältnisse von Studenten dient und daher teilweise auch sehr persönliche Fragestellungen beinhaltet. Des Weiteren wurden die Probanden explizit darauf hingewiesen, dass bei der vorliegenden Untersuchung Anonymität gewünscht und auch gewährleistet ist, wobei die Fragebögen nicht individuell d.h. nicht personenbezogen ausgewertet und allein für wissenschaftlichen Forschungszwecke verwendet würden. Während der Beantwortung der Fragen wurden die Probanden allein gelassen um eine mögliche Verfälschung durch die Anwesenheit der Befragter zu vermeiden. Um Anonymität zu gewährleisten sowie Validität und Reabilität zu waren, wurde für die Abgabe des Fragebogens eine blickdichte Box mit Schlitz eingerichtet. Diese Maßnahme sollte die spätere Datenqualität und Interpretierbarkeit der Ergebnisse wahren. Diese wurde in unmittelbarem Umfeld der befragten Personen aufgebaut und diese im Vorfeld gebeten, den ausgefüllten Fragebogen über die Box zurückzugeben. Für das Ausfüllen des Fragebogens gab es weder eine zeitliche Vorgabe noch wurden die Probanden zur Abgabe gedrängt. Wurde ein Fragebogen aus unbekannten Gründen nicht abgegeben, wurde dieser durch ein neues Exemplar ersetzt und eine andere, der Zielgruppe entsprechende Person, befragt. Zweifel an der Anonymität der Befragung konnten in allen Fällen durch den Hinweis auf die Verwendung einer Box ausgeräumt werden. Hierbei war stets eine positive bzw. erleichterte Reaktion der Probanden aufgrund des Vorhandenseins einer Box auffällig. Dies hat die Durchführung der Datenerhebung enorm erleichtert und das Vertrauen der Probanden gegenüber unserer Untersuchung gestärkt.

Nachfragen bezüglich des Aufbaus des Fragebogens und dessen, welchen genauen Hintergrund die Untersuchung habe, wurden ausschließlich nach Abgabe des ausgefüllten Fragebogens beantwortet. Dabei wurden die Probanden über die Existenz von zwei Fragebogentypen A und B aufgeklärt und in diesem Zusammenhang auf die mögliche zu untersuchende Auswirkung von Skalenverschiebungen auf das Antwortverhalten der Probanden eingegangen. Auffällig hierbei war, dass Nachfragen fast ausschließlich von Männern getätigt wurden. Diese zeigten ein deutlich höheres Interesse als Frauen an der späteren Verwendung der gesammelten Daten sowie dem Aufbau des Fragebogens.

4. Auswertung

Frage I: Wie viele E-Mails bekommen Sie täglich im Durchschnitt?

Fragebogen A:

0 1 2 3 4 5 6 7 8 9 mehr

Fragebogen B:

0 2 4 6 8 10 12 14 16 18 mehr

Die erste Frage der beiden Fragebögen beschäftigt sich mit der Annahme, dass befragte Personen bei Fragen die unklar bzw. zu schätzen sind pragmatisch logische Schlussfolgerungen ziehen und sich anhand der vorgegebenen Skala orientieren. Die befragte Person geht von der Annahme aus, dass die vorliegende Skala die Verteilung der Gesamtpopulation darstellt. (Harris, R. J., & Monaco 1978, 107, S. 1-27). Dabei nehmen die befragten Personen an, dass der mittlere Wert der Skala auch den mittleren Wert in der Verteilung der Gesamtpopulation repräsentiert. Schwarz/ Hippler/Deutsch und Starck (1985, S. 390) haben in einer höchst beachtenswerten Studie festgestellt, dass die Befragten, bei Fragen die sich mit dem Abschätzen von alltäglich wiederholenden Verhaltensweisen (bzw. Ereignissen), durch eine Verschiebung (Verlängerung) der Skala fast doppelt so hohe Werte ankreuzen. Diese sich ständig wiederholenden Verhaltensweisen und Ereignisse werden laut Schwarz nicht separat im Gehirn abgelegt, sondern werden mit dem Gesamtbild des Verhaltens bzw. der Tätigkeit vermischt. Aus dieser Tatsache heraus sind die Befragten nicht in der Lage die exakten Werte aus ihrem Gedächtnis abzurufen und sind gewissermaßen gezwungen logische Schlüsse zu ziehen, um diese Werte zu schätzen.

Mit der ersten Frage in Fragebogen A und B wollen wir genau diese Auswirkung erneut untersuchen. Um eine Linksverschiebung (Green & Tull 1982), der abgegeben Antworten, auszuschließen, wurde bei der Gestaltung der Fragebögen bewusst die maximale Anzahl der Felder auf 11 festgelegt.

Wie oben bereits erwähnt, wird durch Frage I die Annahme untersucht, ob die Befragten auf Grund des alltäglichen Email-Verkehrs die exakte Anzahl der eingehenden Emails nicht aus dem Gedächtnis abrufen können und diese abschätzen. Dabei gingen wir davon aus, dass die Verteilung aller abgegebenen Antworten der Normalverteilung entspricht. Somit lautet die Nullhypothese für Frage I wie folgt: Eine Verdoppelung der Skalenwerte (Skalenverschiebung) führt zu keiner Veränderung des Antwortverhaltens der Befragten.

Tab. 1: Statistische Auswertung von Frage I für

Fragebogen A/B