Formulierung einer Fragestellung

Am Anfang einer empirischen Studie steht eine Theorie oder Fragestellung, die gleichzeitig einen roten Faden für Studienaufbau und Fragebogengestaltung vorgibt. Daraus werden Hypothesen abgeleitet. Daher ist schon beim Formulieren der Fragestellung besondere Sorgfalt geboten, die sich an folgendem Beispiel gut veranschaulichen lässt.

Beispiel: Formulieren einer Fragestellung

„Lohnt es sich, viel Zeit auf die Vorbereitung auf Statistik-Klausuren zu verwenden?“ – das könnte eine typische Fragestellung im Umgang mit Statistik sein. Und obwohl vielleicht die Eine oder der Andere diese Frage klar für sich beantworten kann, ergeben sich bei näherer Betrachtung doch einige Schwierigkeiten.

Zunächst ist schon die Wahl des Studienobjekts bzw. die Wahl der Fragestellung eine sehr subjektive Handlung. Und da gerade die Statistik versucht, möglichst objektiv Zusammenhänge aufzudecken, ist die Motivation dieser Wahl klar herauszustellen. Weitere Fragen sind dann zum Beispiel was sich "lohnt" und wieviel Zeit "viel Zeit" ist. Also ist es notwendig die Frage zu spezifizieren, und hier treffen wir schon auf die zweite subjektive Auswahl: „Führt mehr eingesetzte Zeit zu besseren Ergebnissen?“ könnte eine Spezifikation sein. Aber es gibt sicherlich noch zahlreiche weitere, die genauso richtig oder falsch sind. Zum Beispiel könnte man unter eingesetzter Zeit auch die Vor- und Nachbereitung von Vorlesungen verstehen, die Diskussion mit Kommilitonen, die Verarbeitung im Schlaf etc. Von dieser eher abstrakten Ebene ist es dann notwendig, diese Begriffe zu operationalisieren. D.h. es stellt sich die Frage danach, was „messbar“ bzw. „beobachtbar“ ist. Hier könnte die Wahl auf die Zeit der Klausurvorbereitung und die Vor- und Nachbereitung von Vorlesungen in Stunden fallen. Gleiches sollte für den Lernerfolg geschehen. Das ist ein sehr abstrakter Begriff, und es stellt sich generell die Frage, ob er gemessen werden kann. Ideen hierzu sind die erreichte Note, die erreichten Punktzahlen oder aber eine Selbsteinschätzung.

Wir wollen nun jedoch versuchen die oben genannte Frage zu beantworten. Dazu stellen wir zum einen eine Hypothese auf, die ganz klar überprüft werden kann: „Je mehr Zeit aufgewendet wird, desto besser ist die Note“. Nun fehlt noch die Definition der Note: „Zusammenfassung von erreichten Punkten“. Aus dieser Vorarbeit lässt sich nun endlich eine Erwartung an die tatsächlichen Zahlen formulieren: „Die eingesetzte Lernzeit ist (positiv) korreliert mit der erreichten Anzahl von Punkten“.

Die obige Abbildung weist, entgegen der Erwartung, auf einen negativen Zusammenhang hin, sodass man daraus schließen würde, dass je mehr Zeit aufgewendet wird, die Note schlechter ist., Dies sollte keinesfalls zum Abbruch des Forschungsvorhabens führen, sondern uns dazu bewegen einen Blick zurück in die Theorie zu werfen. Was gibt es denn für Faktoren, die den Lernerfolg beeinflussen? Da wären die aufgewendete Zeit, Veranlagung, Vorwissen, Intelligenz usw. All diese Faktoren haben einen positiven Effekt auf den Lernerfolg. In diesem Beispiel wird daher angenommen, dass das Verhältnis zwischen diesen Faktoren anderer Natur ist: Meist wenden Personen, die eine hohe Intelligenz besitzen, weniger Zeit fürs Lernen auf als diejenigen, die eine geringere Intelligenz besitzen. Dieses Verhältnis ist also negativ. Gleiches gilt für das Verhältnis der Veranlagung und aufgewendeter Zeit bzw. des Vorwissens und aufgewendeter Zeit. Es wäre also eine Möglichkeit, unsere bisherige Hypothese zu erweitern und eine der oben genannten Faktoren mit aufzunehmen: „Die eingesetzte Lernzeit ist, bedingt durch das Niveau des IQs, (positiv) korreliert mit der erreichten Anzahl von Punkten“. Die folgende Grafik zeigt uns, dass wir diesmal mit unserer Hypothese richtig liegen.

Dieses Beispiel zeigt, dass Rückschlüsse aus statistischen Analysen schnell in die Irre führen können, wenn sie nicht durch theoretische Vorüberlegungen motiviert sind oder durch theoretische Überlegungen hinterfragt werden. Hier würde die Interpretation der ersten Ergebnisse zur Aussage führen, dass Lernen sich nicht lohnt! Für etwaige Überprüfungen zusätzlicher theoretischer Überlegungen kann es sinnvoll sein, neben den eigentlichen Zielvariablen auch potienzielle Störvariablen in der Studie zu erheben.

Es bleibt festzuhalten:

Eine empirische Arbeit sollte mit einer Forschungsfrage beginnen. Diese wird zuerst durch die Theorie beantwortet, und daraus werden wiederum Hypothesen abgeleitet. Meist sind mehrfache Revisionen der Hypothesen notwendig, bis daraus überprüfbare Hypothesen geworden sind. Es folgt die Operationalisierung („Messbar- bzw. Beobachtbarmachung“) von Zielgrößen und daraus die Wahl des geeigneten statistischen Verfahrens. Auch der Studienaufbau orientiert sich an den aufgestellten Hypothesen, ebenso die Erhebungsmethode und letztendlich die Erhebung selbst. Datenaufbereitung, Auswertung, die Darstellung und Interpretation der Ergebnisse ergeben sich dann zwangsläufig aus den Vorarbeiten.

Die vorgestellten Überlegungen sind unabdingbar für die erfolgreiche Planung und Durchführung einer Umfrage. Diese benötigen nämlich das zeitgleiche Durchdenken der Entwicklung der Fragestellung, der Erhebungsphase und der Analysephase. Auch wenn es schwer fällt, an die Datenauswertung zu denken, bevor überhaupt die erste Information erhoben wurde – genau dies sollte getan werden.

Studienplanung

Aus den zuvor angedachten Schritten lassen sich folgende Fragen für die Studienplanung ableiten:

Welche Informationen sollen erfasst werden?
Wer wird befragt?
Wie viele Personen werden befragt?
Wie kann ich diese erreichen?
…

Es lohnt sich außerdem, schon im Vorhinein über mögliche Schwächen der erhobenen Daten nachzudenken. Man kann sich zum Beispiel fragen, über wen man Aussagen machen kann, wenn man die Personen wirklich erreicht, die man gerne erreichen möchte. Gleichzeitig ist es eine Überlegung wert, ob man schon einen möglichen Selektionsbias entdecken kann, d.h. ob es Mechanismen gibt, die dafür sorgen, dass nur eine ganz spezielle Gruppe von Menschen erreicht wird. Die Schlüsse, die man anhand dieser Daten zieht, gelten in dem Fall nur für diese ganz spezielle Gruppe von Menschen und nicht für die Allgemeinheit. Bei einer statistischen Erhebung ist es im Idealfall möglich, eine Zufallsstichprobe aus der Grundgesamtheit zu ziehen, über die Aussagen gemacht werden sollen. Nur in diesem Fall kann gewährleistet werden, dass die Stichprobe in Bezug auf zahlreiche Merkmale der Grundgesamtheit sehr ähnlich ist. Trifft dies nicht zu, wie es bei selbsterhobenen Daten oft der Fall ist, ist eine gängige Lösung eine sogenannte Randanpassung an soziodemografische Merkmale. Das bedeutet, dass die Beobachtungen der Stichprobe auf eine bestimmte Art und Weise gewichtet werden, so dass sie repräsentativ für die entsprechende Grundgesamtheit ist. Obwohl diese Methode gut geeignet ist, mögliche Verzerrungen der Stichprobe auszugleichen, ist sie nicht uneingeschränkt nutzbar, sodass es sich empfiehlt, durch sorgfältige Planung einer Erhebung, Verzerrungen von vornherein zu vermeiden.

Ein weiteres Thema, welches die Qualität der Daten beeinträchtigen kann, sind fehlende Werte. Auch hier ist es sinnvoll, bereits frühzeitig über Ausfallmechanismen nachzudenken, d.h. was zum Fehlen von Werten führen könnte, wie z.B. das zufällige Übersehen einer gesamten Frage oder die strukturelle Verweigerung der Beantwortung einzelner Fragen. Hierzu kann es durch nicht eindeutige Fragen kommen oder durch Fragen, die ungern beantwortet werden wie z.B. die Frage nach dem Einkommen.

Einflüsse auf Antwortverhalten

Selbst wenn die Umfrage theoretisch gut geplant ist, gibt es immer noch Faktoren wie Abbruch des Interviews, willkürliches Antwortverhalten und Beantwortungstendenzen, die die Vollständigkeit und Validität von Daten gefährden. Sie werden durch zahlreiche „Befindlichkeiten“ der Respondenten verursacht. Ein Überblick findet sich in der angehängten Exceltabelle bzw. auf dem Blog von INWT mit anschaulichen Beispielen. Im Folgenden wird auf drei ausgewählte Einflüsse detailliert eingegangen:

Überforderung tritt aufgrund von schwierigen Wissensfragen auf. Auch missverständliche Fragen können durch Doppeldeutigkeit, Mehrdimensionalität und Fachausdrücke eine Überforderung verursachen. Einen ähnlichen Effekt haben offene Fragen, zu denen die Befragten keine Idee haben, sich aber verpflichtet fühlen, eine Antwort zu geben. Auch geschlossene Fragenstellungen ohne "Weiß nicht"-Kategorie können überfordernd wirken. Fragen zu weit zurückliegenden Ereignissen sind ebenfalls schwierig zu beantworten.

	Datei	Geändert
	Microsoft Excel Tabelle Einflüsse auf Antwortverhalten.xlsx	19.10.2015 by Ann-Kristin Kreutzmann
	Stichwörter einfluesse Preview Anzeigen

Beispiele: Fragen, die zur Überforderung führen können

Unklare Dimension

Problem: Es stellt sich die Frage, ob mit den Randkategorien "vorsichtig" und "optimistisch" zwei Pole einer Dimension getroffen sind. Eindeutigere Gegensatzpaare sind "vorsichtig" und "unvorsichtig" bzw. "optimistisch" und "pessimistisch". Außerdem ist eine neutrale Kategorie sinnvoll, um Häufungen in der nichtssagenden „weiß nicht/ keine Angabe“ Kategorie zu vermeiden. Tatsächlich gibt es Fälle, in denen zunächst mit den Polen "optimistisch" und "pessimistisch" gearbeitet wurde. Im Pre-Test stellte sich heraus, dass die Skala nicht voll ausgeschöpft wird. Eine Erklärung dazu ist, dass der Begriff "pessimistisch" negativ konnotiert ist und sich daher nur Wenige als "Pessimist" benennen wollen. Um die Skala besser auszunutzen wurde der Pol "vorsichtig" als Alternative zu "pessimistisch" gewählt.

2. Unkonkrete Zeitangabe

Problem: Der Ausdruck "zukünftig" ist unkonkret. Zukunft könnte sowohl als der nächste Monat, als auch als die kommenden 10 Jahre interpretiert werden, sodass sich die Einschätzungen schon auf Grund unterschiedlicher Interpretation unterscheiden könnten.

3. Ungenaues Intervall

Problem: Was bedeutet "regelmäßig": wöchentlich, monatlich, jährlich? Wie wäre z.B. ein jährlicher Kontakt im Kontext der Frage zu bewerten?

Unklare Dimension

Die Beispielfrage ist angelehnt an Frage F065 aus GESIS - Leibniz-Institut für Sozialwissenschaften (2015): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2014. GESIS Datenarchiv, Köln. ZA5240 Datenfile Version 2.1.0, doi:10.4232/1.12288.

Unkonkrete Zeitangabe

Die Beispielfrage ist angelehnt an an Frage F001 aus GESIS - Leibniz-Institut für Sozialwissenschaften (2015): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2014. GESIS Datenarchiv, Köln. ZA5240 Datenfile Version 2.1.0, doi:10.4232/1.12288.

Ungenaues Intervall

Die Beispielfrage entspricht Frage F009 aus GESIS - Leibniz-Institut für Sozialwissenschaften (2015): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2014. GESIS Datenarchiv, Köln. ZA5240 Datenfile Version 2.1.0, doi:10.4232/1.12288.

Frustration tritt oft aufgrund von fehlenden Antwortoptionen oder falscher Navigation auf. Nicht selten sind bei geschlossenen Frageformulierungen die Antwortoptionen unvollständig (z.B. wenn im Versandhandel nach Retourgründen gefragt wird und z.B. die Variante „Artikel gefällt nicht“ fehlt) oder wenn die Filterführung durch den Fragebogen für nicht bedachte Fälle in eine Sackgasse führt. Dies könnte eintreten, wenn z.B. in einer Kundenzufriedenheitsbefragung nach den Erfahrungen mit der telefonischen Hotline gefragt wird, ohne dass vorher über eine Filterfrage sichergestellt wurde, dass der Kunde diese genutzt hat. In beiden Fällen wird der Respondent entweder zu falschen Antworten genötigt, um die Befragung fortsetzen zu können oder er bricht die Befragung frustriert ab.

Verzerrte Antworten durch Bequemlichkeit werden hauptsächlich durch die Reihenfolge der Fragen bzw. der Antworten verursacht. Hierbei können folgende Effekte auftreten: "Primacy" - Antwortkategorien, die zu Beginn genannt werden, werden bevorzugt ausgewählt. "Satisficing" - Die befragte Person wählt die erste Antwort aus, die in etwa ihren Ansichten entspricht, ohne sich alle Antwortkategorien angehört/angesehen zu haben. "Recency" - Zuletzt genannte Antworten werden am besten erinnert. Außerdem gibt es eine so genannte "Tendenz zur Mitte" bzw. eine "Tendenz nach links". Letztere ist einigen Studien zufolge insbesondere bei Likert-Skalen (siehe Beispiel) zu beobachten und steht in Zusammenhang mit der Schreibrichtung.

Beispiel: Likert-Skala Die Antwortmöglichkeiten sind ordinal skaliert, d.h. die Ablehnung oder Zustimmung ist absteigend oder aufsteigend angeordnet, ohne dass die Abstände interpretierbar sind.

Likert-Skala

Die Beispielfrage ist ein Teil der Frage F074 aus GESIS - Leibniz-Institut für Sozialwissenschaften (2015): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2014. GESIS Datenarchiv, Köln. ZA5240 Datenfile Version 2.1.0, doi:10.4232/1.12288.

Befragungstyp (Modus)

Eine wichtige Vorüberlegung ist, mit welchem Instrument die Befragung durchgeführt werden soll. Neben dem persönlichen Interview stehen telefonische oder postalische Befragung sowie internetbasierte Umfragen zur Verfügung. Alle Instrumente haben Vor- und Nachteile, die im Folgenden besprochen werden.

Generell richtet sich die Wahl des Befragungstyps (Befragungsmodus) nach folgenden Punkten:

Anzahl der vorgesehenen Studienteilnehmer (persönliches Interview bei sehr großer Teilnehmerzahl nicht adäquat)
Studienziel
Studienpopulation
Zugang zu Studienteilnehmern (Patienten in einem Krankenhaus können besser per „Stationsbesuch“ befragt werden, Umfragen zur Verbrauchererwartung werden über einen Internetlink erreicht)
Länge/Dauer der Befragung
notwendige Informationen (muss der Teilnehmer noch Unterlagen heraussuchen?)
Ressourcen (Zeit, Budget, Personal)

Generell spielen sowohl inhaltliche als auch organisatorische Rahmenbedingungen eine Rolle bei der Entscheidung, welcher Befragungstyp am besten geeignet ist. Daher müssen neben der inhaltlichen Gestaltung auch weitere Eigenschaften beachtet werden.

Die Rücklaufquoten unterscheiden sich erheblich zwischen den Befragungstypen. Wenn also nur wenige potentielle Studienteilnehmer zur Verfügung stehen, sollte ein Befragungstyp mit einer möglichst hohen Rücklaufquote gewählt werden, auch wenn der Aufwand hoch ist.

Ebenfalls muss überlegt werden, wie viel Zeit für die Datenerhebung per Fragebogen zur Verfügung steht. Die benötigten Zeiträume für Vorbereitung und Durchführung variieren zwischen den Befragungstypen stark.

Zusätzlich kann überprüft werden, ob die Zugabe von Incentives – Anreizen, die zur Teilnahme motivieren – sinnvoll und möglich ist, um die Teilnahmebereitschaft zu erhöhen. Je nach Befragungstyp stehen unterschiedliche Arten von Incentives zur Verfügung. Allerdings sollte im Umgang mit ihnen Vorsicht geboten sein, da es durch die unterschiedlichen Bedürfnisse der Studienteilnehmer und somit der unterschiedlichen Teilnahmebereitschaft zu Verzerrungen der Ergebnisse kommen kann (Personen ohne Geld nehmen evtl. eher an einer Umfrage mit einem Gutschein als Incentive teil als Personen mit Geld. Wenn sich dann die inhaltlichen Antworten zwischen diesen beiden Gruppen unterscheiden, kommt es zu verzerrten Ergebnissen).

Nicht zuletzt wird auch schon bei der Wahl des Befragungstyps festgelegt, auf welchem Weg die erhobenen Daten in einer Datentabelle abgelegt werden. Werden die Daten bereits während der Befragung elektronisch erfasst (Internetumfrage, Eingabe während Interview), dann bereitet dieser Schritt kaum Probleme. Bei einer Datenerfassung auf Papier sollte überlegt werden, wer die Daten eingibt, und ggf. muss eine entsprechende Eingabemaske entwickelt werden.

Es wird unterschieden zwischen den folgenden Befragungstypen:

Selektionsbias

Bei der Auswertung der Daten muss auch über eine mögliche Verzerrung nachgedacht werden, den sogenannten Selektionsbias. Was unterscheidet die (freiwilligen) Teilnehmer/-innen von denen, die ihre Teilnahme verweigern? Meist spielt die Motivation eine große Rolle bei der Teilnahmeentscheidung. Personen, die sich für das Studienziel interessieren, haben eine größere Teilnahmebereitschaft als nicht interessierte Personen. Die Erhöhung oder Herausstellung der Motivation kann die Teilnahmebereitschaft erhöhen. Aber auch der Zeit- und Arbeitsaufwand im Verhältnis zur verfügbaren Zeit nimmt großen Einfluss. Ein Patient/eine Patientin im Krankenhaus, der/die über seine/ihre eigene Krankheit befragt wird und sich vielleicht im Krankenhaus langweilt, wird einer Befragung vermutlich zustimmen. Ein/e Manager/Managerin, der/die über sein Einkaufsverhalten im Supermarkt befragt werden soll, wird vermutlich eher nicht zustimmen. Diese Verzerrung kann in keinem Befragungstyp ausgeschlossen werden und muss in jeder Arbeit thematisiert werden.

Darüber hinaus kann es auch eine Selektion geben, weil nicht alle Personen die gleiche Chance hatten, überhaupt um Teilnahme gebeten zu werden. So kann eine Internetumfrage nur von Personen mit Zugang zum Internet ausgefüllt werden und auch nur von solchen Personen, die von dieser Umfrage erfahren haben (E-Mail-Verteiler, soziale Netzwerke). Wo stammen die Adressen für postalische Umfragen her? Wie viele Personen gehören noch zur Studienpopulation, die keinen Brief erhalten haben? Dies sind Fragen, die immer im Hinterkopf behalten werden sollten.

Fragentypen

Wenn Sie sich für einen Befragungsmodus entschieden haben, kommt die Phase der konkreten Gestaltung des Fragebogens. Dazu gilt es zunächst den richtigen Fragentyp für die entsprechende Fragestellung zu finden. Im Folgenden soll kurz darauf eingegangen werden, welcher Fragentyp für welche Frage geeignet ist. Dabei ist zu beachten, dass die Typen sich nicht immer klar voneinander abgrenzen, sondern vielmehr fließend ineinander übergehen.

Geschlossene Fragen / offene Fragen (Freitext)

Prinzipiell bietet es sich an, hauptsächlich geschlossene Fragen zu verwenden. Das erleichtert zum einen den Respondenten die Beantwortung der Frage. Es hat sich gezeigt, dass offene Fragen generell seltener ausgefüllt werden – insbesondere, wenn umfangreichere Antworten abgefragt werden. Zum anderen erleichtert es die standardisierte Auswertung. Die Sichtung einer umfassenden Sammlung von Freitextkommentaren nimmt viel Zeit in Anspruch. Des Weiteren lassen sich die Ergebnisse selten bzw. nur mit sehr großem Aufwand zusammenfassen. Offene Fragen können jedoch sinnvoll sein, wenn vorgegebene Kategorien zu Verzerrungen führen können, wie bspw. bei Fragen zur Vergangenheit oder schwierig einzuschätzendem Verhalten, z.B. „Wie reagieren Sie, wenn Sie einen Überfall auf der Straße beobachten?“. Bei geschlossenen Fragen sollten Sie trotz aller Vorteile die Antwortoptionen (u.a. auch im Rahmen von qualitativen Voruntersuchungen und dem Pre-Test) sorgfältig auswählen.

Two-choice / Multiple-choice

Wenn es um die Formulierung einer geschlossenen Frage geht, ergeben sich die Antwortoptionen zu einem Großteil aus der Information, die mit Hilfe der Frage gewonnen werden soll. Geht es bspw. darum, die Impfungen eines Tieres anzugeben, dann sollte es natürlich so viele Antwortmöglichkeiten geben, wie es interessierende Impfungen gibt. Dennoch besteht bei anderen weniger eindeutigen Fragestellungen immer ein gewisser Spielraum in Bezug auf die Anzahl an Antwortmöglichkeiten. Man unterscheidet hier zwischen so genannten „two-choice“-Fragen und „multiple-choice“-Fragen.

Natürlich hängt die Verständlichkeit der Frage immer auch davon ab, wie prägnant die Formulierung der einzelnen Antwortoptionen ist. Generell aber sind two-choice-Fragen meist leichter zu verstehen. Die Entscheidung zwischen ja oder nein / liegt vor oder liegt nicht vor etc. ist einfacher zu treffen, als bspw. Abstufungen eines Gefühls anzugeben, wie es bei multiple-choice-Fragen der Fall sein kann.

Des Weiteren ist es möglich, zwischen Einfach- und Mehrfachauswahl zu unterscheiden. Auch dies regelt sich allerdings zumeist über die Fragestellung. Falls es möglich ist, mehrere Antworten anzukreuzen, sollte dies in der Frageneinleitung kurz erwähnt werden.

Wichtig ist, dass jede Respondentin und jeder Respondent eine Antwortmöglichkeit finden sollte, die ihr oder ihm entspricht. Daher ist es ratsam in einigen Fällen die Kategorie „trifft nicht zu“ mit aufzunehmen.

Natürlich ist es anhand der zweiten Frage möglich, umfassendere Informationen über eine Person zu gewinnen. Ist aber in der Studie lediglich die Tatsache von Interesse, ob die betreffende Person einen solchen Kurs besucht hat, dann sollte nur die erste Frage verwendet werden. Sie ist einfacher zu beantworten und hält die Länge des Fragebogens so kurz wie möglich.

In Bezug auf die Auswertung teilen two-choice-Fragen die Befragten in zwei Gruppen. Eine typische Fragestellung einer Untersuchung kann sein, ob sich die Häufigkeit eines bestimmten Merkmals in den Gruppen unterscheidet. Zum Beispiel könnte man anhand von zwei two-choice-Fragen feststellen, ob eine befragte Person raucht und ob sie Sport treibt. Anhand der Häufigkeiten der unterschiedlichen Kombinationen lässt sich dann feststellen, ob es zwischen den beiden Merkmalen einen Zusammenhang gibt, d.h. ob Personen, die rauchen, weniger oft Sport treiben bzw. umgekehrt. Mit einer multiple-choice-Frage lassen sich mehr als zwei Gruppen identifizieren. Auch hier kann man einen Zusammenhang zwischen der Gruppenzugehörigkeit und einem anderen Merkmal herausfinden. Bei Mehrfachantworten kann es allerdings aufgrund von verschiedenen Kombinationsmöglichkeiten schnell zu einer sehr großen Anzahl an Gruppen kommen.

Eine Frage, an der sich die Geister scheiden, ist, ob „Weiß nicht" als Antwortkategorie angeboten werden sollte. Aus der Praxis ist bekannt, dass „Weiß nicht", „keine Angabe" oder auch „trifft nicht zu“ durchaus von einigen Respondenten/Respondentinnen angekreuzt wird, wenn diese Option angeboten wird. Dies hilft, potentieller Überforderung oder Frustration entgegen zu wirken. Nur in speziellen Fällen sollten Sie die Befragten zu einer inhaltlichen Antwort zwingen, indem Sie die „Weiß nicht"-Kategorie weglassen. Wird zu häufig eine inhaltliche Antwort gefordert, erhöht dies die Datenqualität nur vermeintlich, da diese Technik zu Lasten der Validität geht.

Ratingfragen/ Skalenfragen

Ratingfragen sind eine spezielle Art der multiple-choice-Fragen. Hier wird die befragte Person aufgefordert, eine Antwort zwischen den zwei Extremen einer Skala auszuwählen, also bspw. einen Wert zwischen schlecht und gut oder wenig bis viel zu wählen. Die unten aufgeführte Frage ist eine Ratingfrage. Hier kann eine Antwort von Zustimmung bis Ablehnung gewählt werden. Likert-Skalen (siehe Beispiel: Likert-Skala) sind eine typische Form der Ratingfrage.

Bei der Konzipierung dieser Fragen ist Vorsicht geboten. Besteht eine Ratingfrage aus drei Antwortkategorien, ist die abgefragte Variable eindeutig als ordinal einzustufen. D.h. es wird nicht davon ausgegangen, dass zwischen den einzelnen Ausprägungen die gleichen Abstände liegen. Dennoch lassen sie sich in eine Reihenfolge bringen. Besitzt eine Frage fünf oder sieben Antwortkategorien, verhält es sich anders. Hier sollte vor der statistischen Auswertung entschieden werden, ob das abgefragte Merkmal als metrisch (Abstände zwischen den Kategorien sind gleich) oder als ordinal (Abstände zwischen den Kategorien müssen nicht gleich sein/ können nicht interpretiert werden; man kennt nur die Reihenfolge) angesehen werden kann. Je nach Entscheidung darüber lassen sich unterschiedlich mächtige statistische Analysen durchführen. Wenn davon auszugehen ist, dass die Befragten ihre Einstellung so detailliert bestimmen können, dann sollte die Ratingfrage mit sieben Ausprägungen den anderen vorgezogen werden. Dies erleichtert nachfolgend die Analyse (Material zur Diskussion: Paper Likert Controversy). Bei der Festlegung der Zahl der Antwortkategorien gilt es abzuwägen. Wenn es nur wenige Kategorien gibt, ist die gewonnene Information eher undifferenziert. Viele Kategorien bieten zwar differenziertere Informationen, jedoch haben die individuellen Unterschiede ein entsprechend größeres Gewicht. Zum Beispiel vergibt eine Person auf der Skala von 1 bis 10 eine 5, eine andere Person eine 8, auch wenn beide damit „gut“ meinen. Ein interessanter Aspekt ist auch, ob die Anzahl der Wahlmöglichkeiten gerade oder ungerade ist. Bei gerader Anzahl existiert meist keine neutrale Kategorie und die Befragten werden zu einer inhaltlichen Aussage gezwungen. Das kann in einigen Situationen wünschenswert sein. In anderen führt es vielleicht zu Verzerrungen, da eine neutrale Haltung ja durchaus auftreten kann und dann im Fragebogen natürlich auch Platz finden sollte.

Natürlich zeigt sich an diesen einfachen Beispielen bereits die Herausforderung der Fragebogengestaltung. Denn eventuell würden Sie lieber die ausführlichere multiple-choice-Frage beantworten, da Ihnen die two-choice-Antworten zu restriktiv sind. Andererseits ist bei der multiple-choice-Frage nicht ganz klar, was eher zustimmen bzw. eher nicht zustimmen bedeutet. Hier besteht die Gefahr, dass Personen, die eigentlich der Aussage in gleichem Ausmaß zustimmen, zwei unterschiedliche Antworten ankreuzen. Im Prinzip wäre eine ausführliche Erklärung der Antwortkategorien vonnöten – natürlich ein Ding der Unmöglichkeit.

Folgefragen

In der Praxis taucht nicht selten die Situation auf, dass eine bestimmte Frage nur für bestimmte Personen sinnvoll ist. Beispielsweise ist es nur sinnvoll, eine Person nach der Anzahl der Mitarbeiter, für die er verantwortlich war, zu befragen, wenn die entsprechende Person überhaupt für andere Mitarbeiter verantwortlich war.

Um diesem Problem vorzubeugen, werden die Fragen aufeinander aufgebaut, sodass tatsächlich nur die Personen die Frage bekommen, die auch betroffen sind. Vorweg steht eine sogenannte Filterfrage, die die entsprechende Charakteristik abfragt. Je nach Antwort auf diese Frage werden dann andere folgende Fragen angezeigt oder nicht.

Eine solche Filterführung lässt sich bei Onlineumfragen problemlos umsetzen. Bei Papierfragebögen sollte darauf geachtet werden, dass die Navigation durch den Fragebogen übersichtlich bleibt. Verwirrende Filterführungen können im schlimmsten Fall zu einem Abbruch der Umfrage führen.

Aufgrund der obigen Erläuterungen sollten Sie nun in der Lage sein, den passenden Frage- und Antworttyp zu wählen. Es schadet der Umfrage nicht, wenn Sie mit unterschiedlichen Frage- und Antworttypen arbeiten. Im Gegenteil, auf diese Weise schaffen Sie Abwechslung und wirken Langeweile entgegen.

Codierungsplan

Vor der Entwicklung des Fragebogens wird geklärt, wie die Daten in die Datentabelle übernommen werden und welche Struktur die Daten in der Datentabelle einnehmen sollen.

Für jede Frage wird überlegt, auf welcher Skala die Daten liegen und welche Werte die Daten annehmen können. Sämtliche Überlegungen dazu werden in einem Codebook festgehalten: Wie lautet die Frage? Wie ist die dazugehörige Variable benannt? Welche Werte stehen für welche Antwortmöglichkeit? Wie sind fehlende Werte codiert? Diese Informationen werden zusätzlich in ein Exemplar des Fragebogens eingetragen (bunte Schriftart), der als annotierter Fragebogen bezeichnet wird.

Bei stetigen Daten (quantitative Merkmale, z.B. Größe in cm oder Alter in Jahren) wird die gemessene Einheit (z.B. cm oder m) definiert und überlegt, welches der kleinste und der größte zu erwartende Wert sind. Ordinale Daten (z.B. Schulnoten oder Likert-Skala) werden ebenfalls numerisch erfasst. Im Codebook wird für jede Ziffer die jeweilige Beschreibung aus dem Fragebogen notiert. Bei nominalen Daten (verschiedene Kategorien ohne Wertung, z.B. Haarfarbe, Produktmarke) muss zwischen einfachen und mehrfachen Antwortmöglichkeiten unterschieden werden. Muss sich der Teilnehmer/die Teilnehmerin für eine der Antwortmöglichkeiten entscheiden, dann werden die verschiedenen Antwortmöglichkeiten durchnummeriert, und im Codebook wird festgehalten, welche Ziffer für welche Antwortmöglichkeit steht. In der Datentabelle wird für jeden Teilnehmer/jede Teilnehmerin die jeweilige Ziffer eingetragen. Kann der Teilnehmer/die Teilnehmerin mehrere Antworten auswählen, so muss für jede Antwortmöglichkeit eine separate Variable in der Datentabelle vorgesehen werden. Wenn der Teilnehmer/die Teilnehmerin die Antwortmöglichkeit angekreuzt hat, wird in der Spalte eine 1 eingetragen, für die nicht ausgewählten Antwortmöglichkeiten wird eine 0 eingetragen. Dies wird entsprechend im Codebook vermerkt.

Beispiel: ALLBUS 2014, Variable Report Die Kodierung der Variablen kann auch schon im Codebook um erste deskriptive Statistiken ergänzt werden.

Beispiel: ALLBUS 2014, Variable Report

Beispiel aus GESIS - Leibniz-Institut für Sozialwissenschaften (2015): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2014;Variable Report. GESIS Datenarchiv, Köln. ZA5240 Datenfile Version 2.1.0, doi:10.4232/1.12288.

Wenn Angaben fehlen, dann werden die Felder in der Datentabelle nicht leer gelassen, sondern es wird ein definierter Wert eingetragen (in allen Variablen der gleiche Wert). Welcher Wert verwendet wird, ist egal, der Wert darf nur nicht in den gültigen Antworten vorkommen! Es ist fehlerträchtig fehlende Werte mit dadurch zu codieren indem man das entsprechende Zahlenfeld mit 9-en (oder 8-en) auffüllt, wie dies leider immer noch üblich ist. Da die Zahlenfelder meist unterschiedliche Länge haben, können ganz unterschiedliche 9-er Kombinationen auf einen fehlenden Wert verweisen. Wird dies nicht erkannt, so führt dies bei der Berechnung von Mittelwerten, zum Beispiel bei Einkommensangaben, zu groben Fehlern. Weiterhin sollte man zwischen logischen Unterschieden für fehlende Werte unterscheiden: So bedeutet die Angabe ''Trifft nicht zu (tnz)'' etwas anderes als ''Keine Angabe (ka)''. Diese logische Unterscheidung sollte in der gesamten Umfrage beibehalten werden und immer mit denselben Werten (Missing Codes) codiert werden. Beispielsweise bedeutet im Sozio-Ökonomischen Panel "-1" durchgängig "Keine Angabe" und ''-2" durchgängig "Trifft nicht zu". Dies wird im Codebook vermerkt. Bei der Datenauswertung muss dem Statistikprogramm mitgeteilt werden, dass "-1" für einen fehlenden Wert und "-2" für "Trifft nicht zu" steht. Standardmäßig benutzen JMP, R und SAS einen "." für einen fehlenden Wert, wobei aber t zwischen "ka" und "tnz" nicht unterschieden wird.

Vor der Datenauswertung werden die eingegebenen Daten in der Datentabelle auf Vollständigkeit und Plausibilität überprüft. Mit Hilfe des Codebooks (gültiger Wertebereich) können ungültige Werte erkannt und ggf. korrigiert werden.

Bei der Codierung der Daten ist es auch hilfreich, sich bereits über die vorgesehenen Auswertungen und statistischen Testverfahren Gedanken zu machen. „Ja“ und „Nein“ oder ähnliche Kombinationen sollten stets mit 1 und 0 codiert werden, da dies die Interpretation der Ergebnisse bei statistischen Auswertungen z.B. im Rahmen einer Regressionsanalyse erleichtert. Bei der Untersuchung, wie oft welche Antwortmöglichkeit angekreuzt wurde (Häufigkeiten), sollten die Häufigkeiten in den einzelnen Gruppen (Antwortmöglichkeiten) möglichst gleich groß sein. Häufig ist dies nicht der Fall, weil bestimmte Antwortmöglichkeiten besonders häufig oder selten ausgewählt werden. Es kann nützlich sein, Gruppen zusammenzufassen, damit es weniger, aber dafür (gleich) große Gruppen gibt. Die Zusammenfassung von Gruppen erfolgt dabei unter inhaltlichen Gesichtspunkten. Oft hilft auch die Überlegung, welche der Antwortmöglichkeiten das „Risiko“ – also die wirklich interessierende Eigenschaft – abbildet und welche als „kein Risiko“ betrachtet werden. Es empfiehlt sich dann eine entsprechende Gruppierung. Die Zusammenfassung von Kategorien erfolgt stets in einer neuen separaten Variablen, die Variable mit den Rohdaten wird nie überschrieben oder gelöscht!

Fragebogengestaltung

Im Folgenden werden lediglich einige ausgewählte Tipps zur Fragebogengestaltung vorgestellt. Eine ausführliche Übersicht findet sich in der angehängten Excel-Tabelle bzw. auf dem Blog von INWT.

Das Layout spielt in der Fragebogenkonstruktion eine große Rolle. Achten Sie unter anderem darauf, die Schrift ausreichend groß sowie eine saubere Schriftart (auf Papier mit Serifen, am Bildschirm eher ohne Serifen) zu wählen und zwischen Fragen und Antworten genügend Platz zu lassen. Des Weiteren sollte der Fragebogen so kurz wie möglich sein. Dabei hilft es, eine geeignete Filterführung zu verwenden oder überflüssige Fragen und Antwortkategorien zusammenzufassen.

Es gilt prinzipiell: weniger ist mehr. Halten Sie den Fragebogen schlicht, verzichten Sie bspw. bei Onlinebefragungen auf blinkende Banner, zu viele fett und kursive Schriften oder den Einsatz zu vieler unterschiedlicher Farben. Dies alles kann zum einen ablenkend wirken, zum anderen könnte es bei geringen Auflösungen, älteren Browsern, restriktiven Sicherheitseinstellungen etc. Probleme mit der Darstellung geben. Auf diese Weise können entsprechende Features die Befragung für einige Respondenten/Respondentinnen unmöglich machen und so zu einer verzerrten Stichprobe führen.

Verwenden Sie viel Sorgfalt auf die Auswahl der Formulierungen. Drücken Sie sich klar und konkret aus. Formulieren Sie Fragen wertfrei und stellen Sie keine Suggestivfragen. Die Forschung hat zahlreiche Beispiele dafür gefunden, wie bereits kleinere Variationen sowohl in der Formulierung als auch bei der Gruppierung oder Reihenfolge der Fragen/Antwortkategorien zu deutlichen Verschiebungen im Antwortverhalten führen können. Bei persönlichen oder telefonischen Interviews kann zudem der Interviewer/die Interviewerin einen indirekten Effekt auf das Antwortverhalten ausüben (werden dem Interviewer/der Interviewerin vom Respondenten/von der Respondentin bestimmte Eigenschaften oder Einstellungen zugeschrieben, kann der Effekt der "sozialen Erwünschtheit" zu verzerrten Antworten im Sinne der als akzeptiert angesehenen Antwort führen).

Wählen Sie die Fragen sorgfältig aus. In vielen Fachgebieten gibt es zu bestimmten Themen bereits etablierte Fragebogeninstrumente. Es ist empfehlenswert, solche etablierten Fragen inkl. Antwortmöglichkeiten zu verwenden statt neue zu entwickeln. Das liegt nicht nur daran, dass die etablierten Versionen bereits den Validierungs- und Skalierungsprozess erfolgreich durchlaufen haben, sondern auch dass die Ergebnisse der eigenen Arbeit dann direkt mit denen anderer Studien verglichen werden können. Zudem kann sowohl vom Kürzen solcher Skalen ohne Datengrundlage als auch vom Ändern des Antwortformats (z.B. 4 auf 5 Punkt Likert-Skala) nur abgeraten werden. Darüber hinaus behalten Sie stets auch Ihre spätere Analyse im Auge und überlegen Sie, wie und ob Sie eine Frage für die Auswertung nutzen wollen.

Verwenden Sie viel Sorgfalt bei der Gestaltung des Anschreibens. Hier sollten das Thema der Umfrage, die Motivation und Dauer angegeben sowie die vertrauliche Nutzung der Daten zugesichert werden. Häufig lässt sich die Teilnahmebereitschaft steigern, wenn Sie prominente Unterstützer für das Projekt gewinnen, in deren Namen Sie das Anschreiben verschicken können oder die Sie zumindest mit einem Statement im Anschreiben erwähnen dürfen. Zum Schluss sollten Sie sich bei den Teilnehmern/Teilnehmerinnen bedanken, evtl. den Zugang zu Studienergebnissen anbieten oder auf weitere Informationen verweisen. Diese Maßnahmen dienen dazu, eine Beziehung zu den Befragten aufzubauen und sie so davon abzuhalten, die Befragung abzubrechen bzw. sich für weitere Befragungen nicht zur Verfügung zu stellen.

Pretest

Alle Fragebögen müssen mindestens einmal getestet werden, bevor sie zum Einsatz kommen. Auf diese Weise kann herausgefunden werden, ob Fragen unklar, zweideutig oder irreführend sind. Auch Unstimmigkeiten im Layout oder bei den Anweisungen zum Fragebogen können entdeckt werden. Außerdem wird klar, ob es Fragen gibt, die Studienteilnehmer nicht beantworten können oder möchten und ob bei bestimmten Fragen noch Antwortmöglichkeiten fehlen. Diese Testphase bietet zudem die Möglichkeit, zu ermitteln, wie viel Zeit zum Ausfüllen des Fragebogens eingeplant werden muss.

Zunächst ist es hilfreich, Kollegen oder Experten zu bitten, den Fragebogen zu testen und zu prüfen, ob alle wichtigen Aspekte abgedeckt sind. Im nächsten Schritt wird der Fragebogen dann an einer kleinen Gruppe von Personen aus der Zielpopulation getestet, um besonders die Verständlichkeit und Klarheit der Fragen abzusichern. Dabei ist es hilfreich, wenn einige Personen den Fragebogen allein ausfüllen (sofern das später auch vorgesehen ist) und anschließend berichten, was ihnen aufgefallen ist, und wenn eine andere Gruppe von Personen den Fragebogen in einem Workshop gemeinsam mit den Untersuchern ausfüllt und direkt Feedback zu jeder Frage gibt.

Wenn möglich, wird der Pretest noch einmal mit denselben Testpersonen durchgeführt, um die Wiederholbarkeit der Fragen zu testen. Die Zeit zwischen den beiden Tests ist dabei so lang zu wählen, dass die Befragten sich nicht mehr an ihre Antworten erinnern. Die Antworten der zwei Befragungen sollten sich nicht wesentlich unterscheiden. Um dies formal (statistisch) zu prüfen, muss die Zahl der Testpersonen ausreichend hoch sein. In den meisten Fällen wird daher auf einen formalen Test verzichtet und mit einer deskriptiven Untersuchung der Unterschiede zwischen erster und zweiter Befragung vorliebgenommen.

Responseratenanalyse

Unabhängig vom Befragungstyp ist es immer notwendig, die Responserate so hoch wie möglich zu halten und dadurch der Gefahr der Verzerrung durch Selektion (Selektionsbias) vorzubeugen. Bei einer niedrigen Responserate ist davon auszugehen, dass hauptsächlich solche Personen antworten, die durch persönliche Betroffenheit oder eine außergewöhnliche Beziehung zum Thema besonders motiviert sind. Bei einer Umfrage zum Thema Ernährung erwartet man zum Beispiel, dass besonders solche Personen antworten, die auf gesunde Ernährung achten oder sich an spezielle Diäten halten. Unter Umständen ist also der Anteil der Vegetarier/Vegetarierinnen überdurchschnittlich hoch. Sind die Gründe für eine Verzerrung bekannt, kann ihr bspw. durch Schichtung vorgebeugt werden. Dies lässt sich vor (maximal X Vegetarier/Vegetarierinnen dürfen den Fragebogen ausfüllen) oder nach (Auswertung getrennt für Vegetarier/Vegetarierinnen und Nichtvegetarier/Nichtvegetarierinnen) der Datenerhebung durchführen. Wird die Selektion nicht berücksichtigt, besteht die Gefahr von falschen Schlussfolgerungen bei der Interpretation der Ergebnisse (im Beispiel wird der durchschnittliche Fleischverzehr vermutlich unterschätzt).

Oben genannte Korrekturverfahren haben nur begrenzte Möglichkeit, einen Selektionsbias auszugleichen. Daher ist es wichtig, von vorneherein eine höhere Teilnahmerate zu erzielen. Dazu ist es notwendig, auch die Personen, die wenig persönliche Motivation mitbringen, zur Teilnahme zu motivieren. Die folgenden Punkte haben sich als geeignet erwiesen:

Information ist essentiell, um Motivation zu entwickeln. Daher muss das Studienziel den Teilnehmern/Teilnehmerinnen gründlich erklärt werden. Selbst wenn dem Teilnehmer/der Teilnehmerin das Thema kein persönliches Anliegen ist, ist seine Teilnahmebereitschaft deutlich höher, wenn er den Zweck der Studie versteht (und sie selbst für sinnvoll erachtet). Dies ist besonders für Kontrollpersonen in Fall-Kontroll-Studien eine Herausforderung, die aber durch gründliche Aufklärung gemeistert werden kann. Nicht ohne Grund ist die umfassende Information von Studienteilnehmern nach den einschlägigen Ethikrichtlinien zwingend vorgeschrieben.
Die Vorbereitung von leicht verständlichen, aber dennoch umfassenden Informationsmaterialien, die den Teilnehmern/Teilnehmerinnen (vorab) ausgehändigt werden, ist daher ein wichtiger Schritt in der Vorbereitungsphase.
Informationsveranstaltungen oder andere geeignete Foren, bei denen den Teilnehmern/Teilnehmerinnen offene Fragen beantwortet werden, sind ebenfalls sehr hilfreich. Jede Möglichkeit, den Studienteilnehmern persönlich gegenüberzutreten, ist gut geeignet, um die Responserate zu erhöhen. Auf diese Weise werden eine persönliche Beziehung und Vertrauen hergestellt, die über indirekte Kontakte per Post o.ä. nie erreicht werden können. Die meisten Menschen sind eher bereit, eine Person mit einer guten Idee zu unterstützen als nur die Idee selbst. Schriftliche Informationsmaterialien werden zusätzlich ausgehändigt, um die Seriosität (Logo, Name der Forschungseinrichtung) zu belegen.
Alle Dokumente (Informationsmaterialien, Fragebogen, aber auch Antwortkuverts, Anzeigen in Zeitungen etc.) haben die gleiche, klare Struktur und ein professionelles Layout. Stets ist auf den ersten Blick zu erkennen, um welches Projekt es sich handelt (Logo) und welche Forschungseinrichtung dahinter steht. Ein nüchternes Design macht klar, dass es sich um ein Forschungsprojekt handelt, nicht um eine Schülerumfrage oder eine von einem Hersteller durchgeführte Marktforschung. Für Studien, die aus der FU heraus durchgeführt werden, ist die Verwendung des Corporate Designs der FU verbindlich.
Der geschätzte Zeitaufwand sollte angegeben werden. Die Studienteilnehmer/Studienteilnehmerinnen wissen dann, worauf sie sich einlassen.
Kontakt mit den Studienteilnehmern/den Studienteilnehmerinnen ist hilfreich. Nachfrage und ggf. wiederholte Zusendung des Fragebogens erhöhen die Wahrscheinlichkeit der Teilnahme.
Die Länge des Fragebogens entscheidet auch über die Responserate. Es wird empfohlen, dass Fragebögen nicht mehr als 1000 Wörter enthalten.
Die Zugabe von Incentives wirkt ebenfalls motivierend. Hierbei kann es sich um einen Kugelschreiber handeln. Eine finanzielle Aufwandsentschädigung ist ebenfalls hilfreich, wobei die Höhe der Entschädigung tatsächlich nur eine untergeordnete Rolle spielt. Die Tatsache, dass die Teilnahmebereitschaft wertgeschätzt wird, wird von den Teilnehmern/Teilnehmerinnen honoriert.
Es ist wichtig, die Befragung oder den Versand der Fragebögen vorab bei den Teilnehmern anzukündigen.
Fragebogen und Anschreiben sollten personalisiert sein.
Sensible oder personenbezogene Daten sollten nur erhoben werden, wenn sie auch wirklich notwendig sind.

Literaturangaben

Boynton PM. Administering, analysing, and reporting your questionnaire. BMJ. 2004; 328(7452):1312-1315.

Brace, Ian (2004): Questionnaire Design – How to Plan, Structure and Write Survey Material for Effective Market Research. Kogan Page Ltd.

Bradburn, Norman/ Sudman, Seymour/ Wansink, Brian (2004): Asking Questions. The Definitive Guide to Questionnaire Design – For Market Research, Political Polls, and Social and Health Questionnaires. Rev. ed. Jossey-Bass.

Dohoo I, Martin W, Stryhn H. Methods in epidemiologic research. Charlottetown, Prince Edward Island, Canada. 2012.

Edwards P, Roberts I, Clarke M, DiGuiseppi C, Pratap S, Wentz R. Increasing response rates to postal questionnaires: systematic review. BMJ. 2002; 324(7347):1183.

Edwards P, Roberts I, Clarke M, DiGuisepi C, Pratap S, Wentz R. Methods to increase response rates to postal questionnaires. Cochrane Database Syst Rev. 2007(2): MR000008.

Jepson C, Asch DA, Hershey, JC, Ubel PA. In a mailed physicioan survey, questionnaire length had a threshold effect on response rage. J. Clin Epidemiol. 2006;58(1):103-105.

Moosbrugger, Helfired/ Kelava, Augustin (Hrsg.) (2008): Testtheorie und Fragebogenkonstruktion. Springer.