Fehlende Werte als Problem

Fehlende Werte sind in der empirischen Forschung häufig nicht vermeidbar und können bei der Anwendung von klassischen statistischen Analyseverfahren zu Problemen führen, da diese in der Regel nur Fälle mit kompletten Beobachtungen erfordern. Je mehr Variablen mit fehlenden Werten behaftet sind, desto kleiner wird die Menge mit der kompletten Fällen ohne fehlende Werte in allen betrachteten Merkmalen (Complete Cases).

Neben dieser Reduktion der Fallzahlen entsteht ein weiteres Problem dadurch, dass das Auftreten fehlender Werte selten zufälliger Natur ist. Es kann vorkommen, dass fehlende Werte in einer Variable von anderen Variablen abhängen.

Beispiel: In einer Umfragen wird nach Einkommen und Bildungsniveau gefragt und es kommt dazu, dass Personen mit einem höheren Bildungsniveau häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Bildungsniveau, dann sind die fehlenden Werte in der Variable Einkommen nicht zufälliger Natur.

Es ist auch denkbar, dass die fehlenden Werte von den Ausprägungen der eigentlichen Variable abhängen. Auf das vorherige Beispiel bezogen würde dies bedeuten, dass Personen mit einem höheren Einkommen häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Einkommen – unabhängig von ihrem Bildungsniveau.

Die Missachtung dieser Abhängigkeitsstrukturen und der fallweise Ausschluss von Beobachtungen mit fehlenden Werte kann unter anderem zu verzerrten Schätzergebnissen (z.B. verzerrte Parameterschätzer) und zu einem Verlust an Präzision (z.B. größere Standardfehler und Konfidenzintervalle) führen.

Um die Probleme, die fehlende Werte mit sich bringen, zu vermeiden, sollte darauf geachtet werden, dass fehlende Werte, wenn möglich, gar nicht erst entstehen. Bei der Durchführung von Online-Umfragen hat der Ersteller der Umfrage z.B. die Möglichkeit Einstellungen so vorzunehmen, dass die Nutzer im Falle einer vergessenen Antwort erneut auf die fehlende Beantwortung der Frage hingewiesen werden. Natürlich ist die Vermeidung von fehlenden Werte nicht immer möglich. Sollten fehlende Werte auftreten, muss man sich um die bestmögliche Behandlung dieser Lücken im Datensatz kümmern.

Arten von fehlenden Werten

Es werden 3 Kategorien von fehlenden Werten unterschieden: Missing completely at random, Missing at random und Missing not at random. Diese von Rubin (1976) eingeführte und allgemein anerkannte Klassifikation von fehlenden Werten wird im Folgenden immer wieder benötigt, da sich die Wahl der Behandlungsmethode unter anderem nach der zugehörigen Kategorisierung der fehlenden Werte richtet.

Missing completely at random (MCAR)

MCAR bedeutet, dass die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable $Y2$ unabhängig von den Werten der Variable $Y2$ und unabhängig von dem Wert der restlichen Variablen ist. Demnach entstehen die fehlenden Werte rein zufällig und es gibt keine systematisch fehlenden Werte. Unter MCAR wird also lediglich die Fallzahl verringert.

Das folgende Diagramm stellt die gemeinsame Verteilung von zwei Variablen $y1$, welche keine fehlenden Werte besitzt, und $y2$, bei der teilweise fehlende Werte auftreten, in einem Streupunktdiagramm dar. Fälle, bei denen Beobachtungen für $y1$ und $y2$ vorliegen, sind durch einen blauen Kreis gekennzeichnet, wohingegen Fälle mit fehlenden Werten in $y2$ durch einen roten Kreis gekennzeichnet sind. Das zufällige Auftreten der fehlenden Werte ist sehr gut erkennbar.

Missing at random (MAR)

Von MAR wird gesprochen, wenn die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable $y2$ von dem Wert einer anderen Variable $y1$ abhängt. Die Wahrscheinlichkeit für einen fehlenden Wert in $y2$ wird aber nicht von den Werten der eigentlichen Variable $y2$ beeinflusst.

Das Streudiagramm verdeutlicht dies, indem es die gemeinsame Verteilung der Variablen $y2$ (teilweise mit fehlenden Werten behaftet) und $y1$ (es liegen keine fehlenden Werte vor) darstellt. Für größere Werte von $y1$ steigt die Wahrscheinlichkeit für einen fehlenden Wert in $y2$.

Missing not at random (MNAR)

Von MNAR wird gesprochen, wenn die Wahrscheinlichkeit für das Auftreten eines fehlenden Werts bei der Variable $y2$ von der Variable selbst abhängt, nachdem für den Einfluss aller anderen beobachteten Variablen kontrolliert wurde.

Das Diagramm verdeutlicht dies erneut mit Hilfe der gemeinsamen Verteilung von 2 Variablen $y1$ (ohne fehlende Werte) und $y2$ (mit fehlenden Werten behaftet). Auch nach Berücksichtigung von $y1$ hängt die Wahrscheinlichkeit für einen fehlenden Wert bei $y2$ von der unbekannten Ausprägung bei $y2$ ab.

Welche Art von fehlenden Werten liegt vor

Um die richtige Art der Behandlung von fehlenden Werten zu wählen, ist es wichtig zu wissen, welche Art von fehlenden Werten vorliegt. Die einzelnen Ansätze zur Behandlung von fehlenden Werten bringen nämlich Annahmen bzgl. der Art von fehlenden Werten mit sich. Die sehr bekannte und weit verbreitete Maximum Likelihood Methode, sowie die Multiple Imputation benötigen beide die Annahme, dass die fehlenden Werte zumindest MAR sind. Deshalb wird im weiteren Verlauf auf die Unterscheidung zwischen MAR und MNAR genauer eingegangen.

Einfachere Verfahren für den Umgang mit fehlenden Werten, wie z.B. der listenweise Fallausschluss (Complete Case Analysis), erfordern fehlende Werte vom Typ MCAR. Sollte das Verfahren angewendet werden, wenn die fehlenden Werte nicht MCAR sind, kommt es zu verzerrten Ergebnissen. Wenn die Anzahl der fehlenden Werte gering ist, ist der listenweise Fallausschluss eine einfache Möglichkeit unter der MCAR-Annahme mit fehlenden Werten umzugehen.

Außerdem ist zu beachten, dass es in einem Datensatz häufig mehrere Variablen gibt, die fehlende Werte aufweisen. Folglich muss der Mechanismus, der hinter den fehlenden Werten steht, für jede Variable separat geprüft werden, bevor ein geeigneter Umgang gewählt wird.

MAR vs. MNAR

Um eindeutig zwischen MNAR und MAR zu unterscheiden, ist es erforderlich, Informationen über die fehlenden Werte zu bekommen. In vielen professionellen Studien oder Umfragen ist es daher üblich, in nachträglichen Telefoninterviews Auskunft über die fehlenden Werte zu erlangen. Sobald Informationen zu den fehlenden Werten vorhanden sind, kann untersucht werden, welche Art von fehlenden Werten vorliegt, indem die Respondenten mit den Nicht-Respondenten verglichen werden. Wenn sich die beiden Gruppen stark unterscheiden, ist dies ein klares Indiz für die MNAR-Annahme.

In den meisten Situationen gibt es hingegen keine Möglichkeit, an die fehlenden Werte zu gelangen. In diesem Fall kann nur mit Hilfe von substantiellen wissenschaftlichen Überlegungen bzw. Kenntnissen eine Entscheidung getroffen werden, ob die MAR-Annahme plausibel erscheint.

MCAR vs. MAR

Um zwischen MCAR und MAR zu unterscheiden, kann Little's-Test verwendet werden. Dieser Test ist in den gängigen Statistik-Softwarepaketen implementiert. Weitere Informationen finden Sie hier.

Eine weitere Möglichkeit der Unterscheidung besteht darin, die interessierende Variable in eine Dummyvariable umzukodieren:

$$0 = \text{fehlender Wert}$$

$$1 = \text{vorhandener Wert}$$

Zur Überprüfung welcher Mechanismus für die fehlenden Werte verantwortlich ist, kann anschließend z.B. ein Chi-Quadrat-Test zwischen der interessierenden Variable und den anderen Variablen in dem Datensatz durchgeführt werden. Zum Beispiel: Falls davon ausgegangen wird, dass Frauen ihr Gewicht seltener angeben als Männer, wird die Angabe des Gewichts als Dummy kodiert und ein Chi-Quadrat-Test zwischen den Variablen Dummy-Gewicht und Geschlecht durchgeführt. Ein signifikantes Testergebnis spricht für die MAR-Annahme.

Behandlung von fehlenden Werten

Im Folgenden wird eine Auswahl an Verfahren zur Behandlung von fehlenden Werten unter Berücksichtigung der jeweiligen Vor- und Nachteile kurz erläutert.

Traditionelle Methoden

Ausschluss von Fällen

Die einfachste und am häufigsten in der Praxis verwendete Methode zur Behandlung von fehlenden Werten ist der listenweise Fallausschluss. Bei diesem Verfahren werden bei der statistischen Analyse nur Fälle berücksichtigt, bei denen alle beteiligten Variablen gültige Ausprägungen aufweisen. Fehlt z.B. bei der multiplen Regression nur eine einzige Prädiktorausprägung, wird der komplette Fall ausgeschlossen.

Zu beachten ist, dass bei Verletzung der MCAR Bedingung die Schätzer unter Umständen verzerrt sein können. Ein weiterer Nachteil ist der mitunter sehr große Informationsverlust, da häufig eine Vielzahl von Fällen ausgeschlossen werden müssen. Dies hat unter anderem Auswirkungen auf die Power von Testaussagen.

Zu den Vorteilen zählen die einfache Anwendung, sowie erwartungstreue Schätzer und korrekte Inferenzergebnisse, wenn die MCAR-Annahme zutrifft. Erfahrungsgemäß trifft der MCAR jedoch nur sehr selten zu.

Substitution durch Lagemaße

Bei der Substitution durch ein Lagemaß, dem einfachsten Imputationsverfahren, werden fehlende Werte durch ein empirisches Lagemaß ersetzt. Die Wahl des Lagemaßes hängt vom Skalenniveau der zu imputierenden Variablen ab. Durch die Imputation durch ein Lagemaß bleiben die Mittelwerte der marginalen Verteilung unverändert, jedoch ergeben sich verzerrte Schätzer für die Varianz und die Kovarianz mit anderen Merkmalen. Außerdem wird die Korrelation zwischen zwei Variablen, die imputiert wurden, abgeschwächt, da die imputierten - konstanten - Fälle keine Korrelation mit irgendeiner anderen Variable aufweisen. Folglich kann die Substitution durch ein Lagemaß für univariate Analysen geeignet sein, für multivariate Analysen in der Regel jedoch nicht.

Regressionsimputation

Die Regressionsimputation nutzt den funktionalen Zusammenhang zwischen mehreren Variablen aus, indem ein Regressionsmodell mit den beobachteten Fällen berechnet wird. Anschließend wird das Modell genutzt, um die fehlenden Werte zu imputieren (per Prädiktion). Zur Berechnung der Prädiktion müssen natürlich die Merkmale zur Bestimmung des Prädiktors bekannt sein. Diese Art der direkten Ersetzung wird deterministische Regressionsimputation genannt. Das Problem besteht darin, dass die imputierten Fälle keine Residualstreuung besitzen, d.h. sie liegen alle genau auf der Regressionsgeraden. Neben verzerrten Varianzen und Korrelationen führt dieses Verfahren außerdem zu einem inflationierten Determinationskoeffizienten bei Regressionsanalysen.

Einen Ansatz, dieses Problem zu beheben, liefert die stochastische Regressionsimputation, bei der eine Residualkomponente mit geeigneter Varianz auf die Prädiktion addiert wird. Problematisch ist, dass in der anschließenden Analyse die imputierten Werte auf die gleiche Weise wie die beobachteten Werte verwendet werden, obwohl diese - durch die Imputation - einer erhöhten Unsicherheit unterliegen. Daraus folgen systematisch unterschätzte Standardfehler und eine zu liberale Inferenzstatistik, d.h. zu kleine Konfidenzintervalle und zu häufige Ablehnungen einer Nullhypothese. Trotz dessen liefert die stochastische Regression, wenn die MAR-Annahme erfüllt ist, unverzerrte Schätzer.

Im Folgenden werden Verfahren vorgestellt, die unter der MAR-Bedingung sowohl zu konsistenten Schätzern als auch zu korrekter Inferenzstatistik führen.

Maximum Likelihood Methoden

Maximum Likelihood (ML) Methoden spielen bei vielen statistischen Verfahren zur Schätzung von Modellen und deren Parametern eine wichtige Rolle. Die Intuition hinter dem Verfahren ist dabei immer die gleiche: Gegeben ein parametrisches statistisches Modells und die beobachteten Daten werden die Parameter des Modells so geschätzt, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten - unter dem parametrischen Modell - maximiert wird. Im Imputationskontext wird die ML-Methode bei zwei gebräuchlichen Verfahren verwendet.

Das erste Verfahren, welches die ML-Methode verwendet, ist der EM-Algorithmus (Expectation Maximization). Bei diesem Verfahren werden im ersten Schritt die Verteilungsmomente (Mittelwert, Varianz, Kovarianz) geschätzt, welche in dem darauffolgenden Schritt bei der Berechnung der traditionellen statistischen Verfahren genutzt werden können. Wenn die MAR-Bedingung erfüllt ist, sind die so berechneten Schätzer konsistent. Die Standardfehler werden hingegen unterschätzt, was wiederum zu inkorrekter Inferenzstatistik führt.

Das zweite Verfahren, welches die ML-Methode verwendet, ist die FIML-Technik (Full Information Maximum Likelihood). Beim FIML-Verfahren werden die fehlenden Werte nicht imputiert. Die Berechnung der Parameter beruht ausschließlich auf allen beobachteten Werten. Unter der MAR-Bedingung erhält man konsistente Schätzer und korrekte Standardfehler.

Multiple Imputation

Wie bereits erwähnt, führt die Imputation von nur einem Datensatz zu verminderten Standardfehlern und ungültiger Inferenz. Deshalb schlägt Rubin (1987) vor, mehrere Datensätze zu erstellen. Verfahren, die mehrere Datensätze erstellen, werden unter dem Begriff "Multiple Imputation" zusammengefasst. Die anschließende statistische Analyse (z.B. die Berechnung einer multiplen Regression) erfolgt dann parallel für jeden Datensatz getrennt. Somit werden verschiedene Schätzer für den gleichen Parameter gewonnen. Dieses Vorgehen hat den Vorteil, dass die durch die Imputation erzeugte Unsicherheit berücksichtigt wird und in die Berechnung der Standardfehler mit einfließen kann.

Ablauf

Die Analyse und Imputation eines Datensatzes erfolgt in drei Schritten.

Imputation
Zuerst werden die fehlenden Werte in jeder Variable ersetzt, indem ein auf Regressionstechniken basierendes Imputationsmodell für jede Variable spezifiziert wird. Um die Unsicherheit bei der Erzeugung der Imputationswerte zu kontrollieren, werden hierfür mehrere Datensätze (z.B. 10) erstellt. Damit nicht für jeden Datensatz die gleichen Parameterschätzungen verwendet werden, wird aus einer Verteilung potentieller Parameterausprägungen gezogen. Diese Verteilung kann mit den Bayes-Prinzipien erzeugt werden, wofür Vorwissen über die Parameter und Informationen aus der beobachteten Stichprobe benötigt werden.
Analyse
Zur Analyse werden die gleichen Verfahren angewendet, wie bei der Analyse eines vollständigen Datensatzes (z.B. die multiple Regression). Allerdings muss die Analyse für jeden erzeugten Datensatz durchgeführt werden (z.B. die Berechnung von 10 multiplen Regressionen mit 10 Parameterschätzungen und 10 Standardfehlern).
Zusammenfassung
Anschließend werden die Schätzungen für jeden Parameter gemittelt und ergeben so die gesuchte Punktschätzung. Aus den Standardfehlern und der Varianz der Parameterschätzung lassen sich außerdem Konfidenzintervalle und Hypothesentests konstruieren. Die Methode liefert erwartungstreue Parameterschätzer und korrekte Standardfehler für die Inferenzstatistik. Leider existieren für manche statistischen Ergebnisse, die aus den Imputationsstichproben gewonnen wurden, noch keine allgemein anerkannten Methoden zur Zusammenfassung.

Als Voraussetzung für die Durchführung der Multiplen Imputation muss die MAR-Bedingung erfüllt sein.

Benutzung von Gewichtungsverfahren

Gewichtungsverfahren benutzen Prädiktionsmodelle für das Auftreten von fehlenden Werten – im Unterschied zur Prädiktion des fehlenden Werts. Die erklärenden Merkmale müssen sowohl für die Einheiten mit den fehlenden Merkmalen als auch für die Einheiten mit den beobachteten Merkmalen bekannt sein. Daher wird dieses Verfahren häufig bei Item-Nonresponse, also dem Fehlen einzelner Merkmalswerte bei sonstiger Teilnahme an der Befragung, angewendet. Auf Basis dieser Prädiktion wird für die beobachteten Einheiten (Complete Cases) eine Gewichtungsvariable über den Kehrwert der Prädiktion bestimmt. Die Gewichtungsvariable wird bei der Schätzung von Totals und Mittelwerten aber auch bei der Berechnung von Momenten bei der Regressionsanalyse angewendet. Im Rahmen des Design-basierten Ansatzes wird die Angabe eines Werts als letzte Auswahlstufe des Ziehungsverfahrens betrachtet. Allerdings sind in diesem Fall die Ziehungswahrscheinlichkeiten nicht bekannt sondern müssen über das Prädiktionsmodell geschätzt werden. In einem einfachen Modell sind die Responsewahrscheinlichkeiten innerhalb einer Gruppeneinteilung konstant. Dieses sogenannte Response Homogeneity Group Model (siehe Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan (1992): Model Assisted Survey Sampling, Springer Verlag, NewYork) bestimmt innerhalb jeder Gruppe die Antwortbereitschaft über die Responserate innerhalb der Gruppenmitglieder.

Ein anderer Gewichtungsansatz benutzt einen Kalibrationsansatz. Hier wird für ausgewählte Merkmale, etwa Altersgruppen nach Geschlecht, die Kenntnis der Populationswerte benutzt, um die bestehenden Gewichtungsvariablen so zu modifizieren, dass die vorgegebenen Populationswerte mit den modifizierten Gewichtungsvariablen genau eingehalten werden ("Kalibration"). Dieser Ansatz wird daher meistens bei Unit-Nonresponse eingesetzt. Je nach benutzter Distanzfunktion zwischen den Designgewichten und den modifizierten Gewichten kommt man auf unterschiedliche Kalibrationsschätzer: Bei quadratischen Abstand erhält man den Generalized Regression Schätzer (GREG); bei logarithmischer Abstandsfunktion erhält den Raking-Schätzer. Dieser Ansatz wird in der Survey-Literatur auch als Iterative Proportional Fitting, Randanpassung oder Soll/Ist-Anpassung bezeichnet. Einen Überblick über den Kalibrationsansatz bietet der Artikel von Särndal (2007).

Bildergalerie

Bereichsverknüpfungen

Seitenhierarchie

Inhaltsverzeichnis

Fehlende Werte als Problem

Arten von fehlenden Werten

Missing completely at random (MCAR)

Missing at random (MAR)

Missing not at random (MNAR)