In Befragungen ist es üblich, dass nicht alle Befragungsteilnehmer jede Frage beantworten. Daher stellt sich in diesen Fällen die Frage, wie mit den fehlenden Werten umgegangen werden sollte. Folgende Artikel geben einen guten Überblick über das Problem (vor allem der Artikel Vom Umgang mit fehlenden Werten) und stellen unterschiedliche Ansätze vor (vor allem der Artikel Imputationsverfahren).

Vom Umgang mit fehlenden Werten - ein Überblick

Imputationsverfahren

Info
fu:stat bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben.

Inhaltsverzeichnis

Inhalt

maxLevel	2
exclude	Inhaltsverzeichnis\|Bildergalerie

Info

fu:stat bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben. Auf Anfrage können wir auch gerne individuelle Inhouse-Schulungen bei Ihnen anbieten.

Fehlende Werte als Problem

Fehlende Werte sind in der empirischen Forschung häufig nicht vermeidbar und können bei der Anwendung von klassischen statistischen Analyseverfahren zu Problemen führen - da diese in der Regel komplette Fälle erfordern. Je mehr Variablen mit fehlenden Werten behaftet sind, desto kleiner wird die Schnittmenge mit Fällen, bei denen keine fehlenden Werte (komplette Fälle) auftreten.

Ein weiteres Problem entsteht dadurch, dass fehlende Werte selten zufälliger Natur sind. Es kann vorkommen, dass fehlende Werte in einer Variable von anderen Variablen abhängen.

Bsp.: „In einer Umfragen wird nach Einkommen und Bildungsniveau gefragt und es kommt dazu, dass Personen mit einem höheren Bildungsniveau häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Bildungsniveau, dann sind die fehlenden Werte in der Variable Einkommen nicht zufälliger Natur.“

Es ist auch denkbar, dass die fehlenden Werte von den Ausprägungen der eigentlichen Variable abhängen. Auf das vorherige Beispiel bezogen würde dies bedeuten, dass Personen mit einem höheren Einkommen häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Einkommen – unabhängig von ihrem Bildungsniveau.

Die Missachtung dieser Abhängigkeitsstrukturen und der fallweise Ausschluss fehlender Werte kann unter anderem zu verzerrten Schätzergebnissen (z.B. verzerrte Parameterschätzer) und zu einem Verlust an Präzision (z.B. größere Standardfehler und Konfidenzintervalle) führen.

Um die Probleme, die fehlende Werte mit sich bringen, zu vermeiden, sollte darauf geachtet werden, dass fehlende Werte, wenn möglich, gar nicht erst entstehen. Bei der Durchführung von Online-Umfragen hat der Ersteller der Umfrage z.B. die Möglichkeit Einstellungen so vorzunehmen, dass die Nutzer im Falle einer vergessenen Antwort erneut auf die Frage hingewiesen werden. Natürlich ist die Vermeidung von fehlenden Werte nicht immer möglich. Sollten fehlende Werte auftreten, muss sich um die bestmögliche Behandlung dieser gekümmert werden.

Arten von fehlenden Werten

Es werden 3 Kategorien von fehlenden Werten unterschieden: Missing completely at random, Missing at random und Missing not at random. Diese von Rubin (1976) eingeführte und allgemein anerkannte Klassifikation von fehlenden Werten wird im Folgenden immer wieder benötigt, da sich die Wahl der Behandlungsmethode unter anderem nach der zugehörigen Kategorie der fehlenden Werte richtet.

Missing completely at random (MCAR)

MCAR bedeutet, dass die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable $Y2$ unabhängig von den Werten der Variable $Y2$ und unabhängig von dem Wert der restlichen Variablen ist. Demnach entstehen die fehlenden Werte rein zufällig und es gibt keine systematisch fehlenden Werte.

Das folgende Diagramm stellt die gemeinsame Verteilung von zwei Variablen $y1$, welche keine fehlenden Werte besitzt, und $y2$, bei der teilweise fehlende Werte auftreten, in einem Streupunktdiagramm dar. Fälle, bei denen Beobachtungen für $y1$ und $y2$ vorliegen, sind durch einen blauen Kreis gekennzeichnet, wohingegen Fälle mit fehlenden Werten in $y2$ durch einen roten Kreis gekennzeichnet sind. Das zufällige Auftreten der fehlenden Werte ist sehr gut erkennbar.

Image Removed

Missing at random (MAR)

Von MAR wird gesprochen, wenn die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable $y2$ von dem Wert einer anderen Variable $y1$ abhängt. Die Wahrscheinlichkeit für einen fehlenden Wert in $y2$ wird aber nicht von den Werten der eigentlichen Variable $y2$ beeinflusst.

Das Streupunktdiagramm verdeutlicht dies, indem es die gemeinsame Verteilung der Variablen $y2$ (teilweise mit fehlenden Werten behaftet) und $y1$ (es liegen keine fehlenden Werte vor) darstellt. Für größere Werte von $y1$ steigt die Wahrscheinlichkeit für einen fehlenden Wert in $y2$.

Image Removed

Missing not at random (MNAR)

Von MNAR wird gesprochen, wenn die Wahrscheinlichkeit für das Auftreten eines fehlenden Werts bei der Variable $y2$ von der Variable selbst abhängt, nachdem für den Einfluss aller anderen beobachteten Variablen kontrolliert wurde.

Das Diagramm verdeutlicht dies erneut mit Hilfe der gemeinsamen Verteilung von 2 Variablen $y1$ (ohne fehlende Werte) und $y2$ (mit fehlenden Werten behaftet). Auch nach Berücksichtigung von $y1$ hängt die Wahrscheinlichkeit für einen fehlenden Wert bei $y2$ von der unbekannten Ausprägung bei $y2$ ab.

Image Removed

Welche Art von fehlenden Werten liegt vor

Um die richtige Art der Behandlung von fehlenden Werten zu wählen, ist es wichtig zu wissen, welche Art von fehlenden Werten vorliegt. Die einzelnen Ansätze zur Behandlung von fehlenden Werten bringen nämlich Annahmen bzgl. der Art von fehlenden Werten mit sich. Die sehr bekannte und weit verbreitete Maximum Likelihood Methode, sowie die Multiple Imputation benötigen beide die Annahme, dass die fehlenden Werte zumindest MAR sind. Deshalb wird im weiteren Verlauf auf die Unterscheidung zwischen MAR und MNAR genauer eingegangen.

Einfachere Verfahren für den Umgang mit fehlenden Werten, wie z.B. der Listenweise Fallausschluss, erfordern fehlende Werte vom Typ MCAR. Sollte das Verfahren angewendet werden, wenn die fehlenden Werte nicht MCAR sind, kommt es zu verzerrten Ergebnissen. Wenn die Anzahl der fehlenden Werte gering ist, ist der Listenweise Fallausschluss eine einfache Möglichkeit im MCAR-Fall mit fehlenden Werten umzugehen.

Außerdem ist zu beachten, dass es in einem Datensatz häufig mehrere Variablen gibt, die fehlende Werte aufweisen. Folglich muss der Mechanismus, der hinter den fehlenden Werten steht, für jede Variable separat geprüft werden, bevor ein geeigneter Umgang gewählt wird.

MAR vs. MNAR

Um eindeutig zwischen MNAR und MAR zu unterscheiden, ist es erforderlich, Informationen über die fehlenden Werte zu bekommen. In vielen professionellen Studien oder Umfragen ist es daher üblich, in nachträglichen Telefoninterviews Auskunft über die fehlenden Werte zu erlangen. Sobald Informationen zu den fehlenden Werten vorhanden sind, kann untersucht werden, welche Art von fehlenden Werten vorliegt, indem die Respondenten mit den Nicht-Respondenten verglichen werden. Wenn sich die beiden Gruppen stark unterscheiden, ist dies ein klares Indiz für die MNAR-Annahme.

In den meisten Situationen gibt es hingegen keine Möglichkeit, an die fehlenden Werte zu gelangen. In diesem Fall kann nur mit Hilfe von substantiellen wissenschaftlichen Überlegungen bzw. Kenntnissen eine Entscheidung getroffen werden, ob die MAR-Annahme plausibel erscheint.

MCAR vs. MAR

Um zwischen MCAR und MAR zu unterscheiden, kann Little's-Test verwendet werden. Dieser Test ist in den gängigen Statistik-Softwarepaketen implementiert. Weitere Informationen finden Sie hier.

Eine weitere Möglichkeit der Unterscheidung besteht darin, die interessierende Variable in eine Dummyvariable umzukodieren:

$$0 = \text{fehlender Wert}$$

$$1 = \text{vorhandener Wert}$$

Zur Überprüfung welcher Mechanismus für die fehlenden Werte verantwortlich ist, kann anschließend z.B. ein Chi-Quadrat-Test zwischen der interessierenden Variable und den anderen Variablen in dem Datensatz durchgeführt werden. Zum Beispiel: Falls davon ausgegangen wird, dass Frauen ihr Gewicht seltener angeben als Männer, wird die Variable Gewicht als Dummy kodiert und ein Chi-Quadrat-Test zwischen den Variablen Gewicht und Geschlecht durchgeführt. Ein signifikantes Testergebnis spricht für die MAR-Annahme.

Behandlung von fehlenden Werten

Im Folgenden wird eine Auswahl an Verfahren zur Behandlung von fehlenden Werten unter Berücksichtigung der jeweiligen Vor- und Nachteile kurz erläutert.

Traditionelle Methoden

Ausschluss von Fällen

Die einfachste und am häufigsten in der Praxis verwendete Methode zur Behandlung von fehlenden Werten ist der Listenweise Fallausschluss. Bei diesem Verfahren werden bei der statistischen Analyse nur Fälle berücksichtigt, bei denen alle beteiligten Variablen gültige Ausprägungen aufweisen. Fehlt z.B. bei der multiplen Regression nur eine einzige Prädiktorausprägung, wird der komplette Fall ausgeschlossen.

Zu beachten ist, dass bei Verletzung der MCAR Bedingung die Schätzer unter Umständen verzerrt sein können. Ein weiterer Nachteil ist der mitunter sehr große Informationsverlust, da häufig eine Vielzahl von Fällen ausgeschlossen werden müssen. Dies hat unter anderem Auswirkungen auf die Power.

Zu den Vorteilen zählen die einfache Anwendung, sowie erwartungstreue Schätzer und korrekte Inferenzergebnisse, wenn die MCAR-Annahme zutrifft.

Substitution durch Lagemaße

Bei der Substitution durch ein Lagemaß, dem einfachsten Imputationsverfahren, werden fehlende Werte durch ein empirisches Lagemaß ersetzt. Die Wahl des Lagemaßes hängt vom Skalenniveau der zu imputierenden Variablen ab. Durch die Imputation durch ein Lagemaß bleiben die Randmittelwerte unverändert, jedoch ergeben sich verzerrte Schätzer für die Varianz und die Kovarianz. Außerdem wird die Korrelation zwischen zwei Variablen, die imputiert wurden, abgeschwächt, da die imputierten - konstanten - Fälle keine Korrelation mit irgendeiner anderen Variable aufweisen. Folglich kann die Substitution durch ein Lagemaß für univariate Analysen geeignet sein, für multivariate Analysen in der Regel jedoch nicht.

Regressionsimputation

Die Regressionsimputation nutzt den funktionalen Zusammenhang zwischen mehreren Variablen aus, indem ein Regressionsmodell mit den beobachteten Fällen berechnet wird. Anschließend wird das Modell genutzt, um die fehlenden Werte zu imputieren (per Prädiktion). Diese Art der direkten Ersetzung wird deterministische Regressionsimputation genannt. Das Problem besteht darin, dass die imputierten Fälle keine Residualstreuung besitzen, d.h. sie liegen alle genau auf der Regressionsgeraden. Neben verzerrten Varianzen und Korrelationen führt dieses Verfahren außerdem zu einem inflationierten Determinationskoeffizienten.

Einen Ansatz, dieses Problem zu beheben, liefert die stochastische Regressionsimputation, bei der eine Residualkomponente mit geeigneter Varianz auf die Prädiktion addiert wird. Problematisch ist, dass in der anschließenden Analyse die imputierten Werte auf die gleiche Weise wie die beobachteten Werte verwendet werden, obwohl diese - durch die Imputation - einer erhöhten Unsicherheit unterliegen. Daraus folgen systematisch unterschätzte Standardfehler und eine zu liberale Inferenzstatistik. Trotz dessen liefert die stochastische Regression, wenn die MAR-Annahme erfüllt ist, unverzerrte Schätzer.

Im Folgenden werden Verfahren vorgestellt, die unter der MAR-Bedingung sowohl zu konsistenten Schätzern als auch zu korrekter Inferenzstatistik führen.

Maximum Likelihood Methoden

Maximum Likelihood (ML) Methoden spielen bei vielen statistischen Verfahren zur Schätzung von Parametern eine wichtige Rolle. Die Intuition hinter dem Verfahren ist dabei immer die gleiche: Gegeben eines parametrischen statistischen Modells und den beobachteten Daten werden die Parameter des Modells so geschätzt, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten - unter dem parametrischen Modell - maximiert wird. Im Imputationskontext wird die ML-Methode bei zwei gebräuchlichen Verfahren verwendet.

Das erste Verfahren, welches die ML-Methode verwendet, ist der EM-Algorithmus (Expectation Maximization). Bei diesem Verfahren werden im ersten Schritt die Verteilungsmomente (Mittelwert, Varianz, Kovarianz) geschätzt, welche in dem darauffolgenden Schritt bei der Berechnung der traditionellen statistischen Verfahren genutzt werden können. Wenn die MAR-Bedingung erfüllt ist, sind die so berechneten Schätzer konsistent. Die Standardfehler werden hingegen unterschätzt, was wiederum zu inkorrekter Inferenzstatistik führt.

Das zweite Verfahren, welches die ML-Methode verwendet, ist die FIML-Technik (Full Information Maximum Likelihood). Beim FIML-Verfahren werden die fehlenden Werte nicht imputiert. Die Berechnung der Parameter beruht ausschließlich auf allen beobachteten Werten. Unter der MAR-Bedingung erhält man konsistente Schätzer und korrekte Standardfehler.

Multiple Imputation

Wie bereits erwähnt, führt die Imputation von nur einem Datensatz zu verminderten Standardfehlern und ungültiger Inferenz, deshalb schlägt Rubin (1987) vor, mehrere Datensätze zu erstellen. Verfahren, die mehrere Datensätze erstellen, werden unter dem Begriff Multiple Imputationsmethoden zusammengefasst. Die anschließende statistische Analyse (z.B. die Berechnung einer multiplen Regression) erfolgt dann parallel für jeden Datensatz getrennt. Somit werden verschiedene Schätzer für den gleichen Parameter gewonnen. Dieses Vorgehen hat den Vorteil, dass die durch die Imputation erzeugte Unsicherheit berücksichtigt wird und in die Berechnung der Standardfehler mit einfließen kann.

Ablauf

Die Analyse und Imputation eines Datensatzes erfolgt in drei Schritten.

Imputation
Zuerst werden die fehlenden Werte in jeder Variable ersetzt, indem ein auf Regressionstechniken basierendes Imputationsmodell für jede Variable spezifiziert wird. Um für die Unsicherheit der Imputation zu kontrollieren, werden hierfür mehrere Datensätze (z.B. 10) erstellt. Damit nicht für jeden Datensatz die gleichen Parameterschätzungen verwendet werden, wird aus einer Verteilung potentieller Parameterausprägungen gezogen. Diese Verteilung kann mit den Bayes-Prinzipien erzeugt werden, wofür Vorwissen über die Parameter und Informationen aus der beobachteten Stichprobe benötigt werden.
Analyse
Zur Analyse werden die gleichen Verfahren angewendet, wie bei der Analyse eines vollständigen Datensatzes (z.B. die multiple Regression). Allerdings muss die Analyse für jeden erzeugten Datensatz durchgeführt werden (z.B. die Berechnung von 10 multiplen Regressionen mit 10 Parameterschätzungen und 10 Standardfehlern).

Zusammenfassung
Anschließend werden die Schätzungen für jeden Parameter gemittelt und ergeben so die gesuchte Punktschätzung. Aus den Standardfehlern und der Varianz der Parameterschätzung lassen sich außerdem Konfidenzintervalle und Hypothesentests konstruieren. Die Methode liefert erwartungstreue Parameterschätzer und korrekte Standardfehler für die Inferenzstatistik. Leider existieren für manche statistischen Ergebnisse, die aus den Imputationsstichproben gewonnen wurden, noch keine allgemein anerkannten Methoden zur Zusammenfassung.

Als Voraussetzung für die Durchführung der Multiplen Imputation muss die MAR-Bedingung erfüllt sein.

Bildergalerie

GalerieincludeMNAR.png, MAR.png, MCAR.png

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 1

Neue Version Aktuell

Schlüssel

Vom Umgang mit fehlenden Werten - ein Überblick

Imputationsverfahren

Inhaltsverzeichnis

Fehlende Werte als Problem

Arten von fehlenden Werten

Missing completely at random (MCAR)

Missing at random (MAR)

Missing not at random (MNAR)

Welche Art von fehlenden Werten liegt vor

MAR vs. MNAR

MCAR vs. MAR

Behandlung von fehlenden Werten

Traditionelle Methoden

Ausschluss von Fällen

Substitution durch Lagemaße

Regressionsimputation

Maximum Likelihood Methoden

Multiple Imputation

Ablauf

Bildergalerie

Bereichsverknüpfungen

Seitenhierarchie

Seitenhistorie

Versionen im Vergleich

Alte Version 1

Neue Version Aktuell

Schlüssel

Vom Umgang mit fehlenden Werten - ein Überblick

Imputationsverfahren

Inhaltsverzeichnis

Fehlende Werte als Problem

Arten von fehlenden Werten

Missing completely at random (MCAR)

Missing at random (MAR)

Missing not at random (MNAR)

Welche Art von fehlenden Werten liegt vor

MAR vs. MNAR

MCAR vs. MAR

Behandlung von fehlenden Werten

Traditionelle Methoden

Ausschluss von Fällen

Substitution durch Lagemaße

Regressionsimputation

Maximum Likelihood Methoden

Multiple Imputation

Ablauf

Bildergalerie