In Datenerhebungen kommt es oft vor, dass die erhobenen Werte nicht vollständig sind. Dies tritt zum Beispiel auf, wenn Umfrageteilnehmer nicht jede Frage beantworten. Methoden der statistischen Inferenz wie Schätzen oder Testen gehen jedoch meist von vollständigen Datensätzen aus. 
Imputationsverfahren dienen dem Ziel trotz fehlender Werte Verfahren der statistischen Inferenz anwenden zu können. Es ist nicht ihr Ziel, fehlende Werte möglichst genau vorherzusagen. In diesem Artikel werden verschiedene Imputationsverfahren erklärt, ihre Vor- und Nachteile aufgezeigt sowie Hilfestellungen zu ihrer praktischen Anwendung gegeben. Alternativen zu Imputationsverfahren sind Maximum-Likelihood-Methoden und die Gewichtung der vollständigen Daten (Kalibrationsschätzer).

Inhaltsverzeichnis



Mechanismen fehlender Daten

Es ist wichtig sich zu fragen, warum die Daten fehlen, denn der Grund für das Fehlen der Daten kann Informationen beinhalten und beeinflusst die Wahl des Imputationsverfahrens. Dies wird ausgedrückt durch die Wahrscheinlichkeiten für das Fehlen der Daten.

Fehlen die Daten völlig zufällig, etwa weil ausgefüllte Fragebögen verloren gegangen sind, so nennt man den Mechanismus Missing completely at random (MCAR). In diesem Fall hängt die Wahrscheinlichkeit für das Fehlen der Daten weder von den beobachteten, noch von den fehlenden Daten ab.
Hängt die Wahrscheinlichkeit für das Fehlen der Daten hingegen von den Werten einer vollständig beobachteten Variablen ab, so liegt der Mechanismus Missing at random (MAR) vor. Dies wäre zum Beispiel der Fall, wenn Männer eine Umfrage früher abbrechen als Frauen, sofern Geschlecht beobachtet werden kann.
Es kommt ebenfalls vor, dass die Wahrscheinlichkeit für das Fehlen der Daten von den fehlenden Werten selbst abhängt, etwa wenn Umfrageteilnehmer mit hohem Einkommen Auskunft über ihr Einkommen verweigern. Dieser Mechanismus nennt sich Missing not at random (MNAR)

Es gibt Testverfahren für die Entscheidung zwischen einem MCAR- und einem MAR-Mechanismus, mehr dazu findet sich im Artikel Vom Umgang mit fehlenden Werten. Es ist meist nicht möglich, empirisch zu überprüfen, ob ein MAR- oder ein MNAR-Mechanismus vorliegt. In diesem Fall ist man auf Überlegungen angewiesen, ob ein MAR-Mechanismus plausibel erscheint. 
Für einfache Imputationsverfahren wird typischerweise ein MCAR- oder ein MAR-Mechanismus angenommen. Bei multipler Imputation wird meist ein MAR-Mechanismus vorausgesetzt. Wird von einem MNAR-Mechanismus ausgegangen, werden Verfahren wie das Selektionsmodell von Heckman verwendet, welche nicht in diesem Artikel besprochen werden. Eine ausführliche Einführung zu diesen Verfahren bietet das 15. Kapitel von Little, Rubin (2002).

Einfache Imputation

Es gibt verschiedene einfache Imputationsverfahren, die für jeden fehlenden Wert genau einen Wert einsetzen und nicht mehrere.

Imputation durch Lagemaße 

Bei diesem Verfahren werden die fehlenden Werte durch ein Lagemaß der beobachteten Werte derselben Variable imputiert. Bei metrischen Variablen wird dafür typischerweise das arithmetische Mittel, bei nicht-metrischen Variablen der Median oder der Modus gewählt.
Das Lagemaß der jeweiligen Variablen bleibt durch die Imputation unverändert, allerdings werden sowohl die Varianz als auch die Kovarianz zu anderen Variablen unterschätzt. Dadurch sind die p-Werte von statistischen Tests zu gering und die Konfidenzintervalle der Parameter zu schmal.
Ein weiterer Nachteil ist, dass unplausible Werte, etwa 2,7 als Anzahl Kinder, imputiert werden könnten. Zudem muss, um unverzerrte Schätzer zu erhalten, ein MCAR-Mechanismus vorliegen. 
Zusätzliche Information zu diesem Verfahren befindet sich im Artikel Vom Umgang mit fehlenden Werten .

Imputation durch Regression 

Diese Methode nutzt die Korrelation zwischen den Variablen, beispielsweise zwischen Körpergröße und Gewicht. Es wird eine Regression der beobachteten Werte einer teilweise beobachteten Variable auf die zugehörigen Werte von vollständig beobachteten Variablen durchgeführt. Anschließend  werden die Werte der vollständig beobachteten Variablen, welche nicht zur Regression verwendet wurden, in das geschätzte Regressionsmodell eingesetzt, um prognostizierte Werte für die fehlenden Werte zu erhalten. 
Im Vergleich zur Imputation durch Lagemaße, genügt ein MAR-Mechanismus um unverzerrte Schätzer zu erhalten. Allerdings unterschätzt auch dieses Verfahren Varianz und Kovarianz.

Mehr Information zu diesem Verfahren und möglichen Problemen befindet sich im Artikel Vom Umgang mit fehlenden Werten .

Hot Deck Imputation

Die Hot Deck Imputation nutzt beobachtete Werte von ähnlichen Individuen zur Imputation. Hat beispielsweise jemand eine Frage einer Umfrage nicht beantwortet, so wird die Antwort von jemandem mit ähnlichen Charakteristiken (z. B. Alter, Beruf, Wohnort) für die fehlende Antwort eingesetzt. 
Es gibt verschiedene Möglichkeiten, die Ähnlichkeit zwischen Individuen zu messen. Eine ist die Methode Nearest Neighbor Hot Deck.

Dabei wird mithilfe einer Metrik die Distanz zwischen Individuen gemessen. Je kleiner die Distanz, umso ähnlicher sind sich diese. 
Eine mögliche Metrik ist die Mahalanobis-Distanz. Die Distanz \(d(i,j)\) zwischen den Individuen i und j ist bei ihr gegeben durch:

\[d(i,j) = (x_{i}-x_{j})^{T}S_{xx}^{-1}(x_{i}-x_{j}),\] wobei  \(x_{k}\) den Vektor der Variablen von Individuum k und \(S_{xx}\) die geschätzte Kovarianzmatrix von \(x_{i}\) bezeichnet.

Sollen Werte für Individuum i imputiert werden, so wird nach dem Individuum gesucht, welches den kleinsten Abstand zu Individuum i besitzt. Die Werte dieses Individuums werden anschließend zur Imputation benutzt. 
Ob ein MCAR- oder ein MAR-Mechanismus für unverzerrte Schätzer benötigt wird, hängt vom Hot-Deck-Verfahren ab. Näheres dazu findet sich hier (engl.).
Der Vorteil dieses Verfahrens ist, dass nur plausible Werte eingesetzt werden, denn die imputierten Werte stammen von realisierten Beobachtungen. Es entstehen somit keine unplausiblen Werte wie eine Kinderanzahl von 2,7. Zudem ist die Hot Deck Imputation weniger anfällig für Modellmisspezifikation, verglichen mit der Regressionsimputation. Allerdings hängt die Imputation von der Wahl der Metrik ab. Zudem berücksichtigt auch dieses Verfahren die zusätzliche Unsicherheit durch die Imputation nicht und unterschätzt somit die Varianz und die Kovarianz.

Last-Observation-Carried-Forward (LOCF)

Fehlende Daten in Panel Surveys (Wiederholungsbefragungen) entstehen beispielsweise, wenn Befragte ihre Teilnahme an einem Survey beenden. Dafür gibt es eine eigene einfache Imputationsmethode. 
Sie besteht darin, ab dem Ausscheiden aus dem Survey die fehlenden Werte durch den zuletzt beobachteten Wert zu ersetzen. Dabei wird angenommen, dass sich die Beobachtungen nach Beendigung der Teilnahme nicht mehr ändern. Diese Annahme ist meist unrealistisch, besonders wenn man an der Veränderung der Variablen interessiert ist. Ist die Annahme verletzt, so resultiert dies in verzerrten Schätzungen für den Mittelwert sowie die Varianz. 

Vor- und Nachteile einfacher Imputationsverfahren

Alle einfachen Imputationsverfahren berücksichtigen die Unsicherheit der Imputation nicht. Dadurch haben die Schätzer zu geringe Standardfehler, was in zu kleinen p-Werten bei statistischen Tests sowie zu schmalen Konfidenzintervallen resultiert. Ihr einziger Vorteil ist, dass sie mit geringem Aufwand durchzuführen sind. Ist der Anteil an fehlenden Werten gering (kleiner 5%), so kann der Einfluss auf die Varianzschätzung vernachlässigbar sein und einfache Imputation angewendet werden. Ist der Anteil an fehlenden Werten hingegen groß, so sollten einfache Imputationsverfahren nicht verwendet werden. Ebenso reichen einfache Imputationsverfahren aus, wenn ausschließlich deskriptive Statistik betrieben werden soll oder wenn man nur an einem unverzerrten Punktschätzer ohne dessen Standardfehler interessiert ist.


Das Unterschätzen der Standardfehler bei der einfachen Imputation soll durch folgendes Beispiel, welches der Vorlesung „Statistische Analyse unvollständiger Daten" der Universität Bamberg entnommen wurde, illustriert werden:

Es soll getestet werden, ob der Erwartungswert zweier Populationen \(Y_{1}\widetilde{} \mathrm{N}(\mu_{1},1), Y_{2}\widetilde{} \mathrm{N}(\mu_{2},1)\) derselbe ist. Dafür wird eine Stichprobe des Umfangs n für jede Population gezogen. Die Stichproben sind voneinander unabhängig. Sie werden als \(Y_{1i}\) für i=1,...,n und \(Y_{2j}\) für j=1,...,n bezeichnet. \(\bar{Y_{1}}\) und \(\bar{Y_{2}} \) stehen für den Mittelwert der jeweiligen Stichprobe. Die Nullhypothese für den z-Test ist \(H_{0}:\mu_{1}=\mu_{2}\).

Die zugehörige Teststatistik ist: \(z=\frac{\bar{Y_{1}}-\bar{Y_{2}}}{\sqrt{\frac{1}{n}+\frac{1}{n}}}\widetilde{} \mathrm{N}(0,1)\)

Angenommen, in der ersten Stichprobe würde ein Anteil \(\gamma\) der Daten fehlen und diese fehlenden Werte werden durch einfache Imputation ersetzt. Es kann gezeigt werden, dass die Teststatistik nach einfacher Imputation einer \(\mathrm{N}(0,\frac{1}{1-\gamma})\) -Verteilung folgt. Seien nun 50% der Werte in der ersten Stichprobe fehlend, so folgt die Teststatistik einer \(\mathrm{N}(0,2)\) -Verteilung. Wird dies nicht berücksichtigt und der Wert der Teststatistik mit den kritischen Werten der Standardnormalverteilung verglichen, wird die Nullhypothese zu oft abgelehnt. Dies ist in folgender Grafik illustriert:

Angenommene und wahre Verteilung der Teststatistik

Dargestellt sind die Dichtefunktionen der angenommenen und der wahren Verteilung der Teststatistik. Blau unterlegt ist der Ablehnbereich, wenn die Teststatistik einer N(0,1)-Verteilung folgen würde, für ein Signifikanzniveau von \(\alpha=0.05\). Die blaue und die rot unterlegte Fläche ergeben zusammen den Ablehnbereich, wenn die Teststatistik einer N(0,2)-Verteilung folgt, aber die kritischen Werte der N(0,1)-Verteilung verwendet werden.

Wird nun irrtümlicherweise davon ausgegangen, dass die Teststatistik einer N(0,1)-Verteilung folgt und deren kritische Werte verwendet, so wird der Ablehnbereich größer als er durch das vorgegebene Signifikanzniveau sein sollte. Dadurch wird die Nullhypothese zu oft abgelehnt. Es wird keine valide statistische Inferenz betrieben.

Ein Ausweg ist es, nach der einfachen Imputation die Varianz der Teststatistik korrekt zu berechnen und diese zum Testen zu verwenden. Oft ist es allerdings nicht möglich, die Varianz der Teststatistik nach einfacher Imputation korrekt zu bestimmen. Deswegen ist es notwendig multiple Imputation zu verwenden, wenn man fehlende Werte imputieren und statistische Inferenz durchführen möchte. 

Multiple Imputation

Da einfache Imputationsverfahren zu einer Unterschätzung der Standardfehler der Schätzer führen, stellt sich die Frage wie sich fehlende Werte ersetzen lassen und die Standardfehler der Schätzer unverzerrt geschätzt werden können. Eine Möglichkeit dafür sind multiple Imputationsverfahren. Werden sie korrekt angewendet und liegt ein MAR-Mechanismus vor, so sind die resultierenden Schätzer konsistent, asymptotisch effizient und normalverteilt. Multiple Imputationsverfahren können zudem für jede Art von Daten und jedes Modell verwendet werden. Der einzige Nachteil im Vergleich zu den einfachen Imputationsverfahren ist der größere Rechenaufwand. 
Der Einfachheit halber wird im Folgenden angenommen, dass \(\hat{\theta}\) ein Skalar ist. Das Vorgehen für Vektoren ist ähnlich und findet sich in den angegebenen Quellen. 

Vorgehen

Das Vorgehen bei multiplen Imputationsverfahren besteht aus drei Schritten:

  1. Imputation:
    Für jeden fehlenden Wert werden D Werte aus \(f(y_{mis}|y_{obs})\), der Verteilung der fehlenden Daten gegeben der beobachteten Daten, gezogen. \(f(y_{mis}|y_{obs})\) gibt die Wahrscheinlichkeit für bestimmte fehlende Werte, gegeben die beobachteten Werte, an. Gibt eine Person beispielsweise in einer Umfrage ihr Alter an, aber nicht ihre Körpergröße, so werden D Werte für die Körpergröße, gegeben die beobachteten Werte für Alter, gezogen werden. Haben beispielsweise die Umfrageteilnehmer mit einem geringeren Alter als 15 Jahre eine kleinere Körpergröße als die Umfrageteilnehmer ab 15 Jahre, so werden für Umfrageteilnehmer, welche jünger als 15 Jahre sind und ihre Körpergröße nicht angegeben haben, im Durchschnitt geringere Werte für die Körpergröße imputiert als für die Umfrageteilnehmber ab 15 Jahren.
    Die aus \(f(y_{mis}|y_{obs})\) gezogenen Werte werden für die fehlenden Werte eingesetzt. Dadurch erhält man D vervollständigte Datensätze mit den gleichen beobachteten Werten, aber unterschiedlichen imputierten Werten. Die Größe der Unterschiede zwischen den imputierten Werten drückt aus, wie groß die Unsicherheit darüber ist, welcher Wert imputiert werden soll. 

  2. Analyse:
    Es werden die statistischen Methoden, die man anwenden möchte, für jeden der D Datensätze separat durchgeführt. Möchte man einen Schätzer \(\hat{\theta}\), etwa den Mittelwert, berechnen, so führt man diese Schätzung für alle D Datensätze durch. Man erhält D verschiedene Schätzer \(\hat{\theta_{i}},i=1,...,D,\) und deren jeweilige geschätzte Varianzen \(\widehat{Var(\hat{\theta_{i}})},i=1,...,D\). Da die imputierten Werte in den Datensätzen verschieden sind, sind auch die \(\hat{\theta}_{i}\) unterschiedlich. 

  3. Zusammenfassung der Schätzergebnisse:
    Die D Schätzer sollen in diesem Schritt zu einem Schätzer zusammengeführt werden. Dafür wird der Mittelwert der  Schätzer berechnet: \[\hat{\theta}_{D}=\frac{1}{D} \sum_{i=1}^{D}\hat{\theta}_{i}\]
    Die geschätzte Gesamtvarianz von \(\hat{\theta_{D}}\) ergibt sich zu:
    \[\hat{T}_{D}=\hat{W}_{D}+\frac{D+1}{D} \hat{B}_{D},\]
    wobei \(\hat{W}_{D}=\frac{1}{D} \sum_{i=1}^{D} \widehat{Var(\hat{\theta}_{i})}\) die Within-Varianz (Varianz innerhalb der Imputation) und \(\hat{B_{D}}=\frac{1}{D-1}\sum_{i=1}^{D} (\hat{\theta}_{i}-\hat{\theta}_{D})^{2}\) die Between-Varianz (Varianz zwischen den D Imputationen) bezeichnet.

    \(\hat{W_{D}}\) steht für die Unsicherheit, die durch das Verwenden einer Stichprobe anstelle der gesamten Population entsteht. \(\hat{B_{D}}\) bezeichnet die zusätzliche Unsicherheit durch die fehlenden Werte. Der Faktor \(\frac{D+1}{D}\) dient zur Endlichkeitskorrektur bei kleinen Werten von D.

Die Vorgehensweise bei multipler Imputation ist in folgender Grafik illustriert:

Vorgehen bei Multipler Imputation

Diese Grafik stellt die drei Schritte der multiplen Imputation dar. Zuerst werden für jeden fehlenden Wert D Imputationen durchgeführt, wodurch D Datensätze entstehen. Anschließend wird die gewünschte statistische Analyse für jeden der D Datensätze ausgeführt. Die dadurch erhaltenen Schätzwerte werden im letzten Schritt zu einem zusammengefasst.


Durch dieses Vorgehen wird die Unsicherheit darüber, welcher Wert imputiert werden soll, in der geschätzten Varianz des Schätzers berücksichtigt. Durch die zusätzliche Unsicherheit erhält man breitere Konfidenzintervalle verglichen mit dem Fall ohne fehlende Werte. Die Konfidenzintervalle sind allerdings schmaler, verglichen mit den Konfidenzintervallen, die bei der Löschung der Beobachtungen mit fehlenden Werten (Complete Case Analysis) entstanden wären.

Ziehen aus \(f(y_{mis}|y_{obs})\)

Der erste Schritt der multiplen Imputation beinhaltet das Ziehen von D Werten aus \(f(y_{mis}|y_{obs})\) für jeden fehlenden Wert. Meistens ist es nicht möglich direkt aus \(f(y_{mis}|y_{obs})\) Stichproben zu ziehen. Es gibt jedoch Methoden, mit denen sich über zusätzliche Konstruktionen Stichproben aus \(f(y_{mis}|y_{obs})\) ziehen lassen.

Meist wird ein Umweg über Ziehungen aus \(f(y_{mis},\psi|y_{obs})\) gegangen. \(\psi\) bezeichnet die Parameter eines Imputationsmodells, welches für die Imputation spezifiziert wird. Ein Imputationsmodell ist ähnlich zur Regressionsimputation, allerdings wird die Unsicherheit über die unbekannten Parameter \(\psi\)  berücksichtigt. Dies geschieht durch das Ziehen der Parameter aus einer Wahrscheinlichkeitsverteilung. Das entspricht dem Vorgehen in der bayesschen Statistik, in der Parameter als zufällige Größen angesehen werden. Das ist der Vorteil im Vergleich zur Regressionsimputation, bei der die geschätzten Parameterwerte wie wahre Parameterwerte behandelt werden, wodurch die Unsicherheit bezüglich der Parameter nicht ausreichend berücksichtigt wird. Mehr dazu findet sich in Kapitel 3.1 in Van Buuren (2012).

Die praktische Erzeugung der Stichprobe aus \(f(y_{mis},\psi|y_{obs})\) geschieht mit Markov-Chain-Monte-Carlo-Verfahren (MCMC-Verfahren). Diese Verfahren konstruieren eine Markov-Kette. Eine Markov-Kette ist eine Folge von Zufallsvariablen, bei der die Verteilung von jedem Element nur vom vorherigen Element abhängt, nicht aber von denen zuvor. Unter bestimmten Voraussetzungen konvergiert eine Markov-Kette gegen eine Wahrscheinlichkeitsverteilung. Ziel von MCMC-Verfahren ist es, eine Markov-Kette zu konstruieren, die gegen eine gewünschte Verteilung konvergiert. 

Nach einer großen Anzahl von Durchgängen können die Elemente der konstruierten Markov-Kette als approximative Stichprobe der gewünschten Verteilung aufgefasst werden. Im Kontext der multiplen Imputation ist die gewünschte Verteilung \(f(y_{mis}|y_{obs})\) beziehungsweise \(f(y_{mis},\psi|y_{obs})\), wobei bei letzterer nur die gezogenen Werte für \(y_{mis}\) zur Imputation verwendet werden.

Es gibt verschiedene MCMC-Verfahren. Im Bereich der Multiplen Imputation lassen sie sich in zwei Gruppen einteilen. Eine Gruppe modelliert die gemeinsame Verteilung der Variablen explizit. Meist wird hier angenommen, dass die Variablen einer multivariaten Normalverteilung folgen. Dies nennt man „Joint Modelling“. Bei der anderen Gruppe wird für jede Variable mit fehlenden Werten eine bedingte Verteilung spezifiziert. Diese bedingte Verteilung wird anschließend benutzt, um Werte aus ihr zu ziehen und diese für die fehlenden Werte der zugeordneten Variable zu imputieren. Dies wird „Fully Conditional Specification“ genannt. 

Im Folgenden wird aus beiden Gruppen jeweils ein sehr gängiges Verfahren erklärt. 

Data Augmentation

Data Augmentation ist ein Verfahren, welches „Joint Modelling“ nutzt. Das Ziel ist, Ziehungen aus \(f(y_{mis},\psi|y_{obs})\) zu generieren. Die Werte für \(\psi\) sind ein Nebenprodukt, für die Imputation werden nur die Werte für \(y_{mis}\) verwendet. 

Der Algorithmus benötigt einen Startwert \(\psi^{(0)}\). Wird eine multivariate Normalverteilung angenommen, bieten sich beispielsweise die Maximum-Likelihood-Schätzer für \(\mu\) und \(\Sigma\) als Startwerte an.  Der Algorithmus führt bei Iteration t folgende Schritte aus:

  1. Ziehe \(y_{mis}^{(t+1)}\) aus \(f(y_{mis}|y_{obs},\psi^{(t)})\)
  2. Ziehe \(\psi^{(t+1)}\) aus \(f(\psi|y_{obs},y_{mis}^{(t+1)})\)

Die Idee hinter dem Verfahren beruht darauf, dass es leichter ist aus diesen beiden Verteilungen zu ziehen als aus \(f(y_{mis}|y_{obs})\) oder \(f(y_{mis}, \psi|y_{obs})\) direkt zu ziehen. 

Der Algorithmus erzeugt eine Markov-Kette, deren Elemente nach einer großen Anzahl von Iterationen näherungsweise der Verteilung \(f(y_{mis}, \psi|y_{obs})\) folgen. Die so generierten Werte für \(y_{mis}\) können zur Imputation verwendet werden. 

Es kann allerdings schwierig sein, eine plausible Annahme über die gemeinsame Verteilung der Variablen zu treffen. Dies ist insbesondere der Fall, wenn sowohl kardinale als auch kategoriale Variablen vorliegen. Sind kardinale Variablen nicht normalverteilt, kann eine Variablentransformation hilfreich sein. Bei kategorialen Variablen ist die Normalverteilungsannahme problematisch.

Multivariate Imputation by Chained Equations (MICE)

Der MICE-Algorithmus nutzt den „Fully Conditional Specification“-Ansatz. Ebenso wie Data Augmentation hat der MICE-Algorithmus das Ziel Ziehungen aus \(f(y_{mis},\psi|y_{obs})\) zu generieren. Allerdings wird keine gemeinsame Verteilung der Variablen spezifiziert, sondern für jede Variable mit fehlenden Werten ein eigenes Imputationsmodell festgelegt. Dieses Imputationsmodell beruht auf der Verteilung der fehlenden Werte der jeweiligen Variable gegeben alle anderen Variablen. Mithilfe dieser bedingten Verteilung wird für jede Variable imputiert.
Für jede Variable wird ein Startwert benötigt. Eine Möglichkeit Startwerte zu wählen, ist aus den beobachteten Werten der jeweiligen Variable zufällig einen Wert zu ziehen. Anschließend geht der Algorithmus in Iteration t für jede Variable j wie folgt vor:

  1.  Ziehe \(\psi_{j}^{(t+1)}\) aus \(f(\psi_{j}|y_{obs,j},y_{1}^{(t+1)},...,y_{j-1}^{(t+1)},y_{j+1}^{(t)},...,y_{p}^{(t)})\)
  2.  Ziehe \(y_{mis,j}^{(t+1)}\) aus \(f(y_{mis,j}|y_{obs,j},y_{1}^{(t+1)},...,y_{j-1}^{(t+1)},y_{j+1}^{(t)},...,y_{p}^{(t)},\psi_{j}^{(t+1)})\) 

\(\psi_{j}\) bezeichnet hierbei die Parameter, \(y_{obs,j}\) die beobachteten Werte und \(y_{mis,j}\) die fehlenden Werte der j-ten Variable.

Der zweite Schritt wird typischerweise über einen prognostizierten Wert aus einem Regressionsmodell bewerkstelligt. Zu diesem prognostiziertem Wert wird ein zufälliger Störterm addiert um die Unsicherheit der Prognose zu berücksichtigen.
Die Unsicherheit über die Parameter der Regression wird über das Ziehen der Parameter aus ihrer Verteilung im ersten Schritt einbezogen.

Bei MICE werden typischerweise 5-10 Beobachtungen ausgewählt, welche bezüglich einer Metrik nah an dem prognostiziertem Wert sind. Aus diesen Beobachtungen wird zufällig ein Wert gewählt und dieser wird imputiert. Dies nennt sich Predictive Mean Matching. Alternativ kann auch, wie bei der Nearest Neighbor Hot Deck Imputation, die Beobachtung mit der kleinsten Distanz zum prognostizierten Wert imputiert werden. Durch dieses Vorgehen werden nur Werte imputiert, die auch beobachtet wurden. Dadurch können unplausible Werte wie eine Kinderanzahl von 2,7 vermieden werden.
Zudem sind die imputierten Werte zwischen dem kleinsten und dem größten beobachteten Wert, wodurch auch keine negativen Zahlen für nichtnegative Variablen eingesetzt werden können. Andere logische Inkonsistenzen, wie die Imputation des Verwandschaftsgrades „Großmutter“ bei einer 12-Jähringen, sind hingegen möglich. Ein Nachteil ist zudem, dass oft derselbe Wert imputiert werden könnte. Dies tritt besonders bei kleinen Stichproben auf.

Für kardinale Variablen wird meist eine lineare und für kategoriale Variablen eine multinomiale logistische Regression verwendet. Für Zähldaten bieten sich die Poisson- und die Negativ-Binomial-Regression an.  

Wie Data Augmentation erzeugt auch der MICE-Algorithmus eine Markov-Kette, deren Elemente nach einer großen Anzahl von Iterationen näherungsweise der Verteilung \(f(y_{mis}, \psi|y_{obs})\) folgen. Die dadurch generierten Werte für \(y_{mis}\) können zur Imputation verwendet werden. Die Konvergenz gegen die Verteilung \(f(y_{mis}, \psi|y_{obs})\) tritt beim MICE-Algorithmus oft schon früh ein, deshalb genügt es meist 10-20 Iterationen durchzuführen. 

Dadurch, dass die gemeinsame Verteilung der Variablen nur implizit durch die bedingten Verteilungen der einzelnen Variablen modelliert wird, bietet der MICE-Algorithmus größere Flexibilität als Data Augmentation. Besonders nützlich ist der MICE-Algorithmus, wenn keine plausible gemeinsame Verteilung der Variablen angenommen werden kann. 

Testen und Konfidenzintervalle

Multiple Imputation dient meist dazu statistische Inferenz trotz fehlender Daten durchführen zu können. Typische Verfahren aus der statistischen Inferenz sind Hypothesentests und Konfidenzintervalle. Dabei wird genutzt, dass folgendes gilt:

\[\frac{\hat{\theta_{D}}-\theta}{\sqrt{\hat{T_{D}}}}\widetilde{} t_{v}\] Das Vorgehen ist ähnlich zu dem bei vollständigen Datensätzen, allerdings muss die Anzahl der Freiheitsgrade angepasst werden, weshalb \(v=(D-1)(1+\frac{1}{r^{2}})\) als Anzahl der Freiheitsgrade verwendet wird. \(r=\frac{(\frac{D+1}{D})\hat{B_{D}}}{\hat{W_{D}}}\) steht für den relativen Anstieg der Varianz wegen der fehlenden Werte.

Für kleine Stichproben gibt es eine adjustierte Anzahl der Freiheitsgrade, welche hier (engl.) zu finden ist.

Die t-Verteilung von \(\hat{\theta_{D}}\) kann auch für die Berechnung von Konfidenzintervallen benutzt werden. Diese lassen sich durch \(\hat{\theta_{D}} \pm t_{v,1-\alpha/2} \sqrt{\hat{T_{D}}}\) berechnen, wobei \(t_{v,1-\alpha/2}\) das \((1-\alpha/2)\) -Quantil der \(t_{v}\) -Verteilung bezeichnet.

Anzahl der Imputationen

Eine Eigenschaft der multiplen Imputation ist, dass bereits eine geringe Anzahl an Imputationen D ausreicht, um unverzerrte Schätzer mit korrekten Standardfehlern zu erhalten. 

In der folgenden Tabelle ist die relative Effizienz für verschiedene Anteile an fehlenden Werten \(\gamma\) und verschiedene Anzahlen an Imputationen D dargestellt. Die relative Effizienz ist definiert als \(RE=(1+\frac{\gamma}{D})^{-1}\) und beschreibt das Verhältnis zwischen der Stichprobenvarianz und ihrem theoretischen Minimum. Es ist daher erstrebenswert, eine relative Effizienz nahe 1 zu erreichen.



D=3D=5D=10D=20
\(\gamma\) = 0.10.970.980.991.00
\(\gamma\) = 0.30.910.940.970.99
\(\gamma\) = 0.50.860.910.950.98
\(\gamma\) = 0.70.810.880.930.97

Relative Effizienz für verschiedene Anteile fehlender Daten und Anzahlen an Imputationen

Die Tabelle stellt die relative Effizienz für verschiedene Anteile fehlender Werte \(\gamma\) und Anzahlen an Imputationen D dar. Die Werte wurden Enders (2010) entnommen.

Die Tabelle zeigt zum einen, dass schon für eine geringe Anzahl an Imputationen große relative Effizienzen erreicht werden. Zum anderen sinkt die relative Effizienz mit einem zunehmenden Anteil an fehlenden Werten. Zudem sind die Anstiege der relative Effizienz, wenn 20 anstatt 10 Imputationen verwendet werden, gering. Es sollten dementsprechend mehr Imputationen durchgeführt werden, wenn der Datenausfall hoch ist.  Meist reicht es jedoch aus, zwischen 3 und 10 Imputationen durchzuführen.

Allerdings verliert ein statistischer Test an Power durch die fehlenden Werte. Je mehr Imputationen durchgeführt werden, umso geringer wird dieser Verlust. Deshalb sollte in Untersuchungen, in welchen eine hohe statistische Power verlangt wird, eine größere Anzahl an Imputationen durchgeführt werden. Empfohlen werden in diesem Fall mindestens 20 Imputationen.

Übersicht zu den verschiedenen Imputationsverfahren

Im Folgenden wird eine Übersicht zu den Imputationsverfahren aus den vorigen Abschnitten gegeben. Die Tabelle gibt an, welche Annahmen für die jeweiligen Verfahren getroffen werden und welche Vor- und Nachteile diese haben. Das ist bei der Wahl des Imputationsverfahrens hilfreich.

ImputationsverfahrenAnnahmenVor-/Nachteile
Imputation durch LagemaßeMCAR-Mechanismus

+einfach anzuwenden
+geringer Rechenaufwand
-keine valide statistische Inferenz
-MCAR-Mechanismus notwendig
-unplausible Werte möglich

Imputation durch RegressionMAR-Mechanismus

+einfach anzuwenden
+geringer Rechenaufwand
-keine valide statistische Inferenz
-unplausible Werte möglich

Hot Deck ImputationMCAR-/MAR-Mechanismus

+einfach anzuwenden
+geringer Rechenaufwand
+imputierte Werte plausibel
(logische Inkonsistenzen weiterhin möglich)
-keine valide statistische Inferenz

Last-Observation-Carried-Forward

Nach Ausscheiden aus Studie
ändern sich Beobachtungen nicht mehr. 

+einfach anzuwenden
+geringer Rechenaufwand
+imputierte Werte plausibel
(logische Inkonsistenzen weiterhin möglich)
-keine valide statistische Inferenz
-sehr restriktive Annahme

Data AugmentationMAR-Mechanismus
Annahme über gemeinsame
Verteilung der Variablen muss
getroffen werden 
+valide statistische Inferenz
-schwieriger anzuwenden
-höherer Rechenaufwand 

Multivariate Imputation by Chained Equations

MAR-Mechanismus

+valide statistische Inferenz
+keine Annahme über gemeinsame
Verteilung
der Variablen notwendig
-schwieriger anzuwenden
-höherer Rechenaufwand


Soll multiple Imputation für Zeitreihendaten angewendet werden, bieten sich andere Verfahren an. Eines wird in diesem leicht verständlichen Artikel(engl.) vorgestellt.

Strategien zur Imputation in der Praxis

In diesem Abschnitt soll eine Schritt-für-Schritt-Vorgehensweise zur Anwendung von Imputationsverfahren in der Praxis gegeben werden:

  1. Ist die MAR-Annahme erfüllt?
    Dies kann empirisch nicht überprüft werden. Hierbei ist man auf Überlegungen angewiesen, ob die MAR-Annahme in der vorliegenden Situation plausibel erscheint. Erscheint sie nicht plausibel, sind spezielle Verfahren notwendig. Mehr dazu findet sich beispielsweise im 15. Kapitel in Little, Rubin (2002).
    Erscheint die MAR-Annahme hingegen plausibel, so können die in diesem Artikel vorgestellten multiplen Imputationsverfahren angewandt werden. Für manche einfache Imputationsverfahren muss allerdings ein MCAR-Mechanismus vorliegen.
  2. Welches Imputationsverfahren soll verwendet werden?
    Hierzu kann die Übersichtstabelle verwendet werden. Ist das Ziel deskriptive Methoden zu verwenden, so sind einfache Imputationsverfahren ausreichend.
    Möchte man statistische Inferenz betreiben, so sollten multiple Imputationsverfahren angewendet werden. Bei einem Anteil an fehlenden Werten von weniger als 5% mag die Verzerrung der Standardfehler durch einfache Imputationsverfahren zwar gering sein, der Vorteil der niedrigeren Rechenzeit ist bei modernen Computern allerdings nicht von Bedeutung.
    Ist die Annahme einer bestimmten gemeinsamen multivariaten Verteilung der Variablen plausibel, so bieten sich „Joint Modeling“-Verfahren an. Möglicherweise ist dabei eine Variablentransformation hilfreich. Ist diese Annahme nicht erfüllt, so sollten „Fully Conditional Specification“-Verfahren verwendet werden. Bei diesen muss ein Imputationsmodell für jede Variable mit fehlenden Werten festgelegt werden. Je nach Variablentyp werden lineare Regression, (multinomiale) logistische Regression oder Regressionsverfahren für Zähldaten benutzt.
  3. Welche Variablen sollen in das Imputationsmodell aufgenommen werden?
    Idealerweise sollten alle Variablen aus dem Datensatz verwendet werden um möglichst viel Information zu nutzen. Für Datensätze mit mehreren hundert Variablen ist dies allerdings nicht durchführbar. Bis zu 25 Variablen sind meist ausreichend.

    Sind mehr Variablen im Datensatz vorhanden, wird eine Teilmenge dieser Variablen für das Imputationsmodell verwendet. Van Buuren (2012) schlägt folgende Strategie vor, um diese Teilmenge auszuwählen:
    a. Wähle alle Variablen, die Teil der durchzuführenden statistischen Analyse sind. Dies sind zum Beispiel die Variablen, welche Teil des Regresssionsmodells sind, das man mit vollständigen Daten schätzen möchte.
    b. Wähle alle Variablen, die mit dem Mechanismus fehlender Daten in Zusammenhang stehen. 
    c. Wähle die Variablen, von denen man erwarten kann, dass sie einen großen Anteil der Varianz erklären. Typische Beispiele sind Alter oder Einkommen.


    Ergeben sich mit dieser Strategie mehr als 25 Variablen, so können die Variablen aus b. und c. entfernt werden, welche einen hohen Anteil an fehlenden Werten besitzen.

  4. Soll die Imputation für Variablen durchgeführt werden, welche Funktionen von unvollständigen Variablen sind?
    Dies tritt unter anderem bei Variablen auf, welche Verhältnisse von anderen Variablen sind. Ein Beispiel ist das Bruttoinlandsprodukt (BIP) pro Kopf. Hier bietet es sich an BIP pro Kopf aus dem Imputationsmodell herauszunehmen, für BIP und Einwohneranzahl zu imputieren und BIP pro Kopf nach der Imputation zu berechnen. 
  5. Welche Startwerte sollen für die Imputationsverfahren verwendet werden?
    Bei Data Augmentation bietet es sich an, die geschätzten Parameter der angenommenen multivariaten Verteilung zu verwenden. Beim MICE-Algorithmus können aus den beobachteten Werten der jeweiligen Variable zufällig Werte gezogen werden und als Startwerte genutzt werden.
  6. Wie viele Imputationen sollen durchgeführt werden?
    Hinweise hierzu bietet der entsprechende Abschnitt dieses Artikels.

Nach der Imputation sollten die imputierten Werte auf logische Inkonsistenzen, etwa eine 12-jährige Großmutter, überprüft werden. Zudem sollte untersucht werden, ob die imputierten Werte einer ähnlichen Verteilung folgen wie die beobachteten Werte. Die Verteilungen müssen, sofern kein MCAR-Mechanismus vorliegt, nicht identisch sein. Bei einer guten Imputation sollte die Verteilung der imputierten Werte aber keine sehr großen Unterschiede zu der der beobachteten Werten aufweisen. Ist dem nicht so, sollte geprüft werden, ob die Modellannahmen erfüllt sind. Mehr zu diesen Untersuchungen findet sich in Kapitel 5.6 aus Van Buuren (2012). 

Imputationsfunktionen in statistischer Software

R

Imputation durch Lagemaße, Regressionsimputation und LOCF lassen sich über grundlegende R-Befehle implementieren. Für Hot Deck Imputationsverfahren gibt es das Paket HotDeckImputation, dessen englischsprachige Dokumentation hier gefunden werden kann.

Data Augmentation lässt sich in R mithilfe der Funktion da.norm aus dem Paket norm durchführen. Näheres zu dieser Funktion findet sich auf der dritten Seite von diesem Dokument (engl.).

Der MICE-Algorithmus ist in R Teil des Pakets mice. Zu diesem Paket gibt es in englischer Sprache sowohl eine ausführliche Vignette als auch eine exemplarische Anwendung auf Video:

Handling Missing Values using R

SAS

Die University of California erklärt auf ihrer Website Schritt für Schritt wie verschiedene Imputationsverfahren in SAS ausgeführt werden.
In SAS gibt es die Prozeduren proc mi und proc mianalyze um die Imputation durchzuführen. Diese werden auf Englisch in diesem Dokument erläutert. 

Stata

Auch für Stata gibt es eine ausführliche schrittweise Erklärung zu den Imputationsverfahren auf dieser Website.
Zudem gibt es ein Handbuch und eine anschauliche Erklärung auf Video:

Handling Missing Data in Stata
 

SPSS

Auf dieser Website wird gezeigt, wie sich multiple Imputation in SPSS durchführen lässt. Außerdem gibt es ein detailliertes Video-Tutorial:

How to Use SPSS-Replacing Missing Data Using Multiple Imputation (Regression Method)


 Quellennachweis


Bildergalerie



  • Keine Stichwörter