Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Bei Datenerhebungen kommt es oft vor, dass die erhobenen Werte nicht vollständig sind. Dies tritt zum Beispiel auf, wenn Umfrageteilnehmer nicht jede Frage beantworten. Methoden der statistischen Inferenz wie Schätzen oder Testen gehen jedoch meist von vollständigen Datensätzen aus. 
Imputationsverfahren dienen dem Ziel trotz fehlender Werte, Verfahren der statistischen Inferenz anwenden zu können. Es ist nicht ihr Ziel, fehlende Werte möglichst genau vorherzusagen. In diesem Artikel werden verschiedene Imputationsverfahren erklärt, ihre Vor- und Nachteile aufgezeigt sowie Hilfestellungen zu ihrer praktischen Anwendung gegeben. Alternativen zu Imputationsverfahren sind Maximum-Likelihood-Methoden und Kalibrationsschätzer.

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis|Bildergalerie

 

Mechanismen fehlender Daten

Es ist wichtig sich zu fragen, warum die Daten fehlen, denn der Grund für das Fehlen der Daten kann Informationen beinhalten und beeinflusst die Wahl des Imputationsverfahrens. Dies wird ausgedrückt durch Mechanismen fehlender Daten, welche die Wahrscheinlichkeiten für das Fehlen der Daten beschreiben.

Fehlen die Daten völlig zufällig, etwa weil ausgefüllte Fragebögen verloren gegangen sind, so nennt man den Mechanismus Missing completely at random (MCAR). In diesem Fall hängt die Wahrscheinlichkeit für das Fehlen der Daten weder von den beobachteten noch den fehlenden Daten ab.
Hängt die Wahrscheinlichkeit für das Fehlen der Daten hingegen von den Werten einer vollständig beobachteten Variablen ab, so liegt der Mechanismus Missing at random (MAR) vor. Dies wäre zum Beispiel der Fall, wenn Männer eine Umfrage früher abbrechen als Frauen, sofern Geschlecht beobachtet werden kann.
Es kommt ebenfalls vor, dass die Wahrscheinlichkeit für das Fehlen der Daten von den fehlenden Werten abhängt, etwa wenn Umfrageteilnehmer mit hohem Einkommen Auskunft über ihr Einkommen verweigern. Dieser Mechanismus nennt sich Missing not at random (MNAR)

Mehr zu diesen Mechanismen fehlender Daten und wie man herausfindet, welcher vorliegt, befindet sich im Artikel Vom Umgang mit fehlenden Werten .

In der Literatur wird meist noch die Eigenschaft der Ignorierbarkeit des Mechanismen fehlender Daten behandelt. Diese Eigenschaft bedeutet, dass die Zusammenhänge zwischen den fehlenden Teilen der Variablen ähnlich sind zu den Zusammenhängen der beobachteten Teile der Variablen. Dies liegt bei einem MCAR-Mechanismus vor und bei einem MAR-Mechanismus liegt es unter bestimmten theoretischen Voraussetzungen vorDiese theoretischen Voraussetzungen sind bei einem MAR-Mechanismus in Anwendungen typischerweise erfüllt . Deswegen wird im Folgenden angenommen, dass ein MAR-Mechanismus stets ignorierbar ist. Bei einem MNAR-Mechanismus liegt hingegen keine Ignorierbarkeit vor. In diesem Fall werden Verfahren wie das Selektionsmodell von Heckman verwendet, welche nicht in diesem Artikel besprochen werden. Eine ausführliche Einführung zu diesen Verfahren bietet das 15. Kapitel von Little, Rubin (2002).

Einfache Imputation

Es gibt verschiedene einfache Imputationsverfahren, welchen gemein ist, dass sie für jeden fehlenden Wert einen Wert einsetzen und nicht mehrere.

Imputation durch Lagemaße 

Bei diesem Verfahren werden die fehlenden Werte durch ein Lagemaß der beobachteten Werte derselben Variable imputiert. Bei metrischen Variablen wird dafür typischerweise das arithmetische Mittel, bei nicht-metrischen Variablen der Median oder der Modus gewählt.
Das Lagemaß der jeweiligen Variablen bleibt durch die Imputation unverändert, allerdings werden sowohl die Varianz als auch die Kovarianz zu anderen Variablen unterschätzt. Dadurch sind die p-Werte von statistischen Tests zu gering und die Konfidenzintervalle der Parameter zu schmal.
Ein weiterer Nachteil ist, dass unplausible Werte, etwa 2,7 als Anzahl Kinder, imputiert werden könnten. Zudem muss, um unverzerrte Schätzer zu erhalten, ein MCAR-Mechanismus vorliegen. 
Zusätzliche Information zu diesem Verfahren befindet sich im Artikel Vom Umgang mit fehlenden Werten .

Imputation durch Regression 

Diese Methode nutzt die Korrelation zwischen den Variablen, beispielsweise zwischen Körpergröße und Gewicht. Es wird eine Regression der beobachteten Werte einer teilweise beobachteten Variable auf die zugehörigen Werte von vollständig beobachteten Variablen durchgeführt. Anschließend  werden die Werte der vollständig beobachteten Variablen, welche nicht zur Regression verwendet wurden, in das geschätzte Regressionsmodell eingesetzt, um prognostizierte Werte für die fehlenden Werte zu erhalten. 
Im Vergleich zur Imputation durch Lagemaße, genügt ein MAR-Mechanismus um unverzerrte Schätzer zu erhalten, allerdings unterschätzt auch dieses Verfahren Varianz und Kovarianz.

Mehr Information zu diesem Verfahren und möglichen Problemen befindet sich im Artikel Vom Umgang mit fehlenden Werten .

Hot Deck Imputation

Die Hot Deck Imputation nutzt beobachtete Werte von ähnlichen Individuen zur Imputation. Hat beispielsweise jemand eine Frage einer Umfrage nicht beantwortet, so wird die Antwort von jemandem mit ähnlichen Charakteristiken (z. B. Alter, Beruf, Wohnort) für die fehlende Antwort eingesetzt. 
Es gibt verschiedene Möglichkeiten, die Ähnlichkeit zwischen Individuen zu messen. Eine ist die Methode Nearest Neighbor Hot Deck.

Dabei wird mithilfe einer Metrik die Distanz zwischen Individuen gemessen. Je kleiner die Distanz, umso ähnlicher sind sich diese. 
Eine mögliche Metrik ist die Mahalanobis-Distanz. Die Distanz \(d(i,j)\) zwischen den Individuen i und j ist bei ihr gegeben durch:

\[d(i,j) = (x_{i}-x_{j})^{T}S_{xx}^{-1}(x_{i}-x_{j}),\] wobei  \(x_{k}\) den Vektor der Variablen von Individuum k und \(S_{xx}\) die geschätzte Kovarianzmatrix von \(x_{i}\) bezeichnet.

Sollen Werte für Individuum i imputiert werden, so wird nach dem Individuum gesucht, welches den kleinsten Abstand zu Individuum i besitzt. Die Werte dieses Individuums werden anschließend zur Imputation benutzt. 
Ob ein MCAR- oder ein MAR-Mechanismus für unverzerrte Schätzer benötigt wird, hängt vom Hot-Deck-Verfahren ab. Näheres dazu findet sich hier (engl.).
 

Der Vorteil dieses Verfahrens ist, dass nur plausible Werte eingesetzt werden, denn die imputierten Werte stammen von Beobachtungen. Es entstehen somit keine logischen Inkonsistenzen wie eine Kinderanzahl von 2,7. Zudem ist die Hot Deck Imputation weniger anfällig für Modellmisspezifikation, verglichen mit der Regressionsimputation. Allerdings hängt die Imputation von der Wahl der Metrik ab. Zudem berücksichtigt auch dieses Verfahren die zusätzliche Unsicherheit durch die Imputation nicht und unterschätzt somit die Varianz und die Kovarianz.

Last-Observation-Carried-Forward (LOCF)

Für fehlende Daten in Panel Surveys, etwa wenn Befragte ihre Teilnahme an einem Survey beenden, gibt es eine eigene einfache Imputationsmethode. 
Sie besteht darin, ab dem Ausscheiden aus dem Survey die fehlenden Werte durch den zuletzt beobachteten Wert zu ersetzen. Dabei wird angenommen, dass sich die Beobachtungen nach Beendigung der Teilnahme nicht mehr ändern. Diese Annahme ist meist unrealistisch, besonders wenn man an der Veränderung der Variablen interessiert ist. Ist die Annahme verletzt, so resultiert dies in verzerrten Schätzungen für den Mittelwert sowie die Varianz. 

 

 

Alle einfachen Imputationsverfahren berücksichtigen die Unsicherheit der Imputation nicht. Dadurch haben die Schätzer zu geringe Standardfehler, was in zu kleinen p-Werten bei statistischen Tests sowie zu schmalen Konfidenzintervallen resultiert. Ihr einziger Vorteil ist, dass sie mit geringem Aufwand durchzuführen sind. Ist der Anteil an fehlenden Werten gering (kleiner 5%), so kann der Einfluss auf die Varianzschätzung vernachlässigbar sein und einfache Imputation angewendet werden. Ist der Anteil an fehlenden Werten hingegen groß, so sollten einfache Imputationsverfahren nicht verwendet werden. Ebenso reichen einfache Imputationsverfahren aus, wenn ausschließlich deskriptive Statistik betrieben werden soll oder wenn man nur an einem unverzerrten Punktschätzer ohne dessen Standardfehler interessiert ist. 


Das Unterschätzen der Standardfehler bei der einfachen Imputation soll durch folgendes Beispiel, welches der Vorlesung

„Statistische Analyse unvollständiger Daten" der Universität Bamberg entnommen wurde, illustriert werden:


 Es soll getestet werden, ob der Erwartungswert zweier Populationen \(Y_{1}\widetilde{} \mathrm{N}(\mu_{1},1), Y_{2}\widetilde{} \mathrm{N}(\mu_{2},1)\) derselbe ist. Dafür wird eine Stichprobe des Umfangs n für jede Population gezogen. DIe Stichproben sind voneinander unabhängig. Sie werden als \(Y_{1i}\) für i=1,...,n und \(Y_{2j}\) für j=1,...,n bezeichnet. \(\bar{Y_{1}}\) und \(\bar{Y_{2}} \) stehen für den Mittelwert der jeweiligen Stichprobe. Die Nullhypothese für den z-Test ist \(H_{0}:\mu_{1}=\mu_{2}\).

Die zugehörige Teststatistik ist: \(z=\frac{\bar{Y_{1}}-\bar{Y_{2}}}{\sqrt{\frac{1}{n}+\frac{1}{n}}}\widetilde{} \mathrm{N}(0,1)\)

Angenommen, in der ersten Stichprobe würde ein Anteil \(\gamma\) der Daten fehlen und diese fehlenden Werte werden durch einfache Imputation ersetzt.
Licht (2010) zeigt, dass die Teststatistik nach einfacher Imputation einer \(\mathrm{N}(0,\frac{1}{1-\gamma})\) -Verteilung folgt. 
Seien nun 50% der Werte in der ersten Stichprobe fehlend, so folgt die Teststatistik einer \(\mathrm{N}(0,2)\) -Verteilung. Wird dies nicht berücksichtigt und der Wert der Teststatistik mit den kritischen Werten der Standardnormalverteilung verglichen, wird die Nullhypothese zu oft abgelehnt. Dies ist in folgender Grafik illustriert:

Info
titleDichtefunktionen der N(0,1)- und der N(0,2)-Verteilung

Dargestellt sind die Dichtefunktionen der N(0,1)- und der N(0,2)-Verteilung. Blau unterlegt ist der Ablehnbereich, wenn die Teststatistik einer N(0,1)-Verteilung folgen würde, für ein Signifikanzniveau von \(\alpha=0.05\). Die blaue und die rot unterlegte Fläche ergeben zusammen den Ablehnbereich, wenn die Teststatistik einer N(0,2)-Verteilung folgt, aber die kritischen Werte der N(0,1)-Verteilung verwendet werden.

Wird nun irrtümlicherweise davon ausgegangen, dass die Teststatistik einer N(0,1)-Verteilung folgt und deren kritische Werte verwendet, so wird der Ablehnbereich größer als er durch das vorgegebene Signifikanzniveau sein sollte. Dadurch wird die Nullhypothese zu oft abgelehnt. Es wird keine valide statistische Inferenz betrieben.

Ein Ausweg ist es, nach der einfachen Imputation die Varianz der Teststatistik neu zu berechnen und diese zum Testen zu verwenden. Oft ist es allerdings nicht möglich, die Varianz der Teststatistik nach einfacher Imputation korrekt zu bestimmen. Deswegen ist es notwendig multiple Imputation zu verwenden, wenn man fehlende Werte imputieren und statistische Inferenz durchführen möchte. 

Multiple Imputation

Da einfache Imputationsverfahren zu einer Unterschätzung der Standardfehler der Schätzer führen, stellt sich die Frage wie sich fehlende Werte ersetzen lassen und die Standardfehler der Schätzer unverzerrt geschätzt werden können. Eine Möglichkeit dafür sind multiple Imputationsverfahren. Werden sie korrekt angewendet und liegt ein MAR-Mechanismus vor, so sind die resultierenden Schätzer konsistent, asymptotisch effizient und asymptotisch normalverteilt. Multiple Imputationsverfahren können zudem für jede Art von Daten und jedes Modell verwendet werden. Der einzige Nachteil im Vergleich zu den einfachen Imputationsverfahren ist der größere Rechenaufwand. 
Multiple Imputationsverfahren benötigen die Annahme, dass \(\hat{\theta}\), der interessierende Schätzer, bei vollständigen Daten einer Normalverteilung folgt. Diese Annahme ist nicht sehr restriktiv, denn viele Schätzer (etwa Maximum-Likelihood-Schätzer) sind zumindest asymptotisch normalverteilt. Auch Schätzer, die t-verteilt sind, folgen für große Stichprobenumfänge der Normalverteilung. Sollten allerdings nur kleine Stichprobenumfänge vorliegen, so könnte die Annahme nicht erfüllt sein. 
Der Einfachheit halber wird im Folgenden angenommen, dass \(\hat{\theta}\) ein Skalar ist. Das Vorgehen für Vektoren ist ähnlich und findet sich in den angegebenen Quellen. 

Vorgehen

Das Vorgehen bei multiplen Imputationsverfahren besteht aus drei Schritten:

  1. Imputation:
    Für jeden fehlenden Wert werden D Werte aus \(f(y_{mis}|y_{obs})\), der Verteilung der fehlenden Daten gegeben der beobachteten Daten, gezogen. \(f(y_{mis}|y_{obs})\) gibt die Wahrscheinlichkeit für bestimmte fehlende Werte, gegeben die beobachteten Werte, an. Gibt eine Person beispielsweise in einer Umfrage ihr Alter an, aber nicht ihre Körpergröße, so werden D Werte für die Körpergröße, gegeben die beobachteten Werte für Alter, gezogen werden. Haben beispielsweise die Umfrageteilnehmer mit einem geringeren Alter als 15 Jahre eine kleinere Körpergröße als die Umfrageteilnehmer ab 15 Jahre, so werden für Umfrageteilnehmer, welche jünger als 15 Jahre sind und ihre Körpergröße nicht angegeben haben, im Durchschnitt geringere Werte für die Körpergröße imputiert als für die Umfrageteilnehmber ab 15 Jahren.
     Die aus \(f(y_{mis}|y_{obs})\) gezogenen Werte werden für die fehlenden Werte eingesetzt. Dadurch erhält man D vervollständigte Datensätze mit den gleichen beobachteten Werten, aber unterschiedlichen imputierten Werten. Die Größe der Unterschiede zwischen den imputierten Werten drückt aus, wie groß die Unsicherheit darüber ist, welcher Wert imputiert werden soll. 

  2. Analyse:
    Es werden die statistischen Methoden, die man anwenden möchte, für jeden der D Datensätze separat durchgeführt. Möchte man einen Schätzer 
    \(\hat{\theta}\), etwa das arithmetische Mittel, berechnen, so führt man diese Schätzung für alle D Datensätze durch. Man erhält D verschiedene Schätzer \(\hat{\theta_{i}},i=1,...,D,\) und deren jeweilige geschätzte Varianzen \(\widehat{Var(\hat{\theta_{i}})},i=1,...,D\). Da die imputierten Werte in den Datensätzen verschieden sind, sind auch die \(\hat{\theta_{i}}\) unterschiedlich. 

  3. Zusammenfassung der Schätzergebnisse:

Die D Schätzer sollen in diesem Schritt zu einem Schätzer zusammengeführt werden. Dafür wird das arithmetische Mittel der Schätzer berechnet:
\[\hat{\theta_{D}}=\frac{1}{D} \sum_{i=1}^{D}\hat{\theta_{i}}\]
Die geschätzte Gesamtvarianz von \(\hat{\theta_{D}}\) ergibt sich zu:
\[\hat{T_{D}}=\hat{W_{D}}+\frac{D+1}{D} \hat{B_{D}},\]
wobei \(\hat{W_{D}}=\frac{1}{D} \sum_{i=1}^{D} \widehat{Var(\hat{\theta_{i}})}\) die Within-Varianz (Varianz innerhalb der Imputation) und 
\(\hat{B_{D}}=\frac{1}{D-1}\sum_{i=1}^{D} (\hat{\theta_{i}}-\hat{\theta_{D}})^{2}\) die Between-Varianz (Varianz zwischen den D Imputationen) bezeichnet. \(\hat{W_{D}}\) steht für die Unsicherheit, die durch das Verwenden einer Stichprobe anstelle der gesamten Population entsteht. \(\hat{B_{D}}\) bezeichnet die zusätzliche Unsicherheit durch die fehlenden Werte. Der Faktor \(\frac{D+1}{D}\) dient zur Endlichkeitskorrektur bei kleinen Werten von D.

Durch dieses Vorgehen wird die Unsicherheit darüber, welcher Wert imputiert werden soll, in der geschätzten Varianz des Schätzers berücksichtigt. Durch die zusätzliche Unsicherheit erhält man breitere Konfidenzintervalle verglichen mit dem Fall ohne fehlende Werte. Die Konfidenzintervalle sind allerdings schmaler, als wenn man die Beobachtungen mit fehlenden Werten aus der Analyse entfernt hätte.

Ziehen aus \(f(y_{mis}|y_{obs})\)

Der erste Schritt der Multiplen Imputation beinhaltet das Ziehen von D Werten aus \(f(y_{mis}|y_{obs})\) für jeden fehlenden Wert. Meistens ist es nicht möglich direkt aus \(f(y_{mis}|y_{obs})\) Stichproben zu ziehen. Es gibt jedoch Hilfskonstruktionen, mit denen sich Stichproben aus \(f(y_{mis}|y_{obs})\) ziehen lassen.

Bei einer dieser Hilfskonstruktionen wird folgender Zusammenhang genutzt:

\[f(y_{mis}|y_{obs})=\int_\Omega f(y_{mis},\psi|y_{obs}) d \psi=\int_\Omega f(y_{mis}|\psi,y_{obs}) f(\psi|y_{obs}) d \psi\], wobei \(\psi\) die Parameter des Imputationsmodells und \(\Omega\) den Paramaterraum bezeichnet. 

Die erste Gleichheit folgt, da die gemeinsame Dichte von \(y_{mis}\) und \(\psi\) gegeben \(y_{obs}\) über alle möglichen Werte von \(\psi\) integriert wird und sich somit die marginale Verteilung von \(y_{mis}\) gegeben \(y_{obs}\) ergibt. 

DIe zweite Gleichheit folgt aus der Definition der bedingten Wahrscheinlichkeit. Nach dieser gilt: 

\[ f(y_{mis}|\psi,y_{obs})=\frac{f(y_{mis},\psi|y_{obs})}{ f(\psi|y_{obs})} \Leftrightarrow f(y_{mis},\psi|y_{obs})=f(y_{mis}|\psi,y_{obs}) f(\psi|y_{obs})  \]

Auf Basis des obigen Ausdrucks für \(f(y_{mis}|y_{obs})\) basiert das Vorgehen beim Stichprobenziehen.
Zuerst wird ein \(\tilde{\psi}\) aus \(f(\psi|y_{obs})\) gezogen. Die Parameter werden hier, entsprechend den Annahmen der bayesschen Statistik, als Zufallsvariablen angesehen. Durch das Ziehen der Parameter aus einer Wahrscheinlichkeitsverteilung wird die Unsicherheit über die unbekannten Parameter \(\psi\) zum Ausdruck gebracht. Dies zeigt den Vorteil im Vergleich zur Regressionsimputation, bei der die geschätzten Parameterwerte wie wahre Parameterwerte behandelt werden, wodurch die Unsicherheit bezüglich der Parameter nicht ausreichend berücksichtigt wird.

Das gezogene \(\tilde{\psi}\) wird in \(f(y_{mis}|\psi,y_{obs})\) eingesetzt, wodurch \(f(y_{mis}|\tilde{\psi},y_{obs})\) erhalten wird. 
Aus \(f(y_{mis}|\tilde{\psi},y_{obs})\) werden anschließend die \(y_{mis}\) gezogen, welche in die D Datensätze imputiert werden.

Allerdings ist es oft auch nicht möglich, aus \(f(\psi|y_{obs})\) direkt Stichproben zu ziehen. In diesem Fall wird eine andere Hilfskonstruktion verwendet, sogenannte Markov-Chain-Monte-Carlo-Verfahren (MCMC-Verfahren), um aus \(f(y_{mis}|y_{obs})\) zu ziehen.
Diese Verfahren konstruieren eine Markov-Kette. Eine Markov-Kette ist eine Folge von Zufallsvariablen, bei der die Verteilung von jedem Elementes nur vom vorherigen Element abhängt, nicht aber von denen zuvor. Unter bestimmten Voraussetzungen konvergiert eine Markov-Kette gegen eine Wahrscheinlichkeitsverteilung. Ziel von MCMC-Verfahren ist es, eine Markov-Kette zu konstruieren, die gegen eine gewünschte Verteilung konvergiert.
Nach einer großen Anzahl von Durchgängen können die Elemente der konstruierten Markov-Kette als approximative Stichprobe der gewünschten Verteilung aufgefasst werden. Im Kontext der multiplen Imputation ist die gewünschte Verteilung \(f(y_{mis}|y_{obs})\).

Es gibt verschiedene MCMC-Verfahren. Im Bereich der Multiplen Imputation lassen sie sich in zwei Gruppen einteilen. Eine Gruppe modelliert die gemeinsame Verteilung der Variablen explizit. Meist wird hier angenommen, dass die Variablen einer multivariaten Normalverteilung folgen. Dies nennt man „Joint Modelling“. Bei der anderen Gruppe wird für jede Variable mit fehlenden Werten eine bedingte Verteilung spezifiziert. Diese bedingte Verteilung wird anschließend benutzt, um Werte aus ihr zu ziehen und diese für die fehlenden Werte der zugeordneten Variable zu imputieren. Dies wird „Fully Conditional Specification“ genannt. 

Im Folgenden wird aus beiden Gruppen jeweils ein sehr gängiges Verfahren erklärt. 

Data Augmentation

Data Augmentation ist ein Verfahren, welches „Joint Modelling“ nutzt. Das Ziel von ihm ist, Ziehungen aus \(f(y_{mis},\psi|y_{obs})\) zu generieren. Die Werte für \(\psi\) sind ein Nebenprodukt, für die Imputation werden nur die Werte für \(y_{mis}\) verwendet. 

Der Algorithmus benötigt einen Startwert \(\psi^{(0)}\). Wird eine multivariate Normalverteilung angenommen, bieten sich beispielsweise die Maximum-Likelihood-Schätzer für \(\mu\) und \(\Sigma\) als Startwerte an.  Der Algorithmus führt bei Iteration t folgende Schritte aus: 

  1. Ziehe \(y_{mis}^{(t+1)}\) aus \(f(y_{mis}|y_{obs},\psi^{(t)})\)
  2. Ziehe \(\psi^{(t+1)}\) aus \(f(\psi|y_{obs},y_{mis}^{(t+1)})\)

Die Idee hinter dem Verfahren beruht darauf, dass es leichter ist aus diesen beiden Verteilungen zu ziehen als aus \(f(y_{mis}|y_{obs})\), \(f(\psi|y_{obs})\) oder \(f(y_{mis}, \psi|y_{obs})\) direkt zu ziehen. 

Der Algorithmus erzeugt eine Markov-Kette, deren Elemente nach einer großen Anzahl von Iterationen näherungsweise der Verteilung \(f(y_{mis}, \psi|y_{obs})\) folgen. Die so generierten Werte für \(y_{mis}\) können zur Imputation verwendet werden. 

Es kann allerdings schwierig sein, eine plausible Annahme über die gemeinsame Verteilung der Variablen zu treffen. Dies ist insbesondere der Fall, wenn sowohl kardinale als auch kategoriale Variablen vorliegen. Sind kardinale Variablen nicht normalverteilt, kann eine Variablentransformation hilfreich sein. Bei kategorialen Variablen ist die Normalverteilungsannahme problematisch.

Multivariate Imputation by Chained Equations (MICE)

Der MICE-Algorithmus nutzt den „Fully Conditional Specification“-Ansatz. Ebenso wie Data Augmentation hat der MICE-Algorithmus das Ziel Ziehungen aus \(f(y_{mis},\psi|y_{obs})\) zu generieren. Allerdings wird keine gemeinsame Verteilung der Variablen spezifiziert, sondern für jede Variable mit fehlenden Werten ein eigenes Imputationsmodell festgelegt. Dieses Imputationsmodell beruht auf der Verteilung der fehlenden Werte der jeweiligen Variable gegeben alle anderen Variablen. Mithilfe dieser bedingten Verteilung wird für jede Variable imputiert.
Für jede Variable wird ein Startwert benötigt. Eine Möglichkeit Startwerte zu wählen, ist aus den beobachteten Werten der jeweiligen Variable zufällig einen Wert zu ziehen. Anschließend geht der Algorithmus in Iteration t für jede Variable j wie folgt vor:

  1.  Ziehe \(\psi_{j}^{(t+1)}\) aus \(f(\psi_{j}|y_{obs,j},y_{1}^{(t+1)},...,y_{j-1}^{(t+1)},y_{j+1}^{(t)},...,y_{p}^{(t)})\)
  2.  Ziehe \(y_{mis,j}^{(t+1)}\) aus \(f(y_{mis,j}|y_{obs,j},y_{1}^{(t+1)},...,y_{j-1}^{(t+1)},y_{j+1}^{(t)},...,y_{p}^{(t)},\psi_{j}^{(t+1)})\) 

\(\psi_{j}\) bezeichnet hierbei die Parameter, \(y_{obs,j}\) die beobachteten Werte und \(y_{mis,j}\) die fehlenden Werte der j-ten Variable.

Der zweite Schritt wird typischerweise über einen prognostizierten Wert aus einem Regressionsmodell bewerkstelligt. Zu diesem prognostiziertem Wert wird ein zufälliger Störterm addiert um die Unscherheit der Prognose zu berücksichtigen. Die Unsicherheit über die Parameter der Regression wird über das Ziehen der Parameter aus ihrer Verteilung im ersten Schritt einbezogen. Bei MICE werden typischerweise 5-10 Beobachtungen ausgewählt, welche nah, bezüglich einer Metrik, an dem prognostiziertem Wert sind.
Aus diesen Beobachtungen wird zufällig ein Wert gewählt und dieser wird imputiert. Dies nennt sich Predictive Mean Matching. Alternativ kann auch, wie bei der Nearest Neighbor Hot Deck Imputation, die Beobachtung mit der kleinsten Distanz zum prognostizierten Wert imputiert werden. Durch dieses Vorgehen werden nur Werte imputiert, die auch beobachtet wurden. Dadurch können keine unplausiblen Werte wie eine Kinderanzahl von 2,7 imputiert werden.
Zudem sind die imputierten Werte zwischen dem kleinsten und dem größten beobachteten Wert, wodurch auch keine negativen Zahlen für nichtnegative Variablen eingesetzt werden können.

Ein Nachteil ist allerdings, dass oft derselbe Wert imputiert werden könnte. Dies tritt besonders bei kleinen Stichproben auf.
Für kardinale Variablen wird meist eine lineare und für kategoriale Variablen eine multinomiale logistische Regression verwendet. Für Zähldaten bieten sich die Poisson- und die Negativ-Binomial-Regression an.  

Wie Data Augmentation erzeugt auch der MICE-Algorithmus eine Markov-Kette, deren Elemente nach einer großen Anzahl von Iterationen näherungsweise der Verteilung \(f(y_{mis}, \psi|y_{obs})\) folgen. Die dadurch generierten Werte für \(y_{mis}\) können zur Imputation verwendet werden. Die Konvergenz gegen die Verteilung \(f(y_{mis}, \psi|y_{obs})\) tritt beim MICE-Algorithmus oft schon früh ein, deshalb genügt es meist 10-20 Iterationen durchzuführen. 

Dadurch, dass die gemeinsame Verteilung der Variablen nur implizit durch die bedingten Verteilungen der einzelnen Variablen modelliert wird, bietet der MICE-Algorithmus größere Flexibilität als Data Augmentation. Besonders nützlich ist der MICE-Algorithmus, wenn keine plausible gemeinsame Verteilung der Variablen angenommen werden kann. Allerdings kann es sein, dass bedingte Verteilungen für die einzelnen Variablen spezifiziert werden, für die keine gemeinsame Verteilung existiert. Aus theoretischer Sicht ist in diesem Fall nicht garantiert, dass der MICE-Algorithmus vertrauenswürdige Ergebnisse liefert. Simulationsstudien zeigen allerdings, dass eine nicht existierende gemeinsame Verteilung nur einen geringen Einfluss auf die Imputationen hat. Dies gilt jedoch nur für die in den Simulationsstudien untersuchten Fälle. Ob sich die Ergebnisse verallgemeinern lassen, ist noch Gegenstand der Forschung.

Testen und Konfidenzintervalle

Multiple Imputation dient meist dazu statistische Inferenz trotz fehlender Daten durchführen zu können. Typische Verfahren aus der statistischen Inferenz sind Hypothesentests und Konfidenzintervalle. Dabei wird genutzt, dass folgendes gilt:

\[\frac{\hat{\theta_{D}}-\theta}{\sqrt{\hat{T_{D}}}}\widetilde{} t_{v}\] Das Vorgehen ist ähnlich zu dem bei vollständigen Datensätzen, allerdings muss die Anzahl der Freiheitsgrade angepasst werden, weshalb \(v=(D-1)(1+\frac{1}{r^{2}})\) als Anzahl der Freiheitsgrade verwendet wird. \(r=\frac{(\frac{D+1}{D})\hat{B_{D}}}{\hat{W_{D}}}\) steht für den relativen Anstieg der Varianz wegen der fehlenden Werte.

Für kleine Stichproben gibt es eine adjustierte Anzahl der Freiheitsgrade, welche hier (engl.) zu finden ist.

Die t-Verteilung von \(\hat{\theta_{D}}\) kann auch für die Berechnung von Konfidenzintervallen benutzt werden. Diese lassen sich durch \(\hat{\theta_{D}} \pm t_{v,1-\alpha/2} \sqrt{\hat{T_{D}}}\) berechnen, wobei \(t_{v,1-\alpha/2}\) das \((1-\alpha/2)\) -Quantil der \(t_{v}\) -Verteilung bezeichnet.

Anzahl der Imputationen

Eine Eigenschaft der multiplen Imputation ist, dass bereits eine geringe Anzahl an Imputationen D ausreicht, um unverzerrte Schätzer mit korrekten Standardfehlern zu erhalten. 

In der folgenden Tabelle ist die relative Effizienz für verschiedene Anteile an fehlenden Werte \(\gamma\) und verschiedene Anzahlen an Imputationen D dargestellt. Die relative Effizienz ist definiert als \(RE=(1+\frac{\gamma}{D})^{-1}\) und beschreibt das Verhältnis zwischen der Stichprobenvarianz und ihrem theoretischen Minimum. Es ist daher erstrebenswert, eine relative Effizienz nahe 1 zu erreichen.

 D=3D=5D=10D=20
\(\gamma\) = 0.10.970.980.991.00
\(\gamma\) = 0.30.910.940.970.99
\(\gamma\) = 0.50.860.910.950.98
\(\gamma\) = 0.70.810.880.930.97
Info
titleRelative Effizienz für verschiedene Anteile fehlender Daten und Anzahlen Imputationen

Die Tabelle stellt die relative Effizienz für verschiedene Anteile fehlender Werte \(\gamma\) und Anzahlen an Imputationen D dar. Die Werte wurden Enders (2010) entnommen.

 

Die Tabelle zeigt zum einen, dass schon für eine geringe Anzahl an Imputationen große relative Effizienzen erreicht werden. Zum anderen sinkt die relative Effizienz mit einem zunehmenden Anteil an fehlenden Werten. Zudem sind die Anstiege der relative Effizienz, wenn 20 anstatt 10 Imputationen verwendet werden, gering. Es sollten dementsprechend mehr Imputationen durchgeführt werden, wenn der Datenausfall hoch ist.  Meist reicht es zudem aus, zwischen 3 und 10 Imputationen durchzuführen.

Allerdings maximiert eine geringe Anzahl an Imputationen nicht die Power eines statistischen Tests. Eine große statistische Power entspricht einer geringen Wahrscheinlichkeit für den Fehler 2. Art. Deshalb sollte in Untersuchungen, in welchen eine hohe statistische Power verlangt wird, eine größere Anzahl an Imputationen durchgeführt werden. Empfohlen werden in diesem Fall mindestens 20 Imputationen. 

Strategien zur Imputation in der Praxis

 


Imputationsfunktionen in statistischer Software













 

 

 

 Zum Umgang mit Abbildungen und Tabellen

 Format im Text

Abbildungen und Tabellen werden zentriert. Alle Abbildungen besitzen eine Bildüberschrift, die Teil der Abbildung ist. Wenn dies nicht möglich ist, dann wird entsprechend im Wiki-Editor eine zentrierte Überschrift hinzugefügt. Nach Möglichkeit sollten Bilder eine Überschrift als Eigenschaft haben.

 

 

 

 

 

Info
titleAbweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

 

 

 

 

 

Formeln

Formeln werden wie Latexcode geschrieben. Für eine gute Einführung siehe Wikibooks.

Eigenständig stehende Formeln werden wie folgt erzeugt.

\[y_{i}= \beta_0 + \beta _{1}x_i+ \epsilon_i,\]

wobei \(\varepsilon_i \sim \mathcal{N}(0,\sigma^2)\) eine Inline-Formel ist.

 

Hilfe

Es gibt eine Einführung der CeDiS für das Wiki.

Es steht auch das Markup von Confluence zur Verfügung. Siehe z.B. die Hilfe für das Wiki.

 

Zitieren

Quellenangaben erfolgen mittels eines Superskripts.Diese werden mit Hilfeder Makros "Single Cite" und "Single Cite Short" erstellt. Siehe dazu auch die Hilfe.

 

Quellennachweis

 

Bildergalerie

 

Galerie

 

...