Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 62 Nächste Version anzeigen »

Bei Datenerhebungen kommt es oft vor, dass die erhobenen Werte nicht vollständig sind. Dies tritt zum Beispiel auf, wenn Umfrageteilnehmer nicht jede Frage beantworten. Methoden der statistischen Inferenz wie Schätzen oder Testen gehen jedoch meist von vollständigen Datensätzen aus. 
Imputationsverfahren dienen dem Ziel trotz fehlender Werte, Verfahren der statistischen Inferenz anwenden zu können. Es ist nicht ihr Ziel, fehlende Werte möglichst genau vorherzusagen.

Inhaltsverzeichnis

 

Mechanismen fehlender Daten

Es ist wichtig sich zu fragen, warum die Daten fehlen, denn der Grund für das Fehlen der Daten kann Informationen beinhalten und hat auch Einfluss auf die Wahl des Imputationsverfahrens.

Fehlen die Daten völlig zufällig, etwa weil ausgefüllte Fragebögen verloren gegangen sind, so nennt man den Mechanismus Missing completely at random (MCAR).
Hängt die Wahrscheinlichkeit für das Fehlen der Daten hingegen von den Werten einer vollständig beobachteten Variablen ab, so liegt der Mechanismus Missing at random (MAR) vor. Dies wäre zum Beispiel der Fall, wenn Männer eine Umfrage früher abbrechen als Frauen, sofern Geschlecht beobachtet werden kann.
Es kommt ebenfalls vor, dass die Wahrscheinlichkeit für das Fehlen der Daten von den fehlenden Werten abhängt, etwa wenn Umfrageteilnehmer mit hohem Einkommen Auskunft über ihr Einkommen verweigern. Dieser Mechanismus nennt sich Missing not at random (MNAR)

Mehr zu diesen Mechanismen fehlender Daten und wie man herausfindet, welcher vorliegt, befindet sich im Artikel Vom Umgang mit fehlenden Werten .

 

Singuläre Imputation

 

 

Es gibt verschiedene singuläre Imputationsverfahren, welchen gemein ist, dass sie für jeden fehlenden Wert einen Wert einsetzen.


Imputation durch Lagemaße 

Bei diesem Verfahren werden die fehlenden Werte durch ein Lagemaß der beobachteten Werte derselben Variable imputiert. Bei metrischen Variablen wird dafür typischerweise das arithmetische Mittel, bei nicht-metrischen Variablen der Median oder der Modus gewählt.
Das Lagemaß der jeweiligen Variablen bleibt durch die Imputation unverändert, allerdings werden sowohl die Varianz als auch die Kovarianz zu anderen Variablen unterschätzt. Dadurch sind die p-Werte von statistischen Tests zu gering und die Konfidenzintervalle der Parameter zu schmal.
Ein weiterer Nachteil ist, dass unplausible Werte, etwa 2,7 als Anzahl Kinder, imputiert werden könnten. Zudem muss, um unverzerrte Schätzer zu erhalten, ein MCAR-Mechanismus vorliegen. 
Zusätzliche Information zu diesem Verfahren befindet sich im Artikel Vom Umgang mit fehlenden Werten .

Imputation durch Regression 

Diese Methode nutzt die Korrelation zwischen den Variablen, beispielsweise zwischen Körpergröße und Gewicht. Es wird eine Regression der beobachteten Werte einer teilweise beobachteten Variable auf die zugehörigen Werte von vollständig beobachteten Variablen durchgeführt. Anschließend  werden die Werte der vollständig beobachteten Variablen, welche nicht zur Regression verwendet wurden, in das geschätzte Regressionsmodell eingesetzt, um prognostizierte Werte für die fehlenden Werte zu erhalten. 
Im Vergleich zur Imputation durch Lagemaße, genügt ein MAR-Mechanismus um unverzerrte Schätzer zu erhalten. 

Mehr Information zu diesem Verfahren und möglichen Problemen befindet sich im Artikel Vom Umgang mit fehlenden Werten .

 

 

Hot Deck Imputation

Die Hot Deck Imputation nutzt beobachtete Werte von ähnlichen Individuen zur Imputation. Hat beispielsweise jemand eine Frage einer Umfrage nicht beantwortet, so wird die Antwort von jemandem mit ähnlichen Charakteristiken (z. B. Alter, Beruf, Wohnort) für die fehlende Antwort eingesetzt. 
Es gibt verschiedene Möglichkeiten, die Ähnlichkeit zwischen Individuen zu messen. Eine ist die Methode Nearest Neighbor Hot Deck.

Dabei wird mithilfe einer Metrik die Distanz zwischen Individuen gemessen. Je kleiner die Distanz, umso ähnlicher sind sich diese. 
Eine mögliche Metrik ist die Mahalanobis-Distanz. Die Distanz \(d(i,j)\) zwischen den Individuen i und j ist bei ihr gegeben durch:

\[d(i,j) = (x_{i}-x_{j})^{T}S_{xx}^{-1}(x_{i}-x_{j}),\] wobei  \(x_{k}\) den Vektor der Variablen von Individuum k und \(S_{xx}\) die geschätzte Kovarianzmatrix von \(x_{i}\) bezeichnet.

Sollen Werte für Individuum i imputiert werden, so wird nach dem Individuum gesucht, welches den kleinsten Abstand zu Individuum i besitzt. Die Werte dieses Individuums werden anschließend zur Imputation benutzt. 
Ob ein MCAR- oder ein MAR-Mechanismus für unverzerrte Schätzer benötigt wird, hängt vom Hot-Deck-Verfahren ab. Näheres dazu findet sich hier (engl.).
 

Der Vorteil dieses Verfahrens ist, dass nur plausible Werte eingesetzt werden, denn die imputierten Werte stammen von Beobachtungen. Zudem ist die Hot Deck Imputation weniger anfällig für Modellmisspezifikation, verglichen mit der Regressionsimputation. Allerdings hängt die Imputation von der Wahl der Metrik ab. 
 

 

Last-Observation-Carried-Forward (LOCF)

Für fehlende Daten in Panel Surveys, etwa wenn Befragte ihre Teilnahme an einem Survey beenden, gibt es eine eigene singuläre Imputationsmethode. 
Sie besteht darin, ab dem Ausscheiden aus dem Survey die fehlenden Werte durch den zuletzt beobachteten Wert zu ersetzen. Dabei wird angenommen, dass sich die Beobachtungen nach Beendigung der Teilnahme nicht mehr ändern. Diese Annahme ist meist unrealistisch, besonders wenn man an der Veränderung der Variablen interessiert ist. Ist die Annahme verletzt, so resultiert dies in verzerrten Schätzungen für den Mittelwert sowie die Varianz. 

 

 

Alle singulären Imputationsverfahren berücksichtigen die Unsicherheit der Imputation nicht. Dadurch haben die Schätzer zu geringe Standardfehler, was in zu kleinen p-Werten bei statistischen Tests sowie zu schmalen Konfidenzintervallen resultiert. Ihr einziger ist Vorteil, dass sie mit geringem Aufwand durchzuführen sind. Ist der Anteil an fehlenden Werten gering (kleiner 5%), so kann der Einfluss auf die Varianzschätzung vernachlässigbar sein und singuläre Imputation angewendet werden. Ist der Anteil an fehlenden Werten hingegen groß, so sollten singuläre Imputationsverfahren nicht verwendet werden. Ebenso reichen singuläre Imputationsverfahren aus, wenn ausschließlich deskriptive Statistik betrieben werden soll oder wenn man nur an einem unverzerrten Punktschätzer ohne dessen Standardfehler interessiert ist. 

Das Unterschätzen der Standardfehler bei der singulären Imputation soll durch folgendes Beispiel, welches der Vorlesung

„Statistische Analyse unvollständiger Daten" der Universität Bamberg entnommen wurde, illustriert werden:


 Es soll getestet werden, ob der Erwartungswert zweier Populationen \(Y_{1}\widetilde{} \mathrm{N}(\mu_{1},1), Y_{2}\widetilde{} \mathrm{N}(\mu_{2},1)\) derselbe ist. Dafür wird eine Stichprobe des Umfangs n für jede Population gezogen. DIe Stichproben sind voneinander unabhängig. Sie werden als \(Y_{1i}\) für i=1,...,n und \(Y_{2j}\) für j=1,...,n bezeichnet. \(\bar{Y_{1}}\) und \(\bar{Y_{2}} \) stehen für den Mittelwert der jeweiligen Stichprobe. Die Nullhypothese für den z-Test ist \(H_{0}:\mu_{1}=\mu_{2}\).

Die zugehörige Teststatistik ist: \(z=\frac{\bar{Y_{1}}-\bar{Y_{2}}}{\sqrt{\frac{1}{n}+\frac{1}{n}}}\widetilde{} \mathrm{N}(0,1)\)

Angenommen, in der ersten Stichprobe würde ein Anteil \(\gamma\) der Daten fehlen und diese fehlenden Werte werden durch singuläre Imputation ersetzt.
Licht (2010) zeigt, dass die Teststatistik nach singulärer Imputation einer \(\mathrm{N}(0,\frac{1}{1-\gamma})\) -Verteilung folgt. 
Seien nun 50% der Werte in der ersten Stichprobe fehlend, so folgt die Teststatistik einer \(\mathrm{N}(0,2)\) -Verteilung. Wird dies nicht berücksichtigt und der Wert der Teststatistik mit den kritischen Werten der Standardnormalverteilung verglichen, wird die Nullhypothese zu oft abgelehnt. Dies führt zu falscher statistischer Inferenz. Ein Ausweg ist es, nach der singulären Imputation die Varianz der Teststatistik neu zu berechnen und diese zum Testen zu verwenden. Oft ist es allerdings nicht möglich, die Varianz der Teststatistik nach singulärer Imputation korrekt zu bestimmen. Deswegen ist es notwendig multiple Imputation zu verwenden, wenn man fehlende Werte imputieren und statistische Inferenz durchführen möchte. 

Multiple Imputation

Da singuläre Imputationsverfahren zu einer Unterschätzung der Standardfehler der Schätzer führen, stellt sich die Frage wie sich fehlende Werte ersetzen lassen und die Standardfehler der Schätzer unverzerrt geschätzt werden können. Eine Möglichkeit dafür sind multiple Imputationsverfahren. Werden sie korrekt angewendet und liegt ein MAR-Mechanismus vor, so sind die resultierenden Schätzer konsistent, asymptotisch effizient und asymptotisch normalverteilt. 

Multiple Imputationsverfahren können für jede Art von Daten und jedes Modell verwendet werden. Der einzige Nachteil im Vergleich zu den singulären Imputationsverfahren ist der größere Rechenaufwand. 

Multiple Imputationsverfahren benötigen die Annahme, dass \(\hat{\theta}\), der interessierende Schätzer, bei vollständigen Daten einer Normalverteilung folgt. Diese Annahme ist nicht sehr restriktiv, denn viele Schätzer (etwa Maximum-Likelihood-Schätzer) sind zumindest asymptotisch normalverteilt. Auch Schätzer, die t-verteilt sind, folgen für große Stichprobenumfänge der Normalverteilung. Sollten allerdings nur kleine Stichprobenumfänge vorliegen, so könnte die Annahme nicht erfüllt sein. 

Das Vorgehen bei multiplen Imputationsverfahren besteht aus drei Schritten:

  1. Imputation:
    Für jeden fehlenden Wert werden D Werte aus \(f(y_{mis}|y_{obs})\), der Verteilung der fehlenden Daten gegeben der beobachteten Daten, gezogen. \(f(y_{mis}|y_{obs})\) gibt die Wahrscheinlichkeit für bestimmte fehlende Werte, gegeben die beobachteten Werte, an. Gibt eine Person beispielsweise in einer Umfrage an, dass sie schwanger ist, aber nicht ihr Geschlecht, so betrüge die Wahrscheinlichkeit, dass der fehlende Wert für Geschlecht „weiblich" ist  ,gegeben den beobachteten Werten, 1. Aus \(f(Geschlecht|schwanger)\) würde somit stets „weiblich" gezogen werden. In den meisten Fällen kann man aber nicht durch die beobachteten Werte auf die fehlenden Werte mit vollständiger Sicherheit schließen und somit werden unterschiedliche Werte aus  \(f(y_{mis}|y_{obs})\) gezogen. Gibt eine Person beispielsweise in einer Umfrage ihr Geschlecht an, aber nicht ihre Körpergröße, so wird nicht stets derselbe Wert für die Körpergröße gezogen werden, da man von Geschlecht nicht auf die genaue Körpergröße schließen kann. Da Frauen im Durchschnitt eine geringere Körpergröße besitzen als Männer werden allerdings aus der Verteilung \(f(Körpergröße|weiblich)\) im Mittel geringere Werte gezogen werden als aus der Verteilung \(f(Körpergröße|männlich)\). Dies zeigt, wie das Wissen aus den beobachteten Werten bei der Imputation fehlender Werte genutzt wird.
     Die aus \(f(y_{mis}|y_{obs})\) gezogenen Werte werden für die fehlenden Werte eingesetzt. Dadurch erhält man D vervollständigte Datensätze mit den gleichen beobachteten Werten, aber unterschiedlichen imputierten Werten. Die Größe der Unterschiede zwischen den imputierten Werten drückt aus, wie groß die Unsicherheit darüber ist, welcher Wert imputiert werden soll. 
  2. Analyse:

    Es werden die statistischen Methoden, die man anwenden möchte, für jeden der D Datensätze separat durchgeführt. Möchte man einen Schätzer 
    \(\hat{\theta}\), etwa das arithmetische Mittel, berechnen, so führt man diese Schätzung für alle D Datensätze durch. Man erhält D verschiedene Schätzer \(\hat{\theta_{i}}\) und deren jeweilige geschätzte Varianzen \(\widehat{Var(\hat{\theta_{i}})}\). Da die imputierten Werte in den Datensätzen verschieden sind, sind auch die \(\hat{\theta_{i}}\) unterschiedlich. 
  3. Zusammenfassung der Schätzergebnisse:

    Die D Schätzer sollen in diesem Schritt zu einem Schätzer zusammengeführt werden. Dafür wird das arithmetische Mittel der Schätzer berechnet:
    \[\hat{\theta_{D}}=\frac{1}{D} \sum_{i=1}^{D}\hat{\theta_{i}}\]
    Die geschätzte Gesamtvarianz von \(\hat{\theta_{D}}\) ergibt sich zu:
    \[\hat{T_{D}}=\hat{W_{D}}+\frac{D+1}{D} \hat{B_{D}},\]
    wobei \(\hat{W_{D}}=\frac{1}{D} \sum_{i=1}^{D} \widehat{Var(\hat{\theta_{i}})}\) die Within-Varianz (Varianz innerhalb der Imputation) und 
    \(\hat{B_{D}}=\frac{1}{D-1}\sum_{i=1}^{D} (\hat{\theta_{i}}-\hat{\theta_{D}})^{2}\) die Between-Varianz (Varianz zwischen den D Imputationen) bezeichnet. \(\hat{W_{D}}\) steht für die Unsicherheit, die durch das Verwenden einer Stichprobe anstelle der gesamten Population entsteht. \(\hat{B_{D}}\) bezeichnet die zusätzliche Unsicherheit durch die fehlenden Werte. Der Faktor \(\frac{D+1}{D}\) dient zur Endlichkeitskorrektur bei kleinen Werten von D.

    Durch dieses Vorgehen wird die Unsicherheit darüber, welcher Wert imputiert werden soll, in der geschätzten Varianz des Schätzers berücksichtigt. Dadurch erhält man breitere Konfidenzintervalle verglichen mit dem Fall ohne fehlende Werte. Die Konfidenzintervalle sind allerdings schmaler, als wenn man die Beobachtungen mit fehlenden Werten aus der Analyse entfernt hätte.



















 

 

 Zum Umgang mit Abbildungen und Tabellen

 Format im Text

Abbildungen und Tabellen werden zentriert. Alle Abbildungen besitzen eine Bildüberschrift, die Teil der Abbildung ist. Wenn dies nicht möglich ist, dann wird entsprechend im Wiki-Editor eine zentrierte Überschrift hinzugefügt. Nach Möglichkeit sollten Bilder eine Überschrift als Eigenschaft haben.

 

 

 

 

 

Abweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

 

 

 

 

 

Formeln

Formeln werden wie Latexcode geschrieben. Für eine gute Einführung siehe Wikibooks.

Eigenständig stehende Formeln werden wie folgt erzeugt.

\[y_{i}= \beta_0 + \beta _{1}x_i+ \epsilon_i,\]

wobei \(\varepsilon_i \sim \mathcal{N}(0,\sigma^2)\) eine Inline-Formel ist.

 

Hilfe

Es gibt eine Einführung der CeDiS für das Wiki.

Es steht auch das Markup von Confluence zur Verfügung. Siehe z.B. die Hilfe für das Wiki.

 

Zitieren

Quellenangaben erfolgen mittels eines Superskripts.Diese werden mit Hilfeder Makros "Single Cite" und "Single Cite Short" erstellt. Siehe dazu auch die Hilfe.

 

Quellennachweis

 

Bildergalerie

 

 

  • Keine Stichwörter