Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 41 Nächste Version anzeigen »

Hier sollte eine kurze Zusammenfassung und Leitung des Abschnittes sein. Diese Seite dient als Vorlage für einen Artikel im Wiki und kann entsprechend angepasst werden.

Inhaltsverzeichnis

 

 

Fehlende Werte als Problem

Fehlende Werte sind in der empirischen Forschung häufig nicht vermeidbar und können bei der Anwendung von klassischen statistischen Analyseverfahren zu Problemen führen -da diese in der Regel komplette Fälle erfordern. Je mehr Variablen mit fehlenden Werten behaftet sind, desto kleiner wird die Schnittmenge mit Fällen bei denen keine fehlenden Werte (komplette Fälle) auftreten.

Ein weiteres Problem entsteht dadurch, dass fehlende Werte selten zufälliger Natur sind. Es kann vorkommen, dass fehlende Werte in einer Variable von anderen Variablen abhängen.

Bsp.: „In einer Umfragen wird nach Einkommen und Bildungsniveau gefragt und es kommt dazu, dass Personen mit einem höheren Bildungsniveau häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Bildungsniveau, dann sind die fehlende Werte in der Variable Einkommen nicht zufälliger Natur.“

Es ist auch denkbar, dass die fehlenden Werte von den Ausprägungen der eigentlichen Variable abhängen. Auf das vorherige Beispiel bezogen würde dies bedeuten, dass Leute mit einem höheren Einkommen häufiger die Angabe ihres Einkommens verweigern, als Leute mit einem niedrigerem Einkommen –unabhängig von ihrem Bildungsniveau.

Die Missachtung dieser Abhängigkeitsstrukturen und die fallweise Behandlung fehlender Werte kann unter anderem zu verzerrten Schätzergebnissen (z.B. verzerrte Parameterschätzer) und zu einem Verlust an Präzision (z.B. größere Standardfehler und Konfidenzintervalle) führen.

Um die Probleme, die fehlende Werte mit sich bringen zu vermeiden sollte darauf  geachtet werden, dass fehlende Werte, wenn möglich, gar nicht erst entstehen. Bei der Durchführung von Online-Umfragen hat der Ersteller der Umfrage z.B. die Möglichkeit Einstellungen so vorzunehmen, dass die Nutzer im Falle einer vergessenen Antwort erneut auf die Frage hingewiesen werden. Natürlich ist die Vermeidung von fehlenden Werte nicht immer möglich. Sollten fehlende Werte auftreten muss sich um die bestmögliche Behandlung dieser gekümmert werden.

Arten von fehlenden Werten

Es werden 3 Kategorien (Missing completely at random, Missing at random und Missing not at random) von fehlenden Werten unterschieden. Diese von Rubin (1976) eingeführte und allgemein anerkannte Klassifikation von fehlenden Werten wird im Folgenden immer wieder benötigt, da sich die Wahl der Behandlungsmethode unter Anderem nach der zugehörigen Kategorie der fehlenden Werte richtet.

Missing completely at random (MCAR)

Missing completely at random bedeuted, dass die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable \(Y\) unabhängig von den Werten der Variable \(Y\) und unabhängig von dem Wert der restlichen Variablen ist. Demnach entstehen die fehlenden Werte rein zufällig und es gibt keine systematisch fehlenden Werte.

Das folgende Diagramm stellt die gemeinsame Verteilung von zwei Variablen \(y1\), welche keine fehlenden Werte besitzt und \(y2\) bei der teilweise fehlende Werte auftreten in einem Streupunktdiagramm dar. Fälle bei denen Beobachtungen für \(y1\) und \(y2\) vorliegen sind durch einen blauen Kreis gekennzeichnet, wohingegen Fälle mit fehlenden Werten bei \(y2\) durch einen roten Kreis gekennzeichnet sind. Das zufällige Auftreten der fehlenden Werte ist sehr gut das  erkennbar.

Missing at random (MAR)

Von MAR wird gesprochen, wenn die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable \(y2\) von dem Wert einer anderen Variable \(y1\) abhängt. Die Wahrscheinlichkeit für einen fehlenden Wert bei \(y2\) wird aber nicht von den Werten der eigentlichen Variable \(y2\) beeinflusst.

Das Streupunktdiagramm verdeutlicht dies, indem es die Gemeinsam Verteilung der Variablen \(y2\) (teilweise mit fehlenden Werten behaftet) und \(y1\) (es liegen keine fehlenden Werte vor) darstellt. Für größere Werte von \(y1\) steigt die Wahrscheinlichkeit für einen fehlenden Wert bei \(y2\).

Missing not at random (MNAR)

Von MNAR wird gesprochen, wenn die Wahrscheinlichkeit für das Auftreten eines fehlenden Werts bei der Variable \(y2\) vom fehlenden Wert selbst abhängt, nachdem für den Einfluss aller anderen beobachteten Variablen kontrolliert wurde.

Das Diagramm verdeutlicht dies erneut mit Hilfe der gemeinsamen Verteilung von 2 Variablen \(y1\) (ohne fehlende Werte) und \(y2\) (mit fehlenden Werten behaftet). Auch nach Berücksichtigung von \(y1\) hängt die Wahrscheinlichkeit für einen fehlenden Wert bei \(y2\) von der unbekannten Ausprägung bei \(y2\) ab.

Welche Art von fehlenden Werten liegt vor

Um die richtige Art der Behandlung von fehlenden Werten zu finden, ist es wichtig zu wissen, welche Art von fehlenden Werten vorliegt. Die einzelnen Ansätze zur Behandlung von fehlenden Werten bringen nämlich Annahmen bzgl. der Art von fehlenden Werten mit. Die sehr bekannte und weit verbreitete Maximum Likelihood Methode, sowie die Multiple Imputation benötigen beide die Annahme, dass die fehlenden Werte zumindest MAR sind. Deshalb wird im weiteren Verlauf auf die Unterscheidung zwischen MAR und MNAR weiter eingegangen.

Einfachere Verfahren für den Umgang mit fehlende Werte, wie z.B. der Listenweise Fallausschluss, erfordern fehlende Werte vom Typ MCAR. Sollte das Verfahren angewendet werden wenn die fehlenden Werte nicht MCAR sind, kommt es zu verzerrten Ergebnissen. Wenn die Anzahl der fehlenden Werte gering ist, ist der Listenweise Fallausschluss eine einfache Möglichkeit im MCAR-Fall mit fehlenden Werten umzugehen.

Außerdem ist zu beachten, dass es in einem Datensatz häufig mehrere Variablen gibt die fehlende Werte aufweisen. Folglich muss der Mechanismus der hinter den fehlenden Werten steht für jede Variable seperat geprüft werden bevor ein geeigneter Umgang gewählt wird!

MAR vs. MNAR

Um eindeutig zwischen MNAR und MAR zu unterscheiden ist es erforderlich Informationen über die fehlenden Werte zu bekommen. In vielen professionellen Studien oder Umfragen ist es daher üblich in nachträglichen Telefoninterviews Auskunft über die fehlenden Werte zu erlangen. Sobald Informationen zu den fehlenden Werten vorhanden sind, kann untersucht werden welche Art von fehlenden Werten vorliegt, indem die Respondenten mit den Nicht-Respondenten verglichen werden. Wenn sich diese beiden Gruppen starkt unterscheiden, ist dies ein klares Indiz für MNAR. 

In den meisten Situationen gibt es hingegen keine Möglichkeit an die fehlenden Werte zu gelangen. In diesem Fall kann nur mit Hilfe von substantiellen wissenschaftlichen Überlegungen bzw. Kenntnissen eine Entscheidung getroffen werden, ob die MAR-Annahme plausibel erscheint.

MCAR vs. MAR

Um zwischen MCAR und MAR zu unterscheiden kann Little's-Test verwendet werden. Dieser Test ist in den gängigen statistik Softwarepaketen implementiert. Weitere Informationen finden Sie unter: https://www.jstor.org/stable/2290157?seq=1#page_scan_tab_contents.

Eine weitere Möglichkeit der Unterscheidung besteht darin, die interessierende Variable in eine Dummyvariable umzukodieren:

$$0 = \text{fehlender Wert}$$

$$1 = \text{vorhandener Wert}$$

Zur Überprüfung welcher Mechanismus für die fehlenden Werte verantwortlich ist, kann anschließend z.B. ein Chi-Quadrat-Test zwischen der interessierenden Variable und den anderen Variablen in dem Datensatz durchgeführt werden. Zum Beispiel: Falls davon ausgegangen wird, dass Frauen ihr Gewicht seltener als Männer angeben, wird die Variable Gewicht als Dummy kodiert und ein Chi-Quadrat-Test zwischen den Variablen Gewicht und Geschlecht durchgeführt. Ein signifikantes Testergebnis spricht für die MAR-Annahme.

 

ALSO:

Wenn MAR, dann MI

Wenn MCAR, dann nur komplette fälle analysieren, listenweiser fallausschluss, keine verzerrten ergebnisse, aber schätzer sind vlt. ineffizient, da kleinere stichprobengröße, wenn ja imputation

Wenn MNAR, dann lassen sich die gängigen verfahren nicht verwenden

 

http://www.theanalysisfactor.com/missing-data-mechanism/

http://saphirnetwork.org/wp-content/uploads/2012/05/Missing-data-II.pdf

http://www.gmw.rug.nl/~huisman/md/EPP2_2010.pdf

 

 

 

 

 

 

Abweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

Unterhalb der Infobox können und sollten die Verweise zu den Dateien (Daten, Skripte und dem Bild selbst) auftauchen.

Behandlung von fehlenden Werte

Im folgenden wird eine Auswahl an Verfahren zur Behandlung von fehlenden Werten unter Berücksichtigung der jeweileigen Vor- und Nachteile kurz erläutert .

Traditionelle Methoden

Aussschluss von Fällen

Die einfachste und am häufigsten in der Praxis verwendete Methode zur Behandlung von fehlenden Werten ist der Listenweise Fallausschluss. Bei diesem Verfahren werden bei der statistischen Analyse nur Fälle berücksichtigt bei denen alle beteiligten Variablen gültige Ausprägungen aufweisen. Fehlt z.B. bei der multiplen Regression nur ein einzige Prädiktorausprägung, wird der komplette Fall ausgeschlossen.

Zu beachten ist, dass bei Verletzung der MCAR Bedingung die Schätzer unter umständen verzerrt sein können. Ein weiterer Nachteil ist der mitunter sehr große Informationsverlust, da häufig eine Vielzahl von Fällen ausgeschlossen werden müssen. Dies hat unter anderem Auswirkungen auf die Power.

Zu den Vorteilen zählen die einfach Anwendung, sowie erwartungstreue Schätzer und korrekte Inferenzergebnisse wenn die MCAR-Annahme zutrifft.

Substitution durch Lagemaße

Bei der Substitution durch ein Lagemaß, dem einfachste Imputationsverfahren, werden fehlenden Werte durch ein empirisches Lagemaß ersetzt. Die Wahl des Lagemaßes hängt vom Skalenniveau der zu imputierenden Variablen ab. Durch die Imputation durch ein Lagemaß bleiben die Randmittelwerte unverändert, jedoch ergeben sich verzerrte Schätzer für die Varianz und die Kovarianz. Außderm wird die Korrelation zwischen zwei Variablen die Imputiert wurden abgeschwächt, da die imputierten -konstanten- Fälle keine Korrelation mit irgendeiner anderen Variable aufweisen. Folglich kann die Substitution durch ein Lagemaß für univariate Analyse geeignet sein, für multivariate Anylse in der Regel jedoch nicht.

Regressionsimputation

Bei der Regressionsimputation nutzt den funktionalen Zusammenhang zwischen mehreren Variablen aus, indem ein Regressionsmodell mit den beobachteten Fällen berechnet wird. Anschließend wird das Modell genutzt, um die fehlenden Werte zu imputieren (per Prädiktion). Diese Art der direkten Ersetzung wird deterministische Regressionsimputation genannt. Das Problem besteht darain, dass die imputierten Fälle keine Residualstreeung besitzen, d.h. sie liegen alle genau auf der Regressionsgerade. Neben verzerrten Variaanzen und Korrelationen führt dieses Verfahren außerdem zu einem inflationierten Determinationskoeffizienten.

Ein Ansatz dieses Problem zu beheben liefert die stochastische Regressionsimputation, bei der eine Residualkomponente mit geeigneter Varianz auf die Prädiktion addiert wird. Problematisch ist, dass in der anschließenden Analyse die imputierten Werte genauso wie die beobachteten Werte verwendet werden, obwohl diese -durch die Imputation-  einer erhöten Unsicherheit unterliegen. Daraus folgen systematisch unterschätze Standardfehler und eine zu lieberale Inferenzstatistik. Trotz dessen liefert die stochstische Regression, wenn die MAR-Annahme erfüllt ist unverzerrte Schätzer.

Im folgenden werden Verfahren vorgestellt, die unter der MAR-Bedingung sowohl zu konsistenten Schätzern also auch zu korrekter Inferenzstatistik führen.

  • Berechnung eines regressionsmodells mit beobachteten fällen
  • nutzen funktionale zusammenhänge zwischen mehreren Variablen aus
  • das regressionsmodell wird dann genutzt um fehlende werte zu direkt zu imputieren (deterministische regressionsimputation)
  • führt zu verzerrung von varianzen und korrelationen und zu einem inflationierten determinationskoeffizienten im analysemodell
  • Problem: die imputierten fälle haben keinen errror term, d.h. sie liegen genau auf der regressionsgerade und haben keine residualstreuung
  • um das zu beheben gibt es die stochastische regression
  • bei dieser wird eine residualkomponente mit geeigneter varianz addiert
  • problem: in der anschließenden analyse werden imputierte werte wie beobachtete verwendet --> unterschätze standardfehler und eine zu liberale inferenzstatistik
  • dadaurch wird die verezerrung kleiner, aber wenn die daten imputiert werden, sollte man annehmen das die varianz größer wird, also die einfache residualstreung, da die unsicherheit wächst.
  • unter MAR-bedingung liefert die stochastische regressionsimputation unverzerrte schätzer
  • im folgenden werden verfahren vorgetellt die unter der MAR-bedingung zu konsistenten schätzern und korrekter inferenzstatistik führen

Maximum Likelihood Methoden

Multiple Imputation

 

 

Bildergalerie

  • Keine Stichwörter