Hier sollte eine kurze Zusammenfassung und Leitung des Abschnittes sein. Diese Seite dient als Vorlage für einen Artikel im Wiki und kann entsprechend angepasst werden.

Inhaltsverzeichnis

Inhalt

maxLevel	2
exclude	Inhaltsverzeichnis\|Bildergalerie

Fehlende Werte als Problem

Fehlende Werte sind in der empirischen Forschung häufig nicht vermeidbar und können bei der Anwendung von klassischen statistischen Analyseverfahren zu Problemen führen -da diese in der Regel komplette Fälle erfordern. Je mehr Variablen mit fehlenden Werten behaftet sind, desto kleiner wird die Schnittmenge mit Fällen bei denen keine fehlenden Werte (komplette Fälle) auftreten.

Ein weiteres Problem entsteht dadurch, dass fehlende Werte selten zufälliger Natur sind. Es kann vorkommen, dass fehlende Werte in einer Variable von anderen Variablen abhängen.

Bsp.: „In einer Umfragen wird nach Einkommen und Bildungsniveau gefragt und es kommt dazu, dass Personen mit einem höheren Bildungsniveau häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Bildungsniveau, dann sind die fehlende Werte in der Variable Einkommen nicht zufälliger Natur.“

Es ist auch denkbar, dass die fehlenden Werte von den Ausprägungen der eigentlichen Variable abhängen. Auf das vorherige Beispiel bezogen würde dies bedeuten, dass Leute mit einem höheren Einkommen häufiger die Angabe ihres Einkommens verweigern, als Leute mit einem niedrigerem Einkommen –unabhängig von ihrem Bildungsniveau.

Die Missachtung dieser Abhängigkeitsstrukturen und die fallweise Behandlung fehlender Werte kann unter anderem zu verzerrten Schätzergebnissen (z.B. verzerrte Parameterschätzer) und zu einem Verlust an Präzision (z.B. größere Standardfehler und Konfidenzintervalle) führen.

Um die Probleme, die fehlende Werte mit sich bringen zu vermeiden sollte darauf geachtet werden, dass fehlende Werte, wenn möglich, gar nicht erst entstehen. Bei der Durchführung von Online-Umfragen hat der Ersteller der Umfrage z.B. die Möglichkeit Einstellungen so vorzunehmen, dass die Nutzer im Falle einer vergessenen Antwort erneut auf die Frage hingewiesen werden. Natürlich ist die Vermeidung von fehlenden Werte nicht immer möglich. Sollten fehlende Werte auftreten muss sich um die bestmögliche Behandlung dieser gekümmert werden.

Arten von fehlenden Werten

Es werden 3 Kategorien (Missing completely at random, Missing at random und Missing not at random) von fehlenden Werten unterschieden. Diese von Rubin (1976) eingeführte und allgemein anerkannte Klassifikation von fehlenden Werten wird im Folgenden immer wieder benötigt, da sich die Wahl der Behandlungsmethode unter Anderem nach der zugehörigen Kategorie der fehlenden Werte richtet.

Missing completely at random (MCAR)

Missing completely at random bedeuted, dass die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable \(Y\) unabhängig von den Werten der Variable \(Y\) und unabhängig von dem Wert der restlichen Variablen ist. Demnach entstehen die fehlenden Werte rein zufällig und es gibt keine systematisch fehlenden Werte.

Das folgende Diagramm stellt die gemeinsame Verteilung von zwei Variablen \(y1\), welche keine fehlenden Werte besitzt und \(y2\) bei der teilweise fehlende Werte auftreten in einem Streupunktdiagramm dar. Fälle bei denen Beobachtungen für \(y1\) und \(y2\) vorliegen sind durch einen blauen Kreis gekennzeichnet, wohingegen Fälle mit fehlenden Werten bei \(y2\) durch einen roten Kreis gekennzeichnet sind. Das zufällige Auftreten der fehlenden Werte ist sehr gut das erkennbar.

Missing at random (MAR)

Von MAR wird gesprochen, wenn die Wahrscheinlichkeit für einen fehlenden Wert bei der Variable \(y2\) von dem Wert einer anderen Variable \(y1\) abhängt. Die Wahrscheinlichkeit für einen fehlenden Wert bei \(y2\) wird aber nicht von den Werten der eigentlichen Variable \(y2\) beeinflusst.

Das Streupunktdiagramm verdeutlicht dies, indem es die Gemeinsam Verteilung der Variablen \(y2\) (teilweise mit fehlenden Werten behaftet) und \(y1\) (es liegen keine fehlenden Werte vor) darstellt. Für größere Werte von \(y1\) steigt die Wahrscheinlichkeit für einen fehlenden Wert bei \(y2\).

Missing not at random (MNAR)

Von MNAR wird gesprochen, wenn die Wahrscheinlichkeit für das Auftreten eines fehlenden Werts bei der Variable \(y2\) vom fehlenden Wert selbst abhängt, nachdem für den Einfluss aller anderen beobachteten Variablen kontrolliert wurde.

Das Diagramm verdeutlicht dies erneut mit Hilfe der gemeinsamen Verteilung von 2 Variablen \(y1\) (ohne fehlende Werte) und \(y2\) (mit fehlenden Werten behaftet). Auch nach Berücksichtigung von \(y1\) hängt die Wahrscheinlichkeit für einen fehlenden Wert bei \(y2\) von der unbekannten Ausprägung bei \(y2\) ab.

Welche Art von fehlenden Werten liegt vor

um den richtigen approach für den umgang mit fehlenden werten zu finden, ist es wichtig zu wissen welche art von fehlenden werten vorliegt
einzelnen ansätze bringen verschiedene annahmen mit sich
ML und MI benötigt die annahme das die werte zumindest MAR sind
dh. es ist wichtig zu unterscheiden ob die daten mar oder mnar sind
listenweise fallausschluss erfordert, MCAR sonst verzerrte ergebnisse
wenn die zahl der fehlenden werte nicht sehr hoch ist, kann der listenweise fallausschluss im fall von mcar eine gute und einfache möglichkeit sein mit fehlenden werten umzugehen
deshalb ist es gut zu wissen ob die werte mcar sind
auch ist zu beachten, dass in einem echten datensatz häufig mehrere variablen fehlende werte aufweisen, daher muss der mechanismus der hinter den fehlenden werten steht für jede variable überprüft werden, bevor ein geigneter umgang gewählt wird

MAR vs. MNAR

die einzige möglichkeit um zwischen MNAR und MAR zu unterscheiden, ist es an die fehlenden werte zu kommen
in professionellen studien ist es üblichn in nachträglichen telefoninterviews einige der fehlenden werte zu bekommen, dann kann man die repsondenten mit den nicht-respondenten vergleichen
wenn diese sich starkt unterscheiden, ist dies ein klares indiz für MNAR
in den meisten situationen gibt es keine möglichkeit an die fehlenden werte zu gelangen, dann use substantive scientific knowledge

MCAR vs. MAR

für MCAR kann der little's test verwendet werden https://www.jstor.org/stable/2290157?seq=1#page_scan_tab_contents
ein zweiter weg, ist es dummy variablen zu erzeigen 1=missing 0=observed
dann z.B. chi-quadrat test, zwischen der interessierenden variable und anderen variablen in dem datensatz
z.B. geben frauen seltener ihr gewicht an als männer, kodieren gewicht als dummy wie zuvor beschrieben und füre einen chi-quadrat test durch

ALSO:

Wenn MAR, dann MI

Wenn MCAR, dann nur komplette fälle analysieren, listenweiser fallausschluss, keine verzerrten ergebnisse, aber schätzer sind vlt. ineffizient, da kleinere stichprobengröße, wenn ja imputation

Wenn MNAR, dann lassen sich die gängigen verfahren nicht verwenden

-Mi und ML

http://www.theanalysisfactor.com/missing-data-mechanism/

http://saphirnetwork.org/wp-content/uploads/2012/05/Missing-data-II.pdf

http://www.gmw.rug.nl/~huisman/md/EPP2_2010.pdf

Info

title	Abweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

Unterhalb der Infobox können und sollten die Verweise zu den Dateien (Daten, Skripte und dem Bild selbst) auftauchen.

Anhänge

preview	false
upload	false
old	false
labels	abweichung

Bildergalerie

Galerie

include	MNAR.png, MAR.png, MCAR.png

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 24

Neue Version 25

Schlüssel

Inhaltsverzeichnis

Fehlende Werte als Problem

Arten von fehlenden Werten

Missing completely at random (MCAR)

Missing at random (MAR)

Missing not at random (MNAR)

Welche Art von fehlenden Werten liegt vor

Behandlung von fehlenden Werte

Traditionelle Methoden

Maximum Likelihood Methoden

Multiple Imputation

Bildergalerie

Bereichsverknüpfungen

Seitenhierarchie

Seitenhistorie

Versionen im Vergleich

Alte Version 24

Neue Version 25

Schlüssel

Inhaltsverzeichnis

Fehlende Werte als Problem

Arten von fehlenden Werten

Missing completely at random (MCAR)

Missing at random (MAR)

Missing not at random (MNAR)

Welche Art von fehlenden Werten liegt vor

Behandlung von fehlenden Werte

Traditionelle Methoden

Maximum Likelihood Methoden

Multiple Imputation

Bildergalerie