Inhaltsverzeichnis
Inhalt | ||||
---|---|---|---|---|
|
Info |
---|
fu:stat bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben. Auf Anfrage können wir auch gerne individuelle Inhouse-Schulungen bei Ihnen anbieten. |
Fehlende Werte als Problem
Fehlende Werte sind in der empirischen Forschung häufig nicht vermeidbar und können bei der Anwendung von klassischen statistischen Analyseverfahren zu Problemen führen - da diese in der Regel komplette Fälle erfordern. Je mehr Variablen mit fehlenden Werten behaftet sind, desto kleiner wird die Schnittmenge mit Fällen, bei denen keine fehlenden Werte (komplette Fälle) auftreten.
Ein weiteres Problem entsteht dadurch, dass fehlende Werte selten zufälliger Natur sind. Es kann vorkommen, dass fehlende Werte in einer Variable von anderen Variablen abhängen.
Bsp.: „In einer Umfragen wird nach Einkommen und Bildungsniveau gefragt und es kommt dazu, dass Personen mit einem höheren Bildungsniveau häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Bildungsniveau, dann sind die fehlenden Werte in der Variable Einkommen nicht zufälliger Natur.“
Es ist auch denkbar, dass die fehlenden Werte von den Ausprägungen der eigentlichen Variable abhängen. Auf das vorherige Beispiel bezogen würde dies bedeuten, dass Personen mit einem höheren Einkommen häufiger die Angabe ihres Einkommens verweigern als Personen mit einem niedrigeren Einkommen – unabhängig von ihrem Bildungsniveau.
Die Missachtung dieser Abhängigkeitsstrukturen und der fallweise Ausschluss fehlender Werte kann unter anderem zu verzerrten Schätzergebnissen (z.B. verzerrte Parameterschätzer) und zu einem Verlust an Präzision (z.B. größere Standardfehler und Konfidenzintervalle) führen.
Um die Probleme, die fehlende Werte mit sich bringen, zu vermeiden, sollte darauf geachtet werden, dass fehlende Werte, wenn möglich, gar nicht erst entstehen. Bei der Durchführung von Online-Umfragen hat der Ersteller der Umfrage z.B. die Möglichkeit Einstellungen so vorzunehmen, dass die Nutzer im Falle einer vergessenen Antwort erneut auf die Frage hingewiesen werden. Natürlich ist die Vermeidung von fehlenden Werte nicht immer möglich. Sollten fehlende Werte auftreten, muss sich um die bestmögliche Behandlung dieser gekümmert werden.
Behandlung von fehlenden Werten
Im Folgenden wird eine Auswahl an Verfahren zur Behandlung von fehlenden Werten unter Berücksichtigung der jeweiligen Vor- und Nachteile kurz erläutert.
Traditionelle Methoden
Ausschluss von Fällen
Die einfachste und am häufigsten in der Praxis verwendete Methode zur Behandlung von fehlenden Werten ist der Listenweise Fallausschluss. Bei diesem Verfahren werden bei der statistischen Analyse nur Fälle berücksichtigt, bei denen alle beteiligten Variablen gültige Ausprägungen aufweisen. Fehlt z.B. bei der multiplen Regression nur eine einzige Prädiktorausprägung, wird der komplette Fall ausgeschlossen.
Zu beachten ist, dass bei Verletzung der MCAR Bedingung die Schätzer unter Umständen verzerrt sein können. Ein weiterer Nachteil ist der mitunter sehr große Informationsverlust, da häufig eine Vielzahl von Fällen ausgeschlossen werden müssen. Dies hat unter anderem Auswirkungen auf die Power.
Zu den Vorteilen zählen die einfache Anwendung, sowie erwartungstreue Schätzer und korrekte Inferenzergebnisse, wenn die MCAR-Annahme zutrifft.
Substitution durch Lagemaße
Bei der Substitution durch ein Lagemaß, dem einfachsten Imputationsverfahren, werden fehlende Werte durch ein empirisches Lagemaß ersetzt. Die Wahl des Lagemaßes hängt vom Skalenniveau der zu imputierenden Variablen ab. Durch die Imputation durch ein Lagemaß bleiben die Randmittelwerte unverändert, jedoch ergeben sich verzerrte Schätzer für die Varianz und die Kovarianz. Außerdem wird die Korrelation zwischen zwei Variablen, die imputiert wurden, abgeschwächt, da die imputierten - konstanten - Fälle keine Korrelation mit irgendeiner anderen Variable aufweisen. Folglich kann die Substitution durch ein Lagemaß für univariate Analysen geeignet sein, für multivariate Analysen in der Regel jedoch nicht.
Regressionsimputation
Die Regressionsimputation nutzt den funktionalen Zusammenhang zwischen mehreren Variablen aus, indem ein Regressionsmodell mit den beobachteten Fällen berechnet wird. Anschließend wird das Modell genutzt, um die fehlenden Werte zu imputieren (per Prädiktion). Diese Art der direkten Ersetzung wird deterministische Regressionsimputation genannt. Das Problem besteht darin, dass die imputierten Fälle keine Residualstreuung besitzen, d.h. sie liegen alle genau auf der Regressionsgeraden. Neben verzerrten Varianzen und Korrelationen führt dieses Verfahren außerdem zu einem inflationierten Determinationskoeffizienten.
Einen Ansatz, dieses Problem zu beheben, liefert die stochastische Regressionsimputation, bei der eine Residualkomponente mit geeigneter Varianz auf die Prädiktion addiert wird. Problematisch ist, dass in der anschließenden Analyse die imputierten Werte auf die gleiche Weise wie die beobachteten Werte verwendet werden, obwohl diese - durch die Imputation - einer erhöhten Unsicherheit unterliegen. Daraus folgen systematisch unterschätzte Standardfehler und eine zu liberale Inferenzstatistik. Trotz dessen liefert die stochastische Regression, wenn die MAR-Annahme erfüllt ist, unverzerrte Schätzer.
Im Folgenden werden Verfahren vorgestellt, die unter der MAR-Bedingung sowohl zu konsistenten Schätzern als auch zu korrekter Inferenzstatistik führen.
Maximum Likelihood Methoden
Maximum Likelihood (ML) Methoden spielen bei vielen statistischen Verfahren zur Schätzung von Parametern eine wichtige Rolle. Die Intuition hinter dem Verfahren ist dabei immer die gleiche: Gegeben eines parametrischen statistischen Modells und den beobachteten Daten werden die Parameter des Modells so geschätzt, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten - unter dem parametrischen Modell - maximiert wird. Im Imputationskontext wird die ML-Methode bei zwei gebräuchlichen Verfahren verwendet.
Das erste Verfahren, welches die ML-Methode verwendet, ist der EM-Algorithmus (Expectation Maximization). Bei diesem Verfahren werden im ersten Schritt die Verteilungsmomente (Mittelwert, Varianz, Kovarianz) geschätzt, welche in dem darauffolgenden Schritt bei der Berechnung der traditionellen statistischen Verfahren genutzt werden können. Wenn die MAR-Bedingung erfüllt ist, sind die so berechneten Schätzer konsistent. Die Standardfehler werden hingegen unterschätzt, was wiederum zu inkorrekter Inferenzstatistik führt.
Das zweite Verfahren, welches die ML-Methode verwendet, ist die FIML-Technik (Full Information Maximum Likelihood). Beim FIML-Verfahren werden die fehlenden Werte nicht imputiert. Die Berechnung der Parameter beruht ausschließlich auf allen beobachteten Werten. Unter der MAR-Bedingung erhält man konsistente Schätzer und korrekte Standardfehler.
Multiple Imputation
Wie bereits erwähnt, führt die Imputation von nur einem Datensatz zu verminderten Standardfehlern und ungültiger Inferenz, deshalb schlägt Rubin (1987) vor, mehrere Datensätze zu erstellen. Verfahren, die mehrere Datensätze erstellen, werden unter dem Begriff Multiple Imputationsmethoden zusammengefasst. Die anschließende statistische Analyse (z.B. die Berechnung einer multiplen Regression) erfolgt dann parallel für jeden Datensatz getrennt. Somit werden verschiedene Schätzer für den gleichen Parameter gewonnen. Dieses Vorgehen hat den Vorteil, dass die durch die Imputation erzeugte Unsicherheit berücksichtigt wird und in die Berechnung der Standardfehler mit einfließen kann.
Ablauf
Die Analyse und Imputation eines Datensatzes erfolgt in drei Schritten.
ImputationZuerst werden die fehlenden Werte in jeder Variable ersetzt, indem ein auf Regressionstechniken basierendes Imputationsmodell für jede Variable spezifiziert wird. Um für die Unsicherheit der Imputation zu kontrollieren, werden hierfür mehrere Datensätze (z.B. 10) erstellt. Damit nicht für jeden Datensatz die gleichen Parameterschätzungen verwendet werden, wird aus einer Verteilung potentieller Parameterausprägungen gezogen. Diese Verteilung kann mit den Bayes-Prinzipien erzeugt werden, wofür Vorwissen über die Parameter und Informationen aus der beobachteten Stichprobe benötigt werden.
Analyse
Zur Analyse werden die gleichen Verfahren angewendet, wie bei der Analyse eines vollständigen Datensatzes (z.B. die multiple Regression). Allerdings muss die Analyse für jeden erzeugten Datensatz durchgeführt werden (z.B. die Berechnung von 10 multiplen Regressionen mit 10 Parameterschätzungen und 10 Standardfehlern).
Anschließend werden die Schätzungen für jeden Parameter gemittelt und ergeben so die gesuchte Punktschätzung. Aus den Standardfehlern und der Varianz der Parameterschätzung lassen sich außerdem Konfidenzintervalle und Hypothesentests konstruieren. Die Methode liefert erwartungstreue Parameterschätzer und korrekte Standardfehler für die Inferenzstatistik. Leider existieren für manche statistischen Ergebnisse, die aus den Imputationsstichproben gewonnen wurden, noch keine allgemein anerkannten Methoden zur Zusammenfassung.
Als Voraussetzung für die Durchführung der Multiplen Imputation muss die MAR-Bedingung erfüllt sein.