Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis|Bildergalerie



Ursache für die Annahmeverletzung

Die Residuen sind normalverteilt für alle \(i=1, ..., N\). Die Normalverteilung der Residuen ist nicht für die Schätzung der Koeffizienten vorausgesetzt, sondern für die Hypothesentests wie zum Beispiel t-Test und F-Test. Nicht-Normalverteilung könnte entstehen aus folgenden Gründen:

  1. Viele Extremwerte im Datensatz
    Eine schiefe Verteilung kann durch Extremwerte entstehen.
  2. Mangel an Daten
    Die Verteilung kann wegen eines Mangels an Daten diskret aussehen. 
  3. Werte an 0 oder an einer natürlichen Grenze
    Wenn mehrere Werte nah nahe an 0 liegen oder an einer natürlichen Grenze, kann die Verteilung schief sein. 
  4. Andere Verteilung der abhängigen Variable wie Poissonverteilung, Binomialverteilung, etc. 
  5. Fehlspezifikation des Models

Überprüfung der Normalverteilung und Konsequenz der Annahmeverletzung

Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests basierend , die auf Normalverteilung der Normalverteilung basieren wie t-Test und F-Test, sind nicht mehr sinnvoll interpretierbar. Für die Analyse der p-Werte der Regressionskoeffizienten ist die Annahme der Normalverteilung der Residuen deshalb wichtig, wenn man die statistische Signifikanz der Koeffizienten überprüfen will.

Überprüfung 1: QQ-Plot

Die Normalverteilung der Residuen kann durch den einen QQ-Plot der Residuen überprüft werden Wenn die Residuen im QQ-Plot klar auf der QQ-Linie einer Geraden liegen, sind sie normalverteilt. Wenn die Annahmeverletzung aus dem QQ-Plot nicht klar ist, kann man durch unterschiedliche Tests überprüfen, ob die Residuen normalverteilt sind. 

Graph (A) kann als nahezu idealer Q-Q Plot gesehen werden, wobei die Punkte fast auf der Gerade Geraden liegen oder zumindest nicht stark und oder systematisch von der Geraden abweichen. Im Fall (B) hat die Verteilung der Residuen dickeren Enden als die Normalverteilungdickere Enden als die Normalverteilung. Anschaulich bedeutet dies, dass die Residuen im unteren Teil der Verteilung im Vergleich zur Normalverteilung stärker nach unten schwanken. Im oberen Teil der Verteilung ist es gerade umgekehrt: Hier schwanken die Residuen im Vergleich zur Normalverteilung stärker nach oben. Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dünneren Enden als bei einer Normalverteilung (S-Grafik). Die Verteilung der Residuen ist also stärker als bei der Normalverteilung um dien Erwartungswert konzentriert. Grafik (D) zeigt eine Verteilung, die im oberen Ende größere Werte aufweist als die Normalverteilung und (E) ist die Abbildung einer linksschiefen Verteilung.


.         

Beispiel 11:  Nicht-normalverteilte Residuen

In dem geschätzten Regressionsmodell wird der Stundenlohn von Personen durch die Ausbildung in Jahren als unabhängige Variable erklärt (siehe Code am Rand). Der QQ-Plot liefert einen deutlichen Hinweis darauf, dass die Normalverteilungsannahme für die Residuen nicht haltbar ist, 

Außerdem kann, um die Normalitätsannahme grafisch zu prüfen, ein Histogramm der standardisierten Residuen verwendet werden. Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung dargestellt. Die Form des Histogramms sollte sich möglichst mit der Kurve decken.

Überprüfung 2: Jarque-Bera-Test

Der Jarque-Bera-Test überprüft mithilfe der Schiefe und der Kurtosis einer Stichprobe, ob die Stichprobe normalverteilt ist. Wenn eine Stichprobe perfekt normalverteilt ist, hat die Stichprobe eine Schiefe gleich 0 und eine Kurtosis gleich 3. Durch den Jarque-Bera-Test kann überprüft werden, ob die Residuen normalverteilt sind. Die Nullhypothese ist: \(H_0\): Die Stichprobe (Residuen) ist normalverteilt und die Gegenhypothese, \(H_1\): Die Stichprobe ist nicht normalverteilt.

Teststatistik des Jarque-Bera-Tests: \(JB=\frac{N}{6} (S^2+\frac{(K-3)^2}{4}) \sim \chi^2_2\) wobei \(S\) für die Schiefe und \(K\) für die Kurtosis steht.

Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist.

Andere Tests, die die Normalverteilung der Residuen überprüfen, sind: Kolmogorov-Smirnov-Test, und die sehr häufig verwendete Shapiro-Wilk-Statistik (Hübler 2005). Im Code-Beispiel am Rand wird der Shapiro-Wilk-Test für die Residuen aus obiger Regression durchgeführt und die Nullhypothese wird verworfen.

Zu den problematischen Aspekten des Testens der Normalitätsannahme, ist der folgende Thread von stats.stackexchange.com (in englischer Sprache) eine gute Weiterführung:
Is normality testing essentially useless?

Korrektur der Annahmeverletzung

Beispiel 12: Korrigierte Annahmenverletzung

Durch Logarithmierung der abhängigen Variable "Stundenlohn" nähern sich die Residuen der theoretischen Normalverteilung an. Der Nullhypothese des Shapiro-Wilk Test auf Normalverteilung wird noch immer verworfen (siehe Code-Beispiel). In den Enden der Verteilung sind noch Abweichungen von der Normalverteilung erkennbar, allerdings ist die Verteilung für empirisch beobachtete Daten schon nahe an der Normalverteilung.

Image Modified

Korrektur 1: Variablen-Transformation

In manchen Fällen kann eine Transformation der abhängigen Variable die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Ein Überblick über häufig genutzte Transformationen findet sich im Abschnitt zur Annahme 1: Linearität (siehe Link in der Überschrift zu dem Abschnitt über Transformationen).

Korrektur 2: Ausschluss der Extremwerte

Wenn die Nicht-Normalverteilung wegen der Extremwerte entstanden ist, kann die Normalverteilungsannahme durch den Ausschluss der Extremwerte erfüllt werden. Bevor man die Extremwerte ausschließt muss überprüft werden, ob die Extremwerte wirklich einen starken Einfluss auf die Regression hat. (Siehe hierzu z. B. den Cook-Abstand).

Korrektur 3: Größerer Stichprobenumfang

Die Nicht-Normalverteilung wegen eines Mangels an Daten kann korrigiert werden, indem mehr Daten gesammelt werden. Wenn der Stichprobenumfang groß genug ist, kann das Problem der Nicht-Normalverteilung durch den zentralen Grenzwertsatz gelöst werden.



Alternative: Robuste Regression

Um das Vorliegen von Extremwerten zu berücksichtigen, kann die robuste Regression durchgeführt werden, statt die Extremwerte zu entfernen. Bei der robusten Schätzung gehen die Extremwerte mit weniger Gewicht in die Schätzung ein als bei der KQ-Schätzung (Heij et al. 2004). Somit reagieren robuste Schätzer weniger sensibel auf Ausreißer.



Code R

View file
nameNormalverteilung.R
height150

Code Stata

View file
nameNormalverteilung.do
height150

Code SPSS

View file
nameNormalverteilung.sps
height150

Code SAS

View file
nameNormalverteilung.sas
height150

Daten als CSV-Datei

View file
nameSchooling.csv
height150

Literatur

Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.

Hill, Rufus Carter, William E. Griffiths und Guay C. Lim. 2012. Principles of econometrics. Hoboken: Wiley.

Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.

Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.

Beispieldaten: R-Package Ecdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat












Bildergalerie


Galerie