Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 18 Nächste Version anzeigen »

Inhaltsverzeichnis

Ursache für die Annahmeverletzung

Die Residuen sind normalverteilt für alle \(i=1, ..., N\). Die Normalverteilung der Residuen ist nicht für die Schätzung der Koeffizienten vorausgesetzt, sondern für die Hypothesentests wie zum Beispiel t-Test und F-Test. Nicht-Normalverteilung könnte entstehen aus folgenden Gründen:

  1. Viele Extremwerte im Datensatz
    Eine schiefe Verteilung kann durch Extremwerte entstehen.
  2. Mangel an Daten
    Die Verteilung kann wegen eines Mangels an Daten diskret aussehen. 
  3. Werte an 0 oder an einer natürlichen Grenze
    Wenn mehrere Werte nah an 0 liegen oder an einer natürlichen Grenze, kann die Verteilung schief sein. 
  4. Andere Verteilung der abhängigen Variable wie Poissonverteilung, Binomialverteilung, etc. 
  5. Fehlspezifikation des Models

Überprüfung der Normalverteilung und Konsequenz der Annahmeverletzung

Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests basierend auf Normalverteilung wie t-Test und F-Test sind nicht mehr sinnvoll interpretierbar. Für die Analyse der p-Werte der Regressionskoeffizienten ist die Annahme der Normalverteilungder Residuen deshalb wichtig.

Überprüfung 1: QQ-Plot

Die Normalverteilung der Residuen kann durch den QQ-Plot der Residuen überprüft werden Wenn die Residuen klar auf der QQ-Linie liegen, sind sie normalverteilt. Wenn die Annahmeverletzung aus dem QQ-Plot nicht klar ist, kann man durch unterschiedliche Tests überprüfen, ob die Residuen normalverteilt sind. 

Graph (A) kann als "idealer" Q-Q Plot gesehen werden, wobei die Punkte sehr nahe an oder sogar auf der Gerade liegen. Im Fall (B) hat die Verteilung der Residuen dickeren Enden als die Normalverteilung. Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dünneren Enden als bei einer Normalverteilung (S-Grafik). Grafik (D) zeigt eine Verteilung, die im oberen Ende größere Werte aufweist als die Normalverteilung und (E) ist die Abbildung einer linksschiefen Verteilung.


.         

Beispiel 11:  Nicht-normalverteilte Residuen

In dem geschätzten Regressionsmodell wird der Stundenlohn von Personen durch die Ausbildung in Jahren als unabhängige Variable erklärt (siehe Code am Rand). Der QQ-Plot liefert einen deutlichen Hinweis darauf, dass die Normalverteilungsannahme für die Residuen nicht haltbar ist, 

Außerdem kann, um die Normalitätsannahme grafisch zu prüfen, ein Histogramm der standardisierten Residuen verwendet werden. Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung dargestellt. Die Form des Histogramms sollte sich möglichst mit der Kurve decken.

Überprüfung 2: Jarque-Bera-Test

Der Jarque-Bera-Test überprüft mithilfe der Schiefe und der Kurtosis einer Stichprobe, ob die Stichprobe normalverteilt ist. Wenn eine Stichprobe perfekt normalverteilt ist, hat die Stichprobe eine Schiefe gleich 0 und eine Kurtosis gleich 3. Durch den Jarque-Bera-Test kann überprüft werden, ob die Residuen normalverteilt sind. Die Nullhypothese ist: \(H_0\): Die Stichprobe (Residuen) ist normalverteilt und die Gegenhypothese, \(H_1\): Die Stichprobe ist nicht normalverteilt.

Teststatistik des Jarque-Bera-Tests: \(JB=\frac{N}{6} (S^2+\frac{(K-3)^2}{4}) \sim \chi^2_2\) wobei \(S\) für die Schiefe und \(K\) für die Kurtosis steht.

Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist.

Andere Tests, die die Normalverteilung der Residuen überprüfen, sind: Kolmogorov-Smirnov-Test, und die sehr häufig verwendete Shapiro-Wilk-Statistik (Hübler 2005). Im Code-Beispiel am Rand wird der Shapiro-Wilk-Test für die Residuen aus obiger Regression durchgeführt und die Nullhypothese wird verworfen.

Zu den problematischen Aspekten des Testens der Normalitätsannahme, ist der folgende Thread von stats.stackexchange.com (in englischer Sprache) eine gute Weiterführung:
Is normality testing essentially useless?

Korrektur der Annahmeverletzung

Beispiel 12: Korrigierte Annahmenverletzung

Durch Logarithmierung der abhängigen Variable "Stundenlohn" nähern sich die Residuen der theoretischen Normalverteilung an. Der Nullhypothese des Shapiro-Wilk Test auf Normalverteilung wird noch immer verworfen. In den Enden der Verteilung sind noch Abweichungen von der Normalverteilung erkennbar, allerdings ist die Verteilung für eine empirisch beobachtete Variable schon sehr nahe an der Normalverteilung. Weitere Korrekturmöglichkeiten sind unten aufgeführt.

Korrektur 1: Variablen-Transformation

In manchen Fällen kann eine Transformation der abhängigen Variable die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Ein Überblick über die gängigsten Transformationen findet sich im Abschnitt zur Annahme der Linearität (siehe Link in der Überschrift zu dem Abschnitt über Transformationen).

Korrektur 2: Ausschluss der Extremwerte

Wenn die Nicht-Normalverteilung wegen der Extremwerte entstanden ist, kann die Normalverteilungsannahme durch den Ausschluss der Extremwerte erfüllt werden. Bevor man die Extremwerte ausschließt muss überprüft werden, ob der Extremwert wirklich einen starken Einfluss auf die Regression hat. 

Korrektur 3: Größerer Stichprobenumfang

Die Nicht-Normalverteilung wegen eines Mangels an Daten kann korrigiert werden, indem mehr Daten gesammelt werden. Wenn der Stichprobenumfang groß genug ist, kann das Problem der Nicht-Normalverteilung durch den zentralen Grenzwertsatz gelöst werden.



Alternative: Robuste Regression

Um die Extremwerte zu behandeln, kann die robuste Regression durchgeführt werden, statt die Extremwerte zu entfernen. Bei der robusten Schätzung gehen die Extremwerte mit weniger Gewicht in die Schätzung ein als bei der KQ-Schätzung (Heij et al. 2004). Somit reagieren robuste Schätzer weniger sensibel auf Ausreißer.

Literatur

Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.

Hill, Rufus Carter, William E. Griffiths und Guay C. Lim. 2012. Principles of econometrics. Hoboken: Wiley.

Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.

Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.

Beispieldaten: R-Package Ecdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat












Bildergalerie



  • Keine Stichwörter