Ursache für die Annahmeverletzung

Die Störgröße ist normal-verteilt Residuen sind normalverteilt für alle \(i=1, ..., N\). Die Normalverteilung der Störgröße Residuen ist nicht für die Schätzung der Koeffizienten vorausgesetzt, sondern für die Hypothesentests wie zum Beispiel t-Test und F-Test. Nicht-Normalverteilung könnte entstehen aus folgenden Gründen:

Viele Extremwerte im Datensatz
Eine schiefere Verteilung könnte wegen mehrerer Extremwerte resultierenschiefe Verteilung kann durch Extremwerte entstehen.
Mangel an Daten
Die Verteilung könnte kann wegen eines Mangels an Daten diskret aussehen.
Werte an 0 oder an einer natürlichen Grenze
Wenn mehrere Werte nah nahe an 0 liegen oder an einer natürlichen Grenze, könnte kann die Verteilung schief sein.
Andere Verteilung der abhängigen Variable wie Poissonverteilung, Binomialverteilung, etc.
Fehlspezifikation des Models

Überprüfung der

Annahme

Normalverteilung und Konsequenz der Annahmeverletzung

Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests, die auf der Normalverteilung basieren wie t-Test und F-Test, sind nicht mehr sinnvoll interpretierbar. Für die Analyse der p-Werte der Regressionskoeffizienten ist die Annahme der Normalverteilung der Residuen deshalb wichtig, wenn man die statistische Signifikanz der Koeffizienten überprüfen will.

Überprüfung 1: QQ-Plot

Die Normalverteilung der Störgröße Residuen kann durch das einen QQ-Plot der Residuen überprüft werden , da die Residuen die Störgrößen repräsentieren. Wenn die Residuen im QQ-Plot klar auf der QQ-Linie einer Geraden liegen, ist die Störgröße sind sie normalverteilt. Wenn die Annahmeverletzung aus dem QQ-Plot nicht klar ist, kann man durch unterschiedliche Tests überprüfen, ob die Störgröße Residuen normalverteilt ist. Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests basierend auf Normalverteilung wie t-Test und F-Test sind nicht mehr anwendbar.

Beispiel 6: Die normalverteilte Störgröße

Die Nettomiete pro Quadratmeter 2003 in München wird mit der Inverse der Wohnfläche erklärt. Die Residuen liegen fast alle klar auf der QQ-Linie, somit sind die Residuen normalverteilt.

sind.

Graph (A) kann als nahezu idealer Q-Q Plot gesehen werden, wobei die Punkte fast auf der Geraden liegen oder zumindest nicht stark oder systematisch von der Geraden abweichen. Im Fall (B) hat die Verteilung der Residuen dickere Enden als die Normalverteilung. Anschaulich bedeutet dies, dass die Residuen im unteren Teil der Verteilung im Vergleich zur Normalverteilung stärker nach unten schwanken. Im oberen Teil der Verteilung ist es gerade umgekehrt: Hier schwanken die Residuen im Vergleich zur Normalverteilung stärker nach oben. Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dünneren Enden als bei einer Normalverteilung (S-Grafik). Die Verteilung der Residuen ist also stärker als bei der Normalverteilung um dien Erwartungswert konzentriert. Grafik (D) zeigt eine Verteilung, die im oberen Ende größere Werte aufweist als die Normalverteilung und (E) ist die Abbildung einer linksschiefen Verteilung.

. Image Added

Beispiel 11: Nicht-normalverteilte Residuen

In dem geschätzten Regressionsmodell wird der Stundenlohn von Personen durch die Ausbildung in Jahren als unabhängige Variable erklärt (siehe Code am Rand). Der QQ-Plot liefert einen deutlichen Hinweis darauf, dass die Normalverteilungsannahme für die Residuen nicht haltbar ist,

Image Added

Außerdem kann, um die Normalitätsannahme grafisch zu prüfen, ein Histogramm der standardisierten Residuen verwendet werden. Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung dargestellt. Die Form des Histogramms sollte sich möglichst mit der Kurve decken.

Image Removed

Überprüfung 2: Jarque-Bera-Test

Der Jarque-Bera-Test überprüft mithilfe der Schiefe und der Kurtosis einer Stichprobe, ob die Stichprobe normalverteilt ist. Wenn eine Stichprobe perfekt normalverteilt ist, hat die Stichprobe eine Schiefe gleich 0 und eine Kurtosis gleich 3. Durch den Jarque-Bera-Test können die Residuen kann überprüft werden, ob die Residuen normalverteilt sind. Die Nullhypothese ist: \(H_0\): Die Stichprobe (Residuen) ist normalverteilt und die Gegenhypothese, \(H_1\): Die Stichprobe (Residuen) ist nicht normalverteilt.

Teststatistik des Jarque-Bera-Tests: \(JB=\frac{N}{6} (S^2+\frac{(K-3)^2}{4}) \sim \chi^2_2\) wobei \(S\) für die Schiefe und \(K\) für die Kurtosis steht.

Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist. Somit sind die Residuen normalverteilt.

Es gibt auch andere Alternative-Andere Tests, die die Normalverteilung der Störgröße Residuen überprüfen, sind: Kolmogorov-Smirnov-Test, und die sehr häufig verwendete Shapiro-Wilk-Statistik (Hübler 2005).

Jarque-Bera-Test mit \(\textsf{R}\)

Image Removed

Da der p-Wert zu gering ist, kann die \(H_0\) verworfen werden. Somit sind die Residuen normalverteilt.

Im Code-Beispiel am Rand wird der Shapiro-Wilk-Test für die Residuen aus obiger Regression durchgeführt und die Nullhypothese wird verworfen.

Zu den problematischen Aspekten des Testens der Normalitätsannahme, ist der folgende Thread von stats.stackexchange.com (in englischer Sprache) eine gute Weiterführung:
Is normality testing essentially useless?

Korrektur der Annahmeverletzung

Beispiel 12: Korrigierte Annahmenverletzung

Durch Logarithmierung der abhängigen Variable "Stundenlohn" nähern sich die Residuen der theoretischen Normalverteilung an. Der Nullhypothese des Shapiro-Wilk Test auf Normalverteilung wird noch immer verworfen (siehe Code-Beispiel). In den Enden der Verteilung sind noch Abweichungen von der Normalverteilung erkennbar, allerdings ist die Verteilung für empirisch beobachtete Daten schon nahe an der Normalverteilung.

Image Added

Korrektur 1: Variablen-Transformation

In manchen Fällen kann eine Transformation der abhängigen Variable die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Ein Überblick über häufig genutzte Transformationen findet sich im Abschnitt zur Annahme 1: Linearität (siehe Link in der Überschrift zu dem Abschnitt über Transformationen).

Korrektur 2

Korrektur der Annahmeverletzung

Korrektur 1

: Ausschluss der Extremwerte

Wenn die Nicht-Normalverteilung wegen der Extremwerte entstanden ist, kann die Normalverteilungsannahme durch den Ausschluss der Extremwerte erfüllt werden. Bevor man die Extremwerte ausschließt muss überprüft werden, ob der Extremwert die Extremwerte wirklich einen starken Einfluss auf die Regression hat. . (Siehe hierzu z. B. den Cook-Abstand).

Korrektur

2

3: Größerer Stichprobenumfang

Die Nicht-Normalverteilung wegen eines Mangels an Daten kann korrigiert werden, indem mehrere mehr Daten gesammelt werden. Wenn der Stichprobenumfang groß genug ist, kann dieses das Problem der Nicht-Normalverteilung durch den zentralen Grenzwertsatz gelöst werden.

Korrektur 3: Box-Cox-Transformation

In manchen Fällen kann die Box-Cox-Transformation die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Durch die Wahl des Transformationsparameters (\(\lambda\)) kann die Verletzung der Normalverteilung korrigiert werden.

Alternative: Robuste Regression

Um die Extremwerte zu behandelndas Vorliegen von Extremwerten zu berücksichtigen, kann die robuste Regression durchgeführt werden, statt die Extremwerte zu entfernen. Bei der robusten Schätzung gehen die Extremwerte mit weniger Gewicht in die Schätzung ein als bei der KQ-Schätzung (Heij et al. 2004). Somit sind reagieren robuste Schätzer weniger sensibler auf Ausreißer.sensibel auf Ausreißer.

Code R

View file

name	Normalverteilung.R
height	150

Code Stata

View file

name	Normalverteilung.do
height	150

Code SPSS

View file

name	Normalverteilung.sps
height	150

Code SAS

View file

name	Normalverteilung.sas
height	150

Daten als CSV-Datei

View file

name	Schooling.csv
height	150

Literatur

Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.

Hill, Rufus Carter, William E. Griffiths und Guay C. Lim. 2012. Principles of econometrics. Hoboken: Wiley.

Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.

Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.

Beispieldaten: R-Package Ecdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 2

Neue Version Aktuell

Schlüssel

Inhaltsverzeichnis

Ursache für die Annahmeverletzung

Überprüfung der

Normalverteilung und Konsequenz der Annahmeverletzung

Überprüfung 1: QQ-Plot

Beispiel 6: Die normalverteilte Störgröße

Beispiel 11: Nicht-normalverteilte Residuen

Überprüfung 2: Jarque-Bera-Test

Jarque-Bera-Test mit \(\textsf{R}\)

Korrektur der Annahmeverletzung

Korrektur 1: Variablen-Transformation

Korrektur 2

Korrektur der Annahmeverletzung

: Ausschluss der Extremwerte

Korrektur

3: Größerer Stichprobenumfang

Korrektur 3: Box-Cox-Transformation

Alternative: Robuste Regression

Literatur

Bildergalerie

Bereichsverknüpfungen

Seitenhierarchie

Seitenhistorie

Versionen im Vergleich

Alte Version 2

Neue Version Aktuell

Schlüssel

Inhaltsverzeichnis

Ursache für die Annahmeverletzung

Überprüfung der

Normalverteilung und Konsequenz der Annahmeverletzung

Überprüfung 1: QQ-Plot

Beispiel 6: Die normalverteilte Störgröße

Beispiel 11: Nicht-normalverteilte Residuen

Überprüfung 2: Jarque-Bera-Test

Jarque-Bera-Test mit \(\textsf{R}\)

Korrektur der Annahmeverletzung

Korrektur 1: Variablen-Transformation

Korrektur 2

Korrektur der Annahmeverletzung

: Ausschluss der Extremwerte

Korrektur

3: Größerer Stichprobenumfang

Korrektur 3: Box-Cox-Transformation

Alternative: Robuste Regression

Literatur

Bildergalerie