Versionen im Vergleich
Schlüssel
- Diese Zeile wurde hinzugefügt.
- Diese Zeile wurde entfernt.
- Formatierung wurde geändert.
Inhaltsverzeichnis
Inhalt | ||||
---|---|---|---|---|
|
Ursache für die Annahmeverletzung
Die Störgröße ist normal-verteilt Residuen sind normalverteilt für alle \(i=1, ..., N\). Die Normalverteilung der Störgröße Residuen ist nicht für die Schätzung der Koeffizienten vorausgesetzt, sondern für die Hypothesentests wie zum Beispiel t-Test und F-Test. Nicht-Normalverteilung könnte entstehen aus folgenden Gründen:
- Viele Extremwerte im Datensatz
Eine schiefere Verteilung könnte wegen mehrerer Extremwerte resultierenschiefe Verteilung kann durch Extremwerte entstehen. - Mangel an Daten
Die Verteilung könnte kann wegen eines Mangels an Daten diskret aussehen. - Werte an 0 oder an einer natürlichen Grenze
Wenn mehrere Werte nah nahe an 0 liegen oder an einer natürlichen Grenze, könnte kann die Verteilung schief sein. - Andere Verteilung der abhängigen Variable wie Poissonverteilung, Binomialverteilung, etc.
- Fehlspezifikation des Models
Überprüfung der
AnnahmeNormalverteilung und Konsequenz der Annahmeverletzung
Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests, die auf der Normalverteilung basieren wie t-Test und F-Test, sind nicht mehr sinnvoll interpretierbar. Für die Analyse der p-Werte der Regressionskoeffizienten ist die Annahme der Normalverteilung der Residuen deshalb wichtig, wenn man die statistische Signifikanz der Koeffizienten überprüfen will.
Überprüfung 1: QQ-Plot
Die Normalverteilung der Störgröße Residuen kann durch das einen QQ-Plot der Residuen überprüft werden , da die Residuen die Störgrößen repräsentieren. Wenn die Residuen im QQ-Plot klar auf der QQ-Linie einer Geraden liegen, ist die Störgröße sind sie normalverteilt. Wenn die Annahmeverletzung aus dem QQ-Plot nicht klar ist, kann man durch unterschiedliche Tests überprüfen, ob die Störgröße Residuen normalverteilt ist. Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests basierend auf Normalverteilung wie t-Test und F-Test sind nicht mehr anwendbar.
Beispiel 6: Die normalverteilte Störgröße
Die Nettomiete pro Quadratmeter 2003 in München wird mit der Inverse der Wohnfläche erklärt. Die Residuen liegen fast alle klar auf der QQ-Linie, somit sind die Residuen normalverteilt.
sind.
Graph (A) kann als nahezu idealer Q-Q Plot gesehen werden, wobei die Punkte fast auf der Geraden liegen oder zumindest nicht stark oder systematisch von der Geraden abweichen. Im Fall (B) hat die Verteilung der Residuen dickere Enden als die Normalverteilung. Anschaulich bedeutet dies, dass die Residuen im unteren Teil der Verteilung im Vergleich zur Normalverteilung stärker nach unten schwanken. Im oberen Teil der Verteilung ist es gerade umgekehrt: Hier schwanken die Residuen im Vergleich zur Normalverteilung stärker nach oben. Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dünneren Enden als bei einer Normalverteilung (S-Grafik). Die Verteilung der Residuen ist also stärker als bei der Normalverteilung um dien Erwartungswert konzentriert. Grafik (D) zeigt eine Verteilung, die im oberen Ende größere Werte aufweist als die Normalverteilung und (E) ist die Abbildung einer linksschiefen Verteilung.
. Image Added
Beispiel 11: Nicht-normalverteilte ResiduenIn dem geschätzten Regressionsmodell wird der Stundenlohn von Personen durch die Ausbildung in Jahren als unabhängige Variable erklärt (siehe Code am Rand). Der QQ-Plot liefert einen deutlichen Hinweis darauf, dass die Normalverteilungsannahme für die Residuen nicht haltbar ist, Image Added |
Außerdem kann, um die Normalitätsannahme grafisch zu prüfen, ein Histogramm der standardisierten Residuen verwendet werden. Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung dargestellt. Die Form des Histogramms sollte sich möglichst mit der Kurve decken.
Image RemovedÜberprüfung 2: Jarque-Bera-Test
Der Jarque-Bera-Test überprüft mithilfe der Schiefe und der Kurtosis einer Stichprobe, ob die Stichprobe normalverteilt ist. Wenn eine Stichprobe perfekt normalverteilt ist, hat die Stichprobe eine Schiefe gleich 0 und eine Kurtosis gleich 3. Durch den Jarque-Bera-Test können die Residuen kann überprüft werden, ob die Residuen normalverteilt sind. Die Nullhypothese ist: \(H_0\): Die Stichprobe (Residuen) ist normalverteilt und die Gegenhypothese, \(H_1\): Die Stichprobe (Residuen) ist nicht normalverteilt.
Teststatistik des Jarque-Bera-Tests: \(JB=\frac{N}{6} (S^2+\frac{(K-3)^2}{4}) \sim \chi^2_2\) wobei \(S\) für die Schiefe und \(K\) für die Kurtosis steht.
Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist. Somit sind die Residuen normalverteilt.
Es gibt auch andere Alternative-Andere Tests, die die Normalverteilung der Störgröße Residuen überprüfen, sind: Kolmogorov-Smirnov-Test, und die sehr häufig verwendete Shapiro-Wilk-Statistik (Hübler 2005).
Jarque-Bera-Test mit \(\textsf{R}\)
Image Removed
Da der p-Wert zu gering ist, kann die \(H_0\) verworfen werden. Somit sind die Residuen normalverteilt.Im Code-Beispiel am Rand wird der Shapiro-Wilk-Test für die Residuen aus obiger Regression durchgeführt und die Nullhypothese wird verworfen.
Zu den problematischen Aspekten des Testens der Normalitätsannahme, ist der folgende Thread von stats.stackexchange.com (in englischer Sprache) eine gute Weiterführung:
Is normality testing essentially useless?
Korrektur der Annahmeverletzung
Beispiel 12: Korrigierte Annahmenverletzung Durch Logarithmierung der abhängigen Variable "Stundenlohn" nähern sich die Residuen der theoretischen Normalverteilung an. Der Nullhypothese des Shapiro-Wilk Test auf Normalverteilung wird noch immer verworfen (siehe Code-Beispiel). In den Enden der Verteilung sind noch Abweichungen von der Normalverteilung erkennbar, allerdings ist die Verteilung für empirisch beobachtete Daten schon nahe an der Normalverteilung. Image Added |
Korrektur 1: Variablen-Transformation
In manchen Fällen kann eine Transformation der abhängigen Variable die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Ein Überblick über häufig genutzte Transformationen findet sich im Abschnitt zur Annahme 1: Linearität (siehe Link in der Überschrift zu dem Abschnitt über Transformationen).
Korrektur 2
Korrektur der Annahmeverletzung
Korrektur 1: Ausschluss der Extremwerte
Wenn die Nicht-Normalverteilung wegen der Extremwerte entstanden ist, kann die Normalverteilungsannahme durch den Ausschluss der Extremwerte erfüllt werden. Bevor man die Extremwerte ausschließt muss überprüft werden, ob der Extremwert die Extremwerte wirklich einen starken Einfluss auf die Regression hat. . (Siehe hierzu z. B. den Cook-Abstand).
Korrektur
23: Größerer Stichprobenumfang
Die Nicht-Normalverteilung wegen eines Mangels an Daten kann korrigiert werden, indem mehrere mehr Daten gesammelt werden. Wenn der Stichprobenumfang groß genug ist, kann dieses das Problem der Nicht-Normalverteilung durch den zentralen Grenzwertsatz gelöst werden.
Korrektur 3: Box-Cox-Transformation
In manchen Fällen kann die Box-Cox-Transformation die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Durch die Wahl des Transformationsparameters (\(\lambda\)) kann die Verletzung der Normalverteilung korrigiert werden.
Alternative: Robuste Regression
Um die Extremwerte zu behandelndas Vorliegen von Extremwerten zu berücksichtigen, kann die robuste Regression durchgeführt werden, statt die Extremwerte zu entfernen. Bei der robusten Schätzung gehen die Extremwerte mit weniger Gewicht in die Schätzung ein als bei der KQ-Schätzung (Heij et al. 2004). Somit sind reagieren robuste Schätzer weniger sensibler auf Ausreißer.sensibel auf Ausreißer.
Code R
View file | ||||
---|---|---|---|---|
|
Code Stata
View file name Normalverteilung.do height 150
Code SPSS
View file | ||||
---|---|---|---|---|
|
Code SAS
View file | ||||
---|---|---|---|---|
|
Daten als CSV-Datei
View file | ||||
---|---|---|---|---|
|
Literatur
Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.
Hill, Rufus Carter, William E. Griffiths und Guay C. Lim. 2012. Principles of econometrics. Hoboken: Wiley.
Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.
Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.
Beispieldaten: R-Package Ecdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat
Bildergalerie
Galerie |
---|