Ursache für die Annahmeverletzung

Die Residuen haben eine konstante Varianz für alle Beobachtungen: \(Var(\epsilon_i)=\sigma^2 ~ \forall i=1, ..., N\) und den Erwartungswert = 0: \(E(\epsilon_i) = 0\). In einer Regression mit Konstanter (Achsenabschnitt) ist der Mittelwert der Residuen bedingt durch die Konstruktion des Schätzers gleich Null. Heteroskedastizität kann aus folgenden Gründen entstehen:

Messfehler
Unterschiede zwischen Subpopulationen
Missspezifikation des Modells

Überprüfung von Homoskedastizität und Konsequenz der Annahmeverletzung

Die Homoskedastizität der Residuen könnte mithilfe der Streudiagramme sowie des Streudiagramms der geschätzten Werte gegen die Residuen und des Streudiagramms der geschätzten Werte gegen die standardisierten Residuen überprüft werden. Allerdings werden Tests, wie beispielsweise der Breusch-Pagan-Test und der Goldfeld-Quandt-Test empfohlen, um die Homoskedastizität genauer zu überprüfen.

Wenn die Homoskedastizitätsannahme verletzt ist, sind die KQ-Schätzer noch unverzerrt, aber nicht mehr der effizientes Schätzer, d.h. der Schätzer mit der geringsten Varianz. Das heißt, dass die Standardabweichungen falsch berechnet werden und Konfidenzintervall und die Hypothesentests basierend auf den Standardabweichungen nicht valide sind.

Erkennen von Verletzungen dieser Annahmen

Beispiel 6: Plot der standardisierten Residuen

In dem Beispiel wurden das Einkommen von Individuen auf die Ausbildungsjahre regressiert. Der Plot der Wurzel der standardisierten Residuen (Y-Achse) gegen die gefitteten Werte (X-Achse) zeigt deutlich, dass die Streuung der Residuen mit der unabhängigen Variable (dem Regressor) zunehmen. Vermutlich ist die Annahme der homoskedastischen Residuen nicht haltbar.

Weitere Beispiele zur grafischen Inspektion der Residuen bei Annahmeverletzungen sind unter folgendem Link dargestellt:

Link in New Window

linkText	Regressionsdiagnostik: Beispiel
href	https://gallery.shinyapps.io/slr_diag/

Breusch-Pagan-Test

Der Breusch-Pagan-Test setzt voraus, dass die Funktion von der Varianz der Residuen linear ist. Das heißt:

\[\hat{\epsilon}^2_i=\alpha_0 + \alpha_1 z_{1, i} + \alpha_2 z_{2, i} + ... + \alpha_S z_{S, i + \upsilon_i}\]

Wenn die Homoskedastizität vorliegt, müssen alle \(\alpha_s\) für \(s=1, ..., S ~ 0\) sein. Daraus ergibt sich die Nullhypothese, \(H_0: \alpha_1 = \alpha_2 = ... = \alpha_S = 0 \) und die Gegenhypothese, \(H_1: \alpha_s \neq 0\) für mindestens ein \(s\).

Teststatistik des Breusch-Pagan-Tests: \(\chi^2=N \cdot R^2 \sim \chi^2_S\), wobei \(R^2\) für das Bestimmtheitsmaß steht. Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist.

Im Code-Beispiel wird die Nullhypothese homoskedastischer Residuen für die in der obigen Grafik dargestellten Residuen verworfen.

Durch das Ersetzen von \(\hat{\epsilon_i}\) mit \(log (\hat{\epsilon_i})\) oder \(|\hat{\epsilon_i}|\) kann der Harvey-Test oder Glejser-Test durchgeführt werden, um die Homoskedastizität zu überprüfen.

Goldfeld-Quandt-Test

Der Goldfeld-Quandt-Test kann durchgeführt werden, um die Homoskedastizität zu überprüfen, wenn die Stichprobe in zwei disjunkte Gruppen geteilt werden kann. Wenn die Residuen eine konstante Varianz haben, sollen in beiden Gruppen gleich sein. Die Varianzen der Störgrößen können durch die Varianzen der Residuen ersetzt werden. Daraus folgt die Nullhypothese, \(H_0: \hat{\sigma}^2_{G1}=\hat{\sigma}^2_{G2}\).

Teststatistik des Goldfeld-Quandt-Test: \(F=\frac{ \hat{\sigma}^2_{G1}}{ \hat{\sigma}^2_{G2}}\sim F_{(N_{G1}-K_{G1}, N_{G2}-K_{G2})}\)

wobei \(N_{Gi}\): Anzahl der Beobachtungen in der Gruppe \(i\), \(K_{Gi}\): Anzahl der Regressoren in der Gruppe \(i\).

Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist.

Korrektur der Annahmeverletzung: Respezifikation des Modells oder Transformation der Variablen

Heteroskedastizität kann wegen der falschen Spezifikation des Modells, wie beispielsweise einer Nicht-Berücksichtigung relevanter Regressoren, nicht-linearer Beziehung zwischen Regressor und abhängiger Variable etc. auftreten. In diesem Fall muss das Modell zur Korrektur richtig spezifiziert werden.

Ein Artikel zur Diagnose und Korrektur heteroskedastischer Residuen in R ist unter folgendem Link zu finden:

Heteroskedastizität in R

Beispiel 7: Residuenplot nach Variablentransformation

Wenn die abhängige Variable Lohn logarithmiert wird und das Modell mit dieser transformierten Variable geschätzt wird, kann man im Residuenplot erkennen, dass die Varianz der Residuen weniger stark vom Level der Regressors abhängt. Sie fächern sich nicht mehr mit weiter auf für größere gefittete Werte. Auch der Breusch-Pagan-Test kann bei dem Modell mit logarithmierter Lohnvariable die Nullhypothese homoskedastischer Residuen nicht mehr verwerfen (siehe Code).

Alternative

Alternative 1: HC (Heteroscedasticity Consistent) Standardabweichung (White-Standardfehler)

Da die KQ-Schätzer trotz der Annahmeverletzung noch unverzerrt sind, kann man die Schätzer weiter benutzen und für das Konfidenzintervall und die Hypothesentests robuste Standardfehler des Schätzers benutzen. White-Schätzer schätzen eine Heteroskedastizität-konsistente Kovarianzmatrix der Parameter (siehe Code-Beispiel am Rand).

Alternative 2: Verallgemeinerte Kleinste-Quadrate-Schätzung (englisch GLS: Generalized Least Squares)

GLS setzt voraus, dass sich die Varianz in jeder Beobachtung verändert. Wenn die Varianzfunktion bekannt ist, können die effizienten GLS-Schätzer bestimmt werden.

Beispiel 8: \(Var(\epsilon_i)=\sigma^2 x_i\) (Hill et al. 2012)

Ein Regressionsmodell mit einem Regressor wird betrachtet. Die Varianz der Störgröße ist \(Var(\epsilon_i)=\sigma^2 x_i\). Die heteroskedastische Störgröße kann zur homoskedastischen Störgröße transformiert werden.

Die beiden Seiten der Regressionsgleichung werden durch \(\sqrt{x_i}\) geteilt:

\[\frac{y_i}{\sqrt{x_i}}=\beta_0(\frac{1}{\sqrt{x_i}})+\beta_1(\frac{x_i}{\sqrt{x_i}})+\frac{\epsilon_i}{\sqrt{x_i}}\]

Die Gleichung kann so umgeschrieben werden:

\[y^{\ast}_i=\beta_0 x^{\ast}_{0, i} + \beta_1 x^{\ast}_{2, i} + \epsilon ^{\ast}_i\]

Die Varianz der transformierten Störgröße ist nun konstant. Somit kann die transformierte Gleichung durch die KQ-Schätzung effizient geschätzt werden.

Code R

View file

name	Heteroskedastizität.R
height	150

Code Stata

View file

name	Heteroskedastizität.do
height	150

Code SPSS

View file

name	Heteroskedastizität.sps
height	150

Code SASheight250

View file

name	Heteroskedastizität.sas
height	150

Daten als CSV-Datei

View file

name	Schooling.csv
height	150

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 32

Neue Version 33

Schlüssel

Inhaltsverzeichnis

Ursache für die Annahmeverletzung

Überprüfung von Homoskedastizität und Konsequenz der Annahmeverletzung

Breusch-Pagan-Test

Goldfeld-Quandt-Test

Korrektur der Annahmeverletzung: Respezifikation des Modells oder Transformation der Variablen

Alternative

Alternative 1: HC (Heteroscedasticity Consistent) Standardabweichung (White-Standardfehler)

Alternative 2: Verallgemeinerte Kleinste-Quadrate-Schätzung (englisch GLS: Generalized Least Squares)

Beispiel 8: \(Var(\epsilon_i)=\sigma^2 x_i\) (Hill et al. 2012)

Literatur

Bildergalerie

Bereichsverknüpfungen

Seitenhierarchie

Seitenhistorie

Versionen im Vergleich

Alte Version 32

Neue Version 33

Schlüssel

Inhaltsverzeichnis

Ursache für die Annahmeverletzung

Überprüfung von Homoskedastizität und Konsequenz der Annahmeverletzung

Breusch-Pagan-Test

Goldfeld-Quandt-Test

Korrektur der Annahmeverletzung: Respezifikation des Modells oder Transformation der Variablen

Alternative

Alternative 1: HC (Heteroscedasticity Consistent) Standardabweichung (White-Standardfehler)

Alternative 2: Verallgemeinerte Kleinste-Quadrate-Schätzung (englisch GLS: Generalized Least Squares)

Beispiel 8: \(Var(\epsilon_i)=\sigma^2 x_i\) (Hill et al. 2012)

Literatur

Bildergalerie