Inhaltsverzeichnis

Ursache für die Annahmeverletzung

Die Residuen haben eine konstante Varianz für alle Beobachtungen: \(Var(\epsilon_i)=\sigma^2 ~ \forall i=1, ..., N\) und den Erwartungswert = 0: \(E(\epsilon_i) = 0\). In einer Regression mit einer Konstanten (Achsenabschnitt) ist der Mittelwert der Residuen bedingt durch die Konstruktion des Schätzers gleich Null. Heteroskedastizität kann aus folgenden Gründen entstehen:

  1. Messfehler
  2. Unterschiede zwischen Subpopulationen
  3. Missspezifikation des Modells

Überprüfung von Homoskedastizität und Konsequenz der Annahmeverletzung

Die Homoskedastizität der Residuen könnte mithilfe der Streudiagramme sowie des Streudiagramms der geschätzten Werte gegen die Residuen und des Streudiagramms der geschätzten Werte gegen die standardisierten Residuen überprüft werden. Allerdings werden Tests, wie beispielsweise der Breusch-Pagan-Test und der Goldfeld-Quandt-Test empfohlen, um die Homoskedastizität genauer zu überprüfen.

Wenn die Homoskedastizitätsannahme verletzt ist, sind die KQ-Schätzer noch unverzerrt, aber nicht mehr der effizienteste Schätzer, d.h. der Schätzer mit der geringsten Varianz. Das heißt, dass die Standardabweichungen falsch berechnet werden und Konfidenzintervall und die Hypothesentests basierend auf den Standardabweichungen nicht valide sind.


Erkennen von Verletzungen dieser Annahmen

Beispiel 6: Plot der standardisierten Residuen

In dem Beispiel wurden das Einkommen von Individuen auf die Ausbildungsjahre regressiert. Der Plot der Wurzel der standardisierten Residuen (Y-Achse) gegen die gefitteten Werte (X-Achse) zeigt deutlich, dass die Streuung der Residuen mit der unabhängigen Variable (dem Regressor) zunehmen. Vermutlich ist die Annahme der homoskedastischen Residuen nicht haltbar.



Weitere Beispiele zur grafischen Inspektion der Residuen bei Annahmeverletzungen sind unter folgendem Link dargestellt:

 

Breusch-Pagan-Test

Der Breusch-Pagan-Test setzt voraus, dass die Varianz der Residuen linear in einigen Variablen ist.  Das heißt:

\[\hat{\epsilon}^2_i=\alpha_0 + \alpha_1 z_{1, i} + \alpha_2 z_{2, i} + ... + \alpha_S z_{S, i} + \upsilon_i\]

Wenn die Homoskedastizität vorliegt, müssen alle \(\alpha_s\) für \(s=1, ..., S ~ 0\) sein.  Daraus ergibt sich die Nullhypothese, \(H_0: \alpha_1 = \alpha_2 = ... = \alpha_S = 0 \) und die Gegenhypothese, \(H_1: \alpha_s \neq 0\) für mindestens ein \(s\).

Teststatistik des Breusch-Pagan-Tests: \(\chi^2=N \cdot R^2 \sim \chi^2_S\), wobei \(R^2\) für das Bestimmtheitsmaß steht. Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist.

Im Code-Beispiel wird die Nullhypothese homoskedastischer Residuen für die in der obigen Grafik dargestellten Residuen verworfen.

Durch das Ersetzen von \(\hat{\epsilon_i}\) mit \(log (\hat{\epsilon_i})\) oder \(|\hat{\epsilon_i}|\) kann der Harvey-Test oder Glejser-Test durchgeführt werden, um die Homoskedastizität zu überprüfen.

Goldfeld-Quandt-Test

Der Goldfeld-Quandt-Test kann durchgeführt werden, um die Homoskedastizität zu überprüfen, indem die Stichprobe in zwei disjunkte Gruppen geteilt wird. Wenn die Residuen eine konstante Varianz haben, dann sollte die Residualvarianz in beiden Gruppen gleich sein. Die Varianzen der Störgrößen können durch die Varianzen der Residuen ersetzt werden. Daraus folgt die Nullhypothese, \(H_0: \hat{\sigma}^2_{G1}=\hat{\sigma}^2_{G2}\).

Teststatistik des Goldfeld-Quandt-Test: \(F=\frac{ \hat{\sigma}^2_{G1}}{ \hat{\sigma}^2_{G2}}\sim F_{(N_{G1}-K_{G1}, N_{G2}-K_{G2})}\)

wobei \(N_{Gi}\): Anzahl der Beobachtungen in der Gruppe \(i\), \(K_{Gi}\): Anzahl der Regressoren in der Gruppe \(i\).

Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist.

Korrektur der Annahmeverletzung: Respezifikation des Modells oder Transformation der Variablen

Heteroskedastizität kann wegen der falschen Spezifikation des Modells, wie beispielsweise einer Nicht-Berücksichtigung relevanter Regressoren, nicht-linearer Beziehung zwischen Regressor und abhängiger Variable etc. auftreten. In diesem Fall muss das Modell zur Korrektur richtig spezifiziert werden.

Ein Artikel zur Diagnose und Korrektur heteroskedastischer Residuen in R ist unter folgendem Link zu finden:

Heteroskedastizität in R

Beispiel 7: Residuenplot nach Variablentransformation

Wenn die abhängige Variable Lohn logarithmiert wird und das Modell mit dieser transformierten Variable geschätzt wird, kann man im Residuenplot erkennen, dass die Varianz der Residuen weniger stark vom Level der Regressors abhängt. Sie fächern sich nicht mehr weiter auf für größere gefittete Werte. Auch der Breusch-Pagan-Test kann bei dem Modell mit logarithmierter Lohnvariable die Nullhypothese homoskedastischer Residuen nicht mehr verwerfen (siehe Code).


Alternative

Alternative 1: HC (Heteroscedasticity Consistent) Standardabweichung (White-Standardfehler)

Da die KQ-Schätzer trotz der Annahmeverletzung noch unverzerrt sind, kann man die Schätzer weiter benutzen und für das Konfidenzintervall und die Hypothesentests robuste Standardfehler des Schätzers benutzen. White-Schätzer schätzen eine Heteroskedastizität-konsistente Kovarianzmatrix der Parameter (siehe Code-Beispiel).

Alternative 2: Verallgemeinerte Kleinste-Quadrate-Schätzung (englisch GLS: Generalized Least Squares)

GLS setzt voraus, dass sich die Varianz in jeder Beobachtung verändert. Wenn die Varianzfunktion bekannt ist, können die effizienten GLS-Schätzer bestimmt werden.

Beispiel 8: \(Var(\epsilon_i)=\sigma^2 x_i\) (Hill et al. 2012)

Ein Regressionsmodell mit einem Regressor wird betrachtet. Die Varianz der Störgröße ist \(Var(\epsilon_i)=\sigma^2 x_i\). Die heteroskedastische Störgröße kann zur homoskedastischen Störgröße transformiert werden.

Die beiden Seiten der Regressionsgleichung werden durch \(\sqrt{x_i}\) geteilt:

\[\frac{y_i}{\sqrt{x_i}}=\beta_0(\frac{1}{\sqrt{x_i}})+\beta_1(\frac{x_i}{\sqrt{x_i}})+\frac{\epsilon_i}{\sqrt{x_i}}\]

Die Gleichung kann so umgeschrieben werden:

\[y^{\ast}_i=\beta_0 x^{\ast}_{0, i} + \beta_1 x^{\ast}_{2, i} + \epsilon ^{\ast}_i\]

Die Varianz der transformierten Störgröße ist nun konstant. Somit kann die transformierte Gleichung durch die KQ-Schätzung effizient geschätzt werden.

Literatur

Hill, Rufus Carter, William E. Griffiths und Guay C. Lim. 2012. Principles of econometrics. Hoboken: Wiley.

Beispieldaten: R-Package Ecdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat












Bildergalerie



  • Keine Stichwörter