Inhaltsverzeichnis


Ursachen für die Annahmeverletzung

(Perfekte) Kollinearität liegt vor, wenn ein Regressor (exakt) durch eine lineare Kombination der anderen Regressoren dargestellt werden kann. Ursachen dafür können die folgenden sein:

  1. Fehler beim Einbeziehen von Dummies in eine Regression mit Konstante (z.B. 2 Dummies: behandelt - nicht behandelt)
  2. Sehr starke Korrelation der Regressoren untereinander




 Überprüfung von Kollinearität und Konsequenz der Annahmeverletzung

Das Vorliegen von starker Kollinearität kann mithilfe des Varianzinflationsfaktors (VIF) überprüft werden:

\[VIF_{j}=  \frac{1}{1 -  R^2_{j}}\]

\(R^2_{j}\) ist dabei das \(R^2\) einer Regression des j-ten Regressors auf alle anderen Regressoren im Modell. Ein hoher Wert des VIF für einen Regressor bedeutet also, dass die Variation dieses Regressors sehr gut durch die anderen Merkmale erklärt werden können. Der eigenständige Erklärungsgehalt des Regressors in dem Modell ist daher gering und der Regressor kann daher als redundant angesehen werden. Es gibt keinen festen Wert für einen zu hohen VIF, allerdings sollte man die Aufnahme eines Regressors nach einer Daumenregel ab einem Wert von 5 hinterfragen.

Ein hoher VIF bedeutet, dass die Koeffizienten nur noch mit einer großen Unsicherheit geschätzt werden können, da ein hohes \(R^2_{j}\) die Varianz des j-ten Koeffizienten anwachsen lässt.

Es handelt sich bei einer hohen Kollinearität nicht um eine Annahmeverletzung im eigentlichen Sinne, da die Eigenschaften des KQ-Schätzers für die Regression erhalten bleiben. Eine hohe Varianz der Koeffizienten macht allerdings das Auftreten signifikanter Koeffizienten bei gleichbleibender Stichprobengröße unwahrscheinlicher. Die Prädiktionswerte \ ( \hat{y}_i \) bleiben aber weiterhin gültig. Wer die Regressionanalyse also nur zur Vorhersage verwenden will, braucht sich nicht um Kollinearitätsprobleme zu kümmern!

Beispiel 10: Starke Kollinearität zwischen zwei Regressoren

Der Scatterplot stellt die beiden Variablen "Treffer" und "Versuche" für Baseballspieler der Major League in der Saison 1986/87 dar. In einer Regression (siehe Code am Rand) wird das Gehalt der Spieler auf Treffer, Versuche, Homeruns in einer Saison und die Jahre, die ein Spieler in der Liga spielt, regressiert.  Logischerweise sind Treffer und Versuche stark miteinander korreliert, was Auswirkungen auf die Varianz der Koeffizienten hat.

Unten der Output für das Regressionsmodell und die zugehörigen VIF. Die VIF für für Versuche ("AtBat") und Treffer ("Hits") sind mit fast 15 enorm hoch und das Ausschließen einer der beiden (offenkundig redundanten) stark korrelierten Variablen ist notwendig. Siehe dazu der unten angegebene R-Output: Im reduzierten Modell ist der VIF von "Hits" stark zurückgegangen.

VIF des ursprünglichen Modells:
Hits     AtBat     HmRun     Years 
14.147375 14.709293  1.470245  1.017531 


VIF des reduzierten Modells:
    Hits    HmRun    Years 
1.395324 1.413040 1.015528 






Korrektur der Annahmeverletzung

Im Falle perfekter Kollinearität ist die einzige Möglichkeit das Auslassen einer der Regressoren um ein identifizierbares Modell zu erhalten. Die meisten Statistikpakete machen diesen Schritt automatisch.

Bei sehr starker Kollinearität gibt es keine Lösung für alle Fälle. Das Auslassen eines Regressoren reduziert die Varianz der Koeffizienten, allerdings besteht die Gefahr, dass man einen Omitted Variable Bias (siehe Info-Box) einführt. Es gibt hier keine klare Entscheidungsregel, sondern einen Trade-off, mit dem man fallabhängig umgehen muss. Die Entscheidung bleibt also zu einem gewissen Anteil willkürlich und hängt davon ab, für welche Regressoren die Koeffizienten von inhaltlichem Interesse für die Forschungsfrage sind (Wooldridge, 2013).

Ein Beispiel eines Anwendungsfalles in R findet sich unter folgendem Link: Kollinearität und Variablenselektion




Omitted Variable Bias

Omitted Variable Bias (Verzerrung durch ausgelassene Variablen) tritt auf, wenn man einen Regressor, der im wahren Modell Einfluss auf die abhängige Variable hat, auslässt. Der Effekt dieses ausgelassenen Regressors findet sich dann in den Koeffizienten der anderen Regressoren wieder und verzerrt diese dementsprechend.



Literatur

Wooldridge, Jeffrey M. 2013. Introductory econometrics : a modern approach. South-Western Cengage Learning: Mason, Ohio u.a.

Beispieldaten: R-Package ISLR: Data for an Introduction to Statistical Learning with Applications in R, Version 1.2; https://CRAN.R-project.org/package=ISLR


Bildergalerie



  • Keine Stichwörter