Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

AnnahmeWas bedeutet das wirklich?Wann wird die Annahme wahrscheinlich verletzt?Warum is das ein Problem?
LinearitätLineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable Schätzwerte der Koeffizienten sind verzerrt, falls der Zusammenhang nichtlinear ist.
Erwartungswert der Störgröße gleich Null

Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum.

Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Verzerrung der Schätzung von \(\beta_{0}\)

Unabhängigkeit der Fehlerterme

verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitigAbhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter)Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung

Homoskedastizität

Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz konstant für alle Beobachtungseinheiten sein 
Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient).

Residuen normalverteilt

Die Fehlerterme folgen eine NormalverteilungDas passiert, wenn die berechnete Linearkombination der Kovariaten die Verteilung der unabhängigen Variable nicht gut genug abbildenKonfidenzintervalle und Hypothesentests sind ungültig

Nicht-Kollinearität

Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren.(Multi-) Kollinearität liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen)
Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell; möglicherweise werden Koeffizienten insignifikant, obwohl sie Erklärungsgehalt bieten
\(Cov(X,\epsilon)=0\)Unkorreliertheit von unabhängigen Variablen und Störterm

Diese Annahme wird beispielsweise verletzt, wenn nicht alle für das Modell relevanten Kovariate aufgenommen werden (können) und diese mit enthaltenen Variablen korreliert sind

Die geschätzten Koeffizienten der endogenen Variablen (dh. mit Fehlerterm korreliert) sind verzerrt. , denn OLS (kleinste Quadrate Methode) berechnet stets die Parameter, die die Fehler und unabhängigen Variablen unkorreliert erscheinen lassen.

...

Es ist sehr hilfreich sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei beispielsweise extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt starke positive Korrelation (= steigende Gerade). Fall (B) hingegen verbildlicht einen Fall in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht ein Beispiel für eine sehr starke lineare Beziehung mit einem extremen Ausreißer. In diesem Fall wird wegen des Ausreißers ein geringerer Korrelationskoeffizient ausgegeben werden, obwohl für diese Daten die Annahme eines starken linearen Zusammenhangs (eventuell nach Ausschluss des Ausreißers) sehr sinnvoll ist. (D) zeigt ein Beispiel in dem keine Korrelation zwischen den Variablen zu beobachten ist und die Annahme eines linearen Zusammenhangs nicht sinnvoll erscheint.

...

Weiterhin wird vorausgesetzt, dass die Residuen unabhängig sind und eine konstante Varianz aufweisen (\( V(\epsilon_{i}) = \sigma^{2}\)," Homoskedastizität"). Dies kann grafisch überprüft werden, indem die geschätzten Werte der abhängigen Variablen in einem Streudiagramm gegen die geschätzten Residuen des Models abgetragen werden (sog. Residuenplot). Die Annahmen des Regressionsmodells beziehen sich zwar auf die echten Residuen, diese können aber nicht beobachtet werden, da dazu das Wissen über die wahren Werte der Koeffizienten notwendig wäre.  Es werden die geschätzten Werte der abhängigen Variable verwendet, da die echten Werte im linearen Regressionsmodell nicht unkorreliert mit den geschätzten Residuen sind. Desweiteren verstoßen die geschätzten Residuen auf Grund ihrer Berechnung gegen die Homoskedastizitätsannahme auch wenn keine Annahmenverletzung vorliegt. Deshalb werden die in Residuenplots immer die standardisierten Residuen (\(r_{i}=\frac{\hat{\epsilon}_{i}}{\hat{\sigma}\sqrt{1-h_{ii}}}\), folgend aus der Schreibweise: \(\hat{\epsilon}=(I-H)y=y-X(X'X)^{-1}X'y\)) gegen die geschätzten Werte der unabhängigen Variable geplottet.

...

Eine weitere Möglichkeit zur Überprüfung der Normalverteilungsannahme der geschätzten Residuen sind Quantil-Quantil (Q-Q) Plots. Hierbei werden die Quantile der Fehlerterme gegen die theoretischen Quantile der Standardnormalverteilung abgetragen. Dieser Q-Q Plot weißt auf starke Abweichungen zwischen den Verteilungen hin. Die Punkte der hohen Quantile liegen über der eingezeichneten Geraden. Liegen alle Punkte auf der Geraden, sind die Verteilungen identisch. Der vorliegende Q-Q Plot spricht für eine linksschiefe Verteilung (positive Schiefe)Verteilung der Fehlerterme die in den unteren Quantilen mit denen der Normalverteilung übereinstimmt, in den hohen jedoch weit größere Werte aufweißt. Neben der graphischen Annahmenprüfung können auch Tests auf Normalverteilung wie der Shapiro-Wilk-Test oder der Kolmogorow-Smirnov-Test durchgeführt werden. Falls die Normalverteilungsannahme nicht erfüllt sein sollte, gibt es die Möglichkeit Variablentransformationen durchzuführen. Ein klassisches Transformationsbeispiel ist die Variable Einkommen. Dieses ist häufig nicht normalverteilt, das durch Logarithmierung transformierte Einkommen jedoch meist schon. 

...

Graph (A) kann als "idealer" Q-Q Plot gesehen werden, wobei die Punkte sehr nahe an oder sogar auf der Gerade liegen. Im Fall (B) hat die Verteilung der Residuen dickeren Enden als die Normalverteilung. Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dünneren Enden als bei einer Normalverteilung (S-Grafik). Grafiken Grafik (D) zeigt eine Verteilung, die im oberen Ende größere Werte aufweißt als die Normalverteilung und (E) zeigen im Vergleich Muster, mit rechtsschiefer und linksschiefer ist die Abbildung einer linksschiefen Verteilung.

 

.         

 

 

 

...