Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Etwas weniger technisch werden in der folgenden Tabelle alle Annahmen, die für das multiple lineare Regressionsmodell (inklusiver inklusive der Annahmen über denFehlerterm den Fehlerterm \(\epsilon_i\))   getroffen werden, dargestellt. In dem nachfolgenden Absatz wird erklärt, wie festgestellt werden kann, ob eine dieser Annahmen verletzt ist.

AnnahmeWas bedeutet das wirklich?Wann wird die Annahme wahrscheinlich verletzt?Warum is das ein Problem?
LinearitätLineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable Schätzwerte der Koeffizienten sind verzerrt
Erwartungswert der Störgröße gleich Null

Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum.

Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Verzerrung der Schätzung von \(\beta_{0}\)

Unabhängigkeit

verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitigAbhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter)Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung

Homoskedastizität

Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz kon sein für die
Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient).

Residuen normalverteilt

Die Fehlerterme folgen eine NormalverteilungDas kann immer passierenKonfidenzintervalle und Hypothesentests sind ungültig

Nicht-Kollinearität

Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren.Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen)
Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell
\(Cov(X,\epsilon)=0\)Unkorreliertheit von unabhängigen Variablen und Störterm

Beispielsweise in einer linearen Regression, mit omitted variable bias (dh. nicht alle für das Modell wichtigen Variablen wurden aufgenommen)

Die geschätzten Koeffizienten der endogenen Variablen sind nicht  unverzerrt. OLS berechnet einfach die Parameter, die die Fehler und unabhängigen Variablen unkorreliert erscheinen lassen.

Überprüfung der Annahmen des multiplen linearen Regressionsmodells:

...