...
Dabei werden folgende Annahme über den Fehlerterm \(\epsilon_i\) getroffen:
- \(\epsilon_{1}, \ldots, \epsilon_{n}\) sind normalverteilt (Die Normalverteilungsannahme wird benötigt, um Standard-Tests im Regressionsmodell durchführen zu können, für die Schätzung an sich ist sie nicht erforderlich) mit Mittelwert 0 (\(E(\epsilon_{i}) = 0\)) und konstante Varianz (\(V(\epsilon_{i}) = \sigma^{2}\); Homoskedastizität).
- \(\epsilon_{1}, \ldots, \epsilon_{n}\) sind unabhängig,
- \( \epsilon_{i}\) und \(X_{i,p} \:(p=1, \ldots, P) \) sind unkorreliert
Etwas weniger technisch lassen sich diese Annahmen wie folgt zusammenfassen:werden in der folgenden Tabelle alle Annahmen, die für das multiple lineare Regressionsmodell (inklusiver der Annahmen über denFehlerterm \(\epsilon_i\)) getroffen werden, dargestellt. In dem nachfolgenden Absatz wird erklärt, wie festgestellt werden kann, ob eine dieser Annahmen verletzt ist.
Annahme | Was bedeutet das wirklich? | Wann wird die Annahme wahrscheinlich verletzt? | Warum is das ein Problem? |
---|---|---|---|
Linearität | Lineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable | Schätzwerte der Koeffizienten sind verzerrt | |
Erwartungswert der Störgröße gleich Null | Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum. | Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Verzerrung der Schätzung von \(\beta_{0}\) |
Unabhängigkeit | verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitig | Abhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter) | Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung |
Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz kon sein für die | Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient). | |
Residuen normalverteilt | Die Fehlerterme folgen eine Normalverteilung | Das kann immer passieren | Konfidenzintervalle und Hypothesentests sind ungültig |
Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren. | Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen) | Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell |
...