Das lineare multiple lineare Regressionsmodell, in seiner allgemeinen Form mit \(P\) Kovariaten, wird folgendermaßen beschrieben:
\[ Y_{i} = \beta_0 + \beta_1 \cdot x_{1i} + \beta_2 \cdot x_{2i} + \ldots + \beta_P \cdot x_{Pi} + \epsilon_i \qquad (i=1,\ldots ,n) \]
...
Annahme | Was bedeutet das wirklich? | Wann wird die Annahme wahrscheinlich verletzt? | Warum is das ein Problem? |
---|---|---|---|
Linearität | Lineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable | Schätzwerte der Koeffizienten sind verzerrt | |
Erwartungswert der Störgröße gleich Null | Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum. | Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Verzerrung der Schätzung von \(\beta_{0}\) |
Unabhängigkeit | verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitig | Abhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter) | Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung |
Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz kon sein für die | Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient). | |
Residuen normalverteilt | Die Fehlerterme folgen eine Normalverteilung | Das kann immer passieren | Konfidenzintervalle und Hypothesentests sind ungültig |
Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren. | Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen) | Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell |
...