...
Annahme | Was bedeutet das wirklich? | Wann wird die Annahme wahrscheinlich verletzt? | Warum is das ein Problem? |
---|---|---|---|
Linearität | Lineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable | Schätzwerte der Koeffizienten sind verzerrt, falls der Zusammenhang nichtlinear ist. | |
Erwartungswert der Störgröße gleich Null | Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum. | Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Verzerrung der Schätzung von \(\beta_{0}\) |
Unabhängigkeit der Fehlerterme | verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitig | Abhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter) | Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung |
Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz konstant für alle Beobachtungseinheiten sein | Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient). | |
Residuen normalverteilt | Die Fehlerterme folgen eine Normalverteilung | Das passiert, wenn die berechnete Linearkombination der Kovariaten die Verteilung der unabhängigen Variable nicht gut genug abbilden | Konfidenzintervalle und Hypothesentests sind ungültig |
Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren. | (Multi) Kollinearität liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen) | Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell; möglicherweise werden Koeffizienten insignifikant, obwohl sie Erklärungsgehalt bieten | |
\(Cov(X,\epsilon)=0\) | Unkorreliertheit von unabhängigen Variablen und Störterm | Diese Annahme wird beispielsweise verletzt, wenn nicht alle für das Modell relevanten Kovariate aufgenommen werden (können) und diese mit enthaltenen Variablen korreliert sind | Die geschätzten Koeffizienten der endogenen Variablen sind verzerrt. OLS (kleinste Quadrate Methode) berechnet stets die Parameter, die die Fehler und unabhängigen Variablen unkorreliert erscheinen lassen. |
...