Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

AnnahmeWas bedeutet das wirklich?Wann wird die Annahme wahrscheinlich verletzt?Warum is das ein Problem?
LinearitätLineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable Schätzwerte der Koeffizienten sind verzerrt
Erwartungswert der Störgröße gleich Null

Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum.

Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Verzerrung der Schätzung von \(\beta_{0}\)

Unabhängigkeit

verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitigAbhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter)Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung

Homoskedastizität

Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein
Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient).

Residuen normalverteilt

Die Fehlerterme folgen eine NormalverteilungDas kann immer passierenKonfidenzintervalle und Hypothesentests sind ungültig

Nicht-Kollinearität

Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren.Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation miteinander haben untereinander aufweisen (z.B. Brutto- und Nettoeinkommen)
Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell

...

Damit man den F-Test und die t-Tests für die Parameter sinnvoll interpretieren kann, müssen die Residuen normalverteilt sein. Um dies graphisch zu prüfen, kann das Histogramm der standardisierten Residuen verwendet werden.Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung in einem Diagramm dargestellt. Die Form des Histogramms sollte möglichst der der Kurve entsprechen. Das vorliegende Histogramm zeigt, dass die Verteilung der Residuen im Vergleich zur Normalverteilung eher rechtsschief ist. 

...

 

Eine weitere Möglichkeit der Kontrolle zur Überprüfung der Normalverteilungsannahme der geschätzten Residuen sind Quantil-Quantil (Q-Q) Plots. Hierbei werden die Quantile der Fehlerterme gegen die theoretischen Quantile der Standardnormalverteilung abgetragen. Dieser Q-Q Plot weißt auf starke Abweichungen zwischen den Verteilungen hin. Die Punkte in kleinen und hohen Quantilen liegen über der eingezeichneten Geraden. Liegen alle Punkte auf der Geraden, sind die Verteilungen identisch. Der vorliegende Q-Q Plot spricht für eine linksschiefe Verteilung (positive Schiefe). Neben der graphischen Überprüfung der Normalverteilungsannahme Annahmenprüfung können auch Tests auf Normalverteilung wie der Shapiro-Wilk-Test oder der Kolmogorow-Smirnov-Test durchgeführt werden. Falls die Normalverteilungsannahme nicht erfüllt sein sollte, gibt es die Möglichkeit Variablentransformationen durchzuführen. Ein klassisches Beispiel dafür ist die Variable Einkommen. Dieses ist häufig nicht normalverteilt, das durch Logarithmierung transformierte Einkommen jedoch schon. 

...