Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

  1. \(\epsilon_{1}, \ldots, \epsilon_{n}\) sind normalverteilt (Die Normalverteilungsannahme wird benötigt, um Standard-Tests im Regressionsmodell durchführen zu können, für die Schätzung an sich ist sie nicht erforderlich) mit Mittelwert 0 (\(E(\epsilon_{i}) = 0\)) und konstante Varianz (\(V(\epsilon_{i}) = \sigma^{2}\); Homoskedastizität).
  2. \(\epsilon_{1}, \ldots, \epsilon_{n}\) sind unabhängig,
  3. \( \epsilon_{i}\) und \(X_{i,p} \:(p=1, \ldots, P) \) sind unkorreliert 

...

 Annahmen des multiplen linearen Regressionsmodells

Etwas weniger technisch werden in der folgenden Tabelle alle Annahmen, die für das multiple lineare Regressionsmodell (inklusiver der Annahmen über denFehlerterm \(\epsilon_i\))   getroffen werden, dargestellt. In dem nachfolgenden Absatz wird erklärt, wie festgestellt werden kann, ob eine dieser Annahmen verletzt ist.

AnnahmeWas bedeutet das wirklich?Wann wird die Annahme wahrscheinlich verletzt?Warum is das ein Problem?
LinearitätLineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable Schätzwerte der Koeffizienten sind verzerrt
Erwartungswert der Störgröße gleich Null

Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum.

Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Verzerrung der Schätzung von \(\beta_{0}\)

Unabhängigkeit

verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitigAbhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter)Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung

Homoskedastizität

Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz kon sein für die
Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient).

Residuen normalverteilt

Die Fehlerterme folgen eine NormalverteilungDas kann immer passierenKonfidenzintervalle und Hypothesentests sind ungültig

Nicht-Kollinearität

Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren.Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen)
Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell

Überprüfung der Annahmen des multiplen linearen Regressionsmodells:

Die Gültigkeit der Annahmen sollte geprüft werden.Annahmen, welche in der vorherigen Tabelle beschrieben worden sind, sollten vor einer multiplen linearen Regressionsanalyse überprüft werden.

linearer Zusammenhang

Zunächst sollte untersucht werden, ob zwischen den metrischen unabhängigen Variablen und der abhängigen Variable überhaupt ein linearer Zusammenhang besteht. Dies lässt sich graphisch grafisch anhand von Streudiagrammen überprüfen.

                                           

Wenn die Beziehung zwischen zwei Variablen nichtlinear ist oder wenn Ausreißer vorhanden sind, schätzt der Korrelationskoeffizient die Stärke der Beziehung falschEs ist sehr hilfreich sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei beispielsweise extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt starke positive Korrelation (= steigende Gerade). Fall (B) zeigt einen unpassenden, da nichtlinearen Zusammenhangzeigt verdeutlicht einen Fall in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht einen Fall, in dem es eine sehr ein Beispiel für eine sehr starke lineare Beziehung gibt, mit der Ausnahme einer Beobachtung. Diese hat jedoch einen großen mit einem extremen Ausreißer. In diesem Fall wird wegen dem Ausreißer ein eher geringer Korrelationskoeffizient ausgegeben, obwohl für diese Daten die Annahme eines linearen Zusammenhangs (eventuell nach Ausschluss des Ausreißers) sehr sinnvoll ist. Dieser Ausreißer nimmt auch großen Einfluss auf den Steigungsparameter der Geraden. (D) zeigt ein Beispiel in dem keine Korrelation zwischen den Variablen zu beobachten ist und die Annahme eines linearen Zusammenhangs nicht als sinnvoll erscheint.

Eine andere Möglichkeit Möglichkeit zur Überprüfung des linearen Zusammenhangs ist die sogenannte Partial Residual Plot zu benutzen. Hierbei wird Benutzung von Partial Residual Plots. Dieses werden verwendet, falls es mehr als eine unabhängige Variable gibt. Problematisch bei mehr als einer unabhängigen Variable ist, dass bei der Erstellung von Scatterplots nicht berücksichtigt wird, dass die anderen unabhängigen Variablen auch Einfluss auf die abhängige Variable nehmen. Bei Partial Residual Plots wird das Verhältnis zwischen einer unabhängigen und der abhängigen Variable unter Berücksichtigung der Voraussetzung abgebildet, dass auch andere Kovariate im Modell enthalten sindabgebildet. Ein Der linearer Zusammenhang wird auf dem Schaubild in Form einer roten Geraden dargestellt. Die grüne Gerade repräsentiert die Modellierung des Zusammenhangs durch sogenannte Splines. Sollte der Zusammenhang nicht linear sein, so können eventuell die im weiteren vorgestellten Transformationen dazu benutzt werden, den Zusammenhang zu linearisieren. 

                           

Unabhängigkeit und Homoskedastizität

Weiterhin wird vorausgesetzt, dass die Residuen unabhängig sind und eine konstante Varianz aufweisen (\( V(\epsilon_{i}) = \sigma^{2}\)," Homoskedastizität"). Dies kann überprüft werden, indem die geschätzten Werte der abhängigen Variablen in einem Streudiagramm gegen die Residuen gezeichnet werden (sog. Residuenplot). 

...

Die Punkte in dem Diagramm sollten unsystematisch streuen. Das Auftreten einer Trichterform deutet auf eine Verletzung der Annahme konstanter Varianzen („Heteroskedastizität“) hin. Ist eine Systematik in den Punkten erkennbar, so ist diese meist auf eine Verletzung der Unabhängigkeitsannahme zurückzuführen. In Dem Fall (A) verteilen sich die Residuen ungefähr in einem gleichbleibend dickem horzontalen horizontalen Band. Hier sind weder Abhängigkeiten, noch Heteroskedastizität erkennbar. Formen die Punkte einen „Trichter“ oder eine „Raute“,  ist dies ein Hinweis auf eine Verletzung der Annahme gleicher Varianzen (Fall B, C, F).  Fälle wie (D) und (E) zeigen einen quadratischen/ logarithmischen Zusammenhang. Die Residuen streuen also nicht zufällig, sondern es ist eine klare Systematik erkennbar. Oft hängt diese Annahmenverletzung mit Problemen der Nichtlinearität (zwischen abhängiger und unabhängiger Variable) zusammen.

...