Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Es ist sehr hilfreich sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei beispielsweise extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt starke positive Korrelation (= steigende Gerade). Fall (B) zeigt verdeutlicht hingegen verbildlicht einen Fall in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht ein Beispiel für eine sehr starke lineare Beziehung mit einem extremen Ausreißer. In diesem Fall wird wegen dem Ausreißer ein eher geringer des Ausreißers ein geringerer Korrelationskoeffizient ausgegeben, obwohl für diese Daten die Annahme eines linearen Zusammenhangs (eventuell nach Ausschluss des Ausreißers) sehr sinnvoll ist.  Dieser Ausreißer nimmt auch großen Einfluss auf den Steigungsparameter der Geraden. (D) zeigt ein Beispiel in dem keine Korrelation zwischen den Variablen zu beobachten ist und die Annahme eines linearen Zusammenhangs nicht als sinnvoll erscheint.

Eine andere Möglichkeit zur Überprüfung des linearen Zusammenhangs ist die Benutzung von Partial Residual Plots. Dieses werden verwendet, falls es mehr als eine unabhängige Variable gibt. Problematisch bei mehr als einer unabhängigen Variable ist, dass bei der Erstellung von Scatterplots nicht berücksichtigt wird, dass die anderen unabhängigen Variablen auch Einfluss auf die abhängige Variable nehmen. Bei Partial Residual Plots wird das Verhältnis zwischen einer unabhängigen und der abhängigen Variable unter Berücksichtigung der andere Kovariate anderen im Modell enthaltenen Kovariaten abgebildet. Der linearer Dieser lineare Zusammenhang wird auf dem Schaubild in Form einer roten Geraden dargestellt. Die grüne Gerade repräsentiert die Modellierung des Zusammenhangs durch sogenannte Splines. Sollte der Zusammenhang nicht linear sein, so können eventuell die im weiteren vorgestellten Transformationen dazu benutzt werden, den Zusammenhang zu linearisieren. 

...

Weiterhin wird vorausgesetzt, dass die Residuen unabhängig sind und eine konstante Varianz aufweisen (\( V(\epsilon_{i}) = \sigma^{2}\)," Homoskedastizität"). Dies kann überprüft werden, indem die geschätzten Werte der abhängigen Variablen in einem Streudiagramm gegen die Residuen gezeichnet abgetragen werden (sog. Residuenplot). 

...

Die Punkte in dem Diagramm sollten unsystematisch streuen. Das Auftreten einer Trichterform deutet auf eine Verletzung der Annahme konstanter Varianzen („Heteroskedastizität“) hin. Ist eine Systematik in den Punkten erkennbar, so ist diese meist auf eine Verletzung der Unabhängigkeitsannahme zurückzuführen. In Dem Fall (A) verteilen sich die Residuen ungefähr in einem gleichbleibend dickem horizontalen Band. Hier sind weder Abhängigkeiten, noch Heteroskedastizität erkennbar. Formen die Punkte einen „Trichter“ oder eine „Raute“,  ist dies ein Hinweis auf eine Verletzung der Annahme gleicher Varianzen (Fall Auf den Streudiagrammen (B,C,F) .  Fälle sind "Trichter" oder "Rauten" erkennbar. Das weist also auf die Verletzung der Homoskedastizitätsannahme hin. Fälle wie (D) und (E) zeigen einen quadratischen/ logarithmischen Zusammenhang. Die Residuen streuen also nicht zufällig, sondern es ist eine klare Systematik erkennbar. Oft hängt diese Annahmenverletzung mit Problemen der Nichtlinearität (zwischen abhängiger und unabhängiger Variable) zusammen.

...

Beobachtungen mit großem Einfluss auf die Parameterschätzer lassen sich auch ebenso in dieser Art von Streudiagramm erkennenidentifizieren.


                     

 

Damit man den F-Test und die t-Tests für die Parameter sinnvoll interpretieren kanninterpretiert weden können, müssen die Residuen normalverteilt sein. Um dies graphisch zu prüfen, kann das ein Histogramm der standardisierten Residuen verwendet werden. Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung dargestellt. Die Form des Histogramms sollte möglichst der der Kurve entsprechen. Das vorliegende Histogramm zeigt, dass die Verteilung der Residuen im Vergleich zur Normalverteilung eher rechtsschief ist. 

...

Eine weitere Möglichkeit zur Überprüfung der Normalverteilungsannahme der geschätzten Residuen sind Quantil-Quantil (Q-Q) Plots. Hierbei werden die Quantile der Fehlerterme gegen die theoretischen Quantile der Standardnormalverteilung abgetragen. Dieser Q-Q Plot weißt auf starke Abweichungen zwischen den Verteilungen hin. Die Punkte in kleinen und hohen Quantilen liegen über der eingezeichneten Geraden. Liegen alle Punkte auf der Geraden, sind die Verteilungen identisch. Der vorliegende Q-Q Plot spricht für eine linksschiefe Verteilung (positive Schiefe). Neben der graphischen Annahmenprüfung können auch Tests auf Normalverteilung wie der Shapiro-Wilk-Test oder der Kolmogorow-Smirnov-Test durchgeführt werden. Falls die Normalverteilungsannahme nicht erfüllt sein sollte, gibt es die Möglichkeit Variablentransformationen durchzuführen. Ein klassisches Beispiel dafür Transformationsbeispiel ist die Variable Einkommen. Dieses ist häufig nicht normalverteilt, das durch Logarithmierung transformierte Einkommen jedoch schon. 

...

Graph (A) kann als "idealer" Q-Q Plot gesehen werden, wobei die Punkte sehr nahe an oder sogar auf der Gerade liegen. Im Fall (B) hat die Verteilung der Residuen dünnere Enden als die Normalverteilung.  Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dickeren Enden als bei einer Normalverteilung (S-Grafik).  Grafiken (D) und (E) zeigen eine Muster, mit positiven positivem und negativen negativem Bias.

 

.