Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.
Kommentar: Rechtschreibung

Jede empirische Arbeit wird mehrere statistische Modelle prüfen. Daher wird man von einfachen Standardmodellen zu immer komplexeren Modellen wechseln. Doch wo hört man auf? Welches Modell passt noch zu meinen Daten? Die Beantwortung dieser Frage ist oft entscheidend für den Ausgang der Arbeit , und der/die Forscher/-in sollte in der Lage sein, hierauf eine eigene Antwort zu finden. Die Bestimmung eines geeigneten Modells ist keine leichte Aufgabe. Sie steht unter dem Verdikt: ''All models are wrong! But some are more useful than others.''

In diesem Kapitel werden Methoden vorgestellt, die helfen, die Güte des Models Modells festzustellen bzw. ein passendes Model Modell auszuwählen. Vorraussetzung Voraussetzung hierfür ist ein statistisches Model, das wie im Kapitel Standardauswertungen erklärt erstellt worden ist. 


Wahl der Modellklasse:

lin. Reg.

lineare Regression, Logit

etc

Modell etc.

Modellselektion AIC/BIC

Residuenplots

Das im vorherigen Abschnitt vorgestellte Modell, in seiner allgemeinen Form mit \(P\) Kovariaten, basiert auf folgenden Modellannahmen:
\[ Y_{i} = \beta_0 + \beta_1 \cdot x_{1i} + \beta_2 \cdot x_{2i} + \ldots + \beta_P \cdot x_{Pi} + \epsilon_i \qquad (i=1,\ldots ,n) \]

  1. \(\epsilon_{1}, \ldots, \epsilon_{n}\) sind normalverteilte (Die Normalverteilungsannahme wird benötigt, um Standard-Tests im Regressionsmodell durchführen zu können, für die Schätzung an sich ist sie nicht erforderlich)

    $$E(\epsilon_{i}) = 0 $$

    $$V(\epsilon_{i}) = \sigma^{2}$$

  2. \(\epsilon_{1}, \ldots, \epsilon_{n}\) sind unabhängig 
  3. \( \epsilon_{i}\) und \(X_{i,p} \:(p=1, \ldots, P) \) sind unkorreliert 

Etwas weniger technisch lassen sich diese Annahmen wie folgt zusammenfassen:

  • Linearität
  • Unabhängigkeit
  • Homoskedastizität
  • Residuen normalverteilt
  • Nicht-Kollinearität

Die Gültigkeit der Annahmen sollte geprüft werden.

Zunächst sollte untersucht werden, ob zwischen den metrischen unabhängigen Variablen und der abhängigen Variable überhaupt ein linearer Zusammenhang besteht. Dies lässt sich graphisch anhand von Streudiagrammen überprüfen. Andere Möglichkeit ist die sogenannte Partial Residual Plot zu benutzen. Sollte der Zusammenhang nicht linear sein, so können eventuell die vorgestellten Transformationen genutzt werden, um den Zusammenhang zu linearisieren. 

Image Removed

Weiterhin wird vorausgesetzt, dass die Residuen unabhängig sind und eine konstante Varianz aufweisen (\( v(\epsilon_{i}) = \sigma^{2}\)," Homoskedastizität"). Dies kann überprüft werden, indem die geschätzten Werte der abhängigen Variablen in einem Streudiagramm gegen die Residuen gezeichnet werden (sog. Residuen- plot). 

Dabei handelt es sich ebenfalls um ein Streudiagramm, in dem auf der Abszisse die geschätzten Werte der abhängigen Variablen und auf der Ordinate die geschätzten Residuen abgetragen werden. Die Punkte in dem Diagramm sollten unsystematisch streuen. Das Auftreten einer Trichterform deutet auf eine Verletzung der Annahme konstanter Varianzen („Heteroskedastizität“) hin. Ist eine Systematik in den Punkten erkennbar, so ist diese meist auf eine Verletzung der Unabhängigkeitsannahme zurückzuführen.

Image Removed

 

Die Punkte im Residuenplot sollten ohne Systematik streuen. Eine Systematik deutet auf Abhängigkeiten hin, die nicht berücksichtigt wurden. Formen die Punkte einen „Trichter“ ist dies ein Hinweis auf eine Verletzung der Annahme gleicher Varianzen. Damit man den F-Test und die t-Tests für die Parameter sinnvoll interpretieren kann, müssen die Residuen zudem normalverteilt sein. Um dies graphisch zu prüfen, können im Dialogfeld „Diagramme“ (s. Beispiel oben) zusätzlich die Optionen „Histogramm“ und „Normalverteilungsdiagramm“ ausgewählt werden. Der Output wird dann um ein Histogramm der standardisierten Residuen, dem die Dichte der Standardnormalverteilung überlagert ist, ergänzt. Die Form des Histogramms sollte möglichst der der Kurve entsprechen. Eine weitere Möglichkeit der Kontrolle ist über das P-P-Diagramm gegeben. Das P-P-Diagramm ist analog zum QQ-Plot zu interpretieren, wobei statt der Quantile die kumulierte relative Häufigkeit gegen die erwartete kumulierte Wahrscheinlichkeit abgetragen wird.

Image Removed

Image Removed

 

Diese Diagramme überprüfen, ob Normalverteilung bei den Residuen vorliegt. Das Histogramm zeigt, dass die Verteilung der Residuen im Vergleich zu Normalverteilung eher rechtsschief ist. Das Q-Q-Diagramm zeigt große Abweichungen von der 45◦ Linie. Das weißt auch auf einer Abweichung der Residuen von der Normalverteilung ab. Zusätzlich kann der Kolmogorow-Smirnow-Test oder der Shapiro-Wilk-Test zu Überprüfung der Normalverteilung angewendet werden.

Bestimmheitsmaß R^2 

Residuenplots

Bestimmheitsmaß R2

Modellselektion (AIC, BIC, Pseudo R2 , ...)

((Nur mit FU-Login. Ohne Login besuchen Sie bitte die Seite unseres Kooperationspartners INWT-Statistics GmbH, auf der der Wikiartikel basiert.)

 



Info
titleAufbau

fu:stat thesis befindet sich momentan noch im Aufbau. Neue Artikel werden regelmäßig veröffentlicht. Sollten Sie Fehler finden, selbst kleine, oder Feedback haben, dann schicken Sie uns bitte eine kurze E-Mail an thesis@stat.fu-berlin.de

 

 

bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben.