Seitenhistorie

Jede empirische Arbeit wird mehrere statistische Modelle prüfen. Daher wird man von einfachen Standardmodellen zu immer komplexeren Modellen wechseln. Doch wo hört man auf? Welches Modell passt noch zu meinen Daten? Die Beantwortung dieser Frage ist oft entscheidend für den Ausgang der Arbeit , und der/die Forscher/-in sollte in der Lage sein, hierauf eine eigene Antwort zu finden. Die Bestimmung eines geeigneten Modells ist keine leichte Aufgabe. Sie steht unter dem Verdikt: ''All models are wrong! But some are more useful than others.''

In diesem Kapitel werden Methoden vorgestellt, die helfen, die Güte des Models Modells festzustellen bzw. ein passendes Model Modell auszuwählen. Vorraussetzung Voraussetzung hierfür ist ein statistisches Model, das wie im Kapitel Standardauswertungen erklärt erstellt worden ist.

Wahl der Modellklasse:

lin. Reg.

lineare Regression, Logit

etc

Modell etc.

Modellselektion AIC/BIC

Residuenplots

Das im vorherigen Abschnitt vorgestellte Modell in seiner allgemeinen Form mit $P$ Kovariaten basiert auf folgenden Modellannahmen:
\[ Y_{i} = \beta_0 + \beta_1 \cdot x_{1i} + \beta_2 \cdot x_{2i} + \ldots + \beta_P \cdot x_{Pi} + \epsilon_i \qquad (i=1,\ldots ,n) \]

Residuenplots

Bestimmheitsmaß R²

Modellselektion (AIC, BIC, Pseudo R², ...)

\[ \epsilon_{1},\ldots ,\epsilon_{n}\] sind normalverteilte (Die Normalverteilungsannahme wird benötigt, um Standard-Tests im Regressionsmodell durchführen zu können, für die Schätzung an sich ist sie nicht erforderlich)

\[E(\epsilon_{i}) = 0 \]
\[V(\epsilon_{i}) = \sigma ^{2}\]

\[ \epsilon_{1},\ldots , \epsilon_{n}\] sind unabhängig
\[ \epsilon_{i} und X_{i,p}\: (p = 1, \ldots, P)\] sind unkorreliert.

Etwas weniger technisch lassen sich diese Annahmen wie folgt zusammenfassen:

Linearität
Unabhängigkeit
Homoskedastizität
Residuen normalverteilt
Nicht-Kollinearität

Zunächst sollte untersucht werden, ob zwischen den metrischen unabhängigen Variablen und der abhängigen Variable überhaupt ein linearer Zusammenhang besteht. Dies lässt
sich graphisch anhand von Streudiagrammen überprüfen. Sollte der Zusammenhang nicht linear sein, so können eventuell die vorgestellten Transformationen genutzt werden, um den Zusammenhang zu linearisieren. Weiterhin wird vorausgesetzt, dass die Residuen unabhängig sind und eine konstante Varianz aufweisen. Dies kann überprüft werden, indem die geschätzten Werte der abhängigen Variablen in einem Streudiagramm gegen die Residuen gezeichnet werden (sog. Residuen- plot).

Die Punkte im Residuenplot sollten ohne Systematik streuen. Eine Systematik deutet auf Abhängigkeiten hin, die nicht berücksichtigt wurden. Formen die Punkte einen „Trichter“
ist dies ein Hinweis auf eine Verletzung der Annahme gleicher Varianzen. Damit man den F-Test und die t-Tests für die Parameter sinnvoll interpretieren kann, müssen die Residuen zudem normalverteilt sein.

Um dies graphisch zu prüfen, können im Dialogfeld „Diagramme“ (s. Beispiel oben) zusätzlich die Optionen „Histogramm“ und „Normalverteilungsdiagramm“ ausgewählt werden. Der Output wird dann um ein Histogramm der standardisierten Residuen, dem die Dichte der Standardnormalverteilung überlagert ist, ergänzt. Die Form des Histogramms sollte möglichst der der Kurve entsprechen. Eine weitere Möglichkeit der Kontrolle ist über das P-P-Diagramm gegeben. Das P-P-Diagramm ist analog zum QQ-Plot zu interpretieren, wobei statt der Quantile die kumulierte relative Häuﬁgkeit gegen die erwartete kumulierte Wahrscheinlichkeit abgetragen wird.

Diese Diagramme überprüfen, ob Normalverteilung bei den Residuen vorliegt. Das Histogramm zeigt, dass die Verteilung der Residuen im Vergleich zu Normalverteilung eher rechtsschief ist. Das P-P-Diagramm zeigt große Abweichungen von der 45◦ Linie. Das weißt auch auf einer Abweichung der Residuen von der Normalverteilung ab. Zusätzlich kann der Kolmogorow-Smirnow-Test oder der Shapiro-Wilk-Test zu Überprüfung der Normalverteilung angewendet werden.

Bestimmheitsmaß R^2

(Nur mit FU-Login. Ohne Login besuchen Sie bitte die Seite unseres Kooperationspartners INWT-Statistics GmbH, auf der der Wikiartikel basiert.)

Info

title	Aufbau

fu:stat thesis befindet sich momentan noch im Aufbau. Neue Artikel werden regelmäßig veröffentlicht. Sollten Sie Fehler finden, selbst kleine, oder Feedback haben, dann schicken Sie uns bitte eine kurze E-Mail an thesis@stat.fu-berlin.de

bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben.

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 39

Neue Version Aktuell

Schlüssel

Wahl der Modellklasse:

lineare Regression, Logit

Modell etc.

Modellselektion AIC/BIC

Residuenplots

Residuenplots

Bestimmheitsmaß R²

Modellselektion (AIC, BIC, Pseudo R², ...)

(Nur mit FU-Login. Ohne Login besuchen Sie bitte die Seite unseres Kooperationspartners INWT-Statistics GmbH, auf der der Wikiartikel basiert.)