Output einer linearen Regression
Die Güte des Modell
1. Gesamtzahl an Beobachtungen: Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. Im Umfragedatensatz gibt es insgesamt 3471 Beobachtungen.
2. Gelöschte Beobachtungen: Bei fehlenden Werten in Variablen werden Beobachtungen für die Modellanalyse gelöscht. Im Beispiel sind dies 52 Beobachtungen.
1. Zahl der Beobachtungen: Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modell genutzt werden. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 3419 Beobachtungen genutzt.
2. Empirischer F-Wert dient zur Überprüfung der Gesamtsignifikanz des Modells. Die F-Statisik gibt den Anteil der erklärten Varianz an der unerklärten Varianz an. Dabei sind die Freiheitsgrade (siehe Anova-Block) zu berücksichtigen, die sich aus der Anzahl der Beobachtungen und der Parameter berechnet. Hier ist jedoch zu beachten, dass mit n die Zahl der Beobachtungen gemeint ist, die auch im Modell genutzt wurden.
$$F = \frac{MS(R)}{MS(F)} = \frac{\frac{SS(R)}{p}}{\frac{SS(F)}{(n −p −1)}} = \frac{\frac{SS(R)}{SS(G)}/p}{\frac{SS(F)}{SS(G)}/(n −p −1)} = \frac{\frac{R^{2}}{p}}{\frac{1-R^{2}}{(n −p −1)}} = \frac{R^{2}}{1-R^{2}} \frac{(n −p −1)}{p} $$
Berechnung der F-Statisik für das Beispiel Körpergewicht-Körpergröße: Die F-Statisik kann über zwei verschiedene Wege berechnet werden. Entweder nutzt man die Mean Squares (MS) bzw. die Sum of Squares (SS) oder das R-Quadrat. Hier sollen einmal beide Wege beispielhaft gezeigt werden. - Nutzen der Mean Squares bzw. Sum of Squares
$$F = \frac{281419.069}{192.830659} = \frac{\frac{281419.069}{1}}{\frac{658902.363}{3417}} = 1459.41$$
- Nutzen des R-Quadrats
$$F = \frac{0.2993}{1-0.2993} \frac{3417}{1} $$
|
---|
3. p-Wert zur F-Statistik:
Die Nullhypothese besagt, dass alle Koeffizienten (\(\beta\))
gleich 0 sind. Hingegen ist die Alternative, dass mindestens ein Koeffizient ungleich 0 ist – es also mindestens eine Kovariate im Modell gibt, die signifikanten Einfluss auf die abhängige Variable ausübt. Im Beispiel liegt der p-Wert für das Regressionsmodell bei ______ < α = 0.05, weswegen die Hypothese des F-Tests abgelehnt werden kann.
4. Empirische Bestimmtheitsmaß R².
R² basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt.
5. Korrigiertes R²
Durch das Hinzufügen einer neuen Kovariaten in das Regressionsmodell kann sich das R² nie verschlechtern. Um das inflationäre Ergänzen von nutzlosen Variablen zu sanktionieren, gibt es das sog. „adjustierte R²“, welches einen „Strafterm“ für jede Kovariate im Modell abzieht und so nur anwächst, wenn Kovariaten ergänzt werden, die das Modell deutlich verbessern.
6. Root MSE: Wurzel der mittleren Abweichungsquadrate des Modells aus dem Anova-Block
Schätzergebnisse
7. GEW: endogene Variable
8. GRO: exogene Variable
9. _const: Konstante
10. Coef.: geschätzte Parameter
11.Standardabweichung der Schätzung (Standardfehler)
12. t: empirischer t-Wert (Coef./ Std. Err.)
13. P > I t I: Wahrscheinlichkeit, dass Nullhypothese (ßi=0) zutrifft.
14. [95% Conf. Intervall]: Bereich, der in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.
Anova-Block
15. ModelSS: erklärte Streuung (MSS)
16. ResidualSS: nicht erklärte Streuung (RSS)
17. TotalSS: Gesamtstreuung (TSS = MSS + RSS)
18. SS: Summe der quadrierten Abweichungen (Sum of Squares)
19. df: Freiheitsgrade
20. MS: mittlere Abweichungsquadrate (MS = SS/df)
Residuen
Die Annahme konstanter Varianzen („Homoskedastizität“) und die Annahme unabhängiger Residuen lassen sich über einen sog. Residuenplot prüfen. Dabei handelt es sich ebenfalls um ein Streudiagramm, in dem auf der Abszisse die geschätzten Werte der abhängigen Variablen und auf der Ordinate die geschätzten Residuen abgetragen wer- den. Die Punkte in dem Diagramm sollten unsystematisch streuen. Das Auftreten einer Trichterform deutet auf eine Verletzung der Annahme konstanter Varianzen („Heteroskedastizität“) hin. Ist eine Systematik in den Punkten erkennbar, so ist diese meist auf eine Verletzung der Unabhängigkeitsannahme zurückzuführen. ???Der Residuenplot für das Beispiel gibt keine Hinweise auf Modellabweichungen.???
Für die geschätzten Residuen lässt sich ein QQ-Plot erstellen, mit dessen Hilfe geprüft werden kann, ob die Residuen εi normalverteilt sind. Für das Beispiel gibt der QQ-Plot keinen Anlass an der Annahme normalverteilter Residuen zu zweifeln: ???