Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 63 Nächste Version anzeigen »

In vielen Fragestellungen ist der Zusammenhang zwischen zwei Variablen X und Y oder mehreren Variablen z.B. X1, X2 und Y von Interesse wie z.B.

  • steigt der Konsum von Eis mit der Temperatur
  • haben Männer ein höheres Einkommen als Frauen oder
  • ist das Einkommen höher mit besserer Bildung und mehr Berufserfahrung

Diese Zusammenhänge können anhand von Funktionen beschrieben werden, die unterschiedliche Formen annehmen können. Die einfachste Form ist der lineare Zusammenhang. Dabei erklärt die Variable X oder mehrere Variablen die Eigenschaften der abhängigen Variable Y. Im Folgenden soll darauf eingegangen werden, wie man die Form der Funktion erkennt und wie man im Falle eines linearen Zusammenhangs diesen adäquat beschreiben kann. Dabei werden Lösungswege in den vier Statistikprogrammen R, SAS, SPSS und Stata zur Verfügung gestellt. Die lineare Regression wird hier beispielhaft erläutert werden, sodass für eine theoretischere Einführung auf Kapitel 19 aus dem Buch Einführung in die Statistik: Analyse und Modellierung von Daten von Rainer Schlittgen sowie Wikipedia - Lineare Regression verwiesen wird.

Inhaltsverzeichnis

Variablen und deren Zusammenhang

Auch wenn es plausibel erscheint, dass der Zusammenhang zwischen zwei Variablen linear ist, geht jeder Regression voraus, den Zusammenhang aus den gegebenen Daten zu erkennen. Dafür ist auch das Skalenniveau der Variablen relevant, um eine sinnvolle Abbildung zu bekommen. Bei einer Regression, d.h. eine Variable X erklärt eine Variable Y gibt es die Möglichkeiten, dass X metrisch oder kategorial ist ebenso wie Y metrisch oder kategorial sein kann.

Für das erste Beispiel sind sowohl die erklärende Variable X, als auch die abhängige Variable Y metrisch.

Einführung in das Bespiel: Körpergewicht und Körpergröße

Die Variablen, anhand derer hier der Zusammenhang zweier metrischer Variablen erklärt werden soll, sind das Körpergewicht und die Körpergröße. Die Variablen entstammen dem Datensatz Umfragedaten. Das Körpergewicht wird in kg und die Körpergröße in cm gemessen. Meistens unterliegt einer statistischen Fragestellung eine theoretische Hypothese. In diesem Beispiel soll folgende Hypothese überprüft werden:

Hypothese: Das Körpergewicht steigt mit zunehmender Körpergröße.

Für einen ersten Überblick über die beiden Variablen bieten sich für das entsprechende Skalenniveau passende Maße an. Bei metrischen Variablen können dies z.B. der Mittelwert oder der Median sowie das Minumum und das Maximum sein. In diesem Beispiel liegt das durchschnittliche Körpergewicht bei ca. 78kg und die Körpergröße im Schnitt bei ca. 172cm (siehe Abschnitt 1 in den Beispielcodes).

Zur Überprüfung der Hypothese reichen jedoch keine Informationen über die einzelnen Variablen, sondern es soll ein Zusammenhang zwischen diesen beiden herausgestellt werden. Eine einfache Methode ist die Variablen in einem Streudiagramm darzustellen, in denen jeweils eine Kovariate gegen die abhängige Variable geplottet wird. Da hier das Körpergewicht mit Hilfe der Körpergröße erklärt werden soll, wird das Körpergewicht auf der Y-Achse und die Körpergröße auf der X-Achse abgebildet (siehe Abschnitt 2.1. in den Beispielcodes). 

 

 

 

                                                                              Streudiagramme

Streudiagramm

Dieses Streudiagramme bilden die Wertepaare (GRO,GEW) des Datensatzes Umfragedaten ab. Das rechte Streudiagramm berücksichtigt im Vergleich zum linken Streudiagramm, dass einige Wertepaare häufiger Vorkommen als andere. Beide Streudiagramme wurden erstellt mit der Software Stata.

Output einer linearen Regression

 

Die Güte des Modell

1. Gesamtzahl an Beobachtungen: Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. Im Umfragedatensatz gibt es insgesamt 3471 Beobachtungen.

2. Gelöschte Beobachtungen: Bei fehlenden Werten in Variablen werden Beobachtungen für die Modellanalyse gelöscht. Im Beispiel sind dies 52 Beobachtungen.

1. Zahl der Beobachtungen: Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modell genutzt werden. Das bedeutet, dass diese Anzahl sich aus der Differenz der  Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 3419 Beobachtungen genutzt.

2. Empirischer F-Wert dient zur Überprüfung der Gesamtsignifikanz des Modells. Die F-Statisik gibt den Anteil der erklärten Varianz an der unerklärten Varianz an. Dabei sind die Freiheitsgrade (siehe Anova-Block) zu berücksichtigen, die sich aus der Anzahl der Beobachtungen und der Parameter berechnet. Hier ist jedoch zu beachten, dass mit n die Zahl der Beobachtungen und mit p die Zahl der Einflußvariablen (Parameter) gemeint ist, die auch im Modell genutzt wurden.

$$F = \frac{MS(R)}{MS(F)} = \frac{\frac{SS(R)}{p}}{\frac{SS(F)}{(n −p −1)}}  = \frac{\frac{SS(R)}{SS(G)}/p}{\frac{SS(F)}{SS(G)}/(n −p −1)} = \frac{\frac{R^{2}}{p}}{\frac{1-R^{2}}{(n −p −1)}}  = \frac{R^{2}}{1-R^{2}} \frac{(n −p −1)}{p} $$

Berechnung der F-Statisik für das Beispiel Körpergewicht-Körpergröße:

Die F-Statisik kann über zwei verschiedene Wege berechnet werden. Entweder nutzt man die Mean Squares (MS) bzw. die Sum of Squares (SS) oder das R-Quadrat. Hier sollen einmal beide Wege beispielhaft gezeigt werden.

  1. Nutzen der Mean Squares bzw. Sum of Squares

    $$F = \frac{281419.069}{192.830659} = \frac{\frac{281419.069}{1}}{\frac{658902.363}{3417}} = 1459.41$$

  2. Nutzen des R-Quadrats

    $$F = \frac{0.2993}{1-0.2993} \frac{3417}{1} = 1459.41$$

 

3. p-Wert zur F-Statistik:

Die Nullhypothese besagt, dass alle Koeffizienten gleich 0 sind. Hingegen ist die Alternative, dass mindestens ein Koeffizient ungleich 0 ist – es also mindestens eine Kovariate im Modell gibt, die signifikanten Einfluss auf die abhängige Variable ausübt.Die Nullhypothese wird abgelehnt, wenn der p-Wert kleiner ist als ein gewähltes Signifikanzniveau.

Interpretation im Beispiel Körpergewicht-Körpergröße:

Der p-Wert für das Regressionsmodell liegt bei 0.0000 und ist somit kleiner als ein Signifikanzniveau α = 0.05. Daher kann die Nullhypothese des F-Tests, dass alle Koeffizienten gemeinsam gleich 0 sind, abgelehnt werden. 

 

4. Empirische Bestimmtheitsmaß R². 

R² basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß ist der Quotient aus erklärter Varianz und Gesamtvarianz.

$$R^{2} = \frac{SS(R)}{SS(G)} \frac{\sum_{i=1}^{n} (\hat{y}_{i} - \bar{y})^{2}}{\sum_{i=1}^{n} (y - \bar{y})^{2}} = 1 - \frac{\sum_{i=1}^{n} (y_{i} - \hat{y})^{2}}{\sum_{i=1}^{n} (y - \bar{y})^{2}}$$

Berechnung des Bestimmtheitsmaßes für das Beispiel Körpergewicht-Körpergröße:

$$R^{2} = \frac{281419.069}{940321.433} = 1- \frac{658902.363}{940321.433} = 0.2993$$


5. Korrigiertes R²

Durch das Hinzufügen einer neuen Kovariaten in das Regressionsmodell kann sich das R² nie verschlechtern. Um das inflationäre Ergänzen von nutzlosen Variablen zu sanktionieren, gibt es das sog. „adjustierte R²“. Dies zieht für jede Kovariate im Modell einen „Strafterm“ ab und wächst somit nur an, wenn Kovariaten ergänzt werden, die das Modell deutlich verbessern.

 $$R^{2} =  1 - \frac{\frac{1}{n-p-1} \sum_{i=1}^{n} (y_{i} - \hat{y})^{2}}{\frac{1}{n-1} \sum_{i=1}^{n} (y - \bar{y})^{2}}$$

Berechnung des korrigierten Bestimmtheitsmaßes für das Beispiel Körpergewicht-Körpergröße:

 $$R^{2} =  1 - \frac{\frac{1}{-p-1} \sum_{i=1}^{n} (y_{i} - \hat{y})^{2}}{\frac{1}{n-1} \sum_{i=1}^{n} (y - \bar{y})^{2}}$$


6. Standardfehler des Schätzers. Das ist die Wurzel der mittleren Abweichungsquadrate des Modells aus dem Anova-Block und bescreibt die standard Abweichung der Beobachtungen von Prognosewerte:

$$\sqrt{MS(F)}$$

 

 

Schätzergebnisse

7. Abhängige oder endogene Variable: Im Beispiel ist das Körpergewicht (GEW) die abhänige Variable.

8. Erklärende oder exogene Variable: Im Beispiel ist die Körpergröße (GRO) die erklärende Variable.

9. Konstante:

10. geschätzte Parameter: Bei einer linearen Einfachregression gibt es zwei geschätzte Parameter. Einen Achsenabschnitt, der der Parameter für die Konstante ist. Dieser Parameter gibt den geschätzten Wert der abhängigen Variablen an, wenn alle Kovariaten gleich 0 sind.  Der zweite Parameter ist ein Steigungsparameter, der angibt, wie stark die erklärende Variable die abhängige Variable beeinflusst.

Interpretation der Parameter im Beispiel Körpergewicht-Körpergröße:

Der Parameter für die Konstante entspricht -88.37256. Das bedeutet, dass bei einer Körpergröße von 0 cm das geschätzte Körpergewicht bei ca. -88 kg liegen würde. Dies macht natürlich keinen Sinn, weil eine Körpergröße von 0 cm unplausibel ist. Dem Überblick über die Variable Körpergröße kann man entnehmen, dass die kleinste Person eine Körpergröße von 143 cm angegeben hat.

Der Steigungsparameter entspricht .9643048. Das bedeutet, dass pro Centimeter das Gewicht um ca. 0.96 kg steigt.

11.Standardabweichung der Schätzung (Standardfehler)

12. t: empirischer t-Wert (Coef./ Std. Err.)

13. P > I t I: Wahrscheinlichkeit, dass Nullhypothese (ßi=0) zutrifft.

14. [95% Conf. Intervall]: Bereich, der in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.

 

Anova-Block

15. Modell-Quadratsumme/Regressions-Quadratsumme (SS(R)): Mit SS(R) wird die Varianz der abhängigen Variablen angegeben, die durch das Modell bzw. durch die Regression erklärt werden kann. $$\sum_{i=1}^{n} (\hat{y}_{i} - \bar{y})^{2}$$

16. Residuen-Quadratsumme (SS(F)): Die Varianz, die nicht durch das Modell bzw. die Regression erklärt werden kann, wird mit SS(F) beschrieben.

17. TotalSS: Gesamtstreuung (TSS = MSS + RSS)

18. SS: Summe der quadrierten Abweichungen (Sum of Squares)

19. df: Freiheitsgrade

20. MS: mittlere Abweichungsquadrate (MS = SS/df)

 

Residuen


Die Annahme konstanter Varianzen („Homoskedastizität“) und die Annahme unabhängiger Residuen lassen sich über einen sog. Residuenplot prüfen. Dabei handelt es sich ebenfalls um ein Streudiagramm, in dem auf der Abszisse die geschätzten Werte der abhängigen Variablen und auf der Ordinate die geschätzten Residuen abgetragen wer- den. Die Punkte in dem Diagramm sollten unsystematisch streuen. Das Auftreten einer Trichterform deutet auf eine Verletzung der Annahme konstanter Varianzen („Heteroskedastizität“) hin. Ist eine Systematik in den Punkten erkennbar, so ist diese meist auf eine Verletzung der Unabhängigkeitsannahme zurückzuführen. ???Der Residuenplot für das Beispiel gibt keine Hinweise auf Modellabweichungen.???


Für die geschätzten Residuen lässt sich ein QQ-Plot erstellen, mit dessen Hilfe geprüft werden kann, ob die Residuen εi normalverteilt sind. Für das Beispiel gibt der QQ-Plot keinen Anlass an der Annahme normalverteilter Residuen zu zweifeln: ???


 

Bildergalerie

  • Keine Stichwörter