- Angelegt von Ann-Kristin Kreutzmann, zuletzt geändert am 04.11.2015
Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.
Unterschiede anzeigen Seitenhistorie anzeigen
« Vorherige Version anzeigen Version 16 Nächste Version anzeigen »
In vielen Fragestellungen ist der Zusammenhang zwischen zwei Variablen X und Y oder mehreren Variablen z.B. X1, X2 und Y von Interesse wie z.B.
- steigt der Konsum von Eis mit der Temperatur
- haben Männer ein höheres Einkommen als Frauen oder
- ist das Einkommen höher mit besserer Bildung und mehr Berufserfahrung
Diese Zusammenhänge können anhand von Funktionen beschrieben werden, die unterschiedliche Formen annehmen können. Die einfachste Form ist der lineare Zusammenhang. Dabei erklärt die Variable X oder mehrere Variablen die Eigenschaften der abhängigen Variable Y. Im Folgenden soll darauf eingegangen werden, wie man die Form der Funktion erkennt und wie man im Falle eines linearen Zusammenhangs diesen adäquat beschreiben kann. Dabei werden Lösungswege in den vier Statistikprogrammen R, SAS, SPSS und Stata zur Verfügung gestellt. Die lineare Regression wird hier beispielhaft erläutert werden, sodass für eine theoretischere Einführung auf Kapitel 19 aus dem Buch Einführung in die Statistik: Analyse und Modellierung von Daten von Rainer Schlittgen sowie Wikipedia - Lineare Regression verwiesen wird.
Inhaltsverzeichnis
Variablen und deren Zusammenhang
Auch wenn es plausibel erscheint, dass der Zusammenhang zwischen zwei Variablen linear ist, geht jeder Regression voraus, den Zusammenhang aus den gegebenen Daten zu erkennen. Dafür ist auch das Skalenniveau der Variablen relevant, um eine sinnvolle Abbildung zu bekommen. Bei einer Regression, d.h. eine Variable X erklärt eine Variable Y gibt es die Möglichkeiten, dass X metrisch oder kategorial ist ebenso wie Y metrisch oder kategorial sein kann.
Für das erste Beispiel sind sowohl die erklärende Variable X, als auch die abhängige Variable Y metrisch.
Einführung in das Bespiel: Körpergewicht und Körpergröße Die Variablen, anhand derer hier der Zusammenhang zweier metrischer Variablen erklärt werden soll, sind das Körpergewicht und die Körpergröße. Die Variablen entstammen dem Datensatz Umfragedaten. Das Körpergewicht wird in kg und die Körpergröße in cm gemessen. Meistens unterliegt einer statistischen Fragestellung eine theoretische Hypothese. In diesem Beispiel soll folgende Hypothese überprüft werden: Hypothese: Das Körpergewicht steigt mit zunehmender Körpergröße. |
---|
Für einen ersten Überblick über die beiden Variablen bieten sich für das entsprechende Skalenniveau passende Maße an. Bei metrischen Variablen können dies z.B. der Mittelwert oder der Median sowie das Minumum und das Maximum sein. In diesem Beispiel liegt das durchschnittliche Körpergewicht bei ca. 78kg und die Körpergröße im Schnitt bei ca. 172cm (siehe Abschnitt 1 in den Beispielcodes).
Zur Überprüfung der Hypothese reichen jedoch keine Informationen über die einzelnen Variablen, sondern es soll ein Zusammenhang zwischen diesen beiden herausgestellt werden. Eine einfache Methode ist die Variablen in einem Streudiagramm darzustellen. Da hier das Körpergewicht mit Hilfe der Körpergröße erklärt werden soll, wird das Körpergewicht auf der Y-Achse und die Körpergröße auf der X-Achse abgebildet (siehe Abschnitt 2.1. in den Beispielcodes).
Streudiagramme
Streudiagramm
Dieses Streudiagramme bilden die Wertepaare (GRO,GEW) des Datensatzes Umfragedaten ab. Das rechte Streudiagramm berücksichtigt im Vergleich zum linken Streudiagramm, dass einige Wertepaare häufiger Vorkommen als andere. Beide Streudiagramme wurden erstellt mit der Software Stata.
Output einer linearen Regression
Die Güte des Modells
1. Number of obs: Zahl der Beobachtungen
2. F( 2, 25): empirischer F-Wert zur Überprüfung der Gesamtsignifikanz des Modells
3. Prob > F Wahrscheinlichkeit, dass alle Parameter ßi in GG Null sind.
4. R-squared: Bestimmtheitsmaß R²
5. Adj R-squared: korrigiertes R²
6. Root MSE: Wurzel der mittleren Abweichungsquadrate des Modells aus dem Anova-Block
Schätzergebnisse
7. GEW: endogene Variable
8. GRO: exogene Variable
9. _const: Konstante
10. Coef.: geschätzte Parameter
11. Std. Err.: Standardfehler
12. t: empirischer t-Wert (Coef./ Std. Err.)
13. P > I t I: Wahrscheinlichkeit, dass Nullhypothese (ßi=0) zutrifft.
14. [95% Conf. Intervall]: Bereich, der in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.
Anova-Block
15. ModelSS: erklärte Streuung (MSS)
16. ResidualSS: nicht erklärte Streuung (RSS)
17. TotalSS: Gesamtstreuung (TSS = MSS + RSS)
18. SS: Summe der quadrierten Abweichungen (Sum of Squares)
19. df: Freiheitsgrade
20. MS: mittlere Abweichungsquadrate (MS = SS/df)
Bildergalerie
An diese Seite sind keine Bilder angefügt. |
- Keine Stichwörter