Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

In SPSS kann man entweder mit der graphischen Oberfläche oder mit einer Syntaxdatei arbeiten. Rechts kann die Syntaxdatei (Lineare_Regression_SPSS.sps)  heruntergeladen werden, die die Regression auf Grundlage der Umfragedaten_v1 (Umfragedaten_v1.sav) ausführt.

Eine lineare Regression kann im Menüpunkt Analysieren  →  Regression  →  Linear... ausgewählt werden. 

Das Körpergewicht (GEW) wird als abhängige Variable und die Körpergröße (GRO) als unabhängige Variable ausgewählt. Unter Statistiken werden Schätzungen, Konfidenzintervalle, Anpassungsgüte des Modells und Deskriptive Statistik ausgewählt.

 


Sie erhalten folgenden Output:


Image RemovedImage Added

Image Removed

 

 

Image Added


Image AddedImage Removed


Entsprechend der Erklärungen auf der Seite ,,Das Lineare Regressionsmodell'' werden hier noch einmal die Werte aufgeführt, die im Output einer linearen Regression in SPSS auftauchen. 


Die Güte des Modell

3. Zahl der Beobachtungen:

Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modells genutzt wird. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 3419 3424 Beobachtungen genutzt.

4. Der empirische F-Wert

Der F-Wert dient zur Überprüfung der Gesamtsignifikanz des Modells. Die F-Statisik gibt den Anteil der erklärten Varianz an der unerklärten Varianz an. Dabei sind die Freiheitsgrade (siehe Anova-Block) zu berücksichtigen, die sich aus der Anzahl der Beobachtungen und der Parameter berechnet. Hier ist jedoch zu beachten, dass mit n die Zahl der Beobachtungen und mit p P die Zahl der Einflußvariablen (Parameter) gemeint ist, die im Modell genutzt wurden.

$$F = \frac{MS(R)}{MS(F)} = \frac{\frac{SS(R)}{pP}}{\frac{SS(F)}{(n −p −P −1)}}  = \frac{\frac{SS(R)}{SS(G)}/pP}{\frac{SS(F)}{SS(G)}/(n −p −P −1)} = \frac{\frac{R^{2}}{pP}}{\frac{1-R^{2}}{(n −p −P −1)}}  = \frac{R^{2}}{1-R^{2}} \frac{(n −p −P −1)}{pP} $$


Berechnung der F-Statisik für das Beispiel Körpergewicht-Körpergröße:

Die F-Statisik kann über zwei verschiedene Wege berechnet werden. Entweder nutzt man die Mean Squares (MS) bzw. die Sum of Squares (SS) oder das R-Quadrat. Hier sollen einmal beide Wege beispielhaft gezeigt werden.

  1. Nutzen der Mean Squares bzw. Sum of Squares

    $$F = \frac{
281419
  1. 259550.
069
  1. 211}{
192
  1. 200.
830659
  1. 478402} = \frac{\frac{
281419
  1. 259550.
069
  1. 211}{1}}{\frac{
658902
  1. 686037.
363
  1. 09}{
3417
  1. 3422}} =
1459
  1. 1294.
41$$
  1. 65$$
  2. Nutzen des R-Quadrats

    $$F = \frac{0.
2993
  1. 2745}{1-0.
2993
  1. 2745} \frac{
3417
  1. 3422}{1} =
1459
  1. 1294.
55$$
 
  1. 65$$


5. p-Wert zur F-Statistik:

Die Nullhypothese des F-Tests besagt, dass alle Koeffizientengleich 0 sind. Hingegen ist die Alternative, dass mindestens ein Koeffizient ungleich 0 ist – es also mindestens eine Kovariate im Modell gibt, die signifikanten Einfluss auf die abhängige Variable ausübt. Die Nullhypothese wird abgelehnt, wenn der p-Wert kleiner als ein gewähltes Signifikanzniveau ist.

Interpretation im Beispiel Körpergewicht-Körpergröße:

Der p-Wert für das Regressionsmodell liegt bei 0.0000 und ist somit kleiner als ein Signifikanzniveau α = 0

,

.05. Daher kann die Nullhypothese des F-Tests, dass alle Koeffizienten gemeinsam gleich 0 sind, abgelehnt werden. 

 


6. Empirisches Bestimmtheitsmaß R²

Das R²  basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß ist der Quotient aus erklärter Varianz und Gesamtvarianz. Als Anteilswert kann das R² Werte zwischen 0 und 1 annehmen.

\( R^{2} = \frac{SS(R)}{SS(G)} =  \frac{\sum_{i=1}^{n} (\hat{y}_{i} - \bar{y})^{2}}{\sum_{i=1}^{n} (y - \bar{y})^{2}} = 1 - \frac{\sum_{i=1}^{n} (y_{i} - \hat{y})^{2}}{\sum_{i=1}^{n} (y - \bar{y})^{2}}\)  


Berechnung und Interpretation des Bestimmtheitsmaßes für das Beispiel Körpergewicht-Körpergröße:

$$R^{2} = \frac{

281419

259550.

069

211}{

940321

945587.

433

301} = 1- \frac{

658902

686037.

363

09}{

940321

945587.

433

301} = 0.

2993$$

2745$$

Ein \(R^{2}\)

von 0

von 0.

2993

2745 bedeutet, dass

29

27.

93%

45% der Varianz in Gewicht durch das Modell erklärt werden können.

Die Einschätzung der Höhe des Bestimmheitsmaß hängt oft vom Anwendungsfeld ab. Zur Beurteilung des eigenen Modells ist daher der Vergleich mit anderen Studien (im gleichen Feld) unerlässlich.

7. Korrigiertes R²

Durch das Hinzufügen einer neuen Kovariaten Kovariate in das Regressionsmodell kann sich das R²  nie verschlechtern. Um das inflationäre Ergänzen von nutzlosen Variablen zu sanktionieren, gibt es das sog. „adjustierte R² “. Dies zieht für jede Kovariate im Modell einen „Strafterm“ ab und wächst somit nur an, wenn Kovariaten ergänzt werden, die das Modell deutlich verbessern.

$$R^{2} =  1 - \frac{\frac{1}{n-pP-1} \sum_{i=1}^{n} (y_{i} - \hat{y})^{2}}{\frac{1}{n-1} \sum_{i=1}^{n} (y - \bar{y})^{2}}$$

Berechnung des korrigierten Bestimmtheitsmaßes für das Beispiel Körpergewicht-Körpergröße:

 $$R^{2} =  1 - \frac{\frac{1}{

3419

3424-1-1} 

658902

686037.

363

09}{\frac{1}{

3419

3424-1} 

940321

945587.

433

301} = 0.

2991$$

2743$$

 



8. Standardfehler des Schätzers:

Dieser entspricht der Wurzel der mittleren Abweichungsquadrate des Modells aus dem Anova-Block und beschreibt die Standardabweichung der Beobachtungen von den Prognosewerten:

\(\sqrt{MS(F)}\)

 


Schätzergebnisse

9. Abhängige oder endogene Variable:

Im Beispiel ist das Körpergewicht (GEW) die abhänige Variable.

10. Erklärende oder exogene Variable:

Im Beispiel ist die Körpergröße (GRO) die erklärende Variable.

11. Geschätzte Parameter:

Bei einer linearen Einfachregression gibt es zwei geschätzte Parameter \( \beta_0\) für den Achsenabschnitt und \( \beta_1\) für die Steigung. Der Parameter \( \beta_0\) gibt den geschätzten Wert der abhängigen Variablen an, wenn alle Kovariaten gleich 0 sind und schneidet im Graph die , was am Schnittpunkt mit der y-Achse der Fall ist. Der Steigungsparameter gibt an, wie stark die erklärende Variable (Körpergewicht) die abhängige Variable (Körpergröße) beeinflusst.

Schätzung im Beispiel Körpergewicht-Körpergröße:

\(\hat{GEW}_i = -

88

82.

3726

5748 + .

9643

9321 \cdot GRO_{i}\)

Interpretation der Parameter:

Der Parameter für die Konstante entspricht -

88,37256

82.5748. Das bedeutet, dass bei einer Körpergröße von 0 cm das geschätzte Körpergewicht bei ca. -

88

82 kg liegen würde.

Dies macht natürlich keinen Sinn

 Diese Interpretation ist natürlich sinnlos, weil eine Körpergröße von 0 cm unplausibel ist. Dem Überblick über die Variable Körpergröße kann man entnehmen, dass die kleinste Person eine Körpergröße von 143 cm angegeben hat.

Der Steigungsparameter entspricht .

9643048

9321. Das bedeutet, dass pro cm das Gewicht um ca. 0,

96

93 kg steigt.

12. Standardabweichung der Schätzung (Standardfehler, \(\hat{SF_{\beta_jp}}\)):

Da die Parameter basierend auf einer Zufallsstichprobe geschätzt wurden, unterliegen diese Schätzungen einer gewissen Ungenauigkeit, die durch die Standardabweichung der Schätzung quantifiziert wird. Standardfehler werden genutzt, um statistische Signifikanz zu überprüfen und um Konfidenzintervalle zu bilden.

13. T-Statistik (empirischer T-Wert).

Mit Hilfe eines t-Tests lässt sich prüfen, ob die Nullhypothese, dass ein Koeffizient gleich 0 ist, abgelehnt werden kann. Wenn dies nicht der Fall sein sollte, ist davon auszugehen, dass die zugehörige Kovariate keinen signifikaten Einfluss auf die abhängige Variable ausübt, d.h. die erklärende Variable ist nicht sinnvoll, um die Eigenschaften der abhängigen Variablen zu erklären.

Hypothese:  \(H: \beta_p=0\) gegen \(A: \beta_p \neq 0\) mit \(p=0,1\)

Teststatistik: \(T_p = \frac{\hat{\beta_p}-0}{\hat{SF_{\beta_p}}}\) mit \(p=0,1\)

Verteilung unter H: \(T_p \sim t_{n-(p+1)}\) mit \(p=0,1\)

Testentscheidung (H ablehnen wenn): \(|T_p| > t_{n-(p+1), 1-\frac{\alpha}{2}}\) mit with \(p=0,1\)

Überprüfung, ob Körpergröße Einfluss auf das Körpergewicht hat, anhand der T-Statistik:

Die Teststatistik vom Parameter für die Körpergröße ist  \(T_

p

1 = \frac{0.

964

932}{0.

025

0259} =

38

35.

202

98\). Diese Teststatistik wird mit dem kritischen Wert vergleichen:

\(|T_1| =

38

35,

202

98 > 1,961 = t_{

3419

3424-(1+1), 1-\frac{\alpha}{2}}\).

 


Schon anhand der Teststatistik kann man erkennen, dass die Nullhypothese \(\beta_1=0\) hier abgelehnt werden kann, d.h. dass die Körpergröße einen signifikanten Einfluss auf das Körpergewicht hat.

14. p-Wert zur T-Statistik:

Zusätzlich zur T-Statisik wird meistens ein p-Wert ausgegeben. Der Aus einer methodisch-praktisch orientierten Perspektive gibt der p-Wert gibt die Wahrscheinlichkeit das kleinste Signifikanzniveau an, dass zu dem die Nullhypothese Nullhypothese  \(\beta_p=0\) gerade noch abgelehnt werden kann. Ist also das tatsächliche Signifkanzniveau \(  \) zutrifftalpha \), welches vor dem Test gewählt wird, geringer als der p-Wert, so kann die Nullhypothese nicht abgelehnt werden.

Überprüfung, ob Körpergröße Einfluss auf das Körpergewicht hat, anhand des p-Wertes:

Im Beispiel liegt der p-Wert zur Nullhypothese \(\beta_1=0\) unter 0,0001. Daraus kann man schließen, dass die Körpergröße einen signifikanten Einfluss auf das Körpergewicht ausübt.

Der p-Wert gibt die Wahrscheinlichkeit an, dass, gegeben dass die Nullhypothese erfüllt ist, wir eine solche oder noch stärker von der Nullhypothese abweichende Teststatistik bzw Stichprobe beobachten. Das heißt er macht eine Aussage über die Wahrscheinlichkeit der Beobachtung der Stichprobe, nicht aber direkt über die Wahrscheinlichkeit der Nullhypothese selbst.

Zum p-Wert gibt es viele Missverständnisse, selbst in veröffentlichter Literatur. Aussagen wie z.b. dass "der p-Wert den Fehler 1. Art wieder gibt" bzw. "die Wahrscheinlichkeit ist, dass unsere Hypothese wahr ist, gegeben, dass der Test abgelehnt wird", sind falsch und sollten in Arbeiten vermieden werden.

Eine gute Quelle für die den richigen Umgang und ein tieferes Verständnis vom p-Wert gibt es beispielsweise hier.

15. 95%-Konfidenzintervall:

Konfidenzintervalle sind im Allgemeinen eine Möglichkeit, die Genauigkeit der Schätzung zu überprüfen. Ein 95%-Konfidenzintervall ist der Bereich, der im Durchschnitt in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.

Konfidenzintervall für den Steigungsparameter in der Beispielregression:                                                                                                  

[.

9148137

881273;

1

.

013796

982851]

 

 



Anova-Block

16. Modell-Quadratsumme/Regressions-Quadratsumme (SS(R)):

Mit SS(R) wird die Varianz der abhängigen Variablen angegeben, die durch das Modell bzw. durch die Regression erklärt werden kann. $$\sum_{i=1}^{n} (\hat{y}_{i} - \bar{y})^{2}$$ 

17. Residuen-Quadratsumme (SS(F)):

Die Varianz, die nicht durch das Modell bzw. die Regression erklärt werden kann, wird mit SS(F) beschrieben. $$\sum_{i=1}^{n} (y_{i} - \hat{y}_{i} )^{2}$$ 

18. Gesamtstreuung (Gesamt-Quadratsumme):

Die Varianz der abhängigen Variable lässt sich als Summe der durch das Modell erklärten Varianz und der unerklärten Varianz darstellen: erklärte Abweichung + unerklärte Abweichung (SS(G)= SS(R) + SS(F)).

Gesamtstreuung und die einzelnen Komponenten im Beispiel Körpergewicht-Körpergröße:                                                                      

SS(G) = SS(R) + SS(F) =

281419

259550.

069

211 +

658902

696037.

363

09 =

940321

945587.

433
 

301


19. Freiheitsgrade (FG):

Freiheitsgrade gesamt: n - 1

Freiheitsgrade der Regression: 1

Freiheitsgrade der Residuen: FGGesamt - 1

20. Mittlere Abweichungsquadrate:

Mittlere Abweichungsquadrate sind die Quotienten aus Quadratsumme und Freiheitsgraden.

Mittleres Abweichungsquadrat der Regression: MS(R) = SS(R)/DF(R)

Mittleres Abweichungsquadrat der Residuen: MS(F) = SS(F)/DF(F)

Mittleres Abweichungsquadrat gesamt: MS(G) = SS(G)/DF(G) 



Info

fu:stat bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben. Auf Anfrage können wir auch gerne individuelle Inhouse-Schulungen bei Ihnen anbieten.


Anhänge
uploadfalse
oldfalse
labelsanzeigen

Bildergalerie