Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 73 Nächste Version anzeigen »

Häufig ist es der Zusammenhang zwischen Variablen interessant. Um das geeignete Maß zu finden ist das Messniveau von Bedeutung. Für diskrete oder klassierte Merkmale stellt die Kontingenztabelle (auch „Kreuztabelle“genannnt) eine Darstellungsform für den Zusammehang zweier simultan beobachteter Merkmale dar:

X hat die Ausprägungen \(x_1\) bis \(x_M\) und Y die Ausprägungen \(y_1\) bis \(y_L\). Für  \(i= 1 ... M\) und \(j= 1 ... L\): \(n_{ijl}\) entspricht der Häufigkeit \((X=x_i ; Y=y_j)\). Die Zeilen enthalten L gemeinsame absolute Häufigkeiten oder anders gesagt absolute Häufikeiten von Y bedingt durch Ausprägungen von \(X=x_i\), z.B. die Elemente \(n_{m1}\) bis \(n_{mL}\) sind absolute Häufigkeiten von Ausprägungen von Y unter der Bedingung, dass \(X=x_m\). Am Ende dieser Zeile steht die entsprechende Randhäufigkeit \(n_{m•}\) von X. Um bedingte relative Häufigkeiten von Y zu bekommen, dividiert man die Elemente \(n_{m1}\) bis \(n_{mL}\) durch die Randhäufigkeit \(n_{m•}\). Analog enthält jede Spalte M gemeinsame Häufigkeiten oder absolute Häufikeiten von X bedingt durch Ausprägungen von \(Y=y_j\).

Im Kontext des Datenbeispiels wäre interessant zu untersuchen, ob sich die Erwerbstätigkeit zwischen Frauen und Männern unterscheidet. Eine mögliche Betrachtung dieser Frage ermöglicht die folgende Kontingenztabelle für die Variablen BERUFSTAETIG und GESCHL:

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
1026
545
1571
HAUPTBERUFL.HALBTAGS
41
309
350
NEBENHER BERUFSTAE.
73
135
208
NICHT ERWERBSTAETIG
619
720
1339
\(\sum_{}^{}\)
1759
1709
3468

Aus der Kontingenztabelle ist z.B. abzulesen:

  • 41 Männer sind hauptberuflich halbtags erwerbstätig (BERUFSTAETIG = 2 ,GESCHL = 1)
  • 545 Frauen sind hauptberuflich ganztags erwerbstätig (BERUFSTAETIG = 1, GESCHL = 2)

Die Werte in der letzten Spalte stellen die Randverteilung von BERUFSTAETIG dar und die letzte Zeile die Randverteilung von GESCHL. Die Frage zur Erwerbstätigkeit wurde von 1759 Männern und 1709 Frauen beantwortet.

Die obige Kontingenztabelle enthält absolute Häufigkeiten. Es lassen sich auch relative Häufigkeiten in einer Kontingenztabelle darstellen. Dafür werden alle absoluten Häufigkeiten durch die Gesamtanzahl an Beobachtungen geteilt. 

 
MAENNLICH
WEIBLICH

\(\sum\)

HAUPTBERUFL.GANZTAGS
0.296
0.157
0.453
HAUPTBERUFL.HALBTAGS
0.012
0.089
0.101
NEBENHER BERUFSTAE.
0.021
0.039
0.060
NICHT ERWERBSTAETIG
0.178
0.208
0.386

\(\sum_{}^{}\)

0.507
0.493
1.000

 

Auch Kontingenztabellen mit sog. bedingten relativen Häufigkeiten in den Zeilen oder Spalten können hilfreich sein. Bedingte relative Häufigkeiten lassen sich zeilen- oder spaltenweise ausrechnen.

Bezogen auf die Spalten werden die gemeinsamen Ausprägungen in Relation zur Gesamtanzahl von Frauen und Männern gesetzt.

 
MAENNLICH
WEIBLICH
HAUPTBERUFL.GANZTAGS
0.583
0.318
HAUPTBERUFL.HALBTAGS
0.023
0.181
NEBENHER BERUFSTAE.
0.042
0.079
NICHT ERWERBSTAETIG
0.352
0.421
\(\sum_{}^{}\)
1.000
1.000

Innerhalb der Teilstichprobe von Männern (1759 Beobachtungen) sind \(\frac{1026}{1759} \approx 0.583\) hauptberuflich ganztags erwerbstätig, während \(\frac{41}{1759} \approx 0.023\) hauptberuflich halbtags erwerbstätig,  \(\frac{73}{1759} \approx 0.042\) nebenher erwerbstätig und \(\frac{619}{1759} \approx 0.352\) nicht erwerbstätig sind.

Bezogen auf die Zeilen werden die gemeinsamen Ausprägungen in Relation zur Gesamtzahl in den unterschiedlichen Formen von Erwerbstätigkeit gesetzt.

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
0.653
0.347
1.000
HAUPTBERUFL.HALBTAGS
0.117
0.883
1.000
NEBENHER BERUFSTAE.
0.351
0.649
1.000
NICHT ERWERBSTAETIG
0.462
0.538
1.000

Insgesamt sind 1339 Personen in der Stichprobe nicht erwerbstätig, nämlich 619 Männer und 720 Frauen. Die relativen Häufigkeiten unter der Bedingung von keiner Erberbstätigkeit sind \(\frac{619}{1339} \approx 0.462\) und \(\frac{720}{1339} \approx 0.538\), d.h. 46.23% der nicht erwerbstätigen Befragten sind männlich. 

 

Tests auf Unabhängigkeit

Ganz allgemein kann man mit Hilfe von bedingten Häufigkeiten feststellen, ob man von einem fehlenden Zusammenhang zwischen zwei kategoriellen Merkmalen sprechen kann, d.h. von Unabhängigkeit der Merkmale. Intuitiv sind Merkmale dann unabhängig, wenn Ausprägungen von X keinen Einfluss auf Ausprägungen von Y haben und umgekehrt. Daraus folgt, dass die absoluten bedingten Häufigkeiten von Y unter der Bedingung \(X=x_i\) nicht davon abhängen, welche Ausprägung \(x_1\), \(x_2\) ... \(x_M\) gewählt wird. Dann sollten die relativen bedingten Häufigkeiten $$\frac{n_{m1}}{n_{m•}} = \frac{n_{m2}}{n_{m•}} = ... = \frac{n_{mL}}{n_{m•}}$$ 

identisch sein. Auch stimmt dann der Quotient aller Zähler und aller Nenner überein: \(\frac{n_{ij}}{n_{i}} = \frac{n_{j}}{n}\)     

Einer der bekanntesten Tests unter den Hypothesentests ist der Chi-Quadrat-Test. Genauer genommen ist der Chi-Quadrat-Test eine Gruppe von Tests, deren Prüfgröße \(\chi^2\) verteilt ist. Der Chi-Quadrat-Test kann als Verteilungstest, Homogenitätstest und Unabhängigkeitstest fungieren. Hier soll jedoch im Folgenden nur der Unabhängigkeitstest beschrieben werden. Ebenso wird der Exakte Fisher-Test vorgestellt, der im Vergleich zum Chi-Quadrat-Test jedoch keine Anforderungen an den Stichprobenumfang stellt.

Chi-Quadrat-Test

Der Chi-Quadrat-Test als Unabhängigkeitstests prüft stochastische Unabhängigkeit zwischen zwei diskreten Zufallsvariablen X und Y. Dies führt zu folgender Nullhypothese und Alternative:

  • H0: X und Y sind stochastisch unabhängig
  • H1: X und Y sind stochastisch abhängig 

Die Prüfgröße für den Chi-Quadrat-Unabhängigkeits-Test beruht auf dem Vergleich von erwarteten Häufigkeiten mit tatsächlich beobachteten Häufigkeiten. Wenn die erwarteten Häufigkeiten nicht zu sehr von den beobachteten Häufigkeiten abweichen, spricht man von Unabhängigkeit. Im Folgenden sollen zunächst die erwarteten Häufigkeiten für das Datenbeispiel berechnet werden:  \( \tilde{n_{ij}} = \frac{n_{j}{n_{i•} }{n}\), d.h. zum Beispiel \(\frac{1571·1759}{3468} = 796.825\) für die Zelle männlich und hauptberuflich ganztags erwerbstätig.

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
796.83
774.18
1571
HAUPTBERUFL.HALBTAGS
177.52
172.48
350
NEBENHER BERUFSTAE.
105.50
102.50
208
NICHT ERWERBSTAETIG
679.15
659.85
1339
\(\sum\)
1759
1709
3468

Um erwartete und beobachtete Häufigkeiten zu vergleichen, können Differenzen zwischen den beiden Häufigkeiten in Betracht gezogen werden. Diese können jedoch sowohl positiv als auch negativ sein. Daher werden quadrierte Differenzen für die Prüfgröße des Unabhängigkeitstests genutzt. Es werden alle Terme \(\frac{(n_{ij}-\tilde{n_{ij}})^{2}}{\tilde{n_{ij}}}\) summiert. In einer Kontingenztabelle mit i Zeilen kann man zuerst diese Terme in jeder Zeile summieren und dann die Summe von Zeilensummen bilden. $$\chi^{2} = \sum_{i=1}^{M} \sum_{j=1}^{L} \frac{(n_{ij} - \tilde{n_{ij}})^{2}}{\tilde{n_{ij}}}$$

Dieser \(\chi^2\)-Koeffizient ist die Prüfgröße für den Chi-Quadrat-Unabhängigkeits-Test und ist unter der Nullhypothese  asymptotisch \(\chi^2\)-verteilt mit (M-1)·(L-1) Freiheitsgraden. Je größe der \(\chi^2\)-Koeffizient ist, desto eher trifft die alternative Hypothese zu. Der Ablehnungsbereich des Tests zum Niveau \(\alpha\) ist rechts von einem Schwellenwert \(\chi^2_{(M-1)(L-1),1 - \alpha}\). Im Datenbeispiel wird der Wert der Prüfgroße, 377,94, mit den Schwellenwerten \(\chi^2_{3, 0,95} = 7,81\) auf dem 5% Signifikanzniveau und \(\chi^2_{3, 0,99} = 11,34\) auf dem 1% Signifikanzniveau verglichen. Sowohl für \(\alpha)\ von 5%, als auch von 1% wird die Nullhypothese abgelehnt. Daraus kann geschlossen werden: "Zwischen Erwerbstätigkeit und Geschlecht der befragten Personen besteht ein Zusammenhang".

Die Approximationsvoraussetzungen für \(\chi^2\)-Verteilung sind relative mild: alle gemeindame Häufigkeiten \(n_{ij}\) und nicht mehr als 20% der Werte \(n_{ij} < 5\). Sollte diese Voraussetzung nicht erfüllt sein, kann man für 2x2 Kontingenztabellen exakter Test nach Fisher anwenden.




! Interne Notiz: Chi-Quadrat, Fisher Exakt Test, McNemar) \frac{}{}

 

 

  • Keine Stichwörter