Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 111 Nächste Version anzeigen »

Häufig ist es der Zusammenhang zwischen Variablen interessant. Um das geeignete Maß zu finden ist das Messniveau von Bedeutung. Bei metrischen Variablen können Korrelationen oder Streudiagramme als erstes Maß in Betracht gezogen werden. Hingegen stellt für diskrete oder klassierte Merkmale die Kontingenztabelle (auch „Kreuztabelle“genannnt) eine Darstellungsform für den Zusammehang zweier simultan beobachteter Merkmale dar. Mit Hilfe von Kontingenztabellen können auch Tests auf den Zusammenhang zwischen den beiden Variablen durchgeführt werden. Im Folgenden sollen vor allem Abhängigkeiten zwischen zwei diskreten Merkmalen getestet werden. 

Wie bei dem Kapitel der Linearen Regression werden Skripte in allen vier Statistikprogrammen bereit gestellt. Diese sind auf der rechten Seite zu finden.

Inhaltsverzeichnis

 

 

Kontingenztabellen

Kontingenztabellen stellen Ausprägungen zweier Merkmale dar:

X hat die Ausprägungen \(x_1\) bis \(x_M\) und Y die Ausprägungen \(y_1\) bis \(y_L\). Für  \(i= 1 ... M\) und \(j= 1 ... L\): \(n_{ijl}\) entspricht der Häufigkeit \((X=x_i ; Y=y_j)\). Die Zeilen enthalten L gemeinsame absolute Häufigkeiten oder anders gesagt absolute Häufikeiten von Y bedingt durch Ausprägungen von \(X=x_i\), z.B. die Elemente \(n_{m1}\) bis \(n_{mL}\) sind absolute Häufigkeiten von Ausprägungen von Y unter der Bedingung, dass \(X=x_m\). Am Ende dieser Zeile steht die entsprechende Randhäufigkeit \(n_{m•}\) von X. Um bedingte relative Häufigkeiten von Y zu bekommen, dividiert man die Elemente \(n_{m1}\) bis \(n_{mL}\) durch die Randhäufigkeit \(n_{m•}\). Analog enthält jede Spalte M gemeinsame Häufigkeiten oder absolute Häufikeiten von X bedingt durch Ausprägungen von \(Y=y_j\).

Im Kontext des Datenbeispiels wäre interessant zu untersuchen, ob sich die Erwerbstätigkeit zwischen Frauen und Männern unterscheidet. Eine mögliche Betrachtung dieser Frage ermöglicht die folgende Kontingenztabelle für die Variablen BERUFSTAETIG und GESCHL:

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
1026
545
1571
HAUPTBERUFL.HALBTAGS
41
309
350
NEBENHER BERUFSTAE.
73
135
208
NICHT ERWERBSTAETIG
619
720
1339
\(\sum_{}^{}\)
1759
1709
3468

Aus der Kontingenztabelle ist z.B. abzulesen:

  • 41 Männer sind hauptberuflich halbtags erwerbstätig (BERUFSTAETIG = 2 ,GESCHL = 1)
  • 545 Frauen sind hauptberuflich ganztags erwerbstätig (BERUFSTAETIG = 1, GESCHL = 2)

Die Werte in der letzten Spalte stellen die Randverteilung von BERUFSTAETIG dar und die letzte Zeile die Randverteilung von GESCHL. Die Frage zur Erwerbstätigkeit wurde von 1759 Männern und 1709 Frauen beantwortet.

Die obige Kontingenztabelle enthält absolute Häufigkeiten. Es lassen sich auch relative Häufigkeiten in einer Kontingenztabelle darstellen. Dafür werden alle absoluten Häufigkeiten durch die Gesamtanzahl an Beobachtungen geteilt. 

 
MAENNLICH
WEIBLICH

\(\sum\)

HAUPTBERUFL.GANZTAGS
0.296
0.157
0.453
HAUPTBERUFL.HALBTAGS
0.012
0.089
0.101
NEBENHER BERUFSTAE.
0.021
0.039
0.060
NICHT ERWERBSTAETIG
0.178
0.208
0.386

\(\sum_{}^{}\)

0.507
0.493
1.000

 

Auch Kontingenztabellen mit sog. bedingten relativen Häufigkeiten in den Zeilen oder Spalten können hilfreich sein. Bedingte relative Häufigkeiten lassen sich zeilen- oder spaltenweise ausrechnen.

Bezogen auf die Spalten werden die gemeinsamen Ausprägungen in Relation zur Gesamtanzahl von Frauen und Männern gesetzt.

 
MAENNLICH
WEIBLICH
HAUPTBERUFL.GANZTAGS
0.583
0.318
HAUPTBERUFL.HALBTAGS
0.023
0.181
NEBENHER BERUFSTAE.
0.042
0.079
NICHT ERWERBSTAETIG
0.352
0.421
\(\sum_{}^{}\)
1.000
1.000

Innerhalb der Teilstichprobe von Männern (1759 Beobachtungen) sind \(\frac{1026}{1759} \approx 0.583\) hauptberuflich ganztags erwerbstätig, während \(\frac{41}{1759} \approx 0.023\) hauptberuflich halbtags erwerbstätig,  \(\frac{73}{1759} \approx 0.042\) nebenher erwerbstätig und \(\frac{619}{1759} \approx 0.352\) nicht erwerbstätig sind.

Bezogen auf die Zeilen werden die gemeinsamen Ausprägungen in Relation zur Gesamtzahl in den unterschiedlichen Formen von Erwerbstätigkeit gesetzt.

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
0.653
0.347
1.000
HAUPTBERUFL.HALBTAGS
0.117
0.883
1.000
NEBENHER BERUFSTAE.
0.351
0.649
1.000
NICHT ERWERBSTAETIG
0.462
0.538
1.000

Insgesamt sind 1339 Personen in der Stichprobe nicht erwerbstätig, nämlich 619 Männer und 720 Frauen. Die relativen Häufigkeiten unter der Bedingung von keiner Erberbstätigkeit sind \(\frac{619}{1339} \approx 0.462\) und \(\frac{720}{1339} \approx 0.538\), d.h. 46.23% der nicht erwerbstätigen Befragten sind männlich. 

Tests auf Unabhängigkeit

Ganz allgemein kann man mit Hilfe von bedingten Häufigkeiten feststellen, ob man von einem fehlenden Zusammenhang zwischen zwei kategoriellen Merkmalen sprechen kann, d.h. von Unabhängigkeit der Merkmale. Intuitiv sind Merkmale dann unabhängig, wenn Ausprägungen von X keinen Einfluss auf Ausprägungen von Y haben und umgekehrt. Daraus folgt, dass die absoluten bedingten Häufigkeiten von Y unter der Bedingung \(X=x_i\) nicht davon abhängen, welche Ausprägung \(x_1\), \(x_2\) ... \(x_M\) gewählt wird. Dann sollten die relativen bedingten Häufigkeiten $$\frac{n_{m1}}{n_{m•}} = \frac{n_{m2}}{n_{m•}} = ... = \frac{n_{mL}}{n_{m•}}$$ 

identisch sein. Auch stimmt dann der Quotient aller Zähler und aller Nenner überein: \(\frac{n_{ij}}{n_{i}} = \frac{n_{j}}{n}\)     

Einer der bekanntesten Tests unter den Hypothesentests ist der Chi-Quadrat-Test. Genauer genommen ist der Chi-Quadrat-Test eine Gruppe von Tests, deren Prüfgröße \(\chi^2\) verteilt ist. Der Chi-Quadrat-Test kann als Verteilungstest, Homogenitätstest und Unabhängigkeitstest fungieren. Hier soll jedoch im Folgenden nur der Unabhängigkeitstest beschrieben werden. Ebenso wird der Exakte Fisher-Test vorgestellt, der im Vergleich zum Chi-Quadrat-Test jedoch keine Anforderungen an den Stichprobenumfang stellt.

Chi-Quadrat-Test

Der Chi-Quadrat-Test als Unabhängigkeitstests prüft stochastische Unabhängigkeit zwischen zwei diskreten Zufallsvariablen X und Y. Dies führt zu folgender Nullhypothese und Alternative:

  • H0: X und Y sind stochastisch unabhängig
  • H1: X und Y sind stochastisch abhängig 

Die Prüfgröße für den Chi-Quadrat-Unabhängigkeits-Test beruht auf dem Vergleich von erwarteten Häufigkeiten mit tatsächlich beobachteten Häufigkeiten. Wenn die erwarteten Häufigkeiten nicht zu sehr von den beobachteten Häufigkeiten abweichen, spricht man von Unabhängigkeit. Im Folgenden sollen zunächst die erwarteten Häufigkeiten für das Datenbeispiel berechnet werden:  \(\tilde{n_{ij}} = \frac{n_{•j} n_{i•}}{n}\), d.h. zum Beispiel \(\frac{1571·1759}{3468} = 796.825\) für die Zelle männlich und hauptberuflich ganztags erwerbstätig.

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
796.83
774.18
1571
HAUPTBERUFL.HALBTAGS
177.52
172.48
350
NEBENHER BERUFSTAE.
105.50
102.50
208
NICHT ERWERBSTAETIG
679.15
659.85
1339
\(\sum\)
1759
1709
3468

Um erwartete und beobachtete Häufigkeiten zu vergleichen, können Differenzen zwischen den beiden Häufigkeiten in Betracht gezogen werden. Diese können jedoch sowohl positiv als auch negativ sein. Daher werden quadrierte Differenzen für die Prüfgröße des Unabhängigkeitstests genutzt. Es werden alle Terme \(\frac{(n_{ij}-\tilde{n_{ij}})^{2}}{\tilde{n_{ij}}}\) summiert. In einer Kontingenztabelle mit i Zeilen kann man zuerst diese Terme in jeder Zeile summieren und dann die Summe von Zeilensummen bilden. $$\chi^{2} = \sum_{i=1}^{M} \sum_{j=1}^{L} \frac{(n_{ij} - \tilde{n_{ij}})^{2}}{\tilde{n_{ij}}}$$

Dieser \(\chi^2\)-Koeffizient ist die Prüfgröße für den Chi-Quadrat-Unabhängigkeits-Test und ist unter der Nullhypothese  asymptotisch \(\chi^2\)-verteilt mit (M-1)·(L-1) Freiheitsgraden. Je größe der \(\chi^2\)-Koeffizient ist, desto eher trifft die alternative Hypothese zu. Der Ablehnungsbereich des Tests zum Niveau \(\alpha\) ist rechts von einem Schwellenwert \(\chi^2_{(M-1)(L-1),1 - \alpha}\). Im Datenbeispiel wird die Prüfgröße wie folgt berechnet: $$\chi^{2} = \frac{(1026-796.83)^{2}}{796.83}  + \frac{(41-177.52)^{2}}{177.52} + ... + \frac{(720-659.85)^{2}}{659.85}= 377.94$$

Der Wert der Prüfgroße, 377.94, mit den Schwellenwerten \(\chi^2_{3, 0.95} = 7.81\) auf dem 5% Signifikanzniveau und \(\chi^2_{3, 0.99} = 11.34\) auf dem 1% Signifikanzniveau verglichen. Sowohl für \(\alpha)\ von 5%, als auch von 1% wird die Nullhypothese abgelehnt. Daraus kann geschlossen werden: "Zwischen Erwerbstätigkeit und Geschlecht der befragten Personen besteht ein Zusammenhang".

Damit die Prüfgröße als annähernd \(\chi^2\)-verteilt angenommen werden kann, müssen Voraussetzungen an die erwarteten Häufigkeiten gegeben sein. Alle gemeinsamen Häufigkeiten \(n_{ij}\) müssen größer als Null sein und für nicht mehr als 20% der Werte darf gelten \(\tilde{n_{ij}} < 5\). Sollten diese Voraussetzungen nicht erfüllt sein, kann der Exakte Fisher-Test anwendet werden.

Exakter Fisher-Test

Der Exakte Fisher-Test überprüft wie der Chi-Quadrat-Test die Unabhängigkeit zweier diskreter Merkmale. Dabei stellt der Exakte Fisher-Test jedoch keine Voraussetzungen an die Stichprobengröße. Der ursprüngliche Test ist auf 2x2 Kontingenztabellen ausgelegt und händisch berechenbar. Für Erweiterungen sind Statistikprogramme zur Berechnung erforderlich. Der Exakte Fisher-Test unterscheidet sich von vielen Signifikanztests dahingehend, dass die Signifikanz einer Abweichung von der Nullhypothese exakt berechnet werden kann.

Der Exakte Fisher-Test wird anhand einer neuen Fragestellung beschrieben: Hängt das Rauchverhalten der Befragten vom Geschlecht ab? Bzw. unterscheidet sich das Rauchverhalten der ältesten Befragten zwischen den Geschlechtern? Die folgenden zwei Tabellen zeigen nämlich, dass wenn nur die Befragten betrachtet werden, die vor 1933 geboren wurden, die erwarteten Häufigkeiten \(\tilde{n_{ij}} < 5\) in zwei Zellen sind und somit der Chi-Quadrat-Test nicht mehr angewendet werden sollte.

Alle Befragten:

Beobachtung/erwartete Häufigkeit
MAENNLICH
WEIBLICH 

 \(\sum\)

RAUCHER: JA
586 / 506.34 
412 / 491.66
998
RAUCHER: NEIN
1174 / 1253.66 
1297 / 1217.34
2471

 \(\sum\)

1760
1709
3469


Alle Befragten, die vor 1933 geboren wurden:

 
MAENNLICH
WEIBLICH 
 \(\sum\)
RAUCHER: JA
4 / 2.37
1 / 2.63
5
RAUCHER: NEIN
43 / 44.63
51 / 49.37
94
 \(\sum\)
47
52
99

 

Für beide Tabellen gilt folgender Zusammenhang zwischen den Zelleinträgen:

 
MAENNLICH
WEIBLICH

 \(\sum\)

RAUCHER: JA
aba + b
RAUCHER: NEIN
cdc + d

\(\sum\)

a + cb + da + b + c + d (=n)

 

Die Wahrscheinlichkeit für eine Kombination der Einträge a-d folgt nach Fisher einer hypergeometrischen Verteilung und kann wie folgt berechnet werden: $$p=\frac{(a+b)! (c+d)! (a+c)! (b+d)!}{a! b! c! d! n!}$$

Im Beispiel führt dies für die oben angegebene Kombination zu: $$p=\frac{(4+1)! (43+51)! (4+43)! (1+51)!}{4! 1! 43! 51! 99!} = 0.129678$$

Beim Exakten Fisher-Test werden die Randhäufigkeiten immer als gegeben angesehen. In diesem Beispiel bedeutet dies, dass 5 der 99 älteren Befragten rauchen. Unter der Annahme, dass Frauen und Männer mit gleicher Wahrscheinlichkeit rauchen, was ist die Wahrscheinlichkei, dass nur eine der 52 Frauen oder sogar keine raucht, aber dafür 4 oer 5 der 47 Männer? Die Wahrscheinlichkeit für den ersten Fall wurde oben berechnet. Laut Fisher müssen zur Berechnung des Signifikanzniveaus nun alle weiteren extremen Fälle berechnet werden, bei gleichbleibender Randhäufigkeit.

Dies bedeutet im Beispiel: $$p=\frac{(5+0)! (42+52)! (5+42)! (0+52)!}{5! 0! 42! 52! 99!} = 0.02144675$$

Die Addition der beiden Wahrscheinlichkeiten gibt den p-Wert=0.1511248 des einseitigen Exakten Fisher-Tests mit der Alternative, dass Männer höheren Alters eher rauchen als Frauen. Die Nullhypothese, dass es keinen Unterschied im Rauchverhalten zwischen älteren Männern und Frauen könnte auf dem 15,11% Niveau abgelehnt werden. Je kleiner der p-Wert, desto eher kann die Nullhypothese abglehnt werden. Für einen zweiseitigen Test müssten auch die Extremfälle in die andere Richtung berücksichtigt werden. Dafür werden alle Kombinationen berücksichtigt, deren Wahrscheinlichkeit gleich oder geringer ist als die Wahrscheinlichkeit der beobachteten Tabelle.

McNemar-Test

Ein McNemar-Test wird angewendet, wenn das gleiche Merkmal vor und nach einem Treatment abgefragt wird. Dies kommt z.B. vor, wenn Kunden vor und nach einer Kampagne nach ihrer Meinung zu einem Produkt gefragt werden oder auch beim Testen eines Medikamentes. Dadurch, dass die gleichen Personen wieder befragt oder untersucht werden, sind die Stichproben nicht unabhängig, sondern miteinander verbunden.

Der McNemar-Test wird eingesetzt, um Unterschiede zwischen dem Merkmal vor und nach Durchführung eines beliebigen Treatments herauszufinden. Dabei kann jedoch nur eine Veränderung festgestellt werden, nicht jedoch in welche Richtung eine Veränderung vorliegt.

Die Kontingenztabelle verändert sich dahingehend, dass nun in den Zeilen und Spalten das gleiche Merkmal aus unterschiedlichen Stichproben steht:

 

Stichprobe 1

\(\sum\)

Stichprobe 2

0

1

 

0

a

b

a + b

1

c

d

c + d

\(\sum\)

a + c

b + d

n

Veränderungen werden vor allem in den Zellen b und c deutlich. Die Hypothesen setzen Daher werden diese beiden Zellen in den Teststatistiken genutzt. Auch beim McNemar-Test gilt, dass es einen exakten Test gibt für geringe Beobachtungsumfänge, d.h. wenn b + c < 25, und eine \(\chi^2\)-Teststatistik für größere Beobachtungsumfänge.

 

Exakter Test: b + c < 25

Für den exakten Test werden die Beobachtungen b und c als Zufallszahlen angesehen, sodass die Hypothesen mit der Wahrscheinlichkeit p fuer entweder b oder c folgen:

H_0: p = 0.5

H_1: p ungleich 0.5

Die Anzahl der Beobachtungen b bzw. c sind dann binomial verteilt mit B(b+c, 0.5) bzw. C(b+c, 0.5).

 

Chi2-Teststatistik

Die Hypothese bleibt weiterhin, dass es keine Veränderung gab gegenueber der Alternative, dass es eine Veraenderung gab, d.h. a + b = a + c bzw. c + d = b + d und uebersetzt in Wahrscheinlichkeiten, dass

H_0: p_a + p_c = p_a + p_b

H_1: p_a + p_c ungleich p_a + p_b

 

Die Teststatistik   \( \chi^{2} = \frac{(b-c)^{2}}{(b+c)} \) ist approximativ chiqudrat verteilt mit einem Freiheitsgrad. Da die Chiqudratverteilung stetig ist, aber die Beobachtungen diskret gibt es einen Approximationsfehler, der durch die Yates-Korrektur chidacquadrat=(Ib-cI - 0.5)2/(b+c) mit  bzw. die Edwards-Korrektur chidacquadrat=(Ib-cI - 1)2/(b+c) verringert werden kann. R und SPSS verwenden die Edwards-Korrektur. Ist die errechnete Teststatistik grösser als der entsprechende Wert der Chiquadrat-Verteilung kann die Nullhypothese abgelehnt werden und es liegt eine Veraenderung vor. Wie schon erwaehnt wird keine Aussage darueber getroffen, in welche Richtung eine Veraenderung vorliegt. 

Anhand des Beispiels, ob Kunden ihre Meinung ueber ein Produkt nach einer Werbekampagne aendern, wird der McNemar-Test illustriert. Fuer dieses Beispiel kann der Beispieldatensatz nicht genutzt werden, da die ALLBUS-Umfrage die Befragten nur zu einem Zeitpunkt befragt und kein Treatment zwischen zwei Befragungszeitpunkten vornimmt.

Wir nehmen folgende Beobachtungen fiktiv an fuer eine Entscheidung darueber, ob sich die Kaufentscheidung nach der Kampagne aendert.

 Kaufentscheidung nach der Kampagne\(\sum\)
Kaufentscheidung vor der KampagneKaufenNicht kaufen 
Kaufen181533
Nicht kaufen262147
\(\sum\)4436

80

 

Die Hypothese ist in diesem Fall, dass die Wahrscheinlichkeit, dass es Wechsel von der Entscheidung Kaufen zu Nicht kaufen gab ist gleich der Wahrscheinlichkeit, dass es Wechsel von Nicht kaufen zu Kaufen gab. Die Alternative ist, dass sich die Wahrscheinlichkeiten unterscheiden. Sollte die Nullhypothese also abgelehnt werden, liegt eine Veraenderung vor. Jedoch besagt der McNemar-Test nicht in welche Richtung.

Die Teststatistik berechnet sich unter Beruecksichtigung der McNemar-Korrektur gegeben, dass b = 15 und c = 26, wie folgt:

chiqudrat = (I15-26I - 1)2/(15+26)

Der kritische Wert der Chiquadrat Verteilung entspricht auf einem 5%-Signifikanzniveau und einem Freiheitsgrad Chiquadrat_1,0.95 = 3.84. Da die Teststatistik groesser ist als der kritische Wert, kann die Nullhypothese abgelehnt werden. Daraus folgt, dass die Kampagne fuer Veraenderungen im Kaufverhalten gesorgt hat.

 

 

 

 

 

 

 

 

 

 

 

 

  • Keine Stichwörter