Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 47 Nächste Version anzeigen »

Häufig ist es der Zusammenhang zwischen Variablen interessant. Um das geeignete Maß zu finden ist das Messniveau von Bedeutung. Für diskrete oder klassierte Merkmale stellt die Kontingenztabelle (auch „Kreuztabelle“genannnt) eine Darstellungsform für den Zusammehang zweier simultan beobachteter Merkmale dar:

X hat die Ausprägungen \(x_1\) bis \(x_M\) und Y die Ausprägungen \(y_1\) bis \(y_L\). Für  \(i= 1 ... M\) und \(j= 1 ... L\): \(n_{ijl} entspricht der Häufigkeit (X=x_i ; Y=y_j)\). Die Zeilen enthalten L gemeinsame absolute Häufigkeiten oder anders gesagt absolute Häufikeiten von Y bedingt durch Ausprägungen von \(X=x_i\), z.B. die Elemente \(n_{m1}\) bis \(n_{mL}\) sind absolute Häufigkeiten von Ausprägungen von Y unter der Bedingung, dass \(X=x_m\). Am Ende dieser Zeile steht die entsprechende Randhäufigkeit \(n_{m•}\) von X. Um bedingte relative Häufigkeiten von Y zu bekommen, dividiert man die Elemente \(n_{m1}\) bis \(n_{mL}\) durch die Randhäufigkeit \(n_{m•}\). Analog enthält jede Spalte M gemeinsame Häufigkeiten oder absolute Häufikeiten von X bedingt durch Ausprägungen von \(Y=y_j\).

Im Kontext des Datenbeispiels wäre interessant zu untersuchen, ob sich die Erwerbstätigkeit zwischen Frauen und Männern unterscheidet. Eine mögliche Betrachtung dieser Frage ermöglicht die folgende Kontingenztabelle für die Variablen BERUFSTAETIG und GESCHL:

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
1026
545
1571
HAUPTBERUFL.HALBTAGS
41
309
350
NEBENHER BERUFSTAE.
73
135
208
NICHT ERWERBSTAETIG
619
720
1339
\(\sum_{}^{}\)
1759
1709
3468

Aus der Kontingenztabelle ist z.B. abzulesen:

  • 41 Männer sind hauptberuflich halbtags erwerbstätig (BERUFSTAETIG = 2 ,GESCHL = 1)
  • 545 Frauen sind hauptberuflich ganztags erwerbstätig (BERUFSTAETIG = 1, GESCHL = 2)

Die Werte in der letzten Spalte stellen die Randverteilung von BERUFSTAETIG dar und die letzte Zeile die Randverteilung von GESCHL. Die Frage zur Erwerbstätigkeit wurde von 1759 Männern und 1709 Frauen beantwortet.

Die obige Kontingenztabelle enthält absolute Häufigkeiten. Es lassen sich auch relative Häufigkeiten in einer Kontingenztabelle darstellen. Dafür werden alle absoluten Häufigkeiten durch die Gesamtanzahl an Beobachtungen geteilt. 

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
   
HAUPTBERUFL.HALBTAGS
   
NEBENHER BERUFSTAE.
   
NICHT ERWERBSTAETIG
   
\(\sum_{}^{}\)
   

 

 

In bestimmten Situationen hilfreich sind auch Kontingenztabellen mit sog. bedingten relativen Häufigkeiten in den Zeilen oder Spalten.

Die bedingte relative Häufigkeiten lassen sich zeilen- oder spaltenweise ausrechnen. Innerhalb von Teilstichprobe von Männer (1759) sind \(\frac{1026}{1759} \approx 0,5833\) sind ganztag hauptberuflich erwerbstätig, \(\frac{41}{1759} \approx 0,0233\) sind halbtagig hauptberuflich erwerbstätig, \(\frac{73}{1759} \approx 0,0415\) nebenher erwerbstätig und   \(\frac{619}{1759} \approx 0,3519\) nicht erwerbstätig. Insgesamt sind 1339 Personen in der Stichprobe sind nicht erwerbstätig, nämlich 619 Männer und 720 Frauen. Die relative Häufigkeiten unter der Bedingung von keine Erberbstätigkeit sind \(\frac{619}{1339} \approx 0,4623\) und   \(\frac{720}{1339}= 0,5377\), d.h. 46,23% von nicht erwerbstätige Beftagte männlich waren.

Mit Hilfe von bedingte Häufigkeiten lasst sich feststellen, wenn man von einem fehlenden Zusammenhang zwichen zwei kategorielle Merkmale sprechen kann, von Unabhängichkeit der Merkmale. Intuativ sind Merkmale dann unabhängig, wenn Ausprägungen von X keinen Einfluss auf Ausprägungen von Y haben und ungekert. Daraus folgt, dass die absolute bedingte Häufigkeiten von Y unter der Bedingung \(X=x_i\) nicht davon abhängen, welche Ausprägung \(x_1\), \(x_2\) ... \(x_M\) gewählt wird. Dann sollten die relative bedingte Häufigkeiten  

$$\frac{n_{m1}}{n_{m•}} = \frac{n_{m2}}{n_{m•}} = ... = \frac{n_{mL}}{n_{m•}}$$

identisch sind. Dann muss auch die Quotient alle Zähler und alle Nenner übereinstimmen: \(\frac{n_{ij}}{n_{i•}} = \frac{n_{j}}{n}\).

Unter Unabhängigkeit von X und Y ist die gemeinsame Häufigkeit \( \tilde{n_{ij}} = \frac{n_{j}{n_{i•} }{n}\). Das sind erwartete Werte und man spricht von empirische Unabhängigkeit wenn die beobachtete Werte nicht stark von erwarte Werte abweichen. Die formale Definition von Unabhängigkeitstest folgt, aber erstmals, hier sind die erwartene gemeinsame Häufigkeiten für das Datenbeispiel.

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
796.83
774.18
1571
HAUPTBERUFL.HALBTAGS
177.52
172.48
350
NEBENHER BERUFSTAE.
105.50
102.50
208
NICHT ERWERBSTAETIG
679.15
659.85
1339
\(\sum\)
1759
1709
3468


Dabei ist zum Beispiel \(\frac{1571·1759}{3468} = 796,8250\)

Die Differenzen zwichen beobachtete und erwartete Werte können sowohl positiv als auch negativ sein und deswegen fliesen quadrierte Differenzen in eine Kenngröße für Unabhängigkeitstest ein. Mann summiert alle terme \( \frac{(n_{ij} - \tilde{n_{ij})^2}{\tilde{n_{ij}} \). In einer Kontingenztabelle mit i Zeilen kann man zuerst diese Terme in jeder Zeile summieren und dann die Summe von Zeilensummen bilden.

$$\chi^2 &=& \sum\limits_{i=1}^M \sum\limits_{j=1}^L \frac{(n_{ij} - \tilde{n_{ij})^2}{\tilde{n_{ij}}$$

\(\chi^2\)-Koeffizient ist die Prüfgröße für \(\chi^2\)-Unabhängigkeitstest. Unter der Nullhypothese: "X und Y sind unabhängig" diese Prüfgröße ist asymptotisch \(\chi^2\)-verteilt mit (M-1)·(L-1) Freiheitsgraden. Die alternative Hypothese lautet: "X und Y sind unabhängig". Je größe der \(\chi^2\)-Koeffizient ist, desto mehr spricht für die alternative Hypothese. Die Ablenkungbereich des Tests zum Niveau \(\alpha\) ist rechts von einem Schwellenwert \(\chi^2_{(M-1)(L-1),1 - \alpha}\). Im Datenbeispiel wird der Wert der Prüfgroße, 377,94, mit der Scwellenwerte \(\chi^2_{3, 0,95} &=& 7,81\) \(\chi^2_{3, 0,99}&=&11,34\) vergliechen.  Bei \(\alpha)\ von 5% und 1% wird die Nullhupothese abgeleht. Die Aussage lautet: "Zwichen Erwerbstätigkeit und Geschlecht der befragten Personen besteht ein Zusammenhang".

Die Approximationvoraussetzungen für \(\chi^2\)-Verteilung sind relative mild: alle gemeindame Häufigkeiten \(n_{ij}\) und nicht mehr als 20% der Werte \(n_{ij} < 5\). Sollte diese Voraussetzung nicht erfüllt sein, kann man für 2x2 Kontingenztabellen exakter Test nach Fisher anwenden.




! Interne Notiz: Chi-Quadrat, Fisher Exakt Test, McNemar) \frac{}{}

 

 

  • Keine Stichwörter