Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Häufig ist es der Zusammenhang zwischen Variablen interessant. Um das geeignete Maß zu finden ist das Messniveau von Bedeutung. Für diskrete oder klassierte Merkmale stellt die Kontingenztabelle (auch „Kreuztabellen“genannnt) eine Darstellungsform für den Zusammehang zweier simultan beobachteter Merkmale dar:

X hat die Ausprägungen \(x_1\) bis \(x_M\) und Y die Ausprägungen \(y_1\) bis \(y_L\). Für  \(i= 1 ... M\) und \(j= 1 ... L\): \(n_{ijl}= Häufigkeit (X=x_i ; Y=y_j)\). Die Zeilen enthalten L gemeinsame absolute Häufigkeiten oder anderes gesagt absolute Häufikeiten von Y begingt durch Ausprägungen von \(X=x_i\), z.B. die Elemente \(n_{m1}\) bis \(n_{mL}\) sind absolute Häufigkeiten von Ausprägungen von Y unter Bedingung \(X=x_m\). Am Ende dieser Zeile steht die entsprechende Randhäufigkeit \(n_{m•}\) von X. Um bedingte relative Häufigkeiten von Y zu bekommen, dividiert man Elemente \(n_{m1}\) bis \(n_{mL}\) durch Randhäufigkeit \(n_{m•}\). Analog enthält jeder Spalte M gemeinsame Häufigkeiten oder absolute Häufikeiten von X begingt durch Ausprägungen von \(Y=y_j\).

Im Kontext des Datenbeispiels wäre interessant zu untersuchen, ob Männer und Frauen gleich oder unterschiedlich erwerbstätig sind. Die Beantwortung dieser Frage ermöglicht die folgende Kontingenztabelle für die Variablen BERUFSTAETIG und GESCHL:

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
1026
545
1571
HAUPTBERUFL.HALBTAGS
41
309
350
NEBENHER BERUFSTAE.
73
135
208
NICHT ERWERBSTAETIG
619
720
1339
\(\sum\)
1759
1709
3468

Aus der Kontingenztabelle ist z.B. abzulesen:

  • 41 Männer haben halbtagige hauptberufliche Erwerbstätigkeit (BERUFSTAETIG = 2 ,GESCHL = 1)
  • 545 Frauen haben ganztagige hauptberufliche Erwerbstätigkeit (BERUFSTAETIG = 1, GESCHL = 2)

Die Werte in der letzten Spalte stellen Randverteilung von BERUFSTAETIG dar und die letzte Zeile - Randverteilung von GESCHL (die Frage wurde von 1759 Männer und 1709 Frauen beantwortet).

Die Kontingenztabelle im Beispiel enthält absolute Häufigkeiten. Es lassen sich auch relative Häufigkeiten in einer Kontingenztabelle darstellen. In bestimmten Situationen hilfreich sind auch Kontingenztabellen mit sog. bedingten relativen Häufigkeiten in den Zeilen oder Spalten.

Die bedingte relative Häufigkeiten lassen sich zeilen- oder spaltenweise ausrechnen. Innerhalb von Teilstichprobe von Männer (1759) sind \(\frac{1026}{1759} \approx 0,5833\) sind ganztag hauptberuflich erwerbstätig, \(\frac{41}{1759} \approx 0,0233\) sind halbtagig hauptberuflich erwerbstätig, \(\frac{73}{1759} \approx 0,0415\) nebenher erwerbstätig und   \(\frac{619}{1759} \approx 0,3519\) nicht erwerbstätig. Insgesamt sind 1339 Personen in der Stichprobe sind nicht erwerbstätig, nämlich 619 Männer und 720 Frauen. Die relative Häufigkeiten unter der Bedingung von keine Erberbstätigkeit sind \(\frac{619}{1339} \approx 0,4623\) und   \(\frac{720}{1339}&=&0,5377\), d.h. 46,23% von nicht erwerbstätige Beftagte männlich waren.

Mit Hilfe von bedingte Häufigkeiten lasst sich feststellen, wenn man von einem fehlenden Zusammenhang zwichen zwei kategorielle Merkmale sprechen kann, von Unabhängichkeit der Merkmale. Intuativ sind Merkmale dann unabhängig, wenn Ausprägungen von X keinen Einfluss auf Ausprägungen von Y haben und ungekert. Daraus folgt, dass die absolute bedingte Häufigkeiten von Y unter der Bedingung \(X=x_i\) nicht davon abhängen, welche Ausprägung \(x_1\), \(x_2\) ... \(x_M\) gewählt wird. Dann sollten die relative bedingte Häufigkeiten  

$$\frac{n_{m1}}{n_{m•}} = \frac{n_{m2}}{n_{m•}} = ... = \frac{n_{mL}}{n_{m•}}$$

identisch sind. Dann muss auch die Quotient alle Zähler und alle Nenner übereinstimmen: \(\frac{n_{ij}}{n_{i•}} = \frac{n_{j}}{n}\).

Unter Unabhängigkeit von X und Y ist die gemeinsame Häufigkeit \( \tilde{n_{ij}} = \frac{n_{j}{n_{i•} }{n}\). Das sind erwartete Werte und man spricht von empirische Unabhängigkeit wenn die beobachtete Werte nicht stark von erwarte Werte abweichen. Die formale Definition von Unabhängigkeitstest folgt, aber erstmals, hier sind die erwartene gemeinsame Häufigkeiten für das Datenbeispiel.

 
MAENNLICH
WEIBLICH
\(\sum\)
HAUPTBERUFL.GANZTAGS
796.83
774.18
1571
HAUPTBERUFL.HALBTAGS
177.52
172.48
350
NEBENHER BERUFSTAE.
105.50
102.50
208
NICHT ERWERBSTAETIG
679.15
659.85
1339
\(\sum\)
1759
1709
3468


Dabei ist zum Beispiel \(\frac{1571·1759}{3468} = 796,8250\)

Die Differenzen zwichen beobachtete und erwartete Werte können sowohl positiv als auch negativ sein und deswegen fliesen quadrierte Differenzen in eine Kenngröße für Unabhängigkeitstest ein. Mann summiert alle terme \( \frac{(n_{ij} - \tilde{n_{ij})^2}{\tilde{n_{ij}} \). In einer Kontingenztabelle mit i Zeilen kann man zuerst diese Terme in jeder Zeile summieren und dann die Summe von Zeilensummen bilden.

$$\chi^2 &=& \sum\limits_{i=1}^M \sum\limits_{j=1}^L \frac{(n_{ij} - \tilde{n_{ij})^2}{\tilde{n_{ij}}$$

\(\chi^2\)-Koeffizient ist die Prüfgröße für \(\chi^2\)-Unabhängigkeitstest. Diese Unter der Nullhypothese: "X und Y sind unabhängig" diese Prüfgröße ist asymptotisch \(\chi^2\) mit Freiheitsgrade Freiheitsgrad (M-1)(L-1) verteilt. Im Datenbeispiel wird es Die Ablenkungbereich des Tests zum Niveau \(\alpha\) ist wenn die Prüfgröße größe als die teoretische Wert von \(\chi^2_{(M-1)(L-1),1 - \alpha}\). Im Datenbeispiel wird die Wert der Prüfgroße, 377,94, mit der Scwellenwerte \(\chi^2_{3, 0,95} &=& 7,81\) \(\chi^2_{3, 0,99}&=&11,34\) vergliechen. Bei \(\alpha)\ von 5% und 1% wird die Nullhupothese abgeleht. Die Aussage lautet: "Zwichen Erwerbstätigkeit und Geschlecht der befragten Personen besteht ein Zusammenhang".




! Interne Notiz: Chi-Quadrat, Fisher Exakt Test, McNemar) \frac{}{}