Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 6 Nächste Version anzeigen »

Varianzanalyse/ANOVA

Die Varianzanalyse oder ANOVA (von analysis of variance) ist ein Verfahren, welches auf Gruppenunterschiede testet. Der Name Varianzanalyse kommt daher, dass versucht wird die Gesamtvarianz der abhängigen, metrischen Variable zu zerlegen. Dabei wird ein (möglichst großer) Teil der Varianz durch die unabhängigen Faktoren erklärt (Varianz zwischen den Gruppen) während die restliche, nicht erklärbare Varianz als Zufallsprozess aufgefasst wird (Varianz innerhalb der Gruppen). In ihrer einfachsten Form, der einfaktoriellen Varianzanalyse, ist sie als Verallgemeinerung des zwei-Stichproben t-Tests auf Mehr-Gruppen-Vergleiche darstellbar. Natürlich könnte man für alle mögliche Gruppenvergleiche auch t-Tests durchführen, jedoch bietet die Varianzanalyse mehrere Vorteile. So kann getestet werden, ob ein Faktor als ganzes einen Erklärungsgehalt besitzt und es existieren effiziente Testverfahren für multiple Vergleiche (siehe Artikel über multiples Testen). Außerdem bietet sie eine etwas effizientere Schätzung, wenn man davon ausgeht, dass die Varianzen in den Gruppen gleich sind (Varianzhomogenität), da so nur ein Varianzparameter geschätzt werden muss.

 

Einfaktorielle Varianzanalyse

Zunächst wird der einfachste Fall, die einfaktorielle Varianzanalyse, behandelt. Hierbei gibt es eine unabhängige kategoriale Variable oder Faktor mit mindestens 3 Ausprägungen. Daneben existieren eine Vielzahl von Erweiterungen und Generalisierungen, auf welche wir später noch eingehen.

Die allgemeine Formel für eine Stichprobengröße $n$ und Gruppengröße $m$ lautet:

$y_i=\mu_j+\epsilon_i; i=1,..n ; j=1,..,m$

Dabei sind die $\mu_i$ die einzelnen Gruppelmittelwerte und $\epsilon_i$ der Fehlerterm, also die nicht-erklärte Varianz.

 

Wie bei jeder statistischen Auswertung empfiehlt sich zunächst eine deskriptive Analyse. Man sollte sich zunächst die Mittelwerte und Standardabweichungen in den einzelnen Gruppen ausgeben lassen. Graphisch eignet sich ein Boxplot oder ein Balkendiagramm der Mittelwerte mit Standardfehlern oder Konfidenzintervallen (bzgl. des Mittelwerts).

Annahmen:

Für die Gültigkeit der statistischen Tests wird von 2 zentralen Annahmen ausgegangen:

  1. Normalverteilte Residuen: Die Fehlerterme sind normalverteilt, d.h. $\sigma \sim N(0,1)$
  2. Varianzhomogenität: Die Fehlertermvarianz $\sigma$ wird über alle Gruppen gleich angenommen

Die erste Annahme lässt sich grafisch über einen QQ-Plot überprüfen. Ein häufiger Fehler der gemacht wird, ist die Werte der abhängigen Variablen selber zu verwenden ($y_i$), statt der Residuen ($\epsilon_i$). Alternativ kann man dies auch mit einem Test (z.B. Kolmogorov-Smirnov-Test oder Shapiro-Wilk) überprüfen, jedoch ist dies nur begrenzt sinnvoll (siehe folgende Diskussion: http://stats.stackexchange.com/questions/2492/is-normality-testing-essentially-useless). Solange es zu keinen gravierenden Abweichungen von der Normalverteilung kommt ist diese Annahme insbesondere bei großen Fallzahlen aufgrund des zentralen Grenzwertsatzes bei kleineren Abweichungen vom Idealfall tolerabel.

Die zweite Annahme kann man über den Levene-Test testen (wobei dieser eine relativ geringe Power hat) oder über eine empirische Analyse der Standardabweichungen in den einzelnen Gruppen. Auch hier gilt, dass der F-Test (siehe unten) relativ robust gegenüber leichten bis mittleren Verletzungen dieser Annahme ist, wie viele Simulationen gezeigt haben.

Falls die obigen Annahmen erheblich verletzt sind, empfiehlt es sich zunächst eine Transformation der abhängigen Variablen auszuführen. Sinnvoll sind insbesondere die Logarithmus-Transformation, da viele Variablen wie z.B. das Einkommen eher auf einer multiplikativen Skala statt einer additiven Skala Sinn ergeben. Weitere Transformationen sind die Wurzeltransformation oder die Box-Cox-Transformation.

Omnibus-F-Test:

 

Post-Hoc-Tests:

 

Kruskal-Wallis-Test als nichtparametrische Alternative:

 

Erweiterungen

Mehrfaktorielle ANOVA

Multivariate ANOVA (MANOVA)

Mixed effects ANOVA

Analysis of Covariance (ANCOVA)

 

  • Keine Stichwörter