Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Die Varianzanalyse oder ANOVA (von analysis of variance) ist ein Verfahren, welches auf Gruppenunterschiede testet. Der Name Varianzanalyse kommt daher, dass versucht wird Bei der ANOVA wird versucht die Gesamtvarianz der abhängigen, metrischen Variable zu zerlegen, daher kommt auch der Name "Varianzanalyse". Dabei wird ein (möglichst großer) Teil der Varianz durch die unabhängigen Faktoren erklärt (Varianz zwischen den Gruppen) während die restliche, nicht erklärbare Varianz als Zufallsprozess aufgefasst wird (Varianz innerhalb der Gruppen). In ihrer einfachsten Form, der einfaktoriellen Varianzanalyse, ist sie als Verallgemeinerung des zwei-Stichproben t-Tests auf Mehr-Gruppen-Vergleiche darstellbar. Natürlich könnte man für alle mögliche Gruppenvergleiche auch paarweise t-Tests durchführen (führt zur Alphafehler-Kumulierung, häufig auch \(\alpha\)-Fehler-Inflation, siehe Artikel über multiples Testen), die Varianzanalyse bietet jedoch mehrere Vorteile. So kann getestet werden, ob ein Faktor als ganzes einen Erklärungsgehalt besitzt und es existieren effiziente Testverfahren für multiple Vergleiche (siehe Artikel über multiples Testen). Außerdem bietet sie eine etwas effizientere Schätzung, wenn man davon ausgeht, dass die Varianzen in den Gruppen gleich sind (Varianzhomogenität), da so nur ein Varianzparameter geschätzt werden muss.

...

Wie bei jeder statistischen Auswertung empfiehlt sich zunächst eine deskriptive Analyse durchzuführen um sich einen Überblick über die Daten zu verschaffen. Hierfür eignet sich, die Ausgabe der Mittelwerte und Standardabweichungen in den einzelnen Gruppen. Um weitere Einblicke über die Verteilung der Daten in den einzelnen Gruppen zu erlangen eignen sich graphische Methoden, wie Boxplots und Balkendiagramme der Mittelwerte mit Standardfehlern oder Konfidenzintervallen (bzgl. des Mittelwerts).

...

Die erste Annahme lässt sich grafisch über einen mit Hilfe eines QQ-Plot überprüfenprüfen. Ein häufiger Fehler der gemacht wird, ist die Werte der abhängigen Variablen selber zu verwenden (\(y_i\)), statt  die der Residuen (\(\epsilon_i\)). Alternativ kann man die Residuen auch mit einem Test auf Normalverteilung (z.B. Kolmogorov-Smirnov-Test oder Shapiro-Wilk) überprüfen, jedoch ist dies nur begrenzt sinnvoll (siehe folgende Diskussion: http://stats.stackexchange.com/questions/2492/is-normality-testing-essentially-useless). Solange es zu keinen gravierenden Abweichungen von der Normalverteilung kommt ist diese Annahme insbesondere bei großen Fallzahlen aufgrund des zentralen Grenzwertsatzes bei kleineren Abweichungen vom Idealfall tolerabel.

Die zweite Annahme kann man mit Hilfe des Levene-Test überprüfen überprüft (wobei dieser eine relativ geringe Power besitzt) werden. Auch hier gilt, dass die Varianzanalyse relativ robust gegenüber leichten bis mittleren Verletzungen dieser Annahme ist, wie viele Simulationen gezeigt haben.

...

Gegeben sei \(x_{ij}\) die j-te Beobachtung der i-ten unabhängigen Stichprobe und \(\overline{x}\) der Mittelwert der Gesamt-StichprobeGesamtstichprobe, sowie \(\overline{x}_{i}\) der Mittelwert der i-te Gruppe (Teilstichprobe). Daraus folgt:

...

Unter der \(H_{0}\), wird die Abweichung der Gruppenmittel zum Gesamtmittel klein sein im Vergleich zur Abweichung der Beobachtung Beobachtungen zum Gruppenmittel. Eine hohe Abweichung der Gruppenmittel zum Gesamtmittel im Vergleich zur Abweichung der Beobachtung Beobachtungen zum Gruppenmittel spricht dagegen für die \(H_{1}\).

...

  • SSA:= Sum of Squared erors of All treatment, (sample) means vs. grand mean  (Quadratische quadratische Abweichung der Mittelwerte vom Gesamtmittelwert der Gruppen).
  • SSE:= Sum of Squared Errors of all observation vs. respective sample means (gesamte Abweichung von den Mittelwerten in den Gruppen).
  • SST:= Sum of Squared errors Total for all observations vs. grand mean = SSA+SSE

...

Wird die \(H_{0}\) der einfaktoriellen Varianzanalyse verworfen bedeutet dies, dass es einen Mittelwertsunterschied zwischen mindestens zwei Gruppen gibt. Da es sich bei dem F-Test der Varianzanalyse um einen globalen Test (Omnibustest) handelt haben wir keine Information darüber, zwischen welchen zwei Gruppen, der \(I\) Gruppen, ein Mittelwertsunterschied vorliegt. Um zu überprüfen welche zwei Gruppenmittelwerte der \(I\) Gruppen sich signifikant voneinander unterscheiden, werden sogenannte Post-Hoc-Tests verwendet. Ein naives Vorgehen wäre die paarweise Überprüfung mit Hilfe von t-Tests, da es hierbei aber zur bereits erwähnten Alphafehler-Kumulierung kommt, gibt es speziel speziell entwickelte Testverfahren. Eine sehr gute Übersicht über die gängigen Post-Hoc-Tests findet man unter: https://de.wikipedia.org/wiki/Post-hoc-Test.

...

Die einfaktorielle Varianzanalyse wird jetzt mit Hilfe anhand eines Beispiels genauer erläutert. Es soll anhand mit Hilfe einer Umfrage unter Studenten der wirtschaftswissenschaftlichen Fakultät der FU-Berlin überprüft werden, ob es signifikante Körpergrößenunterschiede zwischen Studenten aus Berlin, aus einem anderen Bundesland und dem Ausland gibt. Die abhängige metrischen Variable ist hierbei die Körpergröße und die Herkunft (mit den drei Ausprägungen, Faktorstufen) fungiert als Faktorvariable. In diesem Beispiel wird davon ausgegangen, dass alle Annahmen der ANOVA erfüllt sind.

...

In der Ausgabe finden wir Informationen zu den Quadratsummen zwischen und innerhalb der Gruppen. Wie aus der Beschreibung der grundlegenden Test Idee Testidee ersichtlich wurde, sprechen hohe Abweichungen zwischen den Gruppen im Verhältnis zu kleinen Abweichungen innerhalb der Gruppen für die \(H_{1}\). Die Berechnung des Quotienten \(373.719/85.506\) ergibt den Wert der Teststatistik \(F=4.371\). Um die Testentscheidung zu treffen gibt uns SPSS außerdem den p-Wert unter dem Namen "Signifikanz" aus. Da der p-Wert mit \(0.014 < 5%\) ist, lehnen wir die \(H_{0}\) ab. Inhaltlich bedeutet dies, dass es zu einem Signifikanzniveau von 5% einen signifikanten Körpergrößenunterschied (Mittelwertsunterschied) zwischen den Studierenden mit unterschiedlicher Herkunft gibt. Um nun herauszufinden zwischen welchen Mittelwertspaaren es signifikante Unterschiede gibt wird ein Post-Hoc-Test (der Least significant difference test (LSD)) verwendet.

Nach Durchführung des Post-Hoc-Tests mit SPSS erhalten wir folgende Ausgabe:

...

\(t_{r(i)}\) beschreibt die Anzahl der Beobachtungen mit Rang \(i\). Die Teststatistik \(H\) ist unter der \(H_{0}\) Chi-Quadrat-verteilt mit Freiheitsgraden \(Df=k-1\), wobei \(k\) für die Anzahl der Klassen Gruppen steht. Wie bei der zuvor beschriebenen einfaktoriellen ANOVA ist es sinnvoll Post-hoc-Tests durchzuführen, um zu untersuchen zwischen welchen Gruppen signifikante Unterschiede vorliegen.

 

Beispiel:

...

In dem Output kann die \(H_{0}\) abgelesen werden. Es wird außerdem zur Überprüfung angezeigt welchen Test wir gewählt haben (den Kruskal-Wallis-Test bei unabhängigen Stichproben). Außerdem wird unter "Sig." der p-Wert ausgegeben und die Testentscheidung verbalisiert. Da der p-Wert mit 0.007 kleiner ist als 5%, wird die \(H_{0}\) zu einem Signifikanzniveau von 5% verworfen. Dementsprechend, ist die Verteilung der Körpergröße nicht über die Studentengruppen hinweg identisch.

...

Die ANCOVA gehört zu der Modellklasse der generalisierten linearen Modelle und kann als Mischung zwischen einer linearen Regression und einer ANOVA angesehen werden. Ziel ist die Untersuchung einer abhängigen Variable auf Mittelwertsunterschiede zwischen den einzelnen Faktorstufen der unabhängigen Variablen, wobei der Effekt von stetigen Kovariaten berücksichtigt wird. Die stetigen Kovariate sind nicht von primären inhaltlichen Interesse und diesen dienen lediglich als "KontrollvariableKontrollvariablen". Bei der ANCOVA wird die Gesamtvarianz in die Varianz der Kovariate, die Varianz der kategorialen unabhängigen Variablen und die Varianz der Residuen zerlegt. Die ANCOVA kann genutzt werden um die statistische Power (also dem Auffinden von signifikanten Mittelwertsunterschieden zwischen den Gruppen, falls welche existieren) der Analyse zu erhöhen. Dies geschieht indem die Varianz innerhalb der Gruppen minimiert wird. Zum besseren Verständnis ist es hilfreich die Funktionsweise des F-Tests noch einmal zu verdeutlichen: 

...

Wie aus der Formel ersichtlich, wird der F-Test berechnet , indem die Varianz zwischen den Gruppen, durch die Varianz innerhalb der Gruppen dividiert wird. Wenn der Quotient größer als ein kritischer Wert wird, spricht dies für ein signifikantes Testergebnis. Folglich bedeutet dies, dass wenn die Varianz innerhalb der Gruppen mit Hilfe von Kovariaten besser erklärt werden kann, wird der Nenner kleiner und der Wert des Quotienten größer wird. Sollten signifikante Unterschiede zwischen den Gruppen vorhanden sein, werden diese besser sichtbar.

...

Für die Durchführung der ANCOVA , müssen die Annahmen der linearen Regression erfüllt sein. Außerdem muss angenommen werden, dass die Steigung der Regressionsgerade der Kovariate zwischen den Gruppen gleich ist (Homogenität der Regressionssteigung).

...

Im Falle von mehr als zwei abhängigen Variablen kann die Multivariate ANOVA (MANOVA) - eine Erweiterung der ANOVA - verwendet werden.  Mit Hilfe der MANOVA kann untersucht werden, ob die unabhängigen Variablen einen signifikanten Einfluss auf die abhängigen Variablen haben. Häufig folgen anschließend anschließende Signifikanztests um die abhängigen Variablen erneut einzeln zu überprüfen. 

...