Multiples Testen

In vielen –insbesondere explorativen– statistischen Untersuchungen werden oft viele Hypothesen gleichzeitig geprüft. Dies kann etwa der Fall sein, wenn man mehrere Behandlungen ("treatments") gegen eine Kontrollgruppe testet. Ein Extremfall ist die Genomanalyse, in welcher oft mehrere tausend Gene auf einen Zusammenhang mit einer bestimmten Krankheit getestet werden. Wenn jedoch viele Einzeltests zu einem gegebenen \(\alpha\)-Niveau (also der Fehler erster Art; in der Regel 5%) durchgeführt werden, erhöht sich die Chance für die Gesamtzahl der Hypothesen, zufällig ein signifikantes Ergebnis zu bekommen. Man spricht hierbei von "Alphafehler-Kumulierung". Bei 1000 durchgeführten Hypothesentests z.B. würde man im Mittel 1000*5%=50 signifikante Ergebnisse erwarten, auch wenn überhaupt kein Zusammenhang besteht. Die untere Grafik illustriert dieses Problem. Man kann sich zwar bei jedem einzelnen Test zu 95% darauf verlassen, dass der "Knoten" hält, bzw. man kein fehlerhaftes signifikantes Ergebnis bekommt, jedoch summieren sich die Fehler bei mehreren durchgeführten Hypothesen stark auf, so dass das Signifikanzniveau von 5% stark überschritten wird. Dies führt dann zu einer selektiven Darstellung und Überinterpretation der Analyseergebnisse in Veröffentlichungen.

PDF

name	drsorglos.pdf

(aus Beck-Bornholdt und Dubben, 1999)

Vor einigen Jahren hatte etwa eine Studie für Aufsehen gesorgt, nach der angeblich der Verzehr von Müsli die Chance auf männlichen Nachwuchs steigern würde.

Hier wurden 740 Frauen bezüglich 132 Lebensmitteln befragt und es wurden 264 Signifikanztests (2 pro Lebensmittel) durchgeführt. Dabei ist nicht überraschend, dass signifikante Effekte zu verzeichnen waren, schließlich würde man durchschnittlich 13,2 signifikante Ergebnisse zum Niveau \(\alpha=0.05\) erwarten. Aufgrund der fehlenden Korrektur für multiples Testen wurden die gezogenen Schlussfolgerungen im Folgenden von anderen Forschern als nicht haltbar verworfen.

Es existieren 2 Verallgemeinerungen des Fehlers erster Art (Irrtumswahrscheinlichkeit) auf multiple Hypothesen. Die zumeist verwendete "Family Wise Error Rate" (FWER) ist die strengere und konservativere Verallgemeinerung und ist für inferenzstatistische Fragestellungen geeignet, während die später eingeführte und weniger strenge "False Discovery Rate" (FDR) eher auf explorative Analysen abzielt.

Family Wise Error Rate (FWER)

Um die Irrtumswahrscheinlichkeit für alle untersuchten Hypothesen korrekt zu kontrollieren, wurde die "Family Wise Error Rate" (FWER) definiert. Die FWER ist dabei definiert durch die Wahrscheinlichkeit, mindestens eine der Testhypothese fälschlicherweise abzulehnen. Findet man nach der Kontrolle der FWER signifikante Effekte, so kann man sich zu 95% sicher sein (für \(\alpha=0.05\)), dass alle gefundenen signifikanten Ergebnisse korrekt sind.

Ein sehr einfaches Verfahren, um die FWER zu kontrollieren, ist die Bonferroni-Korrektur. Diese kann man immer anwenden, jedoch ist sie sehr konservativ in dem Sinne, dass die Sicherheit in der Regel größer als die veranschlagten 95% ist. Man kann die Korrektur selbst anwenden, indem man das Signifikanzniveau \(\alpha\) durch die Anzahl der durchgeführten Tests teilt. Führt man z.B. 4 Hypothesentests zum 5%-Niveau durch muss der p-Wert einer Einzelhypothese also kleiner als 1,25% sein, um ein signifikantes Ergebnis anzuzeigen. Bei sehr vielen Tests wird das Signifikanzniveau, gegen das getestet wird, sehr klein. Daher gibt es weitere Verfahren, die weniger konservativ sind. Das Bonferroni-Holm-Verfahren lässt sich wie das Standard-Bonferroni-Verfahren immer anwenden und ist diesem immer überlegen und daher immer vorzuziehen. Es ist etwas komplizierter, aber immer noch per Hand berechenbar. Alternativ gibt es in R die Funktion p.adjust(), welche unkorrigierte p-Werte in korrigierte umwandelt (und neben der Bonferroni- und Bonferroni-Holm-Korrektur noch andere Verfahren anbietet). Daneben gibt es noch andere Verfahren, die für bestimmte Spezialanwendungen optimal sind. Für die einfaktorielle Varianzanalyse existiert z.B. eine Vielzahl von multiplen Korrekturmethoden. SPSS z.B. bietet eine große Anzahl von Auswahlmöglichkeiten. Am wichtigsten sind aber die Tukey- und die Dunnett-Korrektur. Erstere führt alle möglichen Paarvergleiche durch und korrigiert die p-Werte, während letztere für den Vergleich mehrere Behandlungen gegen eine Kontrollgruppe (many-to-one) gedacht ist.

False Discovery Rate (FDR)

Die FWER ist eine sehr strenge Korrektur, die insbesondere bei einer sehr hohen Anzahl von Hypothesentests viele Nullhypothesen fälschlicherweise nicht ablehnt (hoher Fehler 2. Art). Insbesondere in Genomanalysen führt dies zu wenigen bis gar keinen signifikanten Effekten. Ein statistischer Hypothesentest lässt sich aber auch auf multiple Tests erweitern, indem man den erwarteten Anteil (z.B. 5%) an fälschlicherweise abgelehnten Hypothesen kontrolliert. Dieses Kriterium wird als "False Discovery Rate" bezeichnet und ist wesentlich weniger strikt als die FWER. Wenn ich bei der FDR z.B. 100 signifikante Ergebnisse habe kann man bei einem Signifikanzniveau von \(\alpha=0.05\) davon ausgehen, dass davon im Mittel 100*5% = 5 Hypothesen fälschlicherweise abgelehnt wurden, während bei der FWER 95% Sicherheit besteht, dass alle signifikanten Ergebnisse korrekt sind. Für die FDR existiert das Benjamini–Hochberg-Verfahren, welches ähnlich wie das Bonferroni-Holm-Verfahren für die FWER funktioniert und ebenfalls in der Funktion p.adjust() in R enthalten ist.

Einen verständlichen Übersichtsartikel hat das deutsche Ärzteblatt veröffentlicht.

Confirmation Bias

Eng verwandt mit dem multiplen Testproblem ist der sogenannte Bestätigungsfehler ("confirmation Confirmation Bias") in veröffentlichten Studien. Es werden nämlich bevorzugt Studien veröffentlicht, die das gewünschte Ergebnis liefern, bzw. die formulierte Hypothese bestätigen. Dies wird einerseits durch die Autoren selber als auch durch die Fachzeitschrift begünstigt. Wenn in Folge also z.B. 20 Studien zur gleichen Fragestellung durchgeführt werden, aber nur eine davon ein signifikantes Ergebnis brachte und nur dieses veröffentlicht wurde, kann dies zu Fehlschlüssen führen. Ein lesenswerter Artikel mit vielen Beispielen über dieses weit verbreitete Problem findet sich in der Online-Ausgabe von Spektrum: http://www.spektrum.de/news/jede-menge-murks/1181463. Generell ist anzumerken, dass auch ein nicht-signifikantes Ergebnis ein Ergebnis darstellt. Es sollte dabei auch beachtet werden, dass nicht signifikant keinesfalls heißt, dass kein Effekt vorliegt, sondern nur, dass dieser nicht nachgewiesen werden kann. Mit größerer Fallzahl oder einem besseren Studiendesign könnte in einer Folgeuntersuchung möglicherweise doch noch ein Effekt nachgewiesen werden. Auf keinen Fall sollte versucht werden, mit fragwürdigen Methoden (willkürliche Fallauswahl oder Weglassen von Kontrollvariablen) irgendwie ein signifikantes Ergebnis zu erzwingen.

Info

fu:stat bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare RegressionsRegression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben. Auf Anfrage können wir auch gerne individuelle Inhouse-Schulungen bei Ihnen anbieten.

Wikis der Freien Universität Berlin

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 34

Neue Version 35

Schlüssel

Multiples Testen

Family Wise Error Rate (FWER)

False Discovery Rate (FDR)

Confirmation Bias

Bereichsverknüpfungen

Seitenhierarchie

Seitenhistorie

Versionen im Vergleich

Alte Version 34

Neue Version 35

Schlüssel

Multiples Testen

Family Wise Error Rate (FWER)

False Discovery Rate (FDR)

Confirmation Bias