Täglich werden wir überschwemmt mit Studien. Wussten Sie, dass weiße Autos weniger Unfälle haben als Autos mit Farben "eines niedrigeren Sichtbarkeitsindexes". Oder dass Babys, die gestillt werden, später ein höheres Einkommen und einen höheren IQ haben als Flaschenkinder?

Kurz gesagt funktionieren solche Studien so: Man sammelt Zahlen, erstellt eine Hypothese, vergleicht die Zahlen mit dem, was die Hypothese hergibt und verwirft oder bestätigt die Hypothese, je nachdem, wie weit sie von den gemessenen Daten weg ist.

Nun ist eine gängige Methode schwer in die Kritik geraten: Der Signifikanztest mit dem p-Wert. Was hat es damit auf sich?

Hypothese und Wirklichkeit lassen sich in vielerlei Weise vergleichen; gängig ist zum Beispiel der so genannte CHI-Quadrat-Test, bei dem im Wesentlichen der quadrierte und in gewisser Weise normierte Abstand der Messdaten zu den hypothetischen Daten gemessen wird.

Eine andere Methode besteht darin, hypothetisch anzunehmen, den Messdaten liege eine gewisse Wahrscheinlichkeitsverteilung zugrunde. Man könnte zum Beispiel einen Würfel 20 Mal werfen und die Würfe als Messdaten notieren. Eine mögliche Hypothese wäre, dass jede der Zahlen gleich oft erscheint. Tut sie aber in Wirklichkeit bei kleinen Stichproben nicht: Es kann durchaus vorkommen, dass wir bei 20 Würfel-Würfen 7 Einsen zu sehen bekommen, anstelle der nach dem statistischen Mittel erwarteten 3 1/3.

Nun kann man aber die Frage stellen, wie wahrscheinlich es ist, genau 7 Einsen unter diesen Würfen zu finden, wenn man annimmt, dass der Würfel nicht gezinkt ist, jede Zahl also mit gleicher Wahrscheinlichkeit zeigt?

Ein bisschen Mathematik: Insgesamt haben wir 620 mögliche Ausgänge unseres Experiments. In wie vielen Fällen wird es 7 Einsen geben? Wir können die Würfe durchnummerieren, von 1 bis 20, und uns genau 7 davon auswählen, die 1 zeigen sollen -- dafür gibt es 20 über 7 Möglichkeiten. Und in jeder dieser Möglichkeiten sollen die übrigen Würfe keine 1 bringen; für die restlichen Positionen haben wir also 520-7 Möglichkeiten.

Die Wahrscheinlichkeit ist also:

Sciencefeststellung



Was so etwa 0,026 bzw. 2,6 Prozent ergibt. Der p-Wert ist einfach eine Schranke an diese Wahrscheinlichkeit, den man sich vorher vorgibt, und der typischerweise auf 5 oder 1 Prozent festgelegt wird. Hätten wir 5 Prozent gewählt, hätten wir also die Hypothese, dass der Würfel nicht gezinkt ist, akzeptiert, bei einem Prozent nicht. Und wenn letzteres passiert wäre, würde das bedeuten: Neues Experiment. Oder Ablehnung der Hypothese.

Womit man beim Kernproblem aller solcher Tests ist: Was als "signifikant" oder "noch akzeptabel" gilt, unterliegt oft einer gewissen Willkür, gängigem Usus oder Traditionen. Und wie das mit der Kausalität aussieht, steht nochmal auf einem ganz anderen Blatt - ob also gestillte Kinder wegen der Muttermilch schlauer sind oder umgekehrt schlauere Kinder öfter gestillt werden...

Andreas Loos

Das mit dem p-Wert würde ich gern präzisieren. Der p-Wert ist nicht die Wahrscheinlichkeit für das beobachtete Stichprobenergebnis, auch nicht eine zuvor festgelegte Schranke dafür (die wird meist als Signifikanzniveau bezeichnet), sondern die Wahrscheinlichkeit, ein Ergebnis in der Stichprobe zu beobachten, das mindestens so sehr gegen die Nullhypothese spricht wie das tatsächlich beobachtete Ergebnis. Im Beispiel würde man bei einem gutartigen Würfel erwarten, dass bei 20 Würfen rund 3 Einsen fallen; 7 Einsen sind mehr als 3, deshalb scheint das gegen die Nullhypothese zu sprechen. Noch mehr gegen die Nullhypothese sprechen mehr als 7 Einsen. Der p-Wert wäre dann die Wahrscheinlichkeit, 7 oder mehr Einsen zu beobachten, also 3,7%.

An diesem Beispiel kann man gut ein Problem von Signifikanztests verdeutlichen. Wenn man ein Stichprobenergebnis nur lange genug ansieht, findet man fast immer irgendeinen ungewöhnlichen Teilaspekt, für den sich ein kleiner p-Wert ergibt. Falls man nicht vor dem Würfeln schon einen begründeten Verdacht hatte, dass der Würfel ausgerechnet Einsen bevorzugt, wäre es angemessener, den p-Wert als Wahrscheinlichkeit zu definieren, dass bei 20 Würfen irgendeine Zahl mindestens 7mal auftritt. Diese Wahrscheinlichkeit ist größer als 20%, also weit weg von herkömmlichen Signifikanzniveaus, das Stichprobenergebnis war in diesem Sinne nicht außergewöhnlich.

Auf das Beispiel der Flaschenkinder mit (angeblich) niedrigerem Einkommen bezogen: Wenn ich die Hypothese habe, dass als Kind gestillte Personen mehr verdienen als andere, ich mir dann Daten dazu besorge und in der Stichprobe sich diese Hypothese mit sehr kleinem p-Wert bestätigt, könnte etwas dran sein. Wenn ich aber umgekehrt in Daten zu Einkommen und anderen Variablen solange herumsuche, bis sich für irgendeine Hypothese ein kleiner p-Wert ergibt, ist das gar nichts Besonderes.

Noch eine weitere Bemerkung:

"(...) Hätten wir 5 Prozent gewählt, hätten wir also die Hypothese, dass der Würfel nicht gezinkt ist, akzeptiert, bei einem Prozent nicht.(...)"

Das wäre bei einem hypothetischen p-Wert von 2,6% natürlich genau umgekehrt: die Nullhypothese (Würfel nicht gezinkt) würde auf einem Signifikanzniveau von 5% nicht akzeptiert, auf einem Signifikanzniveau von 1% dagegen schon.

Hakiesl

Vielen Dank für die Präzisierung! Da war ich in der Tat nicht ganz korrekt.

Andreas Loos