Das Foto zeigt Schokolade
© Ewa Julia Zyablova, unsplash

Direkt schließende Statistik – ein intuitiver Weg, Statistik zu verstehen

Betreiben wir Statistik, führen wir z. B. eine Umfrage durch: Wir fragen 100 Leute, ob sie Schokolade mögen. Wenn 70 von ihnen mit „Ja“ antworten, gehen wir davon aus, dass ungefähr 70 % aller Menschen Schokolade mögen. Dann übertragen wir das Ergebnis auf die Grundgesamtheit.

Aber was wissen wir über die Menschen, die wir nicht gefragt haben? Erinnern Sie sich noch an die Zeit, als Sie in der Mittelstufe im Unterricht saßen: Haben Sie verstanden, warum Statistik eigentlich funktioniert? Dass Statistik Ihnen Informationen über Menschen liefert, die Sie nie gesehen haben?

Mit der direkt schließenden Statistik haben wir nun einen Weg, mit dem wir Statistik von der Mittelstufe an mathematisch korrekt und intuitiv nachvollziehbar betreiben können.

Die direkt schließende Statistik ist so einfach zu verstehen, weil sie das nachvollzieht, was wir Menschen ohnehin jeden Tag machen: Wir ordnen möglichen Grundgesamtheiten Wahrscheinlichkeiten zu.

Überdies ist die direkt schließende Statistik einfach zu unterrichten, denn das Prinzip bleibt von Anfang bis Ende genau gleich: Wir teilen die Anzahl bestimmter Stichproben durch die Anzahl aller Stichproben.

Wenn ich diese Methode erkläre, fange ich immer mit 5 Boxen an, die jeweils 4 Kugeln enthalten, welche entweder blau oder rot sind. Es sind alle möglichen Anteile roter Kugeln vertreten. (Wir könnten auch auf die Anteile blauer Kugeln achten, entscheiden uns aber aus reiner Willkür für die roten Kugeln.)

Aus einer der Boxen ziehe ich dann 3 Kugeln mit Zurücklegen und frage: Aus welcher Box habe ich gezogen? Sind z. B. eine blaue und 2 rote Kugeln gezogen worden, sagen die Zuschauer: „Wahrscheinlich ist aus B3 gezogen worden. Es könnte auch aus B1 gezogen worden sein. Das wäre aber unwahrscheinlich.“ Besteht die Stichprobe aus 3 blauen Kugeln, ist die Antwort immer: „B0 ist am wahrscheinlichsten und B3 ist am unwahrscheinlichsten.“

Wir Menschen denken so. Wir weisen Grundgesamtheiten Wahrscheinlichkeiten zu.

Normalerweise wenden wir ausgeklügelte Methoden an, um von der Stichprobe auf die Grundgesamtheit zu schließen, z. B. den Maximum-Likelihood-Schätzer und Konfidenzintervalle. Diese Methoden sind bewährt und führen zu vernünftigen Ergebnissen. Aber es ist immer noch ziemlich schwer zu verstehen, warum das überhaupt funktioniert.

Dies zeigt sich auch in der häufig anzutreffenden irrtümlichen Annahme, das Konfidenzniveau gebe die Wahrscheinlichkeit an, mit der der tatsächliche Bevölkerungsanteil im Konfidenzintervall liege. Infolgedessen kommt es auch beim Hypothesentest oft zu einer Fehlinterpretation des p-Wertes, der fälschlicherweise für die Wahrscheinlichkeit gehalten wird, die Hypothese sei wahr.
Der American Statistical Association ist dieses Problem offensichtlich auch aufgefallen, so dass sie sich 2016 genötigt sah, eine Stellungnahme zu den existierenden Missverstädnissen zu veröffentlichen.

(American Statistical Association Releases Statement on Statistical Significance and p-Values:
http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108#.Vt2XIOaE2MN)

Zu den Missverständnissen siehe auch:
„A confidence interval is not a probability, and therefore it is not technically correct to say the probability is 95% that a given 95% confidence interval will contain the true value of the parameter being estimated.“(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2947664/)
and
„A 95% confidence level does not mean that for a given realized interval there is a 95% probability that the population parameter lies within the interval (i.e., a 95% probability that the interval covers the population parameter).“
(https://en.wikipedia.org/wiki/Confidence_interval#Common_misunderstandings)