Als Wissenschaftler haben wir alle eine gewisse Ausbildung in Statistik erhalten. Ein grundlegendes Konzept ist, dass wir versuchen, Rückschlüsse auf eine bestimmte Population zu ziehen, aber dass wir nur Zugang zu einer Stichprobe der Menschen, Hunde, Amöben usw. haben, die zu dieser Population gehören. Durch zufällige Stichproben von Amöben zum Beispiel, Wir sammeln Daten und führen statistische Tests durch, um etwas über die gesamte Population zu erfahren, nicht nur die Amöben, die wir zufällig getestet haben.
Da wir nicht in der Lage sind, Daten von allen Amöben zu sammeln, sind unsere Schlussfolgerungen mit Unsicherheit behaftet. Wie gut unsere Schlussfolgerungen auf die gesamte Bevölkerung zutreffen, wie verallgemeinerbar sie sind, hängt davon ab, wie gut unsere Stichprobe für die Bevölkerung repräsentativ ist. Es könnte sein, dass die kleine Anzahl von Amöben, die wir probierten, besonders aggressiv waren. Dieses Merkmal wird von der Mehrheit der Amöben in der Bevölkerung nicht geteilt, aber da wir in unserer aktuellen Studie kein Maß an Aggression aufgenommen haben, können wir nicht wissen, dass unsere Stichprobe nicht repräsentativ ist.
Da unsere statistischen Analysen jedoch einen interessanten Befund ergeben, entwerfen wir ein Manuskript und reichen es beim Top amoebas Journal ein. Wichtig ist, dass wir das Manuskript unter dem Gesichtspunkt entwerfen, dass unsere Stichprobe tatsächlich repräsentativ für die Gesamtbevölkerung ist. Da unsere Ergebnisse sehr aussagekräftig waren, sind wir überzeugt, dass wir etwas Wichtiges entdeckt haben. Aber ist das tatsächlich wahr?
Im Durchschnitt sind größere Stichproben, die wirklich zufällig ausgewählt werden, repräsentativer für die gesamte Bevölkerung als eine kleinere Stichprobe. Dennoch ist die Wissenschaft gespickt mit Studien, die an kleinen Stichproben durchgeführt wurden, die in den meisten Fällen nicht die Gesamtbevölkerung repräsentieren. Warum gibt es so viele kleine Studien? Wie der Nobelpreisträger Daniel Kahneman vor mehr als 40 Jahren betonte, besteht ein Teil des Problems darin, dass Menschen die Show leiten …
Glaube an das Gesetz der kleinen Zahlen
In einem Artikel, der 1971 im Psychological Bulletin mit dem Titel Glaube an das Gesetz der kleinen Zahlen veröffentlicht wurde, argumentiert Tversky & Kahneman, dass Wissenschaftler, die Menschen sind, eine schlechte Intuition über die Gesetze des Zufalls haben (d. H. wahrscheinlichkeit), gibt es eine überwältigende (und falsche) Überzeugung, dass eine zufällig ausgewählte Stichprobe sehr repräsentativ für die untersuchte Population ist. Die Autoren testeten (und bestätigten) diese Hypothese durch eine Reihe von Umfragen bei Wissenschaftlern.
Konfidenzintervalle.
„Ein Konfidenzintervall liefert jedoch einen nützlichen Index der Stichprobenvariabilität, und genau diese Variabilität neigen wir dazu, zu unterschätzen.“
Die Autoren fassten ihre wichtigsten Ergebnisse wie folgt zusammen:
- Wissenschaftler zocken Forschungshypothesen an kleinen Stichproben, ohne zu erkennen, dass die Chancen gegen sie unangemessen hoch sind. Wissenschaftler überschätzen die Macht.
- Wissenschaftler haben ein unangemessenes Vertrauen in frühe Trends und in die Stabilität beobachteter Muster. Wissenschaftler überschätzen die Bedeutung.
- Bei der Bewertung von Replikationen haben Wissenschaftler unangemessen hohe Erwartungen an die Replizierbarkeit signifikanter Ergebnisse. Wissenschaftler unterschätzen die Größe der Konfidenzintervalle.
- Wissenschaftler führen selten eine Abweichung der Ergebnisse von den Erwartungen auf die Variabilität der Stichproben zurück, weil sie eine kausale „Erklärung“ für jede Diskrepanz finden. Daher haben sie wenig Gelegenheit, diese Variation in Aktion zu erkennen. Wissenschaftler verewigen den Glauben an kleine Zahlen.
Statistische Power und Stichprobengrößen.
“ Weigere dich zu glauben, dass ein seriöser Forscher wissentlich ein 50% iges Risiko akzeptiert, eine gültige Forschungshypothese nicht zu bestätigen.“
Nichts Neues
Es war interessant festzustellen, dass viele der Themen, die derzeit im Kontext der reproduzierbaren Wissenschaft diskutiert werden, auch vor mehr als 30 Jahren diskutiert wurden. Zum Beispiel das Vorhandensein von „lächerlich untermotorisierten Studien“, die Wichtigkeit der Reproduktion eines Schlüsselbefundes, die Stichprobengröße für eine Replikationsstudie, die Einschränkungen von p-Werten, die Verzerrung bei der Interpretation und Berichterstattung wissenschaftlicher Ergebnisse.
Warum wurden diese Probleme vor Jahrzehnten nicht gelöst und ihre Lösungen nicht umgesetzt, wenn so klare Denker an der Spitze standen?
Abhängigkeit von p-Werten.
„Die Betonung statistischer Signifikanzniveaus verschleiert tendenziell eine grundlegende Unterscheidung zwischen der Größe eines Effekts und seiner statistischen Signifikanz. Unabhängig von der Stichprobengröße ist die Größe eines Effekts in einer Studie eine vernünftige Schätzung der Größe des Effekts in der Replikation. Im Gegensatz dazu hängt das geschätzte Signifikanzniveau einer Replikation entscheidend von der Stichprobengröße ab.“
Zusammenfassung
Die Überzeugung, dass Ergebnisse aus kleinen Stichproben repräsentativ für die Gesamtbevölkerung sind, ist eine kognitive Verzerrung. Als solches ist es aktiv, ohne dass wir es überhaupt wissen. Es müssen Anstrengungen unternommen werden, um es in uns selbst zu erkennen, und Vorkehrungen getroffen werden, um seine Auswirkungen zu begrenzen. Beispiele für solche Vorsichtsmaßnahmen sind die Konzentration auf die Größe und Sicherheit eines beobachteten Effekts, die Vorregistrierung von Studienprotokollen und Analyseplänen sowie verblindete Datenanalysen.