En tant que scientifiques, nous avons tous reçu un certain niveau de formation en statistiques. Un concept fondamental est que nous essayons de faire des inférences sur une population spécifique, mais que nous n’avons accès qu’à un échantillon des personnes, des chiens, des amibes, etc. qui appartiennent à cette population. En échantillonnant au hasard des amibes par exemple, nous collectons des données et effectuons des tests statistiques pour en apprendre davantage sur l’ensemble de la population, pas seulement sur les amibes que nous avons testées.
Parce que nous ne sommes pas en mesure de collecter des données sur toutes les amibes, nos conclusions sont incertaines. La mesure dans laquelle nos conclusions s’appliquent à l’ensemble de la population, leur généralisation, dépend de la représentativité de notre échantillon de la population. Il se peut que le petit nombre d’amibes que nous avons échantillonnées était particulièrement agressif. Cette caractéristique n’est pas partagée par la majorité des amibes de la population, mais comme nous n’avons pas inclus de mesure d’agression dans notre étude actuelle, nous n’avons aucun moyen de savoir que notre échantillon n’est pas représentatif.
Cependant, parce que nos analyses statistiques révèlent une découverte intéressante, nous rédigeons un manuscrit et le soumettons à la revue top amoebas. Fait important, nous rédigeons le manuscrit du point de vue que notre échantillon est en fait représentatif de la population globale. Parce que nos résultats ont été très significatifs, nous sommes convaincus d’avoir découvert quelque chose d’important. Mais est-ce en fait vrai?
En moyenne, les échantillons plus grands qui sont vraiment sélectionnés au hasard seront plus représentatifs de l’ensemble de la population qu’un échantillon plus petit. Pourtant, la science est truffée d’études réalisées sur de petits échantillons, qui dans la plupart des cas ne représentent pas la population globale. Pourquoi y a-t-il tant de petites études? Comme l’a souligné le lauréat du prix Nobel Daniel Kahneman il y a plus de 40 ans, une partie du problème est que les humains dirigent le spectacle
Croyance en la loi des petits nombres
Dans un article publié en 1971 dans le Bulletin psychologique intitulé Croyance en la loi des petits nombres, Tversky & Kahneman soutient que parce que les scientifiques, qui sont humains, ont une mauvaise intuition des lois du hasard (i.e. probabilité), il existe une croyance écrasante (et erronée) selon laquelle un échantillon sélectionné au hasard est hautement représentatif de la population étudiée. Les auteurs ont testé (et confirmé) cette hypothèse en menant une série d’enquêtes sur des scientifiques.
Intervalles de confiance.
« Un intervalle de confiance, cependant, fournit un indice utile de variabilité d’échantillonnage, et c’est précisément cette variabilité que nous avons tendance à sous-estimer. »
Les auteurs ont résumé leurs principales conclusions comme suit:
- Les scientifiques parient des hypothèses de recherche sur de petits échantillons sans se rendre compte que les chances contre eux sont déraisonnablement élevées. Les scientifiques surestiment le pouvoir.
- Les scientifiques ont une confiance déraisonnable dans les tendances précoces et dans la stabilité des modèles observés. Les scientifiques surestiment la signification.
- En évaluant les réplications, les scientifiques ont des attentes déraisonnablement élevées quant à la reproductibilité de résultats significatifs. Les scientifiques sous-estiment l’ampleur des intervalles de confiance.
- Les scientifiques attribuent rarement un écart des résultats par rapport aux attentes à la variabilité de l’échantillonnage, car ils trouvent une « explication » causale à toute divergence. Ainsi, ils ont peu d’occasions de reconnaître la variation de l’échantillonnage dans l’action. Les scientifiques perpétuent eux-mêmes la croyance en un petit nombre.
Puissance statistique et taille des échantillons.
« refusez de croire qu’un chercheur sérieux acceptera sciemment un risque de 50% de ne pas confirmer une hypothèse de recherche valide. »
Rien de nouveau
Il était intéressant de noter que bon nombre des sujets actuellement discutés dans le contexte de la science reproductible étaient également discutés il y a plus de 30 ans. Par exemple, la présence d ‘ »études ridiculement sous-alimentées », l’importance de reproduire une conclusion clé, la taille de l’échantillon à utiliser dans une étude de réplication, les limites des valeurs p, le biais présent dans l’interprétation et la communication des résultats scientifiques.
Avec des penseurs aussi clairs à la barre, pourquoi ces problèmes n’ont-ils pas été résolus et leurs solutions mises en œuvre il y a des décennies?
Dépendance aux valeurs p.
« L’accent mis sur les niveaux de signification statistique tend à masquer une distinction fondamentale entre la taille d’un effet et sa signification statistique. Quelle que soit la taille de l’échantillon, la taille d’un effet dans une étude est une estimation raisonnable de la taille de l’effet dans la réplication. En revanche, le niveau de signification estimé est une réplication dépend de manière critique de la taille de l’échantillon. »
Résumé
La croyance que les résultats de petits échantillons sont représentatifs de la population globale est un biais cognitif. En tant que tel, il est actif sans même que nous le sachions. Des efforts doivent être déployés pour la reconnaître en nous-mêmes, et des précautions doivent être mises en place pour en limiter l’impact. Des exemples de telles précautions comprennent l’accent mis sur la taille et la certitude d’un effet observé, l’enregistrement préalable des protocoles d’étude et des plans d’analyse et les analyses de données en aveugle.