Pourquoi rend-on les statistiques si difficiles pour nos étudiants?

X

Confidentialité & Cookies

Ce site utilise des cookies. En continuant, vous acceptez leur utilisation. En savoir plus, y compris comment contrôler les cookies.

Compris!

Annonces

( Attention: long et légèrement bancal)

Si vous êtes comme moi, vous êtes continuellement frustré par le fait que les étudiants de premier cycle ont du mal à comprendre les statistiques. En fait, c’est le moins que l’on puisse dire: une grande fraction des étudiants de premier cycle refusent simplement de comprendre les statistiques; mentionnez une exigence d’analyse de données statistiques dans votre cours et vous obtiendrez des yeux, des gémissements ou (si c’est assez tôt dans le semestre) une éruption cutanée bien sûr.

Cela me dérange, car nous ne pouvons pas faire d’inférence en science sans statistiques *. Pourquoi les élèves sont-ils si peu réceptifs à quelque chose d’aussi important? Dans des moments non surveillés, j’ai reproché aux étudiants eux-mêmes d’avoir décidé, a priori et dans une prophétie auto-réalisatrice, que les statistiques sont des mathématiques et qu’ils ne peuvent pas faire de mathématiques. J’ai reproché aux professeurs de mathématiques du lycée de rendre les mathématiques ennuyeuses. J’ai reproché aux conseillers d’orientation du secondaire d’avoir dit aux élèves que s’ils n’aiment pas les mathématiques, ils devraient devenir des majors en biologie. J’ai reproché aux parents d’avoir permis à leurs enfants de ne pas aimer les mathématiques. Je l’ai même blâmé sur le boogie **.

Toutes ces parties (sauf le boogie) sont coupables. Mais j’ai fini par comprendre que ma liste a laissé de côté le plus coupable de tous: nous. Par « nous », je veux dire les membres du corps professoral d’université qui enseignent les statistiques – qu’ils soient dans des départements de mathématiques, des Départements de Statistique ou des départements de biologie (gasp). Nous rendons les statistiques inutilement difficiles pour nos étudiants, et je ne comprends pas pourquoi.

Le problème est capturé dans l’image ci–dessus – les formules nécessaires pour calculer le test t de Welch. Ils sont arithmétiquement un peu compliqués, et ils sont utilisés dans une situation particulière: comparer deux moyennes lorsque la taille et les variances des échantillons sont inégales. Si vous voulez comparer trois moyennes, vous avez besoin d’un ensemble de formules différent; si vous voulez tester une pente non nulle, vous avez besoin d’un autre ensemble à nouveau; si vous voulez comparer les taux de réussite dans deux essais binaires, un autre ensemble encore; et ainsi de suite. Et chaque ensemble de formules ne fonctionne que compte tenu de l’exactitude de son propre ensemble particulier d’hypothèses sur les données.

Compte tenu de cela, peut-on reprocher aux étudiants de penser que les statistiques sont compliquées? Non, nous ne pouvons pas; mais nous pouvons nous en vouloir de les laisser penser que c’est le cas. Ils le pensent parce que nous sous-insistons constamment sur la chose la plus importante des statistiques: que cette complication est une illusion. En fait, chaque test de signification fonctionne exactement de la même manière.

Chaque test de signification fonctionne exactement de la même manière. Nous devrions d’abord enseigner cela, l’enseigner souvent et l’enseigner à haute voix; mais nous ne le faisons pas.Au lieu de cela, nous commettons une énorme erreur: nous nous y trompons et commençons à enseigner test après test, bombardant les étudiants de dérivations de statistiques et de distributions de tests et accordant plus d’attention aux différences entre les tests qu’à leur identité cruciale et sous-jacente. Pas étonnant que les étudiants en veuillent aux statistiques.

Qu’est-ce que je veux dire par « chaque test de signification fonctionne exactement de la même manière »? Tous les tests statistiques (NHST) répondent à un problème en deux étapes simples.

Le problème:

  • Nous voyons un schéma apparent, mais nous ne savons pas si nous devrions croire que c’est réel, car nos données sont bruyantes.

Les deux étapes:

  • Étape 1. Mesurez la force du modèle dans nos données.
  • Étape 2. Demandez-vous, ce modèle est-il assez fort pour être cru?

L’enseignement du problème motive l’utilisation des statistiques en premier lieu (de nombreux cours de mathématiques, et presque tous ceux de biologie, en font un bon travail). Enseigner les deux étapes donne aux étudiants les outils pour tester n’importe quelle hypothèse – comprendre qu’il s’agit simplement de choisir la bonne arithmétique pour leurs données particulières. C’est là que nous semblons tomber.

L’étape 1, bien sûr, est la statistique de test. Notre travail consiste à trouver (ou à inventer) un nombre qui mesure la force d’un modèle donné. Il n’est pas surprenant que les détails du calcul d’un tel nombre dépendent du motif que nous voulons mesurer (différence de deux moyennes, pente d’une droite, peu importe). Mais ces détails impliquent toujours les trois choses que nous comprenons intuitivement comme faisant partie de la « force » d’un modèle (illustré ci-dessous): la taille brute de l’effet apparent (dans le t de Welch, la différence entre les deux moyennes d’échantillon); la quantité de bruit dans les données (dans le t de Welch, les deux écarts types d’échantillon), et la quantité de données en main (dans le t de Welch, les deux tailles d’échantillon). Vous pouvez voir par inspection que ceux-ci se comportent dans les formules de Welch exactement comme ils le devraient: t grossit si les moyennes sont plus éloignées, les échantillons sont moins bruyants et / ou les tailles d’échantillons sont plus grandes. Tout le reste est un détail arithmétique inintéressant.

 comparaison d'inférence

L’étape 2 est la valeur P. Nous devons obtenir une valeur P correspondant à notre statistique de test, ce qui signifie savoir si les hypothèses sont remplies (afin que nous puissions utiliser une table de recherche) ou non (nous devrions donc utiliser la randomisation ou passer à un test différent ***). Chaque test utilise une table différente – mais toutes les tables fonctionnent de la même manière, de sorte que les différences ne sont à nouveau qu’arithmétiques. Interpréter la valeur P une fois que nous l’avons est un jeu d’enfant, car peu importe l’arithmétique que nous avons faite en cours de route: la valeur P pour tout test est la probabilité d’un modèle aussi fort que le nôtre (ou plus fort), en l’absence de véritable effet sous-jacent. Si cela est faible, nous préférerions croire que notre modèle est né de la biologie réelle plutôt que de croire qu’il est né d’une coïncidence stupéfiante (Deborah Mayo explique la philosophie derrière cela ici, ou voir son excellent blog).

Bien sûr, il y a beaucoup de détails dans les différences entre les tests. Ceux-ci comptent, mais ils comptent d’une manière de second ordre: jusqu’à ce que nous comprenions l’identité sous-jacente du fonctionnement de chaque test, il ne sert à rien de s’inquiéter des différences. Et même dans ce cas, les différences ne sont pas des choses dont nous devons nous souvenir; ce sont des choses que nous devons savoir pour rechercher en cas de besoin. C’est pourquoi si je sais comment faire un test statistique – n’importe quel test statistique – je sais comment tous les faire.

Cela signifie-t-il que je préconise d’enseigner les statistiques des « livres de recettes »? Oui, mais seulement si nous utilisons la métaphore avec soin et non péjorativement. Un livre de cuisine est peu utile à quelqu’un qui ne sait rien du tout sur la cuisine; mais si vous connaissez une poignée de principes de base, un livre de cuisine vous guide à travers des milliers de situations de cuisson, pour différents ingrédients et différents objectifs. Tous les cuisiniers possèdent des livres de cuisine; peu les mémorisent.

Donc, si nous enseignons les statistiques de manière erronée, voici comment le faire correctement: organisez tout autour de l’identité sous-jacente. Commencez par cela, passez beaucoup de temps dessus et illustrez-le avec un test (n’importe quel test) élaboré avec une attention détaillée non pas aux calculs, mais à la façon dont ce test nous guide à travers les deux étapes. N’essayez pas de couvrir les « 8 tests que chaque étudiant de premier cycle devrait connaître »; il n’y a pas de liste de ce type. Proposez un problème statistique: des données réelles et un modèle, et demandez aux élèves comment ils pourraient concevoir un test pour résoudre ce problème. Il n’y aura pas de bonne façon, et même s’il y en avait, ce serait moins important que l’exercice de penser à travers les étapes de l’identité sous-jacente.

Enfin: pourquoi les instructeurs font-ils des statistiques sur les différences, pas sur l’identité sous-jacente? J’ai dit que je ne sais pas, mais je peux spéculer.

Quand la statistique est enseignée par des mathématiciens, je peux voir la tentation. En termes mathématiques, les différences entre les tests sont la partie intéressante. C’est là que les mathématiciens montrent leurs côtelettes, et c’est là qu’ils font le travail difficile et important d’inventer de nouvelles recettes pour cuisiner des résultats fiables à partir de nouveaux ingrédients dans de nouvelles situations. Les utilisateurs de statistiques, cependant, seraient heureux de stipuler que les mathématiciens ont été intelligents, et que nous leur sommes tous reconnaissants, afin que nous puissions nous atteler au travail de statistiques que nous devons faire.

Lorsque les statistiques sont enseignées par des biologistes, le mystère est plus profond. Je pense (j’espère!) ceux d’entre nous qui enseignent les statistiques comprennent tous l’identité sous-jacente de tous les tests, mais cela ne semble pas nous empêcher de l’approche de la parade des tests. Une hypothèse: nous pouvons répondre à la pression (perçue ou réelle) des départements de mathématiques, qui peuvent désapprouver que les statistiques soient enseignées en dehors de leurs unités et sont prompts à réclamer une rigueur mathématique insuffisante quand elle l’est. Se concentrer sur beaucoup de détails mathématiques donne un vernis de rigueur apparente. Je ne suis pas sûr que mon hypothèse soit correcte, mais j’ai certainement participé à des discussions avec des départements de mathématiques qui étaient compatibles avec elle.

Quelles que soient les raisons, nous faisons de réels dommages à nos élèves lorsque nous compliquons les statistiques. Ça ne l’est pas. N’oubliez pas que chaque test statistique fonctionne exactement de la même manière. Enseignez cela à un élève aujourd’hui.

Remarque: pour une interprétation assez différente de la métaphore des statistiques des livres de cuisine, voir l’article intéressant de Joan Strassmann ici. Je pense que je ne suis d’accord avec elle qu’en partie, alors vous devriez aussi lire son article.

Une autre pièce connexe de Christie Bahlai est ici: « Hé, détendez-vous tous sur les statistiques– – mais avec un message plus large sur le NHST dans tous les domaines.

Enfin, voici l’histoire de deux écologistes qui ont appris à aimer les statistiques – et c’est très amusant.

© Stephen Heard (sheard @unb.ca) Octobre 6, 2015

*^ Dans cet article, je vais discuter des statistiques inférentielles fréquentistes, ou des « tests de signification d’hypothèse nulle » traditionnels. Je laisserai de côté les débats sur la question de savoir si les méthodes bayésiennes sont supérieures et si les valeurs P sont mal appliquées (voir ma défense de la valeur P). Je vais m’abstenir de renifler avec dérision les affirmations selon lesquelles nous n’avons pas du tout besoin de statistiques inférentielles.

** ^ OK, pas vraiment, mais glisser cela là-dedans me permet de créer un lien vers cela. De même, je suis tenté de blâmer la pluie, de blâmer Caïn, de blâmer la Bossa Nova et de blâmer Rio. OK, je vais m’arrêter maintenant; mais si vous en avez un que j’ai manqué, pourquoi ne pas déposer un lien dans les réponses?

***^ J’inclurais la transformation des données comme « passer à un test différent », mais si vous préférez y faire une distinction, c’est bien.

Annonces

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Previous post La Noche de los Rábanos: La Nuit des Radis
Next post L’importance du dîner en famille