Format : Textes
Sites Web
Langue / s: Anglais
Public cible: Apprentissage autodirigé Premier cycle Brève Description:
Cet article explique comment savoir quand la corrélation ou l’association a été confondue avec la causalité.
Concepts clés abordés:
- 1-3 L’association n’est pas la même que la causalité
Détails
Malheureusement, peu importe combien de fois vous le dites, vous verrez toujours des titres comme:
- Regarder du porno rétrécit le cerveau
- Dormir avec la lumière allumée augmente le risque d’obésité
- Le sens du but « ajoute des années à la vie ».
Toutes les allégations ci-dessus sont sans fondement, sur la base des preuves sur lesquelles les histoires elles-mêmes étaient fondées. Ces allégations non fondées sont apparues parce que les gens ont confondu association (corrélation) avec causalité.
Afin de vous aider à expliquer ce phénomène et à comprendre pourquoi il est important de ne pas être induit en erreur par celui-ci, nous avons rassemblé une petite collection de ressources.
Regardez la vidéo
Associations de hasard
Justin Vigen a créé un site Web brillant appelé Corrélations fausses. Il chalute les ensembles de données et fait correspondre les paramètres jusqu’à ce qu’il trouve une association. Par exemple, dans le graphique ci-dessous, il montre une forte association entre la consommation par habitant de fromage mozzarella aux États-Unis et le nombre de doctorats en génie civil.
Je peux haz poutres de fromage?
La co-efficacité de la corrélation est une mesure de la proximité de deux variables. Un bon exemple d’association est la taille et le poids – les personnes plus grandes ont tendance à être plus lourdes. Plus le coefficient de corrélation est proche de 1, plus les variables sont associées. Dans l’exemple ci-dessus, le coefficient de corrélation est de 0,95, suggérant une forte association.
Cependant, les tests statistiques de corrélation sont « aveugles »: ils ne vous renseignent que sur le modèle des nombres. Ils ne disent rien du tout sur les relations causales possibles, ou d’autres facteurs que nous ne connaissons pas.
Le problème que Justin met en évidence est que plus nous traçons les données, plus nous y verrons de modèles. Et plus nous traçons de modèles, plus il est probable que les modèles que nous trouvons reflètent simplement des associations de hasard.
Cela pourrait convenir tant que nous comparons des variables clairement indépendantes, telles que les décès par noyade dans une piscine par rapport au nombre de films mettant en vedette Nicolas Cage (corrélation 0,66), ou les importations de pétrole américain en provenance de Norvège par rapport aux conducteurs tués par des trains (0,95).
Mais que se passe-t-il si nous trouvons une association fortuite entre deux variables qui se trouvent avoir une connexion plausible? Disons que nous pensons que manger du fromage vous donne des cauchemars. Cela pourrait vous faire vous retourner et vous emmêler dans vos draps. Peut-être alors que vous vous asseyez, criez, tombez du lit et cassez votre cou parce que vos membres sont tous emmêlés et que vous ne pouvez pas briser votre chute.
Corrélation co-efficace = 0,94. Ne dis pas qu’on ne t’a pas prévenu !
Si cet exemple est trop idiot pour vous, qu’en est-il de l’hystérie sur les jeux informatiques? Nous voyons souvent des reportages dans les médias sur des préjudices potentiels causés par des jeux informatiques violents. Récemment, un coroner anglais a cité le jeu informatique Call of Duty comme un facteur dans « trois ou quatre enquêtes sur la mort d’adolescents ». Cependant, cela ne devrait pas être surprenant: il serait difficile de trouver un adolescent qui n’a pas joué à des jeux informatiques violents dans un passé récent.
Cette tendance ne se limite pas à des événements rares. Les mégadonnées, par exemple, traquent des ensembles de données massifs à la recherche de modèles. Nous voyons souvent des affirmations sur les avantages potentiels de cette approche dans la recherche en soins de santé. Les implications devraient être claires – cela provoquera inévitablement un grand nombre de corrélations fausses. Et « Croire », c’est trop souvent « Voir ».
Trop de dépendance à la corrélation crée un risque réel que nous croirions qu’il existe un lien de causalité entre deux phénomènes alors qu’il pourrait s’agir du hasard. En fait, ce n’est pas un risque, c’est inévitable.
Cliquez sur la caricature pour lire l’article complet
Prospective, pas rétrospective
C’est pourquoi les revues systématiques insistent sur la définition des variables d’intérêt avant de procéder à leur analyse des données. Cette approche « prospective » (par opposition à « rétrospective ») est beaucoup moins susceptible d’être déraillée par des corrélations fortuites.
La même règle s’applique aux tests équitables des traitements. Le protocole d’un essai doit définir clairement, avant l’étude, quelles relations doivent être étudiées.
Si les chercheurs cherchent des corrélations après la réalisation de l’essai, ils obtiendront probablement des résultats trompeurs.
Ceci est largement couvert dans le récent blog Statistiquement drôle « Si au début vous ne réussissez pas, n’allez pas chercher des bébés dans l’eau du bain »
Théories non testées et pouvoir des vœux pieux
» Cherchez et vous trouverez » (Matthieu 7:7).
Personne n’aime penser qu’ils perdent leur temps, y compris les chroniqueurs du Nouveau Testament, les médecins et les chercheurs. Il y a toujours une tentation de supposer que si vous prenez des mesures et qu’un résultat souhaité suit, alors c’est sûrement votre action qui l’a provoquée.
Dans les premiers jours du tabagisme, toutes sortes d’avantages pour la santé lui étaient attribués. Comme nous le notons ailleurs, Jacques VI d’Écosse était tout cela dans son « Contre-goût au tabac ». Les gens ont eu un rhume, les gens ont fumé du tabac, ils se sont améliorés, donc ils croyaient que le tabac les avait guéris.
Était-ce le tabac qui les guérissait ? Ou se seraient-ils améliorés de toute façon? Lequel nous croyons peut très bien dépendre de ce que nous attendons (ou voulons) croire.
Ceci est bien illustré dans l’excellente bande dessinée web xkcd:
Nous pensons que la lecture des traitements de test vous permettra de mieux évaluer les allégations concernant les traitements, mais nous ne pouvons pas en être sûrs tant que quelqu’un n’a pas fait un essai randomisé dessus.
En attendant, veuillez nous envoyer vos exemples instructifs pour aider les gens à faire la différence entre corrélation et causalité.
Un grand merci à Matt Penfold et Robin Massart.
- Regarder du porno associé à un rétrécissement du cerveau masculin. NHS Choices 30th May 2014
- Regarder du porno rétrécit le cerveau: Les chercheurs trouvent le premier lien possible entre regarder de la pornographie et des dommages physiques. Daily Mail, 30 mai 2014
- Dormir dans une pièce lumineuse est-il lié à l’obésité? NHS Choices, 30 mai 2014
- Dormir avec de la lumière augmente le risque d’obésité. The Daily Telegraph, 30 mai 2014
- Les personnes ayant un but dans la vie « vivent plus longtemps », conseille une étude. NHS Choices, 14 mai 2014
- Le sens du but « ajoute des années à la vie ». BBC News, 14 mai 2014
- Corrélations fausses. Consulté le 2 juin 2014
- Appel du devoir et suicide: les parents doivent-ils s’inquiéter? The Guardian, 28 mai 2014
- Kayyali B, Knott D et van Kuiken S. La révolution du big data dans les soins de santé aux États-Unis : Accélérer la valeur et l’innovation. McKinsey & Co, avril 2013
- Shah S, Horne A et Capellá J. De bonnes données ne garantissent pas de bonnes décisions. Harvard Business Review, Avril 2012
- Bastian H. Si au début vous ne réussissez pas, n’allez pas chercher des bébés dans l’eau du bain, Statistiquement drôle, 16 mars 2014.