Format: texter
webbplatser
Språk/s: engelska
målgrupp: självstyrt lärande
grundutbildning
Kort beskrivning:
den här artikeln förklarar hur man berättar när korrelation eller association har förväxlas med orsakssamband.
nyckelbegrepp adresserade:
- 1-3 föreningen är inte samma sak som orsakssamband
detaljer
tyvärr, oavsett hur många gånger du säger Det, kommer du fortfarande att se rubriker som:
- att titta på porr krymper hjärnan
- att sova med ljuset på ökar risken för fetma
- känsla av syfte ’lägger till år i livet’.
alla ovanstående påståenden är ogrundade, baserat på de bevis som berättelserna själva baserades på. Dessa ogrundade påståenden har uppstått eftersom människor har förvirrat förening (korrelation) med orsakssamband.
så, i ett försök att hjälpa dig att förklara detta fenomen och förstå varför det är viktigt att inte vilseledas av det, har vi sammanställt en liten samling resurser.
titta på videon
Chance associations
Justin Vigen har skapat en lysande webbplats som heter falska korrelationer. Han trålar datamängder och matchar parametrar tills han kommer upp med en förening. I diagrammet nedan visar han till exempel en stark koppling mellan konsumtion per capita av mozzarellaost i USA och antalet doktorander som tilldelats inom civilingenjör.
jag kan haz ostbalkar?
korrelationskoeffektiviteten är ett mått på hur nära två variabler är associerade. Ett bra exempel på förening är höjd och vikt – högre människor tenderar att vara tyngre. Ju närmare korrelationskoeffektiviteten är 1, desto närmare är variablerna associerade. I ovanstående exempel är korrelationskoefficienten 0,95, vilket tyder på en stark association.
men statistiska tester av korrelation är ”blinda”: de berättar bara om mönstret av siffror. De säger ingenting alls om möjliga orsakssamband, eller andra faktorer som vi inte vet om.
problemet som Justin belyser är att ju mer vi trålar data, desto fler mönster kommer vi att se i dem. Och ju mer vi trålar efter mönster, desto mer sannolikt är det att de mönster vi hittar helt enkelt kommer att återspegla chansföreningar.
det här kan vara bra så länge vi jämför tydligt orelaterade variabler, till exempel dödsfall genom att drunkna i en pool vs antal filmer med Nicolas Cage (korrelation 0.66) eller USA: s oljeimport från Norge vs förare dödade av tåg (0.95).
men vad händer om vi hittar en chans samband mellan två variabler som bara råkar ha en rimlig anslutning? Låt oss säga att vi tror att äta ost ger dig mardrömmar. Detta kan få dig att kasta och vända och bli intrasslad i dina lakan. Kanske sitter du upp, skriker, faller ur sängen och bryter nacken eftersom dina lemmar är trassliga och du kan inte bryta ditt fall.
korrelation co-efficient = 0.94. Säg inte att vi inte varnade dig!
om det exemplet är för dumt för dig, hur är det med hysterin över dataspel? Vi ser ofta medierapporter om potentiell skada från att spela våldsamma dataspel. Nyligen citerade en coroner i England dataspelet Call of Duty som en faktor i”tre eller fyra undersökningar om tonåringars död”. Detta borde dock inte vara förvånande: du skulle vara svårt att hitta en tonåring som inte har spelat våldsamma dataspel under det senaste förflutna.
denna tendens är inte begränsad till sällsynta händelser. Big Data, till exempel, trålar massiva datamängder som letar efter mönster. Vi ser ofta påståenden om de potentiella fördelarna med detta tillvägagångssätt i vårdforskning. Konsekvenserna bör vara tydliga – det kommer oundvikligen att kasta upp ett stort antal falska korrelationer. Och ” tro ”är för ofta”se”.
för mycket beroende av korrelation skapar en verklig risk att vi kommer att tro att det finns en orsakssamband mellan två fenomen när det bara kan vara en chans. Det är faktiskt inte en risk, det är oundvikligt.
klicka på tecknad film för att läsa hela artikeln
prospektiv, inte retrospektiv
det är därför systematiska recensioner insisterar på att definiera variablerna av intresse i förväg för att genomföra deras dataanalys. Denna ” prospektiva ”(i motsats till” retrospektiv”) tillvägagångssätt är mycket mindre sannolikt att spåras av slumpmässiga korrelationer.
samma regel gäller för rättvisa tester av behandlingar. Protokollet för en rättegång måste tydligt definiera, före studien, vilka relationer som ska undersökas.
om forskarna letar efter korrelationer efter att försöket har körts kommer de förmodligen att komma med vilseledande resultat.
detta är omfattande täckt i den senaste statistiskt roliga bloggen ”om du först inte lyckas, leta inte efter spädbarn i badvattnet”
otestade teorier och kraften i önsketänkande
”Sök och du kommer att finna ”(Matteus 7: 7).
ingen tycker om att tro att de slösar bort sin tid, Nya Testamentets kroniker, läkare och forskare ingår. Det finns alltid en frestelse att anta att om du vidtar några åtgärder och ett önskat resultat följer det, måste det ha varit din handling som ledde till det.
i de tidiga dagarna av tobaksrökning tillskrevs alla slags hälsofördelar. Som vi noterar någon annanstans, James vi i Skottland var över detta i sin”Counterblaste Tobacco”. Folk blev förkylda, folk rökte tobak, de blev bättre, Därför trodde de att tobaken hade botat dem.
var det tobaken som botade dem? Eller hade de blivit bättre ändå? Vilken vi tror kan mycket väl bero på vad vi förväntar oss (eller vill) tro.
detta illustreras snyggt i den utmärkta xkcd-webbkomiken:
vi tror att läsning av Testbehandlingar kommer att göra dig bättre att utvärdera påståenden om behandlingar, men vi kan inte vara säkra tills någon gör en randomiserad studie på den.
under tiden, skicka oss dina lärorika exempel för att hjälpa människor att berätta skillnaden mellan korrelation och orsakssamband.
stort tack till Matt Penfold och Robin Massart.
- titta på porr i samband med manlig hjärnkrympning. NHS Choices 30th May 2014
- visning av porr krymper hjärnan: forskare hittar första möjliga länk mellan visning av pornografi och fysisk skada. Daily Mail, 30 maj 2014
- sover i ett ljust rum kopplat till fetma? NHS Choices, 30th May 2014
- sova med ljus på ökar risken för fetma. The Daily Telegraph, maj 30 2014
- människor med syfte i livet ’lever längre’ studie råder. NHS Choices, 14th May 2014
- känsla av syfte ’lägger år till livet’. BBC News, maj 14 2014
- falska korrelationer. Åtkomst 2 juni 2014
- Call of Duty och självmord: bör föräldrar vara oroliga? The Guardian, 28th May 2014
- Kayyali B, Knott D och van Kuiken S. big-data-revolutionen i USA: s hälsovård: accelererande värde och innovation. McKinsey & Co, April 2013
- Shah S, Horne A och Capell Bisexuell J. Bra data garanterar inte bra beslut. Harvard Business Review, April 2012
- Bastian H. Om du först inte lyckas, leta inte efter spädbarn i badvattnet, statistiskt roligt, 16 mars 2014.