Format: tekster
hjemmesider
sprog/S: engelsk
målgruppe: selvstyret læring
Undergraduate
Kort beskrivelse:
denne artikel forklarer, hvordan man fortæller, hvornår korrelation eller forening er blevet forvekslet med årsagssammenhæng.
nøglebegreber adresseret:
- 1-3 forening er ikke det samme som årsagssammenhæng
detaljer
desværre, uanset hvor mange gange du siger det, vil du stadig se overskrifter som:
- at se porno krymper hjernen
- at sove med lyset på øger risikoen for fedme
- følelse af formål ’tilføjer år til livet’.
alle ovenstående påstande er ubegrundede, baseret på de beviser, som historierne selv var baseret på. Disse ubegrundede påstande er opstået, fordi folk har forvirret forening (korrelation) med årsagssammenhæng.
så i et forsøg på at hjælpe dig med at forklare dette fænomen og forstå, hvorfor det er vigtigt ikke at blive vildledt af det, har vi sammensat en lille samling ressourcer.
se videoen
tilfældige foreninger
Justin Vigen har oprettet en strålende hjemmeside kaldet falske korrelationer. Han gennemsøger datasæt og matcher parametre, indtil han kommer op med en forening. For eksempel viser han i nedenstående graf en stærk sammenhæng mellem forbruget pr.
jeg kan farlige ostebjælker?
korrelationskoeffektiv er et mål for, hvor tæt to variabler er forbundet. Et godt eksempel på forening er højde og vægt – højere mennesker har tendens til at være tungere. Jo nærmere korrelationskoeffektiv er 1, jo tættere er variablerne forbundet. I ovenstående eksempel er korrelationskoefficienten 0,95, hvilket tyder på en stærk forening.
statistiske test af korrelation er imidlertid “blinde”: de fortæller dig kun om mønsteret af tal. De siger slet ikke noget om mulige årsagsforhold eller andre faktorer, vi ikke kender til.
det problem, som Justin fremhæver, er, at jo mere vi trækker data, jo flere mønstre vil vi se i dem. Og jo mere vi Trager efter mønstre, jo mere sandsynligt er det, at de mønstre, vi finder, simpelthen afspejler tilfældige foreninger.
dette kan være fint, så længe vi sammenligner klart ikke-relaterede variabler, såsom dødsfald ved drukning i en svømmehal vs antal film med Nicolas Cage (korrelation 0.66) eller amerikansk olieimport fra Norge vs chauffører dræbt af tog (0.95).
men hvad nu hvis vi finder en tilfældig sammenhæng mellem to variabler, der bare tilfældigvis har en plausibel forbindelse? Lad os sige, at vi tror, at det at spise ost giver dig mareridt. Dette kan få dig til at kaste og dreje og blive viklet ind i dine sengetøj. Måske sidder du op, skriger, falder ud af sengen og bryder din hals, fordi dine lemmer alle er sammenfiltrede, og du kan ikke bryde dit fald.
korrelation co-effektiv = 0,94. Sig ikke, at vi ikke advarede dig!
hvis det eksempel er for dumt for dig, hvad med hysteriet over computerspil? Vi ser ofte medierapporter om potentiel skade ved at spille voldelige computerspil. For nylig citerede en koroner i England computerspil Call of Duty som en faktor i “tre eller fire undersøgelser af teenagers død”. Dette bør dog ikke være overraskende: du ville blive hårdt presset for at finde en teenager, der ikke har spillet voldelige computerspil i den seneste tid.
denne tendens er ikke begrænset til sjældne hændelser. Big Data, for eksempel, trækker massive datasæt på udkig efter mønstre. Vi ser ofte påstande om de potentielle fordele ved denne tilgang i sundhedsforskning. Implikationerne skal være klare – det vil uundgåeligt kaste et stort antal falske korrelationer op. Og “at tro” er for ofte”at se”.
for meget afhængighed af korrelation skaber en reel risiko for, at vi vil tro, at der er en årsagssammenhæng mellem to fænomener, når det bare kunne være chance. Faktisk er det ikke en risiko, det er uundgåeligt.
Klik på tegneserien for at læse hele artiklen
prospektiv, ikke retrospektiv
dette er grunden til, at systematiske anmeldelser insisterer på at definere variablerne af interesse forud for at gennemføre deres dataanalyse. Denne” prospektive “(i modsætning til” retrospektiv”) tilgang er langt mindre tilbøjelige til at blive sporet af tilfældige korrelationer.
den samme regel gælder for fair test af behandlinger. Protokollen til et forsøg skal klart definere, inden undersøgelsen, hvilke forhold der skal undersøges.
hvis forskerne går på udkig efter korrelationer efter forsøget er kørt, vil de sandsynligvis komme med vildledende resultater.
dette er omfattende dækket af den nylige statistisk sjove blog “hvis du først ikke lykkes, skal du ikke lede efter babyer i badevandet”
uprøvede teorier og kraften i ønsketænkning
“Søg og du vil finde” (Matthæus 7,7).
ingen kan lide at tro, at de spilder deres tid, Det Nye Testamentes kronikere, læger og forskere inkluderet. Der er altid en fristelse til at antage, at hvis du tager noget, og et ønsket resultat følger det, så må det have været din handling, der medførte det.
i de tidlige dage af tobaksrygning blev alle mulige sundhedsmæssige fordele tilskrevet det. Som vi bemærker andre steder, James VI fra Skotland var alt dette i sin”Modblæsning mod tobak”. Folk blev forkølede, folk røg tobak, de blev bedre, derfor troede de, at tobakken havde helbredt dem.
var det tobakken, der helbredte dem? Eller ville de have fået bedre alligevel? Hvilken en Vi tror kan meget vel afhænge af, hvad vi forventer (eller ønsker) at tro.
dette er smukt illustreret i den fremragende:
vi tror, at læsning af Testbehandlinger vil gøre dig bedre til at evaluere påstande om behandlinger, men vi kan ikke være sikre, før nogen gør et randomiseret forsøg på det.
i mellemtiden, så send os dine lærerige eksempler til at hjælpe folk fortælle forskellen mellem korrelation og årsagssammenhæng.
mange tak til Matt Penfold og Robin Massart.
- ser porno forbundet med mandlige hjerne svind. NHS Choices 30th May 2014
- visning af porno krymper hjernen: Forskere finder den første mulige forbindelse mellem visning af pornografi og fysisk skade. Daily Mail, 30. maj 2014
- sover i et lyst rum forbundet med fedme? NHS Choices, 30th May 2014
- sove med lys på øger risikoen for fedme. The Daily Telegraph, Maj 30 2014
- mennesker med formål i livet ‘lever længere,’ undersøgelse rådgiver. NHS valg, 14. maj 2014
- følelse af formål ’tilføjer år til livet’. BBC nyheder, maj 14 2014
- falske korrelationer. Adgang til 2. juni 2014
- Call of Duty and suicide: skal forældre være bekymrede? The Guardian, 28.maj 2014
- Kayyali B, Knott D og van Kuiken S. Den Store datarevolution i amerikansk sundhedspleje: accelererende værdi og innovation. McKinsey & Co, April 2013
- Shah s, Horne A og Capell Cherit J. Gode data garanterer ikke gode beslutninger. Harvard Business anmeldelse, April 2012
- Bastian H. Hvis du først ikke lykkes, skal du ikke lede efter babyer i badevandet, statistisk sjovt, 16.Marts 2014.