små provstorlekar och bias av små tal

som forskare har vi alla fått en viss utbildningsnivå i statistik. Ett grundläggande begrepp är att vi försöker göra slutsatser om en viss befolkning, men att vi bara har tillgång till ett urval av de människor, hundar, amöber, etc som tillhör den befolkningen. Genom slumpmässigt provtagning amöbor till exempel, vi samlar in data och genomföra statistiska tester för att lära sig något om hela befolkningen, inte bara amöbor vi råkar ha testat.

eftersom vi inte kan samla in data från alla amöbor kommer våra slutsatser med osäkerhet. Hur väl våra slutsatser gäller för hela befolkningen, hur generaliserbara de är, beror på hur väl vårt urval är representativt för befolkningen. Det kan vara så att det lilla antalet amöbor vi samplade var särskilt aggressiva. Denna egenskap delas inte av majoriteten av amöber i befolkningen, men eftersom vi inte har inkluderat ett mått på aggression i vår nuvarande studie, har vi inget sätt att veta att vårt urval inte är representativt.

men eftersom våra statistiska analyser avslöjar ett intressant resultat, utarbetar vi ett manuskript och skickar det till top amoebas journal. Det är viktigt att vi utarbetar manuskriptet ur den synvinkel att vårt urval faktiskt är representativt för den totala befolkningen. Eftersom våra resultat var mycket signifikanta är vi övertygade om att vi har upptäckt något viktigt. Men är detta faktiskt sant?

i genomsnitt kommer större prover som verkligen väljs slumpmässigt att vara mer representativa för hela befolkningen än ett mindre urval. Än, vetenskapen är full av studier utförda på små prover, som i de flesta fall inte representerar den totala befolkningen. Varför finns det så många små studier? Som påpekats av Nobelpristagaren Daniel Kahneman för mer än 40 år sedan är en del av problemet att människor kör showen…

tro på lagen om små tal

i ett papper som publicerades 1971 i Psychological Bulletin med titeln tro på lagen om små tal, Tversky & Kahneman hävdar att eftersom forskare, som är mänskliga, har dålig intuition om slumpens lagar (dvs. Sannolikhet), det finns en överväldigande (och felaktig) tro på att ett slumpmässigt valt prov är mycket representativt för den studerade befolkningen. Författarna testade (och bekräftade) denna hypotes genom att genomföra en serie undersökningar om forskare.

konfidensintervall.

”ett konfidensintervall ger emellertid ett användbart index för provtagningsvariabilitet, och det är just denna variation som vi tenderar att underskatta.”

författarna sammanfattade sina viktigaste resultat enligt följande:

  • forskare spelar forskningshypoteser på små prover utan att inse att oddsen mot dem är orimligt höga. Forskare överskattar makten.
  • forskare har orimligt förtroende för tidiga trender och stabiliteten hos observerade mönster. Forskare överskattar betydelse.
  • vid utvärdering av replikationer har forskare orimligt höga förväntningar om replikerbarheten av signifikanta resultat. Forskare underskattar storleken på konfidensintervall.
  • forskare tillskriver sällan en avvikelse från resultat från förväntningar till provtagningsvariabilitet, eftersom de finner en kausal ”förklaring” för eventuella avvikelser. Således har de liten möjlighet att känna igen provtagningsvariation i aktion. Forskare fortsätter själv tron på små siffror.

statistisk kraft och provstorlekar.

” vägra att tro att en seriös utredare medvetet kommer att acceptera en 50% risk att misslyckas med att bekräfta en giltig forskningshypotes.”

inget nytt

det var intressant att notera att många av de ämnen som för närvarande diskuteras inom ramen för reproducerbar vetenskap också diskuterades för mer än 30 år sedan. Till exempel närvaron av ”löjligt underpowered studier”, vikten av att reproducera ett nyckelfynd, provstorleken som ska användas i en replikationsstudie, begränsningarna av p-värden, bias närvarande vid tolkning och rapportering av vetenskapliga resultat.

med sådana tydliga tänkare vid rodret, varför löstes inte dessa problem och deras lösningar implementerades för decennier sedan?

tillit till p-värden.

”betoningen på statistiska signifikansnivåer tenderar att dölja en grundläggande skillnad mellan storleken på en effekt och den statistiska signifikansen. Oavsett provstorlek är storleken på en effekt i en studie en rimlig uppskattning av storleken på effekten i replikering. Däremot är den uppskattade signifikansnivån en replikering beror kritiskt på provstorleken.”

sammanfattning

tron att resultat från små prover är representativa för den totala befolkningen är en kognitiv bias. Som sådan är den aktiv utan att vi ens vet om det. Ansträngningar måste utövas för att känna igen det i oss själva och försiktighetsåtgärder vidtas för att begränsa dess inverkan. Exempel på sådana försiktighetsåtgärder är att fokusera på storleken och säkerheten hos en observerad effekt, förregistrering av studieprotokoll och analysplaner och blindade dataanalyser.

Lämna ett svar

Din e-postadress kommer inte publiceras.

Previous post Här är våra favorit Covers av Conway Twittys låt ”Hello Darlin'”
Next post magnesiumklorid