Små utvalgsstørrelser og bias av små tall

som forskere har vi alle fått litt trening i statistikk. Et grunnleggende konsept er at vi prøver å gjøre avledninger om en bestemt befolkning, men at vi bare har tilgang til et utvalg av mennesker, hunder, amoebas osv. Ved tilfeldig prøvetaking amøber for eksempel, vi samler inn data og gjennomføre statistiske tester for å lære noe om hele befolkningen, ikke bare amøber vi tilfeldigvis har testet.

fordi vi ikke er i stand til å samle inn data fra alle amøber, kommer våre konklusjoner med usikkerhet. Hvor godt våre konklusjoner gjelder for hele befolkningen, hvor generaliserbare de er, avhenger av hvor godt vårt utvalg er representativt for befolkningen. Det kan være at det lille antallet amoebas vi samplet var spesielt aggressive. Denne egenskapen deles ikke av flertallet av amøber i befolkningen, men fordi vi ikke har tatt med et mål for aggresjon i vår nåværende studie, har vi ingen måte å vite at vårt utvalg ikke er representativt.

men fordi våre statistiske analyser avslører et interessant funn, utarbeider vi et manuskript og sender det til toppen amoebas journal. Det er viktig at vi utarbeider manuskriptet ut fra det synspunkt at vårt utvalg faktisk er representativt for den samlede befolkningen. Fordi resultatene våre var svært viktige, er vi overbevist om at vi har oppdaget noe viktig. Men er dette faktisk sant?

i gjennomsnitt vil større prøver som virkelig velges tilfeldig, være mer representative for hele populasjonen enn et mindre utvalg. Likevel er vitenskapen riddled med studier utført på små prøver, som i de fleste tilfeller ikke representerer den generelle befolkningen. Hvorfor er det så mange små studier? Som påpekt Av Nobelprisvinneren Daniel Kahneman For mer enn 40 år siden, er en del av problemet at mennesker kjører showet…

Tro på loven om små tall

I et papir publisert I 1971 I Psykologisk Bulletin med tittelen Tro På loven om små tall, Hevder Tversky & Kahneman at fordi forskere, som er menneskelige, har dårlig intuisjon om sjanselovene (dvs. sannsynlighet), er det en overveldende (og feilaktig) tro på at en tilfeldig valgt prøve er svært representativ for den studerte befolkningen. Forfatterne testet (og bekreftet) denne hypotesen ved å gjennomføre en rekke undersøkelser på forskere.

Konfidensintervall.

» et konfidensintervall gir imidlertid en nyttig indeks for utvalgsvariabilitet, og det er nettopp denne variasjonen som vi pleier å undervurdere.»

forfatterne oppsummerte sine hovedfunn som følger:

  • Forskere gamble forskning hypoteser på små prøver uten å innse at oddsen mot dem er urimelig høy. Forskere overvurderer makt.
  • Forskere har urimelig tillit til tidlige trender og i stabiliteten av observerte mønstre. Forskere overvurderer betydningen.
  • ved evaluering av replikasjoner har forskere urimelig høye forventninger til replikabiliteten av betydelige resultater. Forskere undervurderer omfanget av konfidensintervaller.
  • Forskere tilskriver sjelden avvik fra resultater fra forventninger til utvalgsvariabilitet, fordi de finner en årsakssammenheng «forklaring» for eventuelle avvik. Dermed har de liten mulighet til å gjenkjenne prøvetakingsvariasjon i aksjon. Forskere opprettholder troen på små tall.

Statistisk styrke og utvalgsstørrelser.

» nekter å tro at en seriøs etterforsker vil bevisst akseptere en 50% risiko for ikke å bekrefte en gyldig forskningshypotese.»

Ikke noe nytt

det var interessant å merke seg at mange av emnene som for tiden diskuteres i sammenheng med reproduserbar vitenskap, også ble diskutert for mer enn 30 år siden. For eksempel tilstedeværelsen av «latterlig underpowered studies», betydningen av å reprodusere et nøkkelfunn, utvalgsstørrelsen som skal brukes i en replikasjonsstudie, begrensningene av p-verdier, bias som er tilstede i tolkning og rapportering av vitenskapelige resultater.

Med slike klare tenkere ved roret, hvorfor ble disse problemene ikke løst og deres løsninger implementert for flere tiår siden?

Avhengighet av p-verdier.

» vektleggingen av statistiske signifikansnivåer har en tendens til å skjule et grunnleggende skille mellom størrelsen på en effekt og den statistiske signifikansen. Uavhengig av prøvestørrelse er størrelsen på en effekt i en studie et rimelig estimat av størrelsen på effekten ved replikering. I kontrast er estimert signifikansnivå en replikering avhenger kritisk av utvalgsstørrelsen.»

Sammendrag

troen på at resultatene fra små prøver er representative for den samlede befolkningen er en kognitiv bias. Som sådan er det aktivt uten at vi selv vet om det. Innsats må utøves for å gjenkjenne det i oss selv, og forholdsregler settes på plass for å begrense dens innvirkning. Eksempler på slike forsiktighetsregler inkluderer fokus på størrelse og sikkerhet av en observert effekt, forhåndsregistrering av studieprotokoller og analyseplaner, og blindede dataanalyser.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.

Previous post Her Er Våre Favoritt Deksler Av Conway Twitty Sang «Hei Darlin'»
Next post Magnesiumklorid