små prøvestørrelser og bias af små tal

som forskere har vi alle modtaget et vist niveau af træning i statistik. Et grundlæggende koncept er, at vi forsøger at drage slutninger om en bestemt befolkning, men at vi kun har adgang til en prøve af de mennesker, hunde, amøber osv., der hører til denne befolkning. Ved tilfældigt at prøve amøber for eksempel indsamler vi data og udfører statistiske tests for at lære noget om hele befolkningen, ikke kun de amøber, vi tilfældigvis har testet.

fordi vi ikke er i stand til at indsamle data fra alle amøber, kommer vores konklusioner med usikkerhed. Hvor godt vores konklusioner gælder for hele befolkningen, hvor generaliserbare de er, afhænger af, hvor godt vores prøve er repræsentativ for befolkningen. Det kan være, at det lille antal amøber, vi samplede, var særligt aggressive. Denne egenskab deles ikke af flertallet af amøber i befolkningen, men fordi vi ikke har inkluderet et mål for aggression i vores nuværende undersøgelse, har vi ingen måde at vide, at vores prøve ikke er repræsentativ.

men fordi vores statistiske analyser afslører et interessant fund, udarbejder vi et manuskript og sender det til top amoebas journal. Det er vigtigt, at vi udarbejder manuskriptet ud fra det synspunkt, at vores prøve faktisk er repræsentativ for den samlede befolkning. Fordi vores resultater var meget betydningsfulde, er vi overbeviste om, at vi har opdaget noget vigtigt. Men er det faktisk sandt?

i gennemsnit vil større prøver, der virkelig vælges tilfældigt, være mere repræsentative for hele befolkningen end en mindre prøve. Alligevel er videnskaben fyldt med undersøgelser udført på små prøver, som i de fleste tilfælde ikke repræsenterer den samlede befolkning. Hvorfor er der så mange små undersøgelser? Som påpeget af nobelpristageren Daniel Kahneman for mere end 40 år siden, er en del af problemet, at mennesker kører forestillingen…

tro på loven om små tal

i et papir udgivet i 1971 i psykologisk Bulletin med titlen tro på loven om små tal, Tversky & Kahneman hævder, at fordi forskere, der er mennesker, har dårlig intuition om tilfældighedslovene (dvs. sandsynlighed), er der en overvældende (og fejlagtig) tro på, at en tilfældigt udvalgt prøve er meget repræsentativ for den undersøgte befolkning. Forfatterne testede (og bekræftede) denne hypotese ved at gennemføre en række undersøgelser af forskere.

konfidensintervaller.

“et konfidensinterval giver imidlertid et nyttigt indeks for prøveudtagningsvariabilitet, og det er netop denne variabilitet, som vi har tendens til at undervurdere.”

forfatterne opsummerede deres vigtigste fund som følger:

  • forskere gamble forskningshypoteser på små prøver uden at indse, at oddsene imod dem er urimeligt høje. Forskere overvurderer magten.
  • forskere har urimelig tillid til tidlige tendenser og i stabiliteten af observerede mønstre. Forskere overvurderer betydningen.
  • ved evaluering af replikationer har forskere urimeligt høje forventninger til replikabiliteten af betydelige resultater. Forskere undervurderer størrelsen af konfidensintervaller.
  • forskere tilskriver sjældent en afvigelse af resultater fra forventninger til prøveudtagningsvariabilitet, fordi de finder en kausal “forklaring” for enhver uoverensstemmelse. Således har de ringe mulighed for at genkende prøveudtagningsvariation i handling. Forskere opretholder selv troen på små tal.

statistisk effekt og stikprøvestørrelser.

” nægter at tro, at en seriøs efterforsker bevidst vil acceptere en 50% risiko for ikke at bekræfte en gyldig forskningshypotese.”

intet nyt

det var interessant at bemærke, at mange af de emner, der i øjeblikket diskuteres i forbindelse med reproducerbar videnskab, også blev drøftet for mere end 30 år siden. For eksempel tilstedeværelsen af “latterligt understyrkede undersøgelser”, vigtigheden af at gengive et nøglefund, stikprøvestørrelsen, der skal bruges i en replikationsundersøgelse, begrænsningerne af p-værdier, den bias, der er til stede ved fortolkning og rapportering af videnskabelige resultater.

med så klare tænkere ved roret, hvorfor blev disse problemer ikke løst, og deres løsninger blev implementeret for årtier siden?

afhængighed af p-værdier.

“vægten på statistiske signifikansniveauer har tendens til at skjule en grundlæggende skelnen mellem størrelsen af en effekt og den statistiske signifikans. Uanset stikprøvestørrelse er størrelsen af en effekt i en undersøgelse et rimeligt skøn over størrelsen af effekten i replikation. I modsætning hertil er det estimerede signifikansniveau en replikation afhænger kritisk af stikprøvestørrelsen.”

sammendrag

troen på, at resultater fra små prøver er repræsentative for den samlede befolkning, er en kognitiv bias. Som sådan er det aktivt uden at vi engang ved det. Der skal gøres en indsats for at genkende det i os selv, og der skal træffes forholdsregler for at begrænse dets indvirkning. Eksempler på sådanne forholdsregler inkluderer fokus på størrelsen og sikkerheden af en observeret effekt, forudregistrering af undersøgelsesprotokoller og analyseplaner, og blindede dataanalyser.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

Previous post Her er vores favorit Covers af “Hello Darlin'”
Next post magnesiumchlorid