Small sample sizes and the bias of small numbers

als wetenschappers hebben we allemaal een zekere opleiding in statistiek gekregen. Een fundamenteel concept is dat we proberen conclusies te trekken over een specifieke populatie, maar dat we alleen toegang hebben tot een steekproef van de mensen, honden, amoeben, enz.die tot die populatie behoren. Door bijvoorbeeld willekeurig amoeben te bemonsteren, verzamelen we gegevens en voeren we statistische tests uit om iets te leren over de hele populatie, niet alleen over de amoeben die we toevallig hebben getest.

omdat we niet in staat zijn om gegevens van alle amoeben te verzamelen, komen onze conclusies met onzekerheid. Hoe goed onze conclusies van toepassing zijn op de gehele bevolking, hoe generaliseerbaar ze zijn, hangt af van hoe goed onze steekproef representatief is voor de bevolking. Het zou kunnen dat het kleine aantal amoeben dat we proefden bijzonder agressief was. Dit kenmerk wordt niet gedeeld door de meerderheid van de amoeben in de bevolking, maar omdat we geen enkele mate van agressie hebben opgenomen in onze huidige studie, hebben we geen manier om te weten dat onze steekproef niet representatief is.

echter, omdat onze statistische analyses een interessante vondst aan het licht brengen, stellen we een manuscript op en leggen het voor aan het topblad amoebas. Belangrijk is dat we het manuscript opstellen vanuit het standpunt dat onze steekproef in feite representatief is voor de totale populatie. Omdat onze resultaten zeer significant waren, zijn we ervan overtuigd dat we iets belangrijks hebben ontdekt. Maar is dit wel waar?

gemiddeld zullen Grotere steekproeven die werkelijk willekeurig worden geselecteerd, representatiever zijn voor de gehele populatie dan een kleinere steekproef. Toch is de wetenschap bezaaid met studies uitgevoerd op kleine monsters, die in de meeste gevallen niet de totale bevolking vertegenwoordigen. Waarom zijn er zoveel kleine studies? Zoals Nobelprijswinnaar Daniel Kahneman meer dan 40 jaar geleden opmerkte, is een deel van het probleem dat mensen de show runnen…

geloof in de wet van kleine getallen

in een paper gepubliceerd in 1971 in Psychological Bulletin getiteld geloof in de wet van kleine getallen, stelt Tversky & Kahneman dat omdat wetenschappers, die menselijk zijn, een slechte intuïtie hebben over de wetten van het toeval (d.w.z. waarschijnlijkheid), is er een overweldigende (en onjuiste) overtuiging dat een willekeurig geselecteerde steekproef zeer representatief is voor de bestudeerde populatie. De auteurs testten (en bevestigden) deze hypothese door een reeks enquêtes onder wetenschappers uit te voeren.

betrouwbaarheidsintervallen.

” een betrouwbaarheidsinterval biedt echter een nuttige index van de variabiliteit van de steekproef, en het is juist deze variabiliteit die we geneigd zijn te onderschatten.”

de auteurs vatte hun belangrijkste bevindingen als volgt samen::

  • wetenschappers gokken onderzoekshypothesen op kleine monsters zonder zich te realiseren dat de kansen tegen hen onredelijk hoog zijn. Wetenschappers overschatten macht.
  • wetenschappers hebben onredelijk veel vertrouwen in vroege trends en in de stabiliteit van waargenomen patronen. Wetenschappers overschatten betekenis.
  • bij de evaluatie van replicaties hebben wetenschappers onredelijk hoge verwachtingen van de repliceerbaarheid van significante resultaten. Wetenschappers onderschatten de omvang van betrouwbaarheidsintervallen.
  • wetenschappers schrijven zelden een afwijking van de resultaten van verwachtingen toe aan de variabiliteit van steekproeven, omdat zij een causale “verklaring” voor elke discrepantie vinden. Zo hebben ze weinig kans om steekproefvariatie in actie te herkennen. Wetenschappers bestendigen het geloof in kleine aantallen.

statistisch vermogen en steekproefomvang.

” weiger te geloven dat een serieuze onderzoeker willens en wetens een 50% risico accepteert om een geldige onderzoekshypothese niet te bevestigen.”

niets nieuws

het was interessant om op te merken dat veel van de onderwerpen die momenteel worden besproken in de context van reproduceerbare wetenschap ook meer dan 30 jaar geleden werden besproken. Bijvoorbeeld, de aanwezigheid van” belachelijk ondergedompeld onderzoek”, het belang van het reproduceren van een belangrijke bevinding, de steekproefgrootte te gebruiken in een replicatiestudie, de beperkingen van p-waarden, de bias aanwezig in de interpretatie en rapportage van wetenschappelijke resultaten.

met zulke heldere denkers aan het roer, waarom werden deze problemen niet opgelost en hun oplossingen tientallen jaren geleden geïmplementeerd?

vertrouwen op p-waarden.

” de nadruk op statistische significantieniveaus heeft de neiging een fundamenteel onderscheid tussen de omvang van een effect en de statistische significantie ervan te verdoezelen. Ongeacht de steekproefgrootte is de omvang van een effect in één onderzoek een redelijke schatting van de omvang van het effect in replicatie. In tegenstelling, is het geschatte significantieniveau een replicatie hangt kritisch van steekproefgrootte af.”

samenvatting

de overtuiging dat de resultaten van kleine monsters representatief zijn voor de totale populatie is een cognitieve bias. Als zodanig is het actief zonder dat wij het weten. Er moet een inspanning worden gedaan om het in onszelf te herkennen en er moeten voorzorgsmaatregelen worden genomen om de impact ervan te beperken. Voorbeelden van dergelijke voorzorgsmaatregelen zijn het focussen op de omvang en zekerheid van een waargenomen effect, preregistratie van studieprotocollen en analyseplannen en geblindeerde gegevensanalyses.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

Previous post Hier zijn onze favoriete Covers van Conway Twitty ‘ s lied “Hello Darlin'”
Next post magnesiumchloride