Hvorfor gjør vi statistikk så vanskelig for våre studenter?

Personvern & Informasjonskapsler

dette nettstedet bruker informasjonskapsler. Ved å fortsette godtar du bruken av dem. Lær mer, inkludert hvordan du kontrollerer informasjonskapsler.

Fikk Det!

Annonser

(Advarsel: lang og litt wonkish)

Hvis du er som meg, er du kontinuerlig frustrert av det faktum at studentene sliter med å forstå statistikk. Faktisk setter det mildt: en stor del av undergraduates nekter bare å forstå statistikk; nevne et krav til statistisk dataanalyse i kurset ditt, og du får øye-rullende, stønn, eller (hvis det er tidlig nok i semesteret) et utslett selvfølgelig-slippe.

dette plager meg, fordi vi ikke kan gjøre inngrep i vitenskap uten statistikk*. Hvorfor er studentene så uholdbare til noe så viktig? I ubevoktede øyeblikk har jeg skylden på studentene selv for å ha bestemt, a priori og i en selvoppfyllende profeti, at statistikk er matte, og de kan ikke gjøre matte. Jeg har skylden på videregående mattelærere for å gjøre matte kjedelig. Jeg har skylden på videregående veiledere for å fortelle elevene at hvis de ikke liker matte, bør de bli biologi majors. Jeg har skylden på foreldrene for å la barna sine misliker matte. Jeg har selv skylden på boogie**.

Alle disse partiene (unntatt boogie) er skyldige. Men jeg har kommet til å forstå at min liste utelatt den mest skyldige part av alle: oss. Med » oss » mener jeg universitetsfakultetsmedlemmer som underviser i statistikk-enten De er I Avdelinger I Matematikk, Statistikkavdelinger eller (gisp) Avdelinger I Biologi. Vi gjør statistikk unødvendig vanskelig for våre studenter, og jeg forstår ikke hvorfor.

problemet er fanget i bildet ovenfor-formlene som trengs for å beregne Welchs t-test. De er aritmetisk litt komplisert, og de brukes i en bestemt situasjon: sammenligning av to midler når utvalgsstørrelser og avvik er ulik. Hvis du vil sammenligne tre måter, trenger du et annet sett med formler; hvis du vil teste for en ikke-null helling, trenger du et annet sett igjen; hvis du vil sammenligne suksessrater i to binære forsøk, et annet sett fortsatt; og så videre. Og hvert sett med formler fungerer bare gitt korrektheten av sitt eget spesielle sett med antagelser om dataene.

Gitt dette, kan vi klandre elevene for å tenke statistikk er komplisert? Nei, vi kan ikke; men vi kan klandre oss selv for å la dem tro at det er. De tror det fordi vi konsekvent underemphasize det viktigste om statistikk: at denne komplikasjonen er en illusjon. Faktisk fungerer hver signifikansprøve nøyaktig på samme måte.

hver signifikansprøve fungerer nøyaktig på samme måte. I Stedet gjør Vi en stor feil: Vi whiz av det og begynner å undervise test etter test, bombardere studenter med avledninger av teststatistikk og distribusjoner og betale mer oppmerksomhet til forskjeller mellom tester enn til deres avgjørende, underliggende identitet. Ikke rart studentene misliker statistikk.

hva mener jeg med «hver betydningstest fungerer akkurat på samme måte»? ALLE (NHST) statistiske tester svarer på ett problem med to enkle trinn.

problemet:

Vi ser tilsynelatende mønster, men vi er ikke sikre på om vi skal tro at det er ekte, fordi dataene våre er støyende.

de to trinnene:

Trinn 1. Mål styrken på mønsteret i våre data.
Trinn 2. Spør oss selv, er dette mønsteret sterkt nok til å bli trodd?

Undervisning av problemet motiverer bruken av statistikk i utgangspunktet (mange matte-lærte kurs, og nesten alle biologi-lærte, gjør en god jobb med dette). Undervisning i de to trinnene gir studentene verktøyene for å teste enhver hypotese-forstå at det bare handler om å velge riktig aritmetikk for deres spesielle data. Det er her vi ser ut til å falle ned.

Trinn 1 er selvfølgelig teststatistikken. Vår jobb er å finne (eller oppfinne) et tall som måler styrken til et gitt mønster. Det er ikke overraskende at detaljene for å beregne et slikt tall avhenger av mønsteret vi vil måle (forskjell på to måter, helling av en linje, uansett). Men disse detaljene involverer alltid de tre tingene som vi intuitivt forstår for å være en del av et mønsters «styrke» (illustrert nedenfor): råstørrelsen på den tilsynelatende effekten (I Welchs t, forskjellen i de to prøvene betyr); mengden støy i dataene (I Welchs t, de to utvalgsstandardavvikene) og mengden data i hånden (I Welchs t, de to utvalgsstørrelsene). Du kan se ved inspeksjon at disse oppfører Seg i Welchs formler akkurat slik de burde: t blir større hvis midlene er lengre fra hverandre, prøvene er mindre støyende, og / eller prøvestørrelsene er større. Resten er uinteressant aritmetisk detalj.

Trinn 2 Er P-verdien. Vi må få En P-verdi som svarer til vår teststatistikk, noe som betyr å vite om antagelser er oppfylt (slik at vi kan bruke et oppslagstabell) eller ikke (så vi bør bruke randomisering eller bytte til en annen test***). Hver test bruker et annet bord – men alle tabellene fungerer på samme måte, så forskjellene er igjen bare aritmetiske. Tolking Av P-verdien når vi har det, er et snap, fordi Det ikke spiller noen rolle hvilken aritmetikk vi gjorde underveis: P-verdien for enhver test er sannsynligheten for et mønster så sterkt som vårt (eller sterkere), i fravær av noen sann underliggende effekt. Hvis dette er lavt, vil vi heller tro at vårt mønster oppsto fra ekte biologi enn å tro at det oppsto fra en svimlende tilfeldighet (Deborah Mayo forklarer filosofien bak dette her, eller se hennes utmerkede blogg).

selvfølgelig er det mange detaljer i forskjellene mellom tester. Disse betyr noe, men de betyr noe på en annenordens måte: inntil vi forstår den underliggende identiteten til hvordan hver test fungerer, er det ikke noe å bekymre seg for forskjellene. Og selv da er forskjellene ikke ting vi trenger å huske; de er ting vi trenger å vite for å slå opp når det trengs. Det er derfor hvis jeg vet hvordan jeg skal gjøre en statistisk test – en statistisk test-jeg vet hvordan jeg skal gjøre dem alle.

betyr dette at jeg taler for å undervise i» kokebok » – statistikk? Ja, men bare hvis vi bruker metaforen nøye og ikke pejoratively. En kokebok er til liten nytte for noen som ikke vet noe om matlaging; men hvis du vet en håndfull grunnleggende prinsipper, veileder en kokebok deg gjennom tusenvis av matlagingssituasjoner, for forskjellige ingredienser og forskjellige mål. Alle kokker egne kokebøker; få huske dem.

Så hvis vi lærer statistikk alt galt, gjør du det riktig: organiser alt rundt den underliggende identiteten. Begynn med det, bruk mye tid på det, og illustrer det med en test (hvilken som helst test) jobbet gjennom med detaljert oppmerksomhet, ikke til beregningene, men til hvordan den testen tar oss gjennom de to trinnene. Ikke prøv å dekke «8 tester hver bachelor burde vite»; det er ingen slik liste. Tilby et statistisk problem: noen reelle data og et mønster, og spør elevene hvordan de kan designe en test for å løse det problemet. Det vil ikke være en riktig måte, og selv om det var, ville det være mindre viktig enn utøvelsen av å tenke gjennom trinnene i den underliggende identiteten.

Endelig: hvorfor lager instruktører statistikk om forskjellene, ikke den underliggende identiteten? Jeg vet ikke, men jeg kan spekulere.

når statistikk blir undervist av matematikere, kan jeg se fristelsen. I matematiske termer er forskjellene mellom tester den interessante delen. Det er her matematikere viser sine koteletter, og det er der de gjør den vanskelige og viktige jobben med å finne opp nye oppskrifter for å lage pålitelige resultater fra nye ingredienser i nye situasjoner. Brukere av statistikk vil imidlertid gjerne fastsette at matematikere har vært kloge, og at vi alle er takknemlige for dem, slik at vi kan komme inn på jobben med å gjøre statistikken vi trenger å gjøre.

når statistikk blir undervist av biologer, er mysteriet dypere. Jeg tror (jeg håper!) de av oss som lærer statistikk, forstår alle den underliggende identiteten til alle tester, men det ser ikke ut til å stoppe oss fra parade-of-test-tilnærmingen. En hypotese: vi kan reagere på press (oppfattet eller ekte) Fra Matematikkavdelinger, som kan avvise at statistikk blir undervist utenfor sine enheter og er raske til å kreve utilstrekkelig matematisk strenghet når det er. Fokus på mange matematiske detaljer gir en finer av tilsynelatende strenghet. Jeg er ikke sikker på at hypotesen min er riktig, men jeg har sikkert vært en del av diskusjoner med Matteavdelinger som var i samsvar med det.

uansett årsakene, gjør vi reell skade på våre studenter når vi gjør statistikk komplisert. Det er det ikke. Husk at hver statistisk test fungerer akkurat på samme måte. Lær en student det i dag.

Merk: For en ganske annen ta på cookbook-stats metafor, se Joan Strassmanns interessante innlegg her. Jeg tror jeg er enig med henne bare delvis, så du bør lese hennes stykke også.

Et annet relatert stykke Av Christie Bahlai er her: «Hei, la oss bare slappe av om statistikk» – men med et bredere budskap OM NHST på tvers av felt.

Endelig, Her er historien om to økologer som lærte å elske statistikk – og det er mye moro.

*^I dette innlegget skal jeg diskutere frequentist inferential statistikk, eller tradisjonell «null-hypotese signifikans testing». Jeg vil legge til side debatter om Bayesianske metoder er overlegne og Om P-verdier blir misapplied (se mitt forsvar Av P-verdien). Jeg skal avstå fra å sniffe hånlig på påstander om at vi ikke trenger inferensiell statistikk i det hele tatt.

* * ^OK, egentlig ikke, men å glide det der inne lar meg koble til dette. På samme måte er jeg fristet til å skylde på regnet, å skylde På Cain, å skylde På Bossa Nova, og å skylde På Rio. OK, jeg stopper nå; men hvis du har en jeg savnet, hvorfor ikke slippe en link i Svarene?

***^jeg vil inkludere å transformere dataene som «bytt til en annen test», men hvis du hellere vil skille det, er det greit.

Annonser

Personvern & Informasjonskapsler

Legg igjen en kommentar Avbryt svar

Siste innlegg