Hvorfor gør vi statistik så svært for vores studerende?

privatliv & Cookies

denne side bruger cookies. Ved at fortsætte accepterer du deres brug. Lær mere, herunder hvordan du styrer cookies.

Fik Det!

annoncer

(advarsel: lang og lidt vundet)

hvis du er som mig, er du konstant frustreret over, at bachelorstuderende kæmper for at forstå statistikker. Faktisk er det mildt sagt: en stor del af undergraduates nægter simpelthen at forstå statistikker; nævne et krav til statistisk dataanalyse i dit kursus, og du får øjenrullende, stønner eller (hvis det er tidligt nok i semesteret) et udslæt selvfølgelig-faldende.

dette generer mig, fordi vi ikke kan gøre slutning i videnskab uden statistik*. Hvorfor er eleverne så ligeglade med noget så vigtigt? I ubevogtede øjeblikke har jeg skylden på eleverne selv for at have besluttet, a priori og i en selvopfyldende profeti, at statistik er matematik, og de kan ikke lave matematik. Jeg har bebrejdet det på gymnasielærere for at gøre matematik kedelig. Jeg har skylden det på high-school vejledere for at fortælle eleverne, at hvis de ikke kan lide matematik, bør de blive biologi majors. Jeg har skylden det på forældre for at lade deres børn ikke lide matematik. Jeg har endda skylden det på boogie**.

alle disse parter (undtagen boogie) er skyldige. Men jeg er kommet til at forstå, at min liste udeladt den mest skyldige part af alle: os. Med” os ” mener jeg universitetsfakultetsmedlemmer, der underviser i statistik – uanset om de er i Matematikafdelinger, Statistikafdelinger eller (gisp) Biologiafdelinger. Vi gør statistikker unødvendigt vanskelige for vores studerende, og jeg forstår ikke hvorfor.

problemet er fanget i billedet ovenfor – de formler, der er nødvendige for at beregne Vechs t-test. De er aritmetisk lidt komplicerede, og de bruges i en bestemt situation: sammenligning af to midler, når stikprøvestørrelser og afvigelser er ulige. Hvis du vil sammenligne tre midler, har du brug for et andet sæt formler; hvis du vil teste for en hældning, der ikke er nul, har du brug for et andet sæt igen; hvis du vil sammenligne succesrater i to binære forsøg, et andet sæt stadig; og så videre. Og hvert sæt formler fungerer kun i betragtning af rigtigheden af sit eget særlige sæt antagelser om dataene.

i betragtning af dette, kan vi bebrejde eleverne for at tænke statistik er kompliceret? Nej, det kan vi ikke; men vi kan bebrejde os selv for at lade dem tro, at det er. De tror det, fordi vi konsekvent understreger det vigtigste ved statistik: at denne komplikation er en illusion. Faktisk fungerer hver signifikanstest nøjagtigt på samme måde.

hver signifikanstest fungerer nøjagtigt på samme måde. Vi bør undervise i dette først, undervise i det ofte og undervise i det højt; men det gør vi ikke. i stedet begår vi en enorm fejl: vi suser efter det og begynder at undervise i test efter test, bombarderer studerende med afledninger af teststatistikker og distributioner og lægger mere vægt på forskelle mellem prøver end på deres afgørende, underliggende identitet. Ikke underligt, at studerende har ondt af statistikker.

Hvad mener jeg med “hver signifikanstest fungerer nøjagtigt på samme måde”? Alle (nhst) statistiske tests reagerer på et problem med to enkle trin.

problemet:

  • vi ser tilsyneladende mønster, men vi er ikke sikre på, om vi skal tro, at det er rigtigt, fordi vores data er støjende.

de to trin:

  • Trin 1. Mål styrken af mønsteret i vores data.
  • Trin 2. Spørg os selv, er dette mønster stærkt nok til at blive troet?

undervisning i problemet motiverer brugen af statistik i første omgang (mange matematikunderviste kurser og næsten alle biologilærede gør et godt stykke arbejde med dette). Undervisning i de to trin giver eleverne værktøjerne til at teste enhver hypotese – forståelse for, at det bare er et spørgsmål om at vælge den rigtige aritmetik til deres særlige data. Det er her, vi ser ud til at falde ned.

Trin 1 er selvfølgelig teststatistikken. Vores job er at finde (eller opfinde) et tal, der måler styrken af et givet mønster. Det er ikke overraskende, at detaljerne ved beregning af et sådant tal afhænger af det mønster, vi vil måle (forskel i to midler, hældning af en linje, uanset hvad). Men disse detaljer involverer altid de tre ting, som vi intuitivt forstår at være en del af et mønsters “styrke” (illustreret nedenfor): den rå størrelse af den tilsyneladende effekt (i Vechs t, forskellen i de to prøveorganer); mængden af støj i dataene (i Vechs t, de to prøvestandardafvigelser) og mængden af data i hånden (i Vechs t, de to prøvestørrelser). Du kan se ved inspektion, at disse opfører sig i Velchs formler, som de skal: t bliver større, hvis midlerne er længere fra hinanden, prøverne er mindre støjende, og/eller prøvestørrelserne er større. Hele resten er uinteressant aritmetisk detalje.

sammenligning af slutninger

Trin 2 er P-værdien. Vi er nødt til at opnå en P-værdi svarende til vores teststatistik, hvilket betyder at vide, om antagelser er opfyldt (så vi kan bruge en opslagstabel) eller ej (så vi skal bruge randomisering eller skifte til en anden test***). Hver test bruger en anden tabel-men alle tabeller fungerer på samme måde, så forskellene er igen bare aritmetiske. Tolkning af P-værdien, når vi har det, er et snap, fordi det ikke betyder noget, hvilken aritmetik vi gjorde undervejs: P-værdien for enhver test er sandsynligheden for et mønster så stærkt som vores (eller stærkere) i mangel af nogen sand underliggende effekt. Hvis dette er lavt, vil vi hellere tro på, at vores mønster opstod fra ægte biologi end at tro det opstod fra en svimlende tilfældighed (Deborah Mayo forklarer filosofien bag dette her, eller se hendes fremragende blog).

selvfølgelig er der mange detaljer i forskellene mellem testene. Disse spørgsmål, men de betyder noget på en andenordens måde: indtil vi forstår den underliggende identitet af, hvordan hver test fungerer, er der ingen grund til at bekymre sig om forskellene. Og selv da er forskellene ikke ting, vi skal huske; de er ting, vi skal vide for at slå op, når det er nødvendigt. Det er derfor, hvis jeg ved, hvordan man laver en statistisk test – en statistisk test – jeg ved, hvordan man gør dem alle.

betyder det, at jeg fortaler undervisning “kogebog” statistik? Ja, men kun hvis vi bruger metaforen omhyggeligt og ikke pejorativt. En kogebog er til ringe nytte for nogen, der slet ikke ved noget om madlavning; men hvis du kender en håndfuld grundlæggende principper, en kogebog guider dig gennem tusinder af madlavningssituationer, til forskellige ingredienser og forskellige mål. Alle kokke ejer kogebøger; få husker dem.

så hvis vi underviser statistik Alle forkert, her er hvordan man gør det rigtigt: organisere alt omkring den underliggende identitet. Start med det, Brug masser af tid på det, og illustrer det med en test (enhver test), der er udarbejdet med detaljeret opmærksomhed ikke på beregningerne, men til hvordan denne test fører os gennem de to trin. Forsøg ikke at dække “8 tests hver Bachelor bør vide”; der er ingen sådan liste. Tilbyde et statistisk problem: nogle reelle data og et mønster, og spørg eleverne, hvordan de kan designe en test for at løse dette problem. Der vil ikke være en rigtig måde, og selvom der var, ville det være mindre vigtigt end udøvelsen af at tænke gennem trinene i den underliggende identitet.

endelig: hvorfor laver instruktører statistikker om forskellene, ikke den underliggende identitet? Jeg sagde, at jeg ikke ved det, men jeg kan spekulere.

når statistik undervises af matematikere, kan jeg se fristelsen. I matematiske termer er forskellene mellem test den interessante del. Det er her matematikere viser deres koteletter, og det er her de gør det vanskelige og vigtige arbejde med at opfinde nye opskrifter for at lave pålidelige resultater fra nye ingredienser i nye situationer. Brugere af statistikker vil dog gerne fastsætte, at matematikere har været kloge, og at vi alle er taknemmelige for dem, så vi kan komme ind på jobbet med at lave de statistikker, vi skal gøre.

når statistik undervises af biologer, er mysteriet dybere. Jeg tror (jeg håber!) de af os, der underviser i statistik, forstår alle den underliggende identitet af alle tests, men det ser ikke ud til at stoppe os fra parade-of-test-tilgangen. En hypotese: vi reagerer muligvis på pres (opfattet eller reelt) fra Matematikafdelinger, der kan afvise, at statistikker undervises uden for deres enheder og er hurtige til at hævde utilstrækkelig matematisk strenghed, når det er. Fokus på masser af matematiske detaljer giver en finer af tilsyneladende stringens. Jeg er ikke sikker på, at min hypotese er korrekt, men jeg har helt sikkert været en del af diskussioner med matematiske afdelinger, der var i overensstemmelse med det.

uanset årsagerne gør vi reel skade på vores studerende, når vi gør statistikker komplicerede. Det er det ikke. Husk, at hver statistisk test fungerer nøjagtigt på samme måde. Lær en elev det i dag.

Bemærk: For en ret anderledes opfattelse af kogebogstatistikmetaforen, se Joan Strassmanns interessante indlæg her. Jeg tror, jeg er enig med hende kun delvist, så du bør læse hendes stykke også.

et andet relateret stykke af Christie Bahlai er her: “Hej, lad os bare slappe af med statistik” – men med en bredere besked om NHST på tværs af felter.

endelig er her historien om to økologer, der lærte at elske statistik – og det er meget sjovt.

Karl Stephen Heard ([email protected]) oktober 6, 2015

*^i dette indlæg vil jeg diskutere hyppige inferentielle statistikker eller traditionel “nulhypotese signifikanstest”. Jeg vil forlade debatter om, hvorvidt bayesiske metoder er overlegne, og om P-værdier bliver forkert anvendt (se mit forsvar af P-værdien). Jeg vil afstå fra at fnyser hånligt ved påstande om, at vi slet ikke har brug for inferentiel statistik.

**^OK, ikke rigtig, men glider det derinde lader mig linke til dette. På samme måde er jeg fristet til at bebrejde det på regnen, at bebrejde det på Kain, at bebrejde det på Bossa Nova, og at bebrejde det på Rio. OK, Jeg stopper nu; men hvis du har en, jeg savnede, hvorfor ikke slippe et link i svarene?

***^jeg vil inkludere at omdanne dataene som” skifte til en anden test”, men hvis du hellere vil skelne der, er det fint.

annoncer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

Previous post la Noche De Los R. R. ‘S: Radisernes nat
Next post Betydningen af familiemiddag