waarom maken we statistieken zo moeilijk voor onze studenten?

X

Privacy & Cookies

deze website maakt gebruik van cookies. Door verder te gaan, gaat u akkoord met het gebruik ervan. Meer informatie, waaronder het beheren van cookies.

Begrepen!

reclame

(waarschuwing: lang en licht wonkish)

als je net als Ik bent, ben je voortdurend gefrustreerd door het feit dat undergraduate studenten moeite hebben om statistieken te begrijpen. Eigenlijk, dat is op zijn zachtst gezegd: een groot deel van de studenten gewoon weigeren om statistieken te begrijpen; vermeld een vereiste voor statistische data-analyse in uw cursus en je krijgt oog-rollende, kreunt, of (als het vroeg genoeg in het semester) een uitslag natuurlijk-dropping.

dit stoort me, omdat we geen gevolgtrekking kunnen maken in de wetenschap zonder statistiek*. Waarom zijn studenten zo onkundig van zoiets belangrijks? Op onbewaakte momenten heb ik de studenten zelf de schuld gegeven omdat ze a priori en in een zichzelf vervullende voorspelling hebben besloten dat statistieken wiskunde zijn, en ze kunnen geen wiskunde doen. Ik gaf de middelbare wiskundeleraren de schuld omdat ze wiskunde saai maakten. Ik heb het de schuld gegeven van schoolbegeleiders die studenten vertelden dat als ze niet van wiskunde houden, ze biologie zouden moeten worden. Ik heb ouders de schuld gegeven dat hun kinderen wiskunde niet mogen. Ik heb zelfs de boogie de schuld gegeven.

al deze partijen (behalve de boogie) zijn schuldig. Maar ik heb begrepen dat mijn lijst de meest schuldige van allemaal wegliet: wij. Met ” ons ” bedoel ik de leden van de universiteit faculteit die statistieken onderwijzen – of ze nu in de afdelingen van de wiskunde, afdelingen van de statistiek, of (gasp) afdelingen van de biologie. We maken statistieken onnodig moeilijk voor onze studenten, en ik begrijp niet waarom.

het probleem wordt weergegeven in de afbeelding hierboven – de formules die nodig zijn om de T-test van Welch te berekenen. Ze zijn rekenkundig een beetje ingewikkeld, en ze worden gebruikt in een specifieke situatie: het vergelijken van twee middelen wanneer steekproefgrootte en varianties ongelijk zijn. Als u drie middelen wilt vergelijken, hebt u een andere set formules nodig; als u wilt testen op een niet-nul helling, hebt u opnieuw een andere set nodig; als u slagingspercentages in twee binaire trials wilt vergelijken, nog een set; enzovoort. En elke set formules werkt alleen gezien de juistheid van zijn eigen specifieke set van veronderstellingen over de gegevens.

kunnen we studenten de schuld geven dat statistieken ingewikkeld zijn? Nee, dat kunnen we niet, maar we kunnen onszelf de schuld geven dat we hen laten denken dat het zo is. Ze denken van wel, omdat we consequent het allerbelangrijkste van statistieken te weinig benadrukken: dat deze complicatie een illusie is. In feite werkt elke significantietest precies op dezelfde manier.

elke significantietest werkt precies op dezelfde manier. In plaats daarvan maken we een enorme fout: we suizen er langs en beginnen test na test les te geven, bombarderen studenten met afleidingen van teststatistieken en distributies en besteden meer aandacht aan verschillen tussen tests dan aan hun cruciale onderliggende identiteit. Geen wonder dat studenten statistieken verafschuwen.

wat bedoel ik met “elke significantietest werkt precies op dezelfde manier”? Alle (NHST) statistische tests reageren op één probleem met twee eenvoudige stappen.

het probleem:

  • we zien een duidelijk patroon, maar we weten niet zeker of we moeten geloven dat het echt is, omdat onze gegevens luidruchtig zijn.

de twee stappen:

  • Stap 1 Meet de sterkte van het patroon in onze gegevens.
  • Stap 2. Vraag ons af, is dit patroon sterk genoeg om te worden geloofd?

het aanleren van het probleem motiveert in de eerste plaats het gebruik van statistieken (veel wiskunde-cursussen en bijna alle biologie-cursussen doen hier goed werk van). Het onderwijzen van de twee stappen geeft studenten de tools om elke hypothese te testen – begrijpen dat het gewoon een kwestie van het kiezen van de juiste rekenkunde voor hun specifieke gegevens. Dit is waar we lijken te vallen.

Stap 1 is natuurlijk de teststatistiek. Onze taak is om een getal te vinden (of uit te vinden) dat de sterkte van een bepaald patroon meet. Het is niet verwonderlijk dat de details van het berekenen van een dergelijk getal afhankelijk zijn van het patroon dat we willen meten (verschil in twee middelen, helling van een lijn, wat dan ook). Maar die details hebben altijd betrekking op de drie dingen die we intuïtief begrijpen om deel uit te maken van de “sterkte” van een patroon (hieronder geïllustreerd): de ruwe grootte van het schijnbare effect (in Welch ’s t, het verschil in de twee steekproef betekent); de hoeveelheid ruis in de gegevens (in Welch’ s t, de twee steekproef standaarddeviaties), en de hoeveelheid gegevens in de hand (in Welch ‘ s t, de twee steekproefgroottes). U kunt door inspectie zien dat deze zich gedragen in de Welch formules precies zoals ze zouden moeten: t wordt groter als de middelen verder uit elkaar liggen, de monsters zijn minder lawaaierig, en/of de monstergroottes zijn groter. Al de rest is oninteressant rekenkundig detail.

inferentievergelijking

Stap 2 is de P-waarde. We moeten een P-waarde verkrijgen die overeenkomt met onze teststatistiek, wat betekent dat we moeten weten of aannames worden voldaan (zodat we een lookup tabel kunnen gebruiken) of niet (dus we moeten randomisatie gebruiken of overschakelen naar een andere test***). Elke test gebruikt een andere tabel – maar alle tabellen werken op dezelfde manier, dus de verschillen zijn weer gewoon rekenkunde. Het interpreteren van de P-waarde als we die eenmaal hebben, is in een handomdraai, omdat het niet uitmaakt welke rekenkunde we onderweg deden: de P-waarde voor elke test is de waarschijnlijkheid van een patroon zo sterk als het Onze (of sterker), bij afwezigheid van enig echt onderliggend effect. Als dit laag is, geloven we liever dat ons patroon is ontstaan uit echte biologie dan geloven dat het is ontstaan uit een onthutsend toeval (Deborah Mayo legt hier de filosofie achter deze, of zie haar uitstekende blog).

natuurlijk zijn er veel details in de verschillen tussen de tests. Deze zijn belangrijk, maar ze zijn belangrijk op een tweede-orde manier: totdat we de onderliggende identiteit begrijpen van hoe elke test werkt, heeft het geen zin om je zorgen te maken over de verschillen. En zelfs dan zijn de verschillen niet dingen die we moeten onthouden; het zijn dingen die we moeten weten om op te zoeken wanneer dat nodig is. Dat is waarom als ik weet hoe ik een statistische test moet doen – een statistische test – ik weet hoe ik ze allemaal moet doen.

betekent dit dat ik pleit voor het onderwijzen van “kookboek” statistieken? Ja, maar alleen als we de metafoor voorzichtig gebruiken en niet kleinerend. Een kookboek is van weinig nut voor iemand die helemaal niets weet over koken; maar als je een handvol basisprincipes kent, begeleidt een kookboek je door duizenden kooksituaties, voor verschillende ingrediënten en verschillende doelen. Alle koks bezitten kookboeken; weinigen onthouden ze.

dus als we statistieken allemaal verkeerd onderwijzen, kun je het als volgt goed doen: Organiseer alles rond de onderliggende identiteit. Begin ermee, besteed er veel tijd aan, en illustreer het met één test (elke test) die is uitgevoerd met gedetailleerde aandacht niet aan de berekeningen, maar aan hoe die test ons door de twee stappen leidt. Probeer niet te dekken de “8 tests elke undergraduate moet weten”; er is geen dergelijke lijst. Bied een statistisch probleem aan: wat echte gegevens en een patroon, en vraag de leerlingen hoe ze een test kunnen ontwerpen om dat probleem aan te pakken. Er zal niet één juiste manier zijn, en zelfs als die er was, zou het minder belangrijk zijn dan de oefening van denken door de stappen van de onderliggende identiteit.

ten slotte: waarom maken instructeurs statistieken over de verschillen, niet over de onderliggende identiteit? Ik zei dat ik het niet weet, maar ik kan speculeren.

wanneer statistiek wordt onderwezen door wiskundigen, kan ik de verleiding zien. In wiskundige termen zijn de verschillen tussen de tests het interessante deel. Dit is waar wiskundigen hun vaardigheden laten zien, en het is waar ze het moeilijke en belangrijke werk doen van het uitvinden van nieuwe recepten om betrouwbare resultaten te koken van nieuwe ingrediënten in nieuwe situaties. Gebruikers van statistieken willen echter graag aangeven dat wiskundigen slim zijn geweest, en dat we ze allemaal dankbaar zijn, zodat we aan het werk kunnen gaan om de statistieken te doen die we moeten doen.

wanneer statistieken door biologen worden onderwezen, is het mysterie dieper. Ik denk (ik hoop! degenen onder ons die statistieken onderwijzen begrijpen allemaal de onderliggende identiteit van alle tests, maar dat lijkt ons niet te stoppen met de parade-of-tests aanpak. Eén hypothese: we kunnen reageren op druk (waargenomen of Echte) van wiskunde afdelingen, die kunnen afkeuren van statistieken worden onderwezen buiten hun eenheden en zijn snel te beweren onvoldoende wiskundige nauwkeurigheid wanneer het is. Focus op veel wiskundige details geeft een fineer van schijnbare nauwkeurigheid. Ik weet niet zeker of mijn hypothese klopt, maar ik heb zeker deel uitgemaakt van discussies met Wiskundedepartementen die daarmee in overeenstemming waren.

wat de redenen ook zijn, we doen echte schade aan onze studenten als we statistieken ingewikkeld maken. Dat is het niet. Onthoud, elke statistische test werkt precies op dezelfde manier. Leer een student dat vandaag.

opmerking: voor een nogal andere kijk op de metafoor van het kookboek-statistieken, zie Joan Strassmann ‘ s interessante bericht hier. Ik denk dat ik het maar gedeeltelijk met haar eens ben, dus je moet haar stuk ook lezen.

een ander gerelateerd stuk van Christie Bahlai is hier: “Hey, let’ s all just relax about statistics – – maar met een bredere boodschap over NHST over velden.

tot slot, hier is het verhaal van twee ecologen die geleerd hebben om van statistieken te houden – en het is heel leuk.

© Stephen Heard ([email protected]) oktober 6, 2015

*^In dit bericht ga ik frequentist inferentiële statistieken bespreken, of traditionele “nul-hypothese significantie testen”. Ik laat de debatten over de vraag of Bayesiaanse methoden superieur zijn en of P-waarden verkeerd worden toegepast terzijde (zie mijn verdediging van de P-waarde). Ik ga me onthouden van spottend te snuiven op beweringen dat we helemaal geen inferentiële statistieken nodig hebben.

* * ^OK, niet echt, maar door dat erin te schuiven kan ik hier naar linken. Op dezelfde manier ben ik geneigd om de regen de schuld te geven, om Kaïn de schuld te geven, om de Bossa Nova de schuld te geven, en om Rio de schuld te geven. OK, Ik zal nu stoppen; maar als je er een hebt die ik gemist heb, waarom laat je dan geen link in de antwoorden?

***^ik zou ook het transformeren van de gegevens als “overschakelen naar een andere test”, maar als je liever een onderscheid te maken daar, dat is prima.

advertenties

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

Previous post La Noche De los Rábanos: de nacht van de radijzen
Next post Het belang van familiediner