Adatvédelem & cookie-k
ez az oldal cookie-kat használ. A folytatással elfogadja azok használatát. Tudjon meg többet, beleértve a cookie-k vezérlését.
(figyelem: hosszú és kissé wonkish)
ha olyan vagy, mint én, akkor folyamatosan csalódott az a tény, hogy az egyetemi hallgatók küzdenek a statisztikák megértéséért. Valójában ez enyhén szólva: az egyetemisták nagy része egyszerűen nem hajlandó megérteni a statisztikákat; említse meg a statisztikai adatok elemzésének követelményét a tanfolyamon, és szemforgatást, nyögést vagy (ha elég korai a félévben) kiütést kap.
ez zavar engem, mert statisztikák nélkül nem tudunk következtetéseket levonni a tudományban*. Miért nem fogadják el a diákok egy ilyen fontos dolgot? Az őrizetlen pillanatokban magukat a diákokat hibáztattam, amiért a priori és egy önmegvalósító próféciában úgy döntöttek, hogy a Statisztika Matematika, és nem tudnak matematikát csinálni. A középiskolai matektanárokat hibáztattam, amiért unalmassá tették a matekot. A középiskolai tanácsadókat hibáztattam, amiért azt mondták a diákoknak, hogy ha nem szeretik a matematikát, akkor biológia szakra kell válniuk. A szülőket hibáztattam, amiért megengedték a gyerekeiknek, hogy utálják a matekot. Még a boogie** – ra is hibáztattam.
ezek a pártok (a boogie kivételével) bűnösek. De rájöttem, hogy a listámból kimaradt a legbűnösebb fél: mi. Az” USA ” alatt olyan egyetemi oktatókat értek, akik statisztikát tanítanak – függetlenül attól, hogy a matematika, a statisztika vagy a biológia (zihál) tanszékein vannak-e. A statisztikákat feleslegesen megnehezítjük a diákjaink számára, és nem értem, miért.
a problémát a fenti kép rögzíti – a Welch t-tesztjének kiszámításához szükséges képletek. Aritmetikailag egy kicsit bonyolultak, és egy adott helyzetben használják őket: két eszköz összehasonlítása, ha a mintaméretek és a varianciák egyenlőtlenek. Ha három eszközt szeretne összehasonlítani, akkor más képletkészletre van szüksége; ha nem nulla meredekséget szeretne tesztelni, akkor újra szüksége van egy másik készletre; ha két bináris kísérlet sikerességi arányát szeretné összehasonlítani, akkor még egy készletre; és így tovább. Ezenkívül minden képletkészlet csak az adatokkal kapcsolatos saját feltételezéseinek helyességét figyelembe véve működik.
ezt figyelembe véve hibáztathatjuk-e a diákokat, hogy a statisztika bonyolult? Nem, nem tudjuk; de hibáztathatjuk magunkat, ha hagyjuk, hogy azt gondolják, hogy ez az. Azért gondolják így, mert következetesen alulhangsúlyozzuk a statisztikák egyetlen legfontosabb dolgát: hogy ez a komplikáció illúzió. Valójában minden szignifikancia teszt pontosan ugyanúgy működik.
minden szignifikancia teszt pontosan ugyanúgy működik. Először ezt kell tanítanunk, gyakran és hangosan tanítani; de nem tesszük. ehelyett hatalmas hibát követünk el: fütyülünk rá, és tesztről tesztre kezdjük el tanítani, bombázva a hallgatókat tesztstatisztikák és eloszlások levezetésével, és nagyobb figyelmet fordítva a tesztek közötti különbségekre, mint a döntő, mögöttes identitásukra. Nem csoda, hogy a hallgatók neheztelnek a statisztikákra.
mit értek azon, hogy”minden szignifikancia teszt pontosan ugyanúgy működik”? Minden (NHST) statisztikai teszt két egyszerű lépéssel válaszol egy problémára.
a probléma:
- látszólagos mintát látunk, de nem vagyunk biztosak abban, hogy el kell-e hinnünk, hogy valódi, mert az adataink zajosak.
a két lépés:
- Lépés 1. Mérje meg a minta erősségét az adatainkban.
- 2.lépés. Kérdezzük meg magunktól, elég erős-e ez a minta ahhoz, hogy elhiggyük?
a probléma tanítása elsősorban a statisztikák használatát motiválja (sok matematika-tanított tanfolyam, és szinte az összes biológia-tanított tanfolyam jó munkát végez). A két lépés megtanítása lehetővé teszi a hallgatók számára, hogy teszteljék a hipotéziseket – megértve, hogy csak a megfelelő aritmetika kiválasztása a konkrét adataikhoz. Ez az, ahol úgy tűnik, hogy esik le.
az 1.lépés természetesen a tesztstatisztika. Feladatunk megtalálni (vagy kitalálni) egy számot, amely méri az adott minta erősségét. Nem meglepő, hogy egy ilyen szám kiszámításának részletei attól függnek, hogy milyen mintát akarunk mérni (különbség két eszközben, egy vonal meredeksége, bármi is). De ezek a részletek mindig magukban foglalják azt a három dolgot, amelyet intuitív módon megértünk a minta “erősségének” részeként (lásd alább): a látszólagos hatás nyers mérete (Welch t-jében a két minta közötti különbség); az adatokban lévő zaj mennyisége (Welch t-jében a két minta szórása), és a kézben lévő adatok mennyisége (Welch t-jében a két minta mérete). Ellenőrzéssel láthatjuk, hogy ezek a Welch képleteiben pontosan úgy viselkednek, ahogy kellene: t nagyobb lesz, ha az eszközök távolabb vannak egymástól, a minták kevésbé zajosak és/vagy a minta mérete nagyobb. Az összes többi érdektelen számtani részlet.
a 2.Lépés A P-érték. Meg kell szereznünk a tesztstatisztikánknak megfelelő P-értéket, ami azt jelenti, hogy tudjuk, teljesülnek-e feltételezések (tehát használhatunk keresési táblázatot) vagy sem (tehát randomizálást kell használnunk, vagy át kell váltanunk egy másik tesztre***). Minden teszt egy másik táblát használ – de az összes táblázat ugyanúgy működik, így a különbségek ismét csak aritmetikusak. A P-érték értelmezése, ha megvan, egy pillanat alatt megtörténik, mert nem számít, milyen aritmetikát tettünk az út mentén: bármely teszt P-értéke annak a valószínűsége, hogy egy minta olyan erős, mint a miénk (vagy erősebb), valódi mögöttes hatás hiányában. Ha ez alacsony, akkor inkább azt hisszük, hogy mintánk valódi biológiából származik, mint azt, hogy megdöbbentő egybeesésből származik (Deborah Mayo itt magyarázza a mögöttes filozófiát, vagy lásd kiváló blogját).
természetesen sok részlet van a tesztek közötti különbségekben. Ezek számítanak, de másodrendű módon számítanak: amíg meg nem értjük az egyes tesztek működésének alapvető identitását, nincs értelme aggódni a különbségek miatt. És még akkor is, a különbségek nem olyan dolgok, amelyekre emlékeznünk kell, hanem olyan dolgok, amelyeket tudnunk kell, hogy felnézzünk, amikor szükség van rá. Ezért, ha tudom, hogyan kell csinálni egy statisztikai teszt – bármely statisztikai teszt-tudom, hogyan kell csinálni mindet.
ez azt jelenti, hogy támogatom a “szakácskönyv” statisztikák tanítását? Igen, de csak akkor, ha óvatosan használjuk a metaforát, és nem pejoratívan. A szakácskönyv kevéssé használható annak, aki egyáltalán nem tud a főzésről; de ha ismer egy maroknyi alapelvet, egy szakácskönyv több ezer főzési helyzetben vezet végig, különböző összetevőkre és különböző célokra. Minden szakács saját szakácskönyveket; néhány memorizálni őket.
tehát ha rosszul tanítjuk a statisztikákat, akkor a következőképpen kell helyesen csinálni: szervezzen mindent a mögöttes identitás köré. Kezdje vele, töltsön sok időt rá, és illusztrálja egy teszttel (bármilyen teszt), amelyet részletesen kidolgoztak, nem pedig a számításokra, hanem arra, hogy ez a teszt hogyan vezet át minket a két lépésen. Ne próbálja fedezni a “8 tesztet, amelyet minden hallgatónak tudnia kell”; nincs ilyen lista. Adjon meg egy statisztikai problémát: néhány valós adatot és mintát, és kérdezze meg a tanulókat, hogyan tervezhetnek tesztet a probléma megoldására. Nem lesz egyetlen helyes út, és még ha lenne is, az kevésbé lenne fontos, mint a gondolkodás gyakorlása a mögöttes identitás lépésein keresztül.
végül: miért készítenek az oktatók statisztikákat a különbségekről, nem pedig a mögöttes identitásról? Azt mondtam, nem tudom, de spekulálhatok.
amikor a statisztikát matematikusok tanítják, látom a kísértést. Matematikai szempontból a tesztek közötti különbségek az érdekes rész. Itt mutatják be a matematikusok a szeletüket, és itt végzik azt a nehéz és fontos munkát, hogy új recepteket találjanak ki, hogy új szakácsokból megbízható eredményeket készítsenek új helyzetekben. A statisztikák használói azonban örömmel állapítják meg, hogy a matematikusok okosak voltak, és hogy mindannyian hálásak vagyunk nekik, így elkezdhetjük a munkát, hogy elvégezzük a szükséges statisztikákat.
amikor a biológusok statisztikákat tanítanak, a rejtély mélyebb. Azt hiszem (remélem!) azok közülünk, akik statisztikákat tanítanak, mindannyian megértik az összes teszt mögöttes identitását, de úgy tűnik, hogy ez nem akadályoz meg minket a tesztek felvonulása megközelítésben. Egy hipotézis: lehet, hogy reagálunk a matematikai osztályok (vélt vagy valós) nyomására, akik elutasíthatják a statisztikákat, amelyeket az egységeiken kívül tanítanak, és gyorsan állítják, hogy nincs elegendő matematikai szigor. Fókuszban a sok matematikai részlet ad egy furnér látszólagos szigor. Nem vagyok biztos benne, hogy a hipotézisem helyes – e, de minden bizonnyal részt vettem a matematikai osztályokkal folytatott megbeszélésekben, amelyek összhangban voltak vele.
bármi is legyen az oka, valódi kárt okozunk a diákjainknak, amikor bonyolultabbá tesszük a statisztikákat. Nem az. Ne feledje, hogy minden statisztikai teszt pontosan ugyanúgy működik. Tanítsd meg ezt egy diáknak ma.
megjegyzés: egy meglehetősen eltérő veszi a szakácskönyv-statisztika metafora, lásd Joan Strassmann érdekes bejegyzést itt. Azt hiszem, csak részben értek egyet vele, ezért olvassa el a darabját is.
Christie Bahlai egy másik kapcsolódó darabja itt található: “Hé, mindannyian lazítsunk a statisztikákkal kapcsolatban” – de tágabb üzenettel az NHST-ről a mezők között.
Végül itt van két ökológus története, akik megtanulták szeretni a statisztikákat – és ez nagyon szórakoztató.
ons.ca) október 6, 2015
*^ebben a bejegyzésben fogok beszélni frequentist következtetési statisztikák, vagy a hagyományos “null-hipotézis szignifikancia tesztelés”. Félreteszem a vitákat arról, hogy a bayesi módszerek jobbak-e, és hogy a P-értékeket helytelenül alkalmazzák-e (lásd a p-érték védelmét). Tartózkodni fogok attól, hogy gúnyosan felhorkanjak azon állításokon, amelyek szerint egyáltalán nincs szükségünk következtetési statisztikákra.
**^OK, nem igazán, de csúszik, hogy ott lehetővé teszi, hogy link erre. Ugyanígy az esőre, Káinra, a Bossa Novára és Rióra is rávetem magam. Rendben, most abbahagyom; de ha van egy, amit elmulasztottam, miért ne dobna el egy linket a válaszokban?
***^az adatok átalakítását “váltson át egy másik tesztre”, de ha inkább különbséget szeretne tenni ott, az rendben van.