proč děláme statistiky tak těžké pro naše studenty?

X

Soukromí & Cookies

Tento web používá soubory cookie. Pokračováním souhlasíte s jejich použitím. Další informace, včetně toho, jak ovládat soubory cookie.

Mám To!

Reklamy

(Varování: dlouhý a mírně wonkish)

Pokud jste jako já, jste stále frustrovaný tím, že vysokoškolští studenti se snaží pochopit statistiky. Ve skutečnosti, to je mírně řečeno: velká část studentů prostě odmítají pochopit, statistiky, zmínit požadavek na statistická analýza dat v kurzu, a budete mít oko-válcování, sténání, nebo (pokud je to dostatečně brzy v semestru) vyrážka samozřejmě klesá.

to mi vadí, protože ve vědě nemůžeme dělat závěry bez statistik*. Proč jsou studenti tak nepřijatelní k něčemu tak důležitému? V nestřežených chvílích jsem to vyčítal samotným studentům, že se a priori a v sebenaplňujícím proroctví rozhodli, že statistika je matematika a neumí matematiku. Vyčítal jsem to středoškolským učitelům z matematiky, že dělají matiku nudnou. Vyčítal jsem to středoškolským poradcům, že studentům říkali, že pokud nemají rádi matematiku, měli by se stát biologickými obory. Vyčítal jsem to rodičům, že dovolili svým dětem, aby se jim matematika nelíbila. Dokonce jsem to svedl na boogie**.

všechny tyto strany (kromě boogie) jsou Vinny. Ale pochopil jsem, že můj seznam vynechal nejvíce vinnou stranu ze všech: nás. Tím „námi“ mám na mysli členy fakulty univerzity, kteří vyučují statistiku-ať už jsou na katedrách matematiky, katedry statistiky, nebo na katedrách biologie. Statistiku našim studentům zbytečně komplikujeme a nechápu proč.

problém je zachycen na obrázku výše-vzorce potřebné pro výpočet Welchova t-testu. Jsou aritmeticky trochu komplikované, a používají se v jedné konkrétní situaci: porovnání dvou prostředků, pokud jsou velikosti a odchylky vzorku nerovné. Pokud chcete porovnat tři prostředky, potřebujete jinou sadu vzorců; pokud chcete testovat nenulový sklon, potřebujete další sadu znovu; pokud chcete porovnat úspěšnost ve dvou binárních pokusech, další sadu stále; a tak dále. A každá sada vzorců funguje pouze s ohledem na správnost vlastního konkrétního souboru předpokladů o datech.

vzhledem k tomu můžeme studentům vyčítat, že si myslí, že statistika je složitá? Ne, nemůžeme; ale můžeme se obviňovat, že jsme je nechali myslet si, že to tak je. Myslí si to, protože důsledně podceňujeme jednu nejdůležitější věc o statistikách: že tato komplikace je iluze. Ve skutečnosti každý test významnosti funguje přesně stejným způsobem.

každý test významnosti funguje přesně stejným způsobem. Měli bychom učit jako první, naučit se to často, a naučit ho hlasitě; ale nechceme. Místo toho jsme se udělat obrovskou chybu: jsme svist a zahájení výuky zkouška za druhou, bombardování studenty s derivacím testovací statistiky a distribucí, a věnovat více pozornosti na rozdíly mezi testy, než k jejich zásadní, základní identitu. Není divu, že studentům vadí statistiky.

co mám na mysli tím, že „každý test významnosti funguje přesně stejným způsobem“? Všechny (NHST) statistické testy reagují na jeden problém dvěma jednoduchými kroky.

problém:

  • vidíme zjevný vzorec, ale nejsme si jisti, zda bychom měli věřit, že je to skutečné, protože naše data jsou hlučná.

dva kroky:

  • Krok 1. Změřte sílu vzoru v našich datech.
  • Krok 2. Zeptejte se sami sebe, je tento vzorec dostatečně silný na to, abychom mu věřili?

výuka problém motivuje použití statistik v první řadě (mnoho matematických vyučovaných kurzů a téměř všechny biologie vyučované, to dělá dobrou práci). Výuka těchto dvou kroků dává studentům nástroje k testování jakékoli hypotézy-pochopení, že je to jen otázka výběru správné aritmetiky pro jejich konkrétní data. Zdá se, že tady padáme.

Krok 1 je samozřejmě statistika testu. Naším úkolem je najít (nebo vymyslet) číslo, které měří sílu daného vzoru. Není divu, že podrobnosti o výpočtu takového čísla závisí na vzoru, který chceme měřit(rozdíl ve dvou prostředcích, sklon čáry, cokoli). Ale tyto detaily se vždy podílejí tři věci, které jsme intuitivně pochopit, být součástí vzoru je „síla“ (na obrázku níže): raw velikost zjevný účinek (v Welch t, rozdíl ve dvou výběrových průměrů); množství šumu v datech (v Welch t, obě výběrové směrodatné odchylky), a množství dat v ruce (v Welch t, dvě velikosti vzorku). Při kontrole můžete vidět, že se chovají ve Welchových vzorcích přesně tak, jak by měli: t se zvětší, pokud jsou prostředky dále od sebe, vzorky jsou méně hlučné a / nebo velikosti vzorků jsou větší. Všechno ostatní je nezajímavé aritmetické detaily.

porovnání inference

Krok 2 je hodnota P. Musíme získat hodnotu P odpovídající naší statistice testů, což znamená vědět, zda jsou předpoklady splněny (abychom mohli použít vyhledávací tabulku) nebo ne (měli bychom tedy použít randomizaci nebo přejít na jiný test***). Každý test používá jinou tabulku – ale všechny tabulky fungují stejně, takže rozdíly jsou opět jen aritmetické. Interpretace P-hodnoty, jakmile budeme mít, to je hračka, protože nezáleží na tom, co aritmetické jsme udělali po cestě: P-hodnota pro test, je pravděpodobnost, že vzor silná jako naše (nebo silnější), při absenci jakékoliv skutečné hlubších efekt. Pokud je nízká, raději budeme věřit, že náš vzor vznikl z reálné biologie, než věřit, že to vzniklo z neuvěřitelných náhod (Deborah Mayo vysvětluje filozofii tohoto zde, nebo viz její vynikající blog).

samozřejmě existuje mnoho podrobností o rozdílech mezi testy. Na těchto věcech záleží, ale záleží na nich způsobem druhého řádu: dokud nepochopíme základní identitu toho, jak každý test funguje, nemá smysl se obávat rozdílů. A i tehdy, rozdíly nejsou věci, které si musíme pamatovat; jsou to věci, které potřebujeme vědět, abychom v případě potřeby vyhledali. Proto, pokud vím, jak udělat jeden statistický test – jakýkoli statistický test – vím, jak udělat všechny.

znamená to, že obhajuji výuku statistik“ kuchařek“? Ano, ale pouze pokud použijeme metaforu opatrně a ne pejorativně. Kuchařka je málo užitečná pro někoho, kdo o vaření neví vůbec nic; ale pokud znáte hrst základních principů, kuchařka vás provede tisíci situacemi vaření, pro různé ingredience a různé cíle. Všichni kuchaři vlastní kuchařky, málokdo si je zapamatuje.

takže pokud učíme statistiky všechno špatně, zde je návod, jak to udělat správně: uspořádat vše kolem základní identity. Začít s ním, trávit spoustu času na to, a budu to ilustrovat jeden test (jakýkoliv test) pracoval s detailní pozornost ne na výpočty, ale na to, jak ten test trvá nám přes dva kroky. Nesnažte se pokrýt „8 testů, které by měl každý vysokoškolák vědět“; takový seznam neexistuje. Nabídněte statistický problém: některá skutečná data a vzor, a zeptejte se studentů, jak by mohli navrhnout test k řešení tohoto problému. Nebude existovat jedna správná cesta, a i kdyby byla, bylo by to méně důležité než cvičení myšlení prostřednictvím kroků základní identity.

konečně: proč instruktoři dělají statistiky o rozdílech, Ne Základní identita? Řekl jsem, že nevím, ale mohu spekulovat.

když statistiku učí matematici, vidím pokušení. Z matematického hlediska jsou rozdíly mezi testy zajímavou částí. To je místo, kde matematici ukazují své kotlety, a to je místo, kde dělají obtížnou a důležitou práci vymýšlet nové recepty vařit spolehlivé výsledky z nových složek v nových situacích. Uživatelé statistik by však rádi stanovili, že matematici byli chytří a že jsme jim všichni vděční, abychom se mohli pustit do práce na statistikách, které musíme udělat.

když statistiky učí biologové, tajemství je hlubší. Myslím (doufám!) ti z nás, kteří učí statistiku, všichni chápou základní identitu všech testů, ale nezdá se, že by nás to zastavilo v přístupu parade-of-tests. Jedna hypotéza: možná budeme reagovat na tlak (vnímané nebo skutečné) z Matematiky oddělení, kteří mohou nesouhlasit statistiky učí mimo jejich jednotky a jsou rychle k tvrzení, nedostatečné matematické přísnosti, když to je. Zaměření na spoustu matematických detailů dává dýhu zjevné přísnosti. Nejsem si jistý, zda je moje hypotéza správná, ale určitě jsem byl součástí diskusí s matematickými katedrami, které tomu odpovídaly.

ať už jsou důvody jakékoli, děláme našim studentům skutečné škody, když komplikujeme statistiky. Není. Pamatujte, že každý statistický test funguje přesně stejným způsobem. Naučte studenta, že dnes.

Poznámka: Pro poněkud odlišný pohled na metaforu kuchařských statistik viz zajímavý příspěvek Joana Strassmanna zde. Myslím, že s ní souhlasím jen částečně, takže byste si měli přečíst i její kousek.

Další související kusu Christie Bahlai je zde: „Hej, pojďme všichni jen relaxovat o statistiky“ – ale s širší zprávu o NHST přes pole.

konečně, tady je příběh dvou ekologů, kteří se naučili milovat statistiky – a je to spousta legrace.

© Stephen Heard ([email protected]) říjen 6, 2015

*^v tomto příspěvku budu diskutovat frequentist inferenciální statistiky, nebo tradiční „testování významnosti nulové hypotézy“. Ponechám stranou debaty o tom, zda jsou Bayesovské metody lepší a zda jsou P-hodnoty nesprávně použity (viz moje obhajoba p-hodnoty). Zdržím se posměšně nad tvrzením, že inferenční statistiky vůbec nepotřebujeme.

* * ^OK, Ne opravdu, ale uklouznutí tam mi umožňuje odkaz na toto. Stejně tak jsem v pokušení svést to na déšť, svést to na Kaina, svést to na Bossa Nova a svést to na Rio. OK, Teď se zastavím; ale pokud máte jeden, který mi chyběl, proč v odpovědích neupustit odkaz?

***^zahrnul bych transformaci dat jako „přepnout na jiný test“, ale pokud byste tam raději rozlišovali, je to v pořádku.

inzeráty

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

Previous post La Noche de los Rábanos: Noc Ředkvičky
Next post Důležitost rodinné večeře