Confidențialitate & cookie-uri
acest site folosește cookie-uri. Continuând, sunteți de acord cu utilizarea lor. Aflați mai multe, inclusiv cum să controlați cookie-urile.
(avertisment: lung și ușor wonkish)
dacă ești ca mine, ești frustrat continuu de faptul că studenții de licență se luptă să înțeleagă statisticile. De fapt, asta este ușor de spus: o mare parte din studenți refuză pur și simplu să înțeleagă statisticile; menționați o cerință pentru analiza datelor statistice în cursul dvs. și veți obține ochi, gemete sau (dacă este destul de devreme în semestru) o erupție cutanată, desigur.
acest lucru mă deranjează, pentru că nu putem face inferență în știință fără statistici*. De ce sunt elevii atât de nereceptivi la ceva atât de important? În momentele nepăzite, am dat vina pe studenți înșiși pentru că au decis, a priori și într-o profeție care se împlinește de sine, că Statisticile sunt Matematică și nu pot face matematică. Am dat vina pe profesorii de Matematică din liceu pentru că au făcut matematica plictisitoare. Am dat vina pe consilierii de liceu pentru că le-au spus elevilor că dacă nu le place matematica, ar trebui să devină specializați în biologie. Am dat vina pe părinți pentru a permite copiilor lor să displace matematica. Chiar am dat vina pe boogie**.
toate aceste părți (cu excepția boogie) sunt vinovați. Dar am ajuns să înțeleg că lista mea a omis partea cea mai vinovată dintre toate: noi. Prin ” noi ” mă refer la membrii facultății universitare care predau statistici – indiferent dacă sunt în departamentele de matematică, departamentele de Statistică sau departamentele de Biologie. Facem statistici inutil de dificile pentru studenții noștri și nu înțeleg de ce.
problema este capturată în imaginea de mai sus – formulele necesare pentru a calcula testul T al lui Welch. Sunt aritmetic un pic complicate, și sunt utilizate într – o anumită situație: compararea a două mijloace atunci când dimensiunile și varianțele eșantionului sunt inegale. Dacă doriți să comparați trei mijloace, aveți nevoie de un set diferit de formule; dacă doriți să testați pentru o pantă diferită de zero, aveți nevoie din nou de un alt set; dacă doriți să comparați ratele de succes în două încercări binare, încă un alt set; și așa mai departe. Și fiecare set de formule funcționează numai având în vedere corectitudinea propriului set special de ipoteze despre date.
având în vedere acest lucru, putem da vina pe elevi pentru statistici de gândire este complicat? Nu, nu putem; dar ne putem învinovăți pentru că i-am lăsat să creadă că este. Ei cred acest lucru pentru că subliniem în mod constant cel mai important lucru despre statistici: că această complicație este o iluzie. De fapt, fiecare test de semnificație funcționează exact în același mod.
fiecare test de semnificație funcționează exact în același mod. Ar trebui să predăm acest lucru mai întâi, să-l predăm des și să-l predăm cu voce tare; dar nu. în schimb, facem o greșeală uriașă: ne mișcăm și începem să predăm test după test, bombardând studenții cu derivări ale statisticilor și distribuțiilor testelor și acordând mai multă atenție diferențelor dintre teste decât identității lor cruciale, subiacente. Nu e de mirare că studenții resping Statisticile.
ce vreau să spun prin „fiecare test de semnificație funcționează exact în același mod”? Toate testele statistice (NHST) răspund la o problemă cu doi pași simpli.
problema:
- vedem un model aparent, dar nu suntem siguri dacă ar trebui să credem că este real, deoarece datele noastre sunt zgomotoase.
cei doi pași:
- Pasul 1. Măsurați puterea modelului în datele noastre.
- Pasul 2. Întrebați-vă, este acest model suficient de puternic pentru a fi crezut?
predarea problemei motivează utilizarea statisticilor în primul rând (multe cursuri predate de matematică și aproape toate cele predate de biologie fac o treabă bună în acest sens). Predarea celor doi pași oferă studenților instrumentele necesare pentru a testa orice ipoteză – înțelegerea faptului că este doar o chestiune de a alege aritmetica potrivită pentru datele lor particulare. Aici se pare că cădem.
Pasul 1, desigur, este statistica testului. Treaba noastră este să găsim (sau să inventăm) un număr care măsoară puterea oricărui model dat. Nu este surprinzător faptul că detaliile calculării unui astfel de număr depind de modelul pe care dorim să îl măsurăm (diferența în două mijloace, panta unei linii, orice). Dar aceste detalii implică întotdeauna cele trei lucruri pe care le înțelegem intuitiv ca făcând parte din „puterea” unui model (ilustrat mai jos): dimensiunea brută a efectului aparent (în Welch t, diferența dintre cele două mijloace ale eșantionului); cantitatea de zgomot din date (în Welch t, cele două deviații standard ale eșantionului) și cantitatea de date în mână (în Welch t, cele două dimensiuni ale eșantionului). Puteți vedea prin inspecție că acestea se comportă în formulele Welch exact așa cum ar trebui: t devine mai mare dacă mijloacele sunt mai îndepărtate, probele sunt mai puțin zgomotoase și/sau dimensiunile eșantionului sunt mai mari. Toate celelalte sunt detalii aritmetice neinteresante.
Pasul 2 este valoarea P. Trebuie să obținem o valoare P corespunzătoare statisticii noastre de testare, ceea ce înseamnă să știm dacă ipotezele sunt îndeplinite (astfel încât să putem folosi un tabel de căutare) sau nu (deci ar trebui să folosim randomizarea sau să trecem la un test diferit***). Fiecare test folosește un tabel diferit-dar toate tabelele funcționează la fel, astfel încât diferențele sunt din nou doar aritmetice. Interpretarea valorii P odată ce o avem este o clipă, pentru că nu contează ce aritmetică am făcut pe parcurs: valoarea P pentru orice test este probabilitatea unui model la fel de puternic ca al nostru (sau mai puternic), în absența oricărui efect de bază adevărat. Dacă acest lucru este scăzut, am prefera să credem că modelul nostru a apărut din biologia reală decât să credem că a apărut dintr-o coincidență uluitoare (Deborah Mayo explică filosofia din spatele acestui lucru aici sau vedeți blogul ei excelent).
desigur, există o mulțime de detalii în diferențele dintre teste. Acestea contează, dar contează într-un mod de ordinul doi: până nu înțelegem identitatea de bază a modului în care funcționează fiecare test, nu are rost să ne îngrijorăm de diferențe. Și chiar și atunci, diferențele nu sunt lucruri pe care trebuie să le amintim; sunt lucruri pe care trebuie să le știm pentru a privi în sus atunci când este nevoie. De aceea, dacă știu cum să fac un test statistic – orice test statistic – știu cum să le fac pe toate.
asta înseamnă că susțin predarea statisticilor „cărții de bucate”? Da, dar numai dacă folosim metafora cu atenție și nu peiorativ. O carte de bucate este de puțin folos pentru cineva care nu știe nimic despre gătit; dar dacă știți o mână de principii de bază, o carte de bucate vă ghidează prin mii de situații de gătit, pentru diferite ingrediente și obiective diferite. Toți bucătarii dețin cărți de bucate; puțini le memorează.
deci, dacă predăm statistici greșite, iată cum să procedăm corect: organizați totul în jurul identității de bază. Începeți cu el, petreceți mult timp pe el și ilustrați-l cu un singur test (orice test) lucrat cu atenție detaliată nu la calcule, ci la modul în care acel test ne duce prin cei doi pași. Nu încercați să acoperiți „8 teste pe care fiecare student ar trebui să le cunoască”; nu există o astfel de listă. Oferiți o problemă statistică: câteva date reale și un model și întrebați elevii cum ar putea proiecta un test pentru a aborda această problemă. Nu va exista o cale corectă și, chiar dacă ar exista, ar fi mai puțin importantă decât exercitarea gândirii prin pașii identității subiacente.
în sfârșit: de ce instructorii fac statistici despre diferențe, nu despre identitatea de bază? Am spus că nu știu, dar pot specula.
când Statistica este predată de matematicieni, pot vedea ispita. În termeni matematici, diferențele dintre teste sunt partea interesantă. Aici matematicienii își arată cotletul și acolo fac treaba dificilă și importantă de a inventa noi rețete pentru a găti rezultate fiabile din ingrediente noi în situații noi. Utilizatorii de statistici, totuși, ar fi fericiți să stipuleze că matematicienii au fost deștepți, și că le suntem cu toții recunoscători, astfel încât să putem începe să facem statisticile pe care trebuie să le facem.
când Statisticile sunt predate de biologi, misterul este mai profund. Cred (sper!) aceia dintre noi care predau statistici înțeleg cu toții identitatea de bază a tuturor testelor, dar asta nu pare să ne oprească din abordarea paradei testelor. O ipoteză: s-ar putea să răspundem presiunii (percepute sau reale) din partea departamentelor de matematică, care pot dezaproba Statisticile predate în afara unităților lor și se grăbesc să pretindă rigoare matematică insuficientă atunci când este. Focus pe o mulțime de detalii matematice oferă un furnir de rigoare aparentă. Nu sunt sigur că ipoteza mea este corectă, dar cu siguranță am făcut parte din discuțiile cu departamentele de matematică care au fost în concordanță cu aceasta.
oricare ar fi motivele, le facem rău studenților noștri atunci când complicăm Statisticile. Nu este. Amintiți-vă, fiecare test statistic funcționează exact în același mod. Învață un student care astăzi.
notă: pentru o abordare destul de diferită a metaforei cărții de bucate-statistici, consultați postarea interesantă a lui Joan Strassmann aici. Cred că sunt de acord cu ea doar în parte, așa că ar trebui să citiți și piesa ei.
o altă piesă înrudită de Christie Bahlai este aici: „Hei, hai să ne relaxăm cu toții despre statistici” – dar cu un mesaj mai larg despre NHST în toate domeniile.
în cele din urmă, iată povestea a doi ecologiști care au învățat să iubească Statisticile – și este foarte distractiv.
inox Stephen Heard ([email protected]) Octombrie 6, 2015
*^în acest post am de gând să discute statistici inferențiale frequentist, sau tradiționale „testarea semnificației nul-ipoteză”. Voi lăsa deoparte dezbaterile despre dacă metodele Bayesiene sunt superioare și dacă valorile P sunt aplicate greșit (a se vedea apărarea mea a valorii P). Mă voi abține să nu trag pe nas în derâdere la afirmațiile că nu avem nevoie de statistici inferențiale deloc.
**^ok, nu chiar, dar alunecarea asta acolo îmi permite să mă conectez la asta. În mod similar, sunt tentat să dau vina pe ploaie, să dau vina pe Cain, să dau vina pe Bossa Nova și să dau vina pe Rio. OK, mă voi opri acum; dar dacă ai unul am ratat, de ce nu picătură un link în răspunsurile?
***^aș include transformarea datelor ca „trecerea la un test diferit”, dar dacă preferați să faceți o distincție acolo, este bine.