Perché facciamo le statistiche così difficile per i nostri studenti?

X

Privacy&Cookie

Questo sito utilizza cookie. Continuando, accetti il loro utilizzo. Ulteriori informazioni, tra cui come controllare i cookie.

Capito!

Pubblicità

(Attenzione: lungo e leggermente wonkish)

Se sei come me, sei continuamente frustrato dal fatto che gli studenti universitari faticano a capire le statistiche. In realtà, questo è per usare un eufemismo: una grande frazione di studenti si rifiuta semplicemente di capire le statistiche; menziona un requisito per l’analisi statistica dei dati nel tuo corso e otterrai occhi, gemiti o (se è abbastanza presto nel semestre) un’eruzione naturalmente caduta.

Questo mi dà fastidio, perché non possiamo fare inferenza nella scienza senza statistiche*. Perché gli studenti sono così poco ricettivi a qualcosa di così importante? Nei momenti incustoditi, ho dato la colpa agli studenti stessi per aver deciso, a priori e in una profezia che si autoavvera, che le statistiche sono matematica, e non possono fare matematica. Ho dato la colpa agli insegnanti di matematica del liceo per aver reso la matematica noiosa. Ho dato la colpa ai consulenti di orientamento delle scuole superiori per aver detto agli studenti che se non gli piace la matematica, dovrebbero diventare specializzandi in biologia. Ho dato la colpa ai genitori per aver permesso ai loro figli di non amare la matematica. Ho anche dato la colpa al boogie**.

Tutte queste parti (tranne il boogie) sono colpevoli. Ma sono arrivato a capire che la mia lista ha lasciato fuori la parte più colpevole di tutti: noi. Con” noi ” intendo i membri della facoltà universitaria che insegnano statistiche – che siano nei dipartimenti di Matematica, dipartimenti di Statistica o (gasp) Dipartimenti di Biologia. Facciamo statistiche inutilmente difficili per i nostri studenti, e non capisco perché.

Il problema viene catturato nell’immagine sopra – le formule necessarie per calcolare il t-test di Welch. Sono aritmeticamente un po ‘ complicati e vengono utilizzati in una situazione particolare: confrontando due mezzi quando le dimensioni del campione e le varianze sono disuguali. Se vuoi confrontare tre mezzi, hai bisogno di un diverso set di formule; se vuoi testare una pendenza diversa da zero, hai bisogno di un altro set di nuovo; se vuoi confrontare i tassi di successo in due prove binarie, un altro set ancora; e così via. E ogni insieme di formule funziona solo data la correttezza del proprio particolare insieme di ipotesi sui dati.

Detto questo, possiamo incolpare gli studenti per pensare che le statistiche siano complicate? No, non possiamo; ma possiamo incolpare noi stessi per aver lasciato che pensassero che lo sia. Lo pensano perché sottovalutiamo costantemente la cosa più importante delle statistiche: che questa complicazione è un’illusione. In effetti, ogni test di significatività funziona esattamente allo stesso modo.

Ogni test di significatività funziona esattamente allo stesso modo. Dovremmo insegnarlo prima, insegnarlo spesso e insegnarlo ad alta voce; ma non lo facciamo. Invece, commettiamo un errore enorme: lo sfrecciamo e iniziamo a insegnare test dopo test, bombardando gli studenti con derivazioni di statistiche e distribuzioni dei test e prestando più attenzione alle differenze tra i test che alla loro cruciale identità di fondo. Non c’è da stupirsi studenti risentirsi statistiche.

Cosa intendo per “ogni test di significatività funziona esattamente allo stesso modo”? Tutti i test statistici (NHST) rispondono a un problema con due semplici passaggi.

Il problema:

  • Vediamo un modello apparente, ma non siamo sicuri se dovremmo credere che sia reale, perché i nostri dati sono rumorosi.

I due passi:

  • Punto 1. Misurare la forza del modello nei nostri dati.
  • Punto 2. Chiediamoci, questo modello è abbastanza forte da essere creduto?

Insegnare il problema motiva l’uso delle statistiche in primo luogo (molti corsi di matematica, e quasi tutti quelli di biologia, fanno un buon lavoro di questo). Insegnare i due passaggi offre agli studenti gli strumenti per testare qualsiasi ipotesi, comprendendo che è solo una questione di scegliere l’aritmetica giusta per i loro dati particolari. Questo è dove sembra che cadiamo.

Il punto 1, naturalmente, è la statistica della prova. Il nostro compito è quello di trovare (o inventare) un numero che misura la forza di un dato modello. Non sorprende che i dettagli del calcolo di un tale numero dipendano dal modello che vogliamo misurare (differenza in due mezzi, pendenza di una linea, qualunque cosa). Ma questi dettagli coinvolgono sempre le tre cose che intuitivamente comprendiamo come parte della “forza” di un modello (illustrato di seguito): la dimensione grezza dell’effetto apparente (nella t di Welch, la differenza nei due mezzi del campione); la quantità di rumore nei dati (nella t di Welch, le due deviazioni standard del campione) e la quantità di dati in mano (nella t di Welch, le due dimensioni del campione). Puoi vedere dall’ispezione che questi si comportano nelle formule di Welch proprio come dovrebbero: t diventa più grande se i mezzi sono più distanti, i campioni sono meno rumorosi e/o le dimensioni del campione sono più grandi. Tutto il resto è un dettaglio aritmetico poco interessante.

 confronto di inferenza

Il passo 2 è il valore P. Dobbiamo ottenere un valore P corrispondente alla nostra statistica di test, il che significa sapere se le ipotesi sono soddisfatte (quindi possiamo usare una tabella di ricerca) o meno (quindi dovremmo usare la randomizzazione o passare a un test diverso***). Ogni test utilizza una tabella diversa, ma tutte le tabelle funzionano allo stesso modo, quindi le differenze sono di nuovo solo aritmetiche. Interpretare il valore P una volta che lo abbiamo è un gioco da ragazzi, perché non importa quale aritmetica abbiamo fatto lungo la strada: il valore P per qualsiasi test è la probabilità di un modello forte come il nostro (o più forte), in assenza di qualsiasi vero effetto sottostante. Se questo è basso, preferiamo credere che il nostro modello sia nato dalla biologia reale piuttosto che credere che sia nato da una coincidenza sconcertante (Deborah Mayo spiega la filosofia alla base di questo qui, o vedere il suo eccellente blog).

Naturalmente, ci sono molti dettagli nelle differenze tra i test. Questi contano, ma contano in un secondo ordine: finché non capiamo l’identità sottostante di come funziona ogni test, non ha senso preoccuparsi delle differenze. E anche allora, le differenze non sono cose che dobbiamo ricordare; sono cose che dobbiamo sapere per cercare quando necessario. Ecco perché se so come fare un test statistico – qualsiasi test statistico-so come fare tutti loro.

Questo significa che sto sostenendo l’insegnamento delle statistiche “cookbook”? Sì, ma solo se usiamo la metafora con attenzione e non in modo peggiorativo. Un libro di cucina è di scarsa utilità per qualcuno che non sa nulla di cucina; ma se si conosce una manciata di principi di base, un libro di cucina vi guida attraverso migliaia di situazioni di cottura, per diversi ingredienti e obiettivi diversi. Tutti i cuochi possiedono libri di cucina; pochi li memorizzano.

Quindi, se stiamo insegnando le statistiche tutte sbagliate, ecco come farlo nel modo giusto: organizzare tutto intorno all’identità sottostante. Inizia con esso, trascorri molto tempo su di esso e illustralo con un test (qualsiasi test) lavorato con attenzione dettagliata non ai calcoli, ma a come quel test ci porta attraverso i due passaggi. Non cercare di coprire gli “8 test che ogni studente dovrebbe sapere”; non esiste una lista del genere. Offrire un problema statistico: alcuni dati reali e un modello, e chiedere agli studenti come potrebbero progettare un test per affrontare quel problema. Non ci sarà un modo giusto, e anche se ci fosse, sarebbe meno importante dell’esercizio del pensiero attraverso i passi dell’identità sottostante.

Finalmente: perché gli istruttori fanno statistiche sulle differenze, non sull’identità sottostante? Ho detto che non lo so, ma posso speculare.

Quando le statistiche vengono insegnate dai matematici, posso vedere la tentazione. In termini matematici, le differenze tra i test sono la parte interessante. Questo è dove i matematici mostrano le loro costolette, ed è dove fanno il difficile e importante lavoro di inventare nuove ricette per cucinare risultati affidabili da nuovi ingredienti in nuove situazioni. Gli utenti di statistiche, però, sarebbero felici di stabilire che i matematici sono stati intelligenti, e che siamo tutti grati a loro, in modo da poter ottenere sul lavoro di fare le statistiche che dobbiamo fare.

Quando le statistiche vengono insegnate dai biologi, il mistero è più profondo. Penso (spero!) quelli di noi che insegnano le statistiche tutti capiscono l’identità di fondo di tutti i test, ma questo non sembra impedirci l’approccio parade-of-tests. Un’ipotesi: potremmo rispondere alle pressioni (percepite o reali) dei dipartimenti di Matematica, che possono disapprovare le statistiche insegnate al di fuori delle loro unità e sono pronti a rivendicare un rigore matematico insufficiente quando lo è. Concentrarsi su molti dettagli matematici dà una patina di apparente rigore. Non sono sicuro che la mia ipotesi sia corretta, ma ho certamente partecipato a discussioni con i dipartimenti di matematica che erano coerenti con esso.

Qualunque siano le ragioni, stiamo facendo danni reali ai nostri studenti quando facciamo statistiche complicate. Non lo e’. Ricorda, ogni test statistico funziona esattamente allo stesso modo. Insegnare a uno studente che oggi.

Nota: per una versione piuttosto diversa della metafora delle statistiche del libro di cucina, vedi l’interessante post di Joan Strassmann qui. Penso di essere d’accordo con lei solo in parte, quindi dovresti leggere anche il suo pezzo.

Un altro pezzo correlato di Christie Bahlai è qui: “Ehi, rilassiamoci tutti sulle statistiche” – ma con un messaggio più ampio su NHST across fields.

Infine, ecco la storia di due ecologisti che hanno imparato ad amare le statistiche – ed è molto divertente.

© Stephen Heard ([email protected]) Ottobre 6, 2015

*^In questo post ho intenzione di discutere le statistiche inferenziali frequentiste, o tradizionali “test di significatività di ipotesi nulla”. Lascerò da parte i dibattiti sul fatto che i metodi bayesiani siano superiori e se i valori P vengano applicati in modo errato (vedi la mia difesa del valore P). Ho intenzione di astenersi dal sbuffare derisorio alle affermazioni che non abbiamo bisogno di statistiche inferenziali a tutti.

**^OK, non proprio, ma scivolare lì dentro mi permette di collegarmi a questo. Allo stesso modo sono tentato di dare la colpa alla pioggia, dare la colpa a Caino, dare la colpa alla Bossa Nova e dare la colpa a Rio. OK, mi fermerò ora; ma se ne hai uno che ho perso, perché non rilasciare un link nelle risposte?

***^Includerei la trasformazione dei dati come “passa a un test diverso”, ma se preferisci fare una distinzione lì, va bene.

Pubblicità

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Previous post La Noche de los Rábanos: La notte dei ravanelli
Next post L’importanza della cena in famiglia