por que fazemos estatísticas tão difíceis para os nossos alunos?

X

Privacidade & Cookies

Este site utiliza cookies. Continuando, você concorda com o uso deles. Saiba mais, incluindo como controlar cookies.Consegui!

publicidade

(Aviso: longo e ligeiramente wonkish)

se você é como eu, você está continuamente frustrado pelo fato de que os estudantes de graduação lutam para entender estatísticas. Na verdade, isso é dizer levemente: uma grande fração de estudantes simplesmente se recusam a entender estatísticas; mencionam um requisito para análise de dados estatísticos em seu curso e você vai ficar olhando, geme, ou (se é cedo o suficiente no semestre) uma erupção de queda de curso.

isto incomoda-me, porque não podemos fazer inferência na ciência sem Estatísticas*. Porque é que os alunos são tão pouco receptivos a algo tão importante? Em momentos desprotegidos, culpei os próprios alunos por terem decidido, a priori e numa profecia auto-realizável, que a estatística é matemática, e eles não podem fazer matemática. Culpei os professores de matemática do Liceu por tornarem a matemática chata. Culpei os orientadores do Liceu por dizerem aos alunos que se não gostam de matemática, deviam formar-se em biologia. Culpei os pais por deixarem os filhos não gostarem de matemática. Até culpei o boogie.

todas estas partes (excepto o boogie) são culpadas. Mas percebi que a minha lista deixou de fora a parte mais culpada de todas: nós. Por “EUA”, quero dizer membros da Faculdade de universidade que ensinam estatística – quer estejam em departamentos de matemática, departamentos de Estatística, ou departamentos (gasp) de Biologia. Tornamos as estatísticas desnecessariamente difíceis para os nossos alunos, e não percebo porquê.

the problem is captured in the image above-the formulas needed to calculate Welch’s t-test. Eles são aritmeticamente um pouco complicados, e eles são usados em uma situação particular: comparar dois meios quando os tamanhos das amostras e as variâncias são desiguais. Se você quiser comparar três meios, você precisa de um diferente conjunto de fórmulas; se você quer testar uma inclinação diferente de zero, você precisa de um outro conjunto de novo; se você quiser comparar as taxas de sucesso em dois binários ensaios, outro ainda, e assim por diante. E cada conjunto de fórmulas funciona apenas dada a exatidão de seu próprio conjunto particular de suposições sobre os dados.Dados estes dados, podemos culpar os alunos por acharem que as Estatísticas são complicadas? Não, Não podemos, mas podemos culpar-nos por deixá-los pensar que é. Eles pensam assim porque nós constantemente enfatizamos a única coisa mais importante sobre as estatísticas: que esta complicação é uma ilusão. Na verdade, cada teste de significância funciona exatamente da mesma maneira.

cada teste de significância funciona exatamente da mesma maneira. Devemos ensinar isso primeiro, ensiná-lo muitas vezes, e ensiná-lo em voz alta; mas não o fazemos. em vez disso, cometemos um grande erro: nós fazemos isso e começamos a ensinar teste após teste, bombardeando os alunos com derivações de estatísticas de teste e distribuições e prestando mais atenção às diferenças entre os testes do que a sua identidade crucial e subjacente. Não admira que os alunos se ressentam das estatísticas.

o que quero dizer com “todo teste significante funciona exatamente da mesma maneira”? Todos os testes estatísticos (NHST) respondem a um problema com dois passos simples.O problema:

  • vemos o padrão aparente, mas não temos certeza se devemos acreditar que é real, porque nossos dados são barulhentos.

os dois passos:

  • Passo 1. Medir a força do padrão em nossos dados.
  • Passo 2. Perguntemo-nos: este padrão é forte o suficiente para acreditar?

ensinar o problema motiva o uso de estatísticas em primeiro lugar (muitos cursos ensinados em matemática, e quase todos os ensinados em biologia, fazem um bom trabalho nisso). Ensinar os dois passos dá aos alunos as ferramentas para testar qualquer hipótese-entendendo que é apenas uma questão de escolher a aritmética certa para seus dados particulares. É aqui que parece que caímos.

Passo 1, é claro, é a estatística do ensaio. Nosso trabalho é encontrar (ou inventar) um número que mede a força de qualquer padrão dado. Não é surpreendente que os detalhes da computação de tal número dependam do padrão que queremos medir (diferença em dois meios, inclinação de uma linha, o que quer que seja). Mas esses detalhes sempre envolvem as três coisas que nós intuitivamente entender para ser parte de um padrão de “força” (ilustrado abaixo): a matéria-prima do tamanho do efeito aparente (em Welch t, a diferença entre as duas médias da amostra); a quantidade de ruído nos dados (em Welch t, a exemplo de dois desvios-padrão), e a quantidade de dados em mão (em Welch t, os dois tamanhos de amostra). Você pode ver por inspeção que estes se comportam nas fórmulas de Welch apenas da maneira que eles devem: t fica maior se os meios estão mais distantes, as amostras são menos ruidosas, e/ou os tamanhos das amostras são maiores. Tudo o resto é um detalhe aritmético desinteressante.

comparação de inferência

Passo 2 é o valor de P. Temos de obter um valor P correspondente à nossa estatística de teste, o que significa saber se as hipóteses são cumpridas (para que possamos usar uma tabela de pesquisa) ou não (para que possamos usar a aleatorização ou mudar para um teste diferente***). Cada teste usa uma tabela diferente – mas todas as tabelas funcionam da mesma maneira, de modo que as diferenças são novamente apenas aritmética. Interpretar o valor-P uma vez que o temos é um snap, porque não importa o que a aritmética que fizemos ao longo do caminho: o valor-P para qualquer teste é a probabilidade de um padrão tão forte como o nosso (ou mais forte), na ausência de qualquer efeito subjacente verdadeiro. Se isto é baixo, preferimos acreditar que nosso padrão surgiu da biologia real do que acreditar que surgiu de uma coincidência assombrosa (Deborah Mayo explica a filosofia por trás disso aqui, ou ver seu excelente blog).

é claro que existem muitos detalhes nas diferenças entre os testes. Estes assuntos, mas eles importam de uma forma de segunda ordem: até que entendamos a identidade subjacente de como cada teste funciona, não há nenhum ponto se preocupar com as diferenças. E mesmo assim, as diferenças não são coisas que precisamos lembrar; são coisas que precisamos saber para olhar quando necessário. É por isso que se eu sei como fazer um teste estatístico – qualquer um teste estatístico – eu sei como fazer todos eles.Isto significa que estou a defender o ensino das estatísticas do” livro de receitas”? Sim, mas só se usarmos a metáfora com cuidado e não pejorativamente. Um livro de culinária é de pouco uso para alguém que não sabe nada sobre cozinhar; mas se você conhece um punhado de princípios básicos, um livro de culinária guia-o através de milhares de situações de culinária, para diferentes ingredientes e objetivos diferentes. Todos os cozinheiros têm livros de culinária; poucos os memorizam.Por isso, se estamos a ensinar as estatísticas mal, eis como fazê-lo bem: organizar tudo em torno da identidade subjacente. Começar com ele, gastar muito tempo nele, e ilustrá-lo com um teste (qualquer teste) trabalhado com atenção detalhada não para os cálculos, mas para como esse teste nos leva através dos dois passos. Não tente cobrir os “8 testes que cada estudante deveria saber”; não existe essa lista. Oferecer um problema estatístico: alguns dados reais e um padrão, e perguntar aos alunos como eles podem projetar um teste para resolver esse problema. Não haverá uma maneira correta, e mesmo que houvesse, seria menos importante do que o exercício de pensar através dos passos da identidade subjacente.

finalmente: por que os Instrutores fazem estatísticas sobre as diferenças, não a identidade subjacente? Já disse que não sei, mas posso especular.Quando as Estatísticas são ensinadas por matemáticos, posso ver a tentação. Em termos matemáticos, as diferenças entre os testes são a parte interessante. É aqui que os matemáticos mostram suas costeletas, e é onde eles fazem o trabalho difícil e importante de inventar novas receitas para cozinhar resultados confiáveis de novos ingredientes em novas situações. Usuários de estatísticas, no entanto, ficaria feliz em estipular que os matemáticos têm sido inteligentes, e que estamos todos gratos a eles, para que possamos começar a fazer as estatísticas que precisamos fazer.Quando as Estatísticas são ensinadas por biólogos, o mistério é mais profundo. Eu acho (eu espero! aqueles de nós que ensinam estatísticas todos entendem a identidade subjacente de todos os testes, mas isso não parece nos impedir da abordagem de parada-de-testes. Uma hipótese: podemos estar respondendo à pressão (percebida ou real) dos departamentos de matemática, que podem desaprovar a estatística sendo ensinada fora de suas unidades e são rápidos a reivindicar insuficiente rigor matemático quando é. O foco em muitos detalhes matemáticos dá uma aparência de rigor aparente. Não tenho a certeza se a minha hipótese está correcta, mas certamente fiz parte de discussões com departamentos de matemática que foram consistentes com ela.Sejam quais forem as razões, estamos a causar danos reais aos nossos alunos quando complicamos as estatísticas. Não é. Lembrem-se, todos os testes estatísticos funcionam exactamente da mesma maneira. Ensina isso a um aluno hoje.

Nota: para uma visão bastante diferente da metáfora do livro de receitas, veja o interessante post de Joan Strassmann aqui. Acho que concordo com ela apenas em parte, por isso devias ler a sua peça também.

outra peça relacionada por Christie Bahlai está aqui:” Ei, vamos todos relaxar sobre estatísticas ” – mas com uma mensagem mais ampla sobre NHST através de campos.

finalmente, aqui está a história de dois ecologistas que aprenderam a amar estatísticas – e é muito divertido.

© Stephen Heard ([email protected]) outubro 6, 2015

*^neste post eu vou discutir estatísticas inferenciais freqüentes, ou tradicional “teste de significância de hipótese nula”. Vou deixar de lado os debates sobre se os métodos Bayesianos são superiores e se os valores-P são mal aplicados (veja minha defesa do valor-P). Vou abster-me de snifar ironicamente em alegações de que não precisamos de estatísticas inferenciais.

*^OK, nem por isso, mas deslizar isso aí deixa-me ligar-me a isto. Da mesma forma, sinto-me tentado a culpá-lo pela chuva, a culpá-lo pelo Caim, a culpá-lo pela Bossa Nova, e a culpá-lo pelo Rio. Ok, eu vou parar agora; mas se você tem um que eu perdi, por que não deixar um link nas respostas?

***^eu incluiria transformar os dados como” mudar para um teste diferente”, mas se você preferir fazer uma distinção lá, tudo bem.

Anúncios

Deixe uma resposta

O seu endereço de email não será publicado.

Previous post La Noche de los Rábanos: A Noite dos Rabanetes
Next post A importância do jantar de família