¿Por qué hacemos que las estadísticas sean tan difíciles para nuestros estudiantes?

X

Privacidad & Cookies

Este sitio utiliza cookies. Al continuar, usted acepta su uso. Obtenga más información, incluido cómo controlar las cookies.

¡Lo tengo!

Publicidad

(Advertencia: largo y ligeramente torcido)

Si eres como yo, estás continuamente frustrado por el hecho de que los estudiantes de pregrado tienen dificultades para entender las estadísticas. En realidad, eso es decirlo suavemente: una gran parte de los estudiantes universitarios simplemente se niegan a entender las estadísticas; mencionan un requisito para el análisis de datos estadísticos en su curso y obtendrá un giro de ojos, gemidos o (si es lo suficientemente temprano en el semestre) una erupción de caída del curso.

Esto me molesta, porque no podemos hacer inferencias en ciencia sin estadísticas*. ¿Por qué los estudiantes son tan poco receptivos a algo tan importante? En momentos sin vigilancia, he culpado a los propios estudiantes por haber decidido, a priori y en una profecía autocumplida, que las estadísticas son matemáticas, y que no pueden hacer matemáticas. He culpado a los profesores de matemáticas de secundaria por hacer las matemáticas aburridas. He culpado a los orientadores de secundaria por decirles a los estudiantes que si no les gustan las matemáticas, deberían especializarse en biología. He culpado a los padres por permitir que a sus hijos no les gusten las matemáticas. Incluso le eché la culpa al boogie**.

Todas estas partes (excepto el boogie) son culpables. Pero he llegado a entender que mi lista omitió a la parte más culpable de todas: nosotros. Por «nosotros» me refiero a los miembros de la facultad universitaria que enseñan estadística, ya sea en Departamentos de Matemáticas, Departamentos de Estadística o Departamentos (jadeos) de Biología. Hacemos que las estadísticas sean innecesariamente difíciles para nuestros estudiantes, y no entiendo por qué.

El problema se captura en la imagen de arriba: las fórmulas necesarias para calcular la prueba t de Welch. Son aritméticamente un poco complicados, y se usan en una situación en particular: comparación de dos medias cuando los tamaños y varianzas de la muestra son desiguales. Si desea comparar tres medias, necesita un conjunto diferente de fórmulas; si desea probar una pendiente distinta de cero, necesita otro conjunto de nuevo; si desea comparar las tasas de éxito en dos ensayos binarios, otro conjunto aún; y así sucesivamente. Y cada conjunto de fórmulas funciona solo dada la exactitud de su propio conjunto particular de suposiciones sobre los datos.

Dado esto, ¿podemos culpar a los estudiantes por pensar que las estadísticas son complicadas? No, no podemos; pero podemos culparnos a nosotros mismos por dejarles pensar que lo es. Ellos piensan que sí porque constantemente no enfatizamos lo más importante de las estadísticas: que esta complicación es una ilusión. De hecho, cada prueba de significancia funciona exactamente de la misma manera.

Cada prueba de significancia funciona exactamente de la misma manera. Debemos enseñar esto primero, enseñarlo a menudo y enseñarlo en voz alta; pero no lo hacemos. En cambio, cometemos un gran error: pasamos por ello y comenzamos a enseñar prueba tras prueba, bombardeando a los estudiantes con derivaciones de estadísticas y distribuciones de pruebas y prestando más atención a las diferencias entre las pruebas que a su identidad subyacente crucial. No es de extrañar que a los estudiantes les molesten las estadísticas.

¿Qué quiero decir con «cada prueba de significancia funciona exactamente de la misma manera»? Todas las pruebas estadísticas (NHST) responden a un problema con dos sencillos pasos.

El problema:

  • Vemos un patrón aparente, pero no estamos seguros de si debemos creer que es real, porque nuestros datos son ruidosos.

Los dos pasos:

  • Paso 1. Mida la fuerza del patrón en nuestros datos.
  • Paso 2. Preguntémonos, ¿es este patrón lo suficientemente fuerte como para ser creído?

Enseñar el problema motiva el uso de estadísticas en primer lugar (muchos cursos de matemáticas, y casi todos los de biología, hacen un buen trabajo en esto). Enseñar los dos pasos les da a los estudiantes las herramientas para probar cualquier hipótesis, entendiendo que es solo cuestión de elegir la aritmética correcta para sus datos particulares. Aquí es donde parece que caemos.

El paso 1, por supuesto, es la estadística de la prueba. Nuestro trabajo es encontrar (o inventar) un número que mida la fuerza de cualquier patrón dado. No es sorprendente que los detalles de calcular un número así dependan del patrón que queremos medir (diferencia en dos medias, pendiente de una línea, lo que sea). Pero esos detalles siempre involucran las tres cosas que intuitivamente entendemos que son parte de la «fuerza» de un patrón (ilustrado a continuación): el tamaño bruto del efecto aparente (en la t de Welch, la diferencia en las dos medias de la muestra); la cantidad de ruido en los datos (en la t de Welch, las dos desviaciones estándar de la muestra) y la cantidad de datos en mano (en la t de Welch, los dos tamaños de la muestra). Puede ver mediante inspección que se comportan en las fórmulas de Welch de la manera que deberían: t se hace más grande si los medios están más separados, las muestras son menos ruidosas y / o los tamaños de muestra son más grandes. Todo lo demás son detalles aritméticos poco interesantes.

 comparación de inferencia

El paso 2 es el valor P. Tenemos que obtener un valor P correspondiente a nuestra estadística de prueba, lo que significa saber si se cumplen las suposiciones (para que podamos usar una tabla de búsqueda) o no (por lo que debemos usar aleatorización o cambiar a una prueba diferente***). Cada prueba utiliza una tabla diferente, pero todas las tablas funcionan de la misma manera, por lo que las diferencias son solo aritméticas. Interpretar el valor P una vez que lo tenemos es muy fácil, porque no importa qué aritmética hayamos hecho en el camino: el valor P para cualquier prueba es la probabilidad de un patrón tan fuerte como el nuestro (o más fuerte), en ausencia de cualquier efecto subyacente verdadero. Si esto es bajo, preferimos creer que nuestro patrón surgió de la biología real que creer que surgió de una asombrosa coincidencia (Deborah Mayo explica la filosofía detrás de esto aquí, o vea su excelente blog).

Por supuesto, hay muchos detalles en las diferencias entre las pruebas. Estos importan, pero importan de una manera de segundo orden: hasta que entendamos la identidad subyacente de cómo funciona cada prueba, no tiene sentido preocuparse por las diferencias. E incluso entonces, las diferencias no son cosas que necesitamos recordar; son cosas que necesitamos saber para buscar cuando sea necesario. Es por eso que si sé cómo hacer una prueba estadística – cualquier prueba estadística – sé cómo hacer todo de ellos.

¿Esto significa que estoy abogando por enseñar estadísticas de «libros de cocina»? Sí, pero solo si usamos la metáfora con cuidado y no peyorativamente. Un libro de cocina es de poca utilidad para alguien que no sabe nada de cocina; pero si conoce un puñado de principios básicos, un libro de cocina lo guía a través de miles de situaciones de cocina, para diferentes ingredientes y diferentes objetivos. Todos los cocineros poseen libros de cocina; pocos los memorizan.

Así que si estamos enseñando estadísticas mal, aquí está cómo hacerlo bien: organice todo en torno a la identidad subyacente. Comience con él, pase mucho tiempo en él e ilustrarlo con una prueba (cualquier prueba) trabajada con atención detallada no a los cálculos, sino a cómo esa prueba nos lleva a través de los dos pasos. No trate de cubrir los «8 exámenes que todo estudiante debe conocer»; no existe tal lista. Ofrezca un problema estadístico: algunos datos reales y un patrón, y pregunte a los estudiantes cómo podrían diseñar una prueba para abordar ese problema. No habrá una manera correcta, e incluso si la hubiera, sería menos importante que el ejercicio de pensar a través de los pasos de la identidad subyacente.

Finalmente: ¿por qué los instructores hacen estadísticas sobre las diferencias, no sobre la identidad subyacente? Dije que no lo sé, pero puedo especular.

Cuando la estadística es enseñada por matemáticos, puedo ver la tentación. En términos matemáticos, las diferencias entre las pruebas son la parte interesante. Aquí es donde los matemáticos muestran sus habilidades, y es donde hacen el difícil e importante trabajo de inventar nuevas recetas para cocinar resultados confiables a partir de nuevos ingredientes en nuevas situaciones. Los usuarios de estadísticas, sin embargo, estarían encantados de estipular que los matemáticos han sido inteligentes, y que todos les estamos agradecidos, para que podamos ponernos a trabajar en las estadísticas que necesitamos hacer.

Cuando la estadística es enseñada por biólogos, el misterio es más profundo. Creo (espero!) todos los que enseñamos estadísticas entendemos la identidad subyacente de todas las pruebas, pero eso no parece detenernos del enfoque de desfile de pruebas. Una hipótesis: podemos estar respondiendo a la presión (percibida o real) de los departamentos de Matemáticas, que pueden desaprobar que las estadísticas se enseñen fuera de sus unidades y son rápidos para reclamar un rigor matemático insuficiente cuando lo es. Centrarse en muchos detalles matemáticos da una apariencia de rigor aparente. No estoy seguro de que mi hipótesis sea correcta, pero ciertamente he sido parte de discusiones con departamentos de matemáticas que eran consistentes con ella.

Cualesquiera que sean las razones, estamos haciendo un daño real a nuestros estudiantes cuando complicamos las estadísticas. No lo es. Recuerde, cada prueba estadística funciona exactamente de la misma manera. Enséñale eso a un estudiante hoy.

Nota: para una visión bastante diferente de la metáfora de las estadísticas del libro de cocina, vea el interesante post de Joan Strassmann aquí. Creo que estoy de acuerdo con ella solo en parte, así que deberías leer su artículo también.

Otra pieza relacionada de Christie Bahlai está aquí: «Hey, relajémonos con las estadísticas», pero con un mensaje más amplio sobre NHST en todos los campos.

Finalmente, esta es la historia de dos ecologistas que aprendieron a amar las estadísticas, y es muy divertida.

© Stephen Heard ([email protected]) Octubre 6, 2015

*^En este post voy a discutir las estadísticas inferenciales de frecuentistas, o las tradicionales «pruebas de significancia de hipótesis nula». Dejaré de lado los debates sobre si los métodos bayesianos son superiores y si los valores P se aplican incorrectamente (vea mi defensa del valor P). Voy a abstenerme de resoplar burlonamente las afirmaciones de que no necesitamos estadísticas inferenciales en absoluto.

* * ^OK, en realidad no, pero meter eso ahí me permite enlazar a esto. Del mismo modo, estoy tentado a culpar a la lluvia, a culpar a Caín, a culpar a la Bossa Nova y a culpar a Río. De acuerdo, me detendré ahora; pero si tienes uno que me perdí, ¿por qué no dejas un enlace en las Respuestas?

***^Incluiría la transformación de los datos como «cambiar a una prueba diferente», pero si prefieres hacer una distinción, está bien.

Anuncios

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Previous post La Noche de los Rábanos: La Noche de los Rábanos
Next post La importancia de la Cena familiar