Como científicos, todos hemos recibido algún nivel de capacitación en estadística. Un concepto fundamental es que estamos tratando de hacer inferencias sobre una población específica, pero que solo tenemos acceso a una muestra de las personas, perros, amebas, etc. que pertenecen a esa población. Por ejemplo, mediante el muestreo aleatorio de amebas, recopilamos datos y realizamos pruebas estadísticas para aprender algo sobre toda la población, no solo las amebas que hemos probado.
Debido a que no somos capaces de recopilar datos de todas las amebas, nuestras conclusiones vienen con incertidumbre. Qué tan bien se aplican nuestras conclusiones a toda la población, qué tan generalizables son, depende de qué tan bien nuestra muestra sea representativa de la población. Podría ser que el pequeño número de amebas que muestreamos fueran particularmente agresivos. Esta característica no es compartida por la mayoría de las amebas de la población, pero debido a que no hemos incluido una medida de agresión en nuestro estudio actual, no tenemos forma de saber que nuestra muestra no es representativa.
Sin embargo, debido a que nuestros análisis estadísticos revelan un hallazgo interesante, redactamos un manuscrito y lo enviamos a la revista top amebas. Es importante destacar que redactamos el manuscrito desde el punto de vista de que nuestra muestra es de hecho representativa de la población general. Debido a que nuestros resultados fueron muy significativos, estamos convencidos de que hemos descubierto algo importante. Pero es esto verdad?
En promedio, las muestras más grandes que se seleccionan realmente al azar serán más representativas de toda la población que una muestra más pequeña. Sin embargo, la ciencia está plagada de estudios realizados en muestras pequeñas, que en la mayoría de los casos no representan a la población general. ¿Por qué hay tantos estudios pequeños? Como señaló el Premio Nobel Daniel Kahneman hace más de 40 años, parte del problema es que los humanos están dirigiendo el espectáculo
Creencia en la ley de los números pequeños
En un artículo publicado en 1971 en el Boletín Psicológico titulado Creencia en la ley de los números pequeños, Tversky & Kahneman argumenta que debido a que los científicos, que son humanos, tienen poca intuición sobre las leyes del azar (i. e. probabilidad), existe una creencia abrumadora (y errónea) de que una muestra seleccionada al azar es altamente representativa de la población estudiada. Los autores probaron (y confirmaron) esta hipótesis realizando una serie de encuestas a científicos.
Intervalos de confianza.
» Un intervalo de confianza, sin embargo, proporciona un índice útil de variabilidad de muestreo, y es precisamente esta variabilidad la que tendemos a subestimar.»
Los autores resumieron sus hallazgos clave de la siguiente manera:
- Los científicos juegan hipótesis de investigación en muestras pequeñas sin darse cuenta de que las probabilidades en su contra son irrazonablemente altas. Los científicos sobreestiman el poder.
- Los científicos tienen una confianza irrazonable en las primeras tendencias y en la estabilidad de los patrones observados. Los científicos sobreestiman la importancia.
- Al evaluar las repeticiones, los científicos tienen expectativas irrazonablemente altas sobre la replicabilidad de resultados significativos. Los científicos subestiman la magnitud de los intervalos de confianza.
- Los científicos rara vez atribuyen una desviación de los resultados de las expectativas a la variabilidad del muestreo, porque encuentran una «explicación» causal para cualquier discrepancia. Por lo tanto, tienen pocas oportunidades de reconocer la variación de muestreo en acción. Los científicos se perpetúan a sí mismos la creencia en pequeños números.
Potencia estadística y tamaños de muestra.
» negarse a creer que un investigador serio aceptará a sabiendas un riesgo del 50% de no confirmar una hipótesis de investigación válida.»
Nada nuevo
Fue interesante observar que muchos de los temas que se estaban discutiendo actualmente en el contexto de la ciencia reproducible también se estaban discutiendo hace más de 30 años. Por ejemplo, la presencia de «estudios ridículamente insuficientes», la importancia de reproducir un hallazgo clave, el tamaño de la muestra a utilizar en un estudio de replicación, las limitaciones de los valores p, el sesgo presente en la interpretación y presentación de informes de resultados científicos.
Con pensadores tan claros a la cabeza, ¿por qué no se resolvieron estos problemas y sus soluciones se implementaron hace décadas?
Confianza en los valores p.
«El énfasis en los niveles de significación estadística tiende a ocultar una distinción fundamental entre el tamaño de un efecto y su significación estadística. Independientemente del tamaño de la muestra, el tamaño de un efecto en un estudio es una estimación razonable del tamaño del efecto en replicación. En contraste, el nivel de significancia estimado es una replicación que depende críticamente del tamaño de la muestra.»
Resumen
La creencia de que los resultados de muestras pequeñas son representativos de la población general es un sesgo cognitivo. Como tal, está activo sin que nosotros lo sepamos. Debemos esforzarnos por reconocerlo en nosotros mismos y tomar precauciones para limitar su impacto. Ejemplos de tales precauciones incluyen centrarse en el tamaño y la certeza de un efecto observado, el registro previo de protocolos de estudio y planes de análisis, y análisis de datos ciegos.