Los anteriores posts de esta serie de estadística introdujeron dos conceptos clave para todo aquel que quiera dedicarse a la investigación en ciencias sociales, e incluso para cualquiera que pretenda leerse un artículo científico con un poco de rigor: hablamos del tamaño del efecto y de la potencia estadística. Ojalá mis cursos de estadística y diseño de investigación hubiesen empezado por aquí. Primero, porque me habrían ahorrado más de un dolor de cabeza posterior al planear estudios que jamás van a producir ningún resultado fiable, y segundo porque cuando los entiendes correctamente, otros problemas y conceptos se vuelven casi evidentes.
Repasemos un poco, por si acaso. El tamaño del efecto es una medida de la magnitud del efecto o diferencia que estamos buscando, o bien del que observamos en nuestro estudio. Por ejemplo, si quiero saber si un tratamiento para la ansiedad funciona, estoy asumiendo que en la población “existe” una diferencia entre quienes siguen el tratamiento y quienes no lo siguen, y que esa diferencia tiene determinada magnitud, como podría ser “los síntomas se reducen un 40% gracias al tratamiento”. No solo queremos saber si algo funciona, sino “cómo de bien” funciona. Asimismo, si ahora realizo un estudio en el que comparo pacientes que siguen el tratamiento y controles que no, la diferencia entre los dos grupos será mi efecto observado, que de nuevo tendrá determinado tamaño o magnitud. En principio, el efecto observado es una estimación del efecto real poblacional, así que debería tener en este caso un valor similar, 40%, pero lógicamente, debido al error de muestreo, si repito el estudio iré observando distintos tamaños del efecto: 38%, 45%… Por último, recordad que, cuando nuestro diseño consiste en comparar dos grupos, el tamaño del efecto observado se puede expresar con un estadístico llamado d de Cohen.
Por otro lado, la potencia estadística es la capacidad que tiene mi estudio de producir un resultado significativo (p < 0.05) cuando el efecto real existe en la población (o sea, tiene una magnitud distinta de cero). La potencia se puede expresar como probabilidad, o como proporción: es el porcentaje de estudios que, si se llevaran a cabo, producirían una p < 0.05 si el efecto realmente existe. Si recordáis, en psicología tenemos un problemilla con la potencia (je je), y es que tradicionalmente solemos emplear estudios con potencias incluso por debajo del 50%, lo cual quiere decir que la mitad de los estudios no van a producir resultados significativos… a pesar de que los efectos quizá sí están ahí. Una manera de mejorar la potencia sensiblemente es emplear muestras más grandes, porque esto reduce el error de muestreo.
Bien, hasta aquí el repaso de los anteriores posts. Lo que nos había faltado por hacer es justamente conectar estas dos piezas. No tiene sentido hablar de potencia estadística, así, en el vacío. La potencia va ligada al tamaño del efecto. Ahora entenderéis por qué.
Por qué queremos muestras grandes
Imaginad que estamos investigando un fenómeno que produce efectos pequeños-medianos, como es lo más habitual en psicología. Un ejemplo podría ser el de un tratamiento cuya efectividad probablemente va a ser marginal, o el de una manipulación de “priming” cuyo efecto en el comportamiento va a ser en todo caso sutil y difícil de capturar (ej: pensar en palabras relacionadas con la vejez hace que te muevas más despacio)… Vamos a examinar la potencia de nuestro estudio bajo dos escenarios posibles: muestras pequeñas, y muestras grandes. Para ello, como de costumbre, podéis ir a esta web (https://rextester.com/l/r_online_compiler) y copia-pegar el código que tenéis abajo y que os he preparado.
sd <- 10 #desviación típica de la población
numMuestras <- 10000 #número de experimentos que vamos a generar
pDist<- function(grupo1.mean, grupo2.mean, n){
pvalue <-c()
for(i in 1:numMuestras){
grupo1.sample <- rnorm(n, grupo1.mean, sd)
grupo2.sample <- rnorm(n, grupo2.mean, sd)
pvalue <- c(pvalue, t.test(grupo1.sample, grupo2.sample)$p.value)
d <- (grupo1.mean-grupo2.mean) / sd
power<-length(which(pvalue < 0.05))/numMuestras
}
hist(pvalue, main= paste0("d: ", round(d, 3), ", N: ", n*2, ", Potencia: ", round(power, 3))) #genera el gráfico
}
Este código está creando una función para simular un gran número de experimentos aleatorios (10.000) a partir de una población que le especifiquemos, y dibujar su distribución en forma de histograma, al estilo de lo que hicimos en el post sobre la potencia. Ejecutadlo. Ahora solo falta que llaméis a la función pasándole los argumentos correspondientes, que en este caso son las medias que asumimos para la población (que van a determinar el tamaño del efecto), y el tamaño muestral. Teclead en la consola de R:
pDist(54, 50, 10)
Con esto le estamos especificando a R que tiene que generar las muestras a partir de dos poblaciones cuyas puntuaciones medias son 54 y 50, respectivamente (lo cual implica un tamaño del efecto de d = 0.40, es decir, pequeño-mediano), y que el tamaño de cada grupo de datos extraído de estas poblaciones es de 10 (o sea, que en total, el estudio tendría N=20 sujetos). La función nos habrá generado un histograma con la distribución de p-valores, similar a esta:

¿Ya lo tenéis? Fijaos en que la potencia es bastante baja: 0.131. Es decir, sólo el 13% de los estudios simulados han conseguido detectar el efecto. Los demás no han conseguido encontrar el resultado significativo. Si hubiéramos hecho un estudio real, la probabilidad de éxito es tan baja que sería una pena derrochar los recursos. Vamos a ver qué pasa si aumentamos los tamaños de cada muestra, tecleando lo siguiente:
pDist(54, 50, 50)
Ahora le estamos pidiendo muestras bastante más grandes: de 50 participantes por grupo (en total, N=100), en vez de los 10 de la simulación anterior. Las medias las hemos dejado como estaban. El histograma revela que este cambio en la N ha afectado notablemente a la potencia:

Ahora la forma de la distribución es mucho más asimétrica, y aproximadamente el 50% de los estudios son significativos. Sigue siendo una potencia mediocre, dado que la mínima recomendada es del 80%, pero algo hemos avanzado. Deberíamos buscar una muestra mayor de 100 participantes si queremos obtener buena potencia.
La pregunta que os quería lanzar ahora es: ¿realmente necesitamos una muestra tan grande en todos los estudios? Claro que no. Lo que está pasando aquí es que estamos buscando un efecto que hemos definido como pequeño-mediano en la población (d=0.40). Pero si el efecto que buscamos fuera más grande, la muestra necesaria para obtener una potencia del 80% podría ser bastante más pequeña. Para entenderlo, lo mejor es que sigamos jugando con las simulaciones. Volved a R y teclead lo siguiente:
pDist(62, 50, 10)
Estamos pidiendo a R que genere muestras de dos poblaciones que, ahora, difieren notablemente en sus puntuaciones medias: 62-50=12 puntos de diferencia. Se trata de un tamaño del efecto de d=1.2, lo que consideramos “enorme”. Aprovechad para recrearos la vista con la siguiente figura, porque en psicología casi nunca tenemos la ocasión de detectar efectos tan grandes. Vamos a ver qué tal le ha ido a la potencia con este efecto enorme y un tamaño muestral pequeño, de 10 participantes por grupo:

¡Guau! Fijaos en el salto. Seguimos teniendo una muestra pequeña, de 20 participantes nada más. Pero, dado que el efecto que buscamos ahora es muy grande, con esa muestra diminuta alcanzamos una potencia de 0.7, es decir, el 70% de los estudios son significativos.
La moraleja de toda esta historia es la siguiente: no se trata de aumentar el tamaño muestral porque sí, y cuanto más grande mejor. No. Se trata de escoger un tamaño muestral suficiente para detectar un efecto del tamaño del que estoy buscando con una potencia adecuada (idealmente, mayor del 80%).
Lupas y microscopios
Tal vez os ayude la metáfora que empleo en mis clases. Los efectos son de distintos tamaños: pequeños como moléculas (d=0.10, d=0.05…), o grandes como camiones (d=1.20). Lógicamente, un camión es más fácil de observar que una molécula. Para ver el camión no necesito ningún instrumental específico, mientras que para ver la molécula necesito un microscopio.

Por otro lado, la potencia es como un instrumento óptico que puede aumentar un objeto en distintos grados. Pensad en un estudio poco potente, con una N pequeña, como si fuera una lupa: tiene la capacidad de aumentar un poco el tamaño del efecto que busco, pero no mucho. Un estudio muy potente sería equivalente a un microscopio de barrido, capaz de magnificar el tamaño de objetos muy, muy, pequeños.
Aquí viene el punto importante: si mi objetivo es detectar una molécula, no tiene sentido que emplee una lupa, ¿verdad? No voy a conseguir ver nada. Necesito un microscopio. Pero en otras ocasiones me interesan efectos grandes, como camiones, que puedo observar con la lupa, o con unas gafas de leer, sin necesidad de recurrir al microscopio. El tamaño muestral va en consonancia con el tamaño del efecto.
Otras veces suceden cosas extrañas. Imaginad que leéis un estudio donde, con una muestra pequeña (N=10 sujetos) han encontrado un efecto minúsculo (d=0.10). Pues bien, casi con toda seguridad podéis sospechar que hay algún error o que esa estimación es muy poco fiable. Pensadlo: es como si alguien te estuviera contando que ha visto una molécula a simple vista, ¡sin microscopio ni nada!
Esta metáfora también nos ayuda a entender un dilema: en estos ejemplos, yo conozco de antemano el tamaño del objeto que estoy buscando. Sé si lo que busco es un camión o una molécula, y escojo la herramienta en consonancia. En la vida real, sin embargo, no contamos con esta información. Yo no sé si el efecto que busco es grande, pequeño o mediano. Y por lo tanto siempre hay cierta dificultad para escoger el tamaño muestral adecuado. ¡Qué pena!
Análisis de potencia
Esto nos lleva al siguiente punto, los llamados “a priori power analysis” o “análisis de potencia a priori” que muchas revistas piden a los autores. Se trata en su mayor parte de análisis dirigidos a decidir cuál es el tamaño muestral adecuado para un estudio antes de llevarlo a cabo, de forma que garanticemos una potencia aceptable (por ejemplo, del 80%). Aunque las técnicas para realizar estos análisis están evolucionando constantemente, una de las tradicionales y más empleadas sería como sigue:
- Paso 1: Lee la literatura sobre tu tema de investigación, y extrae el tamaño del efecto observado promedio. O bien, simplemente decide si es pequeño/mediano/grande en función de las convenciones habituales.
- Paso 2: Asumiendo que ese efecto observado es una buena estimación del efecto real, decide cuál tiene que ser tu tamaño muestral para alcanzar la potencia del 80% o el 90%.
- Paso 3: Ahora realiza el estudio con ese tamaño muestral.
A pesar de que muchos revisores siguen pidiendo que los autores realicemos una variante de estos tres pasos, lo cierto es que la lógica de este análisis hace agua. El problema está en el paso 2: “Asumiendo que ese efecto observado es una buena estimación del efecto real”. Y es un problema, ¡porque los tamaños observados que se publican en la literatura seguramente no tienen nada que ver con el tamaño “real”! Ahora entenderemos por qué.
En primer lugar, muchos de los estudios publicados (sobre todo los anteriores a 2011 y a la famosa crisis de credibilidad en psicología) tienen baja potencia. Esto significa dos cosas: (1) que la mayoría de ellos fracasarían en producir un resultado significativo, (2) que la estimación del tamaño del efecto, d, no será fiable, por culpa del error de muestreo. Ahora bien, es muy raro encontrar resultados no significativos que se hayan publicado, sobre todo con anterioridad a la crisis. ¿Cómo es que, teniendo una potencia ridícula, a veces del 20% ó 30%, no veamos más que estudios con resultados significativos? ¿No contradice esto todo lo que nos has contado, Fernando?
Efectivamente, lo contradice, pero tiene una explicación: la publicación selectiva, o “sesgo de publicación”. Imaginad que los investigadores realizan 10 estudios sobre un tema, usando diseños de potencia baja, de un 20%. El 80% de estos estudios (8 de los 10) no será significativo, y precisamente por eso nadie los publicará. Sin embargo, los dos estudios (el 20%) que sí salen significativos son los únicos que sí se van a publicar. Así que cuando calculas el tamaño del efecto a partir de los resultados publicados en la literatura, ojo: ¡estás obviando todos los estudios que no fueron significativos!
Además, como las muestras pequeñas están más contaminadas por el error de muestreo, las estimaciones del tamaño del efecto observado en esos estudios serán muy volátiles. Y lo que es peor, como justo estamos seleccionando para publicar esos poquitos estudios significativos, estamos introduciendo un sesgo: los estudios significativos son los que van a tener las estimaciones más exageradas, más desviadas del tamaño poblacional real. En definitiva, que el tamaño del efecto “promedio” va a estar sobreestimado.
Hoy en día hay otras formas de planificar el tamaño muestral que no tienen estos problemas, e incluso hay soluciones como el muestreo secuencial. Sin embargo, me apetecía comentar este caso porque aun a día de hoy es bastante frecuente que lo pidan en las revistas.
“The new statistics”
Y voy a terminar el post de hoy comentando algo que tiene mucha relación con lo que hemos estado explicando estos días. Si habéis leído los posts anteriores, tal vez os haya preocupado (y si no es así, ¡debería!) el problema que hemos estado describiendo acerca de la potencia estadística y la facilidad con la que pueden aparecer “falsos positivos” (error tipo I). En el fondo, esto puede tener que ver con la costumbre (en mi opinión, muchas veces innecesaria) de buscar en nuestros estudios respuestas dicotómicas: o el tratamiento funciona, o no; o el efecto existe, o no. Esta dicotomía viene marcada por la forma de utilizar los p-valores como una guía para tomar decisiones con solo dos posibles opciones: si el p-valor es menor del umbral (usualmente 0.05), entonces decimos que el resultado es significativo. De lo contrario, el resultado no es significativo. Entiendo que en ocasiones sí que nos interesa usar la investigación para tomar decisiones binarias de este tipo, “o sí o no”. Pero en otras muchas situaciones preferiríamos tener una respuesta más matizada: “el tratamiento mejora sobre el control un 40%, o un 60%”. “La diferencia entre dos grupos es de 20 puntos”. Es decir, querríamos cuantificar los efectos que encontramos, y la incertidumbre con la que los hemos estimado, pero no siempre queremos reducirlo todo a una decisión de tipo “sí/no”, ¿verdad? Recordad el ejemplo del post anterior, en el que un tratamiento podría funcionar significativamente mejor que otro, y sin embargo producir un cambio tan minúsculo que en términos prácticos no nos sirve. Además está la arbitrariedad del umbral: un p-valor de 0.049 es igual de significativo que uno de 0.0001. ¿Cómo te quedas?
Así que los estadísticos se han roto bastante la cabeza intentando diseñar herramientas mejores para analizar nuestros datos en esas situaciones. Una de esas propuestas es la de Geoff Cumming (2013): “The new statistics” (sí, el título es muy ambicioso). La idea es la siguiente: en vez de calcular un p-valor para nuestro estudio, vamos a centrarnos en estimar el tamaño del efecto observado. Si la estimación es buena (ya sabéis, muestras grandes, medidas precisas), se aproximará al efecto real en la población. Además, calcularemos un intervalo de confianza para ese efecto que hemos encontrado. En definitiva, movemos el foco de las decisiones (p-valores) a la estimación (tamaños del efecto). Así, en vez de decir que “mi resultado ha sido significativo”, lo que diré es que “he encontrado un efecto de tamaño 0.54 +/- 3” (siendo ese “3” la cuantificación de la incertidumbre acerca de la estimación puntual).

La propuesta tuvo bastante repercusión en su momento, apareció en editoriales y guías para los autores de algunas revistas, y no ha parado de enriquecerse con nuevas opciones e investigaciones (si queréis aprender más, visitad el blog del autor). Sin embargo, parece que esta visión no acaba de calar del todo, y se han señalado muchos problemas con ella. Aparte de las cuestiones técnicas en las que no voy a entrar (tampoco estoy capacitado para opinar sobre ellas), sospecho que también existe un factor humano. Creo que al final, como pasó también con otra famosa herramienta estadística, los Bayes Factors, hay una tentación irresistible en todas las personas (y en los investigadores, cómo no), por crearse una sensación de certeza, aunque sea vacua e ilusoria. Creo que imponer umbrales fijos y dicotomías, como la regla de decisión basada en los p-valores (significativo/no significativo) sirven precisamente para eso: para generarnos una impresión de confianza, de seguridad. O sí o no. Para borrar los matices. Honestamente, no comparto esta manía de convertirlo todo en una decisión binaria, y de hecho me parece que podría llevarnos a confusiones, prácticas científicas cuestionables (sesgo de publicación, p-hacking), exageraciones… Buf. Pero podemos hablar de ello otro día.
Referencias
Cumming, G. (2013). The New Statistics: Why and How. Psychological Science, 25(1), 7-29.
Super útil! Utilizando tu simulación en R he podido sacar la potencia de los experimentos que llevo hasta ahora en mi tesis y hacer una simulación de cómo debería ser la muestra para lograr una potencia mayor del 80% en los futuros. ¿Utilizas tú esta simulación para hacer ese cálculo para tus experimentos o usas otra herramienta? Gracias!
LikeLike
Hola!
Gracias por el mensaje.
Los conceptos de tamaño del efecto, potencia y N están conectados de forma que si fijamos el valor de dos de ellos, el tercero está determinado.
Poe ejemplo, lo que hace el script del post: al introducir tu tamaño del efecto observado, nos da una estimación de la potencia obtenida en tu estudio. Es decir: Fijas el tamaño del efecto y la N, y eso te permite obtener la potencia (conocidos dos conceptos, el tercero está determinado).
Ahora bien, lo que estás describiendo es la operación inversa: conocido el tamaño del efecto, y la potencia deseada (80%), vamos a calcular qué muestra necesitamos. Esta operación es posible (se conoce como “power analysis”), pero no he explicado cómo en el post. Habría que modificar el script, y supongo que es lo que has hecho.
Para estas operaciones, es habitual usar software que nos lo da todo mascado y además permite introducir otras opciones. Yo creo que de los mejores y más completos es G*Power:
http://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower.html
Aunque si utilizas R o Jamovi, hay paquetes que lo hacen también (prueba “jPower” en Jamovi).
https://github.com/richarddmorey/jpower
LikeLike
Genial! Probaré y así compruebo que he hecho bien mis pruebas modificando el script 😉 muchas gracias!
LikeLike
Pingback: Ciencia de datos, estadística y matemáticas