Estadística Visual (VII). Lupas y microscopios: la potencia y el tamaño del efecto.

Los anteriores posts de esta serie de estadística introdujeron dos conceptos clave para todo aquel que quiera dedicarse a la investigación en ciencias sociales, e incluso para cualquiera que pretenda leerse un artículo científico con un poco de rigor: hablamos del tamaño del efecto y de la potencia estadística. Ojalá mis cursos de estadística y diseño de investigación hubiesen empezado por aquí. Primero, porque me habrían ahorrado más de un dolor de cabeza posterior al planear estudios que jamás van a producir ningún resultado fiable, y segundo porque cuando los entiendes correctamente, otros problemas y conceptos se vuelven casi evidentes.

Repasemos un poco, por si acaso. El tamaño del efecto es una medida de la magnitud del efecto o diferencia que estamos buscando, o bien del que observamos en nuestro estudio. Por ejemplo, si quiero saber si un tratamiento para la ansiedad funciona, estoy asumiendo que en la población “existe” una diferencia entre quienes siguen el tratamiento y quienes no lo siguen, y que esa diferencia tiene determinada magnitud, como podría ser “los síntomas se reducen un 40% gracias al tratamiento”. No solo queremos saber si algo funciona, sino “cómo de bien” funciona. Asimismo, si ahora realizo un estudio en el que comparo pacientes que siguen el tratamiento y controles que no, la diferencia entre los dos grupos será mi efecto observado, que de nuevo tendrá determinado tamaño o magnitud. En principio, el efecto observado es una estimación del efecto real poblacional, así que debería tener en este caso un valor similar, 40%, pero lógicamente, debido al error de muestreo, si repito el estudio iré observando distintos tamaños del efecto: 38%, 45%… Por último, recordad que, cuando nuestro diseño consiste en comparar dos grupos, el tamaño del efecto observado se puede expresar con un estadístico llamado d de Cohen.

Por otro lado, la potencia estadística es la capacidad que tiene mi estudio de producir un resultado significativo (p < 0.05) cuando el efecto real existe en la población (o sea, tiene una magnitud distinta de cero). La potencia se puede expresar como probabilidad, o como proporción: es el porcentaje de estudios que, si se llevaran a cabo, producirían una p < 0.05 si el efecto realmente existe. Si recordáis, en psicología tenemos un problemilla con la potencia (je je), y es que tradicionalmente solemos emplear estudios con potencias incluso por debajo del 50%, lo cual quiere decir que la mitad de los estudios no van a producir resultados significativos… a pesar de que los efectos quizá sí están ahí. Una manera de mejorar la potencia sensiblemente es emplear muestras más grandes, porque esto reduce el error de muestreo.

Bien, hasta aquí el repaso de los anteriores posts. Lo que nos había faltado por hacer es justamente conectar estas dos piezas. No tiene sentido hablar de potencia estadística, así, en el vacío. La potencia va ligada al tamaño del efecto. Ahora entenderéis por qué.

Por qué queremos muestras grandes

Imaginad que estamos investigando un fenómeno que produce efectos pequeños-medianos, como es lo más habitual en psicología. Un ejemplo podría ser el de un tratamiento cuya efectividad probablemente va a ser marginal, o el de una manipulación de “priming” cuyo efecto en el comportamiento va a ser en todo caso sutil y difícil de capturar (ej: pensar en palabras relacionadas con la vejez hace que te muevas más despacio)… Vamos a examinar la potencia de nuestro estudio bajo dos escenarios posibles: muestras pequeñas, y muestras grandes. Para ello, como de costumbre, podéis ir a esta web (https://rextester.com/l/r_online_compiler) y copia-pegar el código que tenéis abajo y que os he preparado.

sd <- 10 #desviación típica de la población
numMuestras <- 10000 #número de experimentos que vamos a generar

pDist<- function(grupo1.mean, grupo2.mean, n){
pvalue <-c() 
 for(i in 1:numMuestras){
    grupo1.sample <- rnorm(n, grupo1.mean, sd)
    grupo2.sample <- rnorm(n, grupo2.mean, sd)
    pvalue <- c(pvalue, t.test(grupo1.sample, grupo2.sample)$p.value)
    d <- (grupo1.mean-grupo2.mean) / sd
    power<-length(which(pvalue < 0.05))/numMuestras
  }
  hist(pvalue, main= paste0("d: ", round(d, 3), ", N: ", n*2, ", Potencia: ", round(power, 3)))  #genera el gráfico
}

Este código está creando una función para simular un gran número de experimentos aleatorios (10.000) a partir de una población que le especifiquemos, y dibujar su distribución en forma de histograma, al estilo de lo que hicimos en el post sobre la potencia. Ejecutadlo. Ahora solo falta que llaméis a la función pasándole los argumentos correspondientes, que en este caso son las medias que asumimos para la población (que van a determinar el tamaño del efecto), y el tamaño muestral. Teclead en la consola de R:

pDist(54, 50, 10) 

Con esto le estamos especificando a R que tiene que generar las muestras a partir de dos poblaciones cuyas puntuaciones medias son 54 y 50, respectivamente (lo cual implica un tamaño del efecto de d = 0.40, es decir, pequeño-mediano), y que el tamaño de cada grupo de datos extraído de estas poblaciones es de 10 (o sea, que en total, el estudio tendría N=20 sujetos). La función nos habrá generado un histograma con la distribución de p-valores, similar a esta:

¿Ya lo tenéis? Fijaos en que la potencia es bastante baja: 0.131. Es decir, sólo el 13% de los estudios simulados han conseguido detectar el efecto. Los demás no han conseguido encontrar el resultado significativo. Si hubiéramos hecho un estudio real, la probabilidad de éxito es tan baja que sería una pena derrochar los recursos. Vamos a ver qué pasa si aumentamos los tamaños de cada muestra, tecleando lo siguiente:

pDist(54, 50, 50)

Ahora le estamos pidiendo muestras bastante más grandes: de 50 participantes por grupo (en total, N=100), en vez de los 10 de la simulación anterior. Las medias las hemos dejado como estaban. El histograma revela que este cambio en la N ha afectado notablemente a la potencia:

Ahora la forma de la distribución es mucho más asimétrica, y aproximadamente el 50% de los estudios son significativos. Sigue siendo una potencia mediocre, dado que la mínima recomendada es del 80%, pero algo hemos avanzado. Deberíamos buscar una muestra mayor de 100 participantes si queremos obtener buena potencia.

La pregunta que os quería lanzar ahora es: ¿realmente necesitamos una muestra tan grande en todos los estudios? Claro que no. Lo que está pasando aquí es que estamos buscando un efecto que hemos definido como pequeño-mediano en la población (d=0.40). Pero si el efecto que buscamos fuera más grande, la muestra necesaria para obtener una potencia del 80% podría ser bastante más pequeña. Para entenderlo, lo mejor es que sigamos jugando con las simulaciones. Volved a R y teclead lo siguiente:

pDist(62, 50, 10)

Estamos pidiendo a R que genere muestras de dos poblaciones que, ahora, difieren notablemente en sus puntuaciones medias: 62-50=12 puntos de diferencia. Se trata de un tamaño del efecto de d=1.2, lo que consideramos “enorme”. Aprovechad para recrearos la vista con la siguiente figura, porque en psicología casi nunca tenemos la ocasión de detectar efectos tan grandes. Vamos a ver qué tal le ha ido a la potencia con este efecto enorme y un tamaño muestral pequeño, de 10 participantes por grupo:

¡Guau! Fijaos en el salto. Seguimos teniendo una muestra pequeña, de 20 participantes nada más. Pero, dado que el efecto que buscamos ahora es muy grande, con esa muestra diminuta alcanzamos una potencia de 0.7, es decir, el 70% de los estudios son significativos.

La moraleja de toda esta historia es la siguiente: no se trata de aumentar el tamaño muestral porque sí, y cuanto más grande mejor. No. Se trata de escoger un tamaño muestral suficiente para detectar un efecto del tamaño del que estoy buscando con una potencia adecuada (idealmente, mayor del 80%).

Lupas y microscopios

Tal vez os ayude la metáfora que empleo en mis clases. Los efectos son de distintos tamaños: pequeños como moléculas (d=0.10, d=0.05…), o grandes como camiones (d=1.20). Lógicamente, un camión es más fácil de observar que una molécula. Para ver el camión no necesito ningún instrumental específico, mientras que para ver la molécula necesito un microscopio.

Por otro lado, la potencia es como un instrumento óptico que puede aumentar un objeto en distintos grados. Pensad en un estudio poco potente, con una N pequeña, como si fuera una lupa: tiene la capacidad de aumentar un poco el tamaño del efecto que busco, pero no mucho. Un estudio muy potente sería equivalente a un microscopio de barrido, capaz de magnificar el tamaño de objetos muy, muy, pequeños.

Aquí viene el punto importante: si mi objetivo es detectar una molécula, no tiene sentido que emplee una lupa, ¿verdad? No voy a conseguir ver nada. Necesito un microscopio. Pero en otras ocasiones me interesan efectos grandes, como camiones, que puedo observar con la lupa, o con unas gafas de leer, sin necesidad de recurrir al microscopio. El tamaño muestral va en consonancia con el tamaño del efecto.

Otras veces suceden cosas extrañas. Imaginad que leéis un estudio donde, con una muestra pequeña (N=10 sujetos) han encontrado un efecto minúsculo (d=0.10). Pues bien, casi con toda seguridad podéis sospechar que hay algún error o que esa estimación es muy poco fiable. Pensadlo: es como si alguien te estuviera contando que ha visto una molécula a simple vista, ¡sin microscopio ni nada!

Esta metáfora también nos ayuda a entender un dilema: en estos ejemplos, yo conozco de antemano el tamaño del objeto que estoy buscando. Sé si lo que busco es un camión o una molécula, y escojo la herramienta en consonancia. En la vida real, sin embargo, no contamos con esta información. Yo no sé si el efecto que busco es grande, pequeño o mediano. Y por lo tanto siempre hay cierta dificultad para escoger el tamaño muestral adecuado. ¡Qué pena!

Análisis de potencia

Esto nos lleva al siguiente punto, los llamados “a priori power analysis” o “análisis de potencia a priori” que muchas revistas piden a los autores. Se trata en su mayor parte de análisis dirigidos a decidir cuál es el tamaño muestral adecuado para un estudio antes de llevarlo a cabo, de forma que garanticemos una potencia aceptable (por ejemplo, del 80%). Aunque las técnicas para realizar estos análisis están evolucionando constantemente, una de las tradicionales y más empleadas sería como sigue:

  • Paso 1: Lee la literatura sobre tu tema de investigación, y extrae el tamaño del efecto observado promedio. O bien, simplemente decide si es pequeño/mediano/grande en función de las convenciones habituales.
  • Paso 2: Asumiendo que ese efecto observado es una buena estimación del efecto real, decide cuál tiene que ser tu tamaño muestral para alcanzar la potencia del 80% o el 90%.
  • Paso 3: Ahora realiza el estudio con ese tamaño muestral.

A pesar de que muchos revisores siguen pidiendo que los autores realicemos una variante de estos tres pasos, lo cierto es que la lógica de este análisis hace agua. El problema está en el paso 2: “Asumiendo que ese efecto observado es una buena estimación del efecto real”. Y es un problema, ¡porque los tamaños observados que se publican en la literatura seguramente no tienen nada que ver con el tamaño “real”! Ahora entenderemos por qué.

En primer lugar, muchos de los estudios publicados (sobre todo los anteriores a 2011 y a la famosa crisis de credibilidad en psicología) tienen baja potencia. Esto significa dos cosas: (1) que la mayoría de ellos fracasarían en producir un resultado significativo, (2) que la estimación del tamaño del efecto, d, no será fiable, por culpa del error de muestreo. Ahora bien, es muy raro encontrar resultados no significativos que se hayan publicado, sobre todo con anterioridad a la crisis. ¿Cómo es que, teniendo una potencia ridícula, a veces del 20% ó 30%, no veamos más que estudios con resultados significativos? ¿No contradice esto todo lo que nos has contado, Fernando?

Efectivamente, lo contradice, pero tiene una explicación: la publicación selectiva, o “sesgo de publicación”. Imaginad que los investigadores realizan 10 estudios sobre un tema, usando diseños de potencia baja, de un 20%. El 80% de estos estudios (8 de los 10) no será significativo, y precisamente por eso nadie los publicará. Sin embargo, los dos estudios (el 20%) que sí salen significativos son los únicos que sí se van a publicar. Así que cuando calculas el tamaño del efecto a partir de los resultados publicados en la literatura, ojo: ¡estás obviando todos los estudios que no fueron significativos!

Además, como las muestras pequeñas están más contaminadas por el error de muestreo, las estimaciones del tamaño del efecto observado en esos estudios serán muy volátiles. Y lo que es peor, como justo estamos seleccionando para publicar esos poquitos estudios significativos, estamos introduciendo un sesgo: los estudios significativos son los que van a tener las estimaciones más exageradas, más desviadas del tamaño poblacional real. En definitiva, que el tamaño del efecto “promedio” va a estar sobreestimado.

Hoy en día hay otras formas de planificar el tamaño muestral que no tienen estos problemas, e incluso hay soluciones como el muestreo secuencial. Sin embargo, me apetecía comentar este caso porque aun a día de hoy es bastante frecuente que lo pidan en las revistas.

“The new statistics”

Y voy a terminar el post de hoy comentando algo que tiene mucha relación con lo que hemos estado explicando estos días. Si habéis leído los posts anteriores, tal vez os haya preocupado (y si no es así, ¡debería!) el problema que hemos estado describiendo acerca de la potencia estadística y la facilidad con la que pueden aparecer “falsos positivos” (error tipo I). En el fondo, esto puede tener que ver con la costumbre (en mi opinión, muchas veces innecesaria) de buscar en nuestros estudios respuestas dicotómicas: o el tratamiento funciona, o no; o el efecto existe, o no. Esta dicotomía viene marcada por la forma de utilizar los p-valores como una guía para tomar decisiones con solo dos posibles opciones: si el p-valor es menor del umbral (usualmente 0.05), entonces decimos que el resultado es significativo. De lo contrario, el resultado no es significativo. Entiendo que en ocasiones sí que nos interesa usar la investigación para tomar decisiones binarias de este tipo, “o sí o no”. Pero en otras muchas situaciones preferiríamos tener una respuesta más matizada: “el tratamiento mejora sobre el control un 40%, o un 60%”. “La diferencia entre dos grupos es de 20 puntos”. Es decir, querríamos cuantificar los efectos que encontramos, y la incertidumbre con la que los hemos estimado, pero no siempre queremos reducirlo todo a una decisión de tipo “sí/no”, ¿verdad? Recordad el ejemplo del post anterior, en el que un tratamiento podría funcionar significativamente mejor que otro, y sin embargo producir un cambio tan minúsculo que en términos prácticos no nos sirve. Además está la arbitrariedad del umbral: un p-valor de 0.049 es igual de significativo que uno de 0.0001. ¿Cómo te quedas?

Así que los estadísticos se han roto bastante la cabeza intentando diseñar herramientas mejores para analizar nuestros datos en esas situaciones. Una de esas propuestas es la de Geoff Cumming (2013): “The new statistics” (sí, el título es muy ambicioso). La idea es la siguiente: en vez de calcular un p-valor para nuestro estudio, vamos a centrarnos en estimar el tamaño del efecto observado. Si la estimación es buena (ya sabéis, muestras grandes, medidas precisas), se aproximará al efecto real en la población. Además, calcularemos un intervalo de confianza para ese efecto que hemos encontrado. En definitiva, movemos el foco de las decisiones (p-valores) a la estimación (tamaños del efecto). Así, en vez de decir que “mi resultado ha sido significativo”, lo que diré es que “he encontrado un efecto de tamaño 0.54 +/- 3” (siendo ese “3” la cuantificación de la incertidumbre acerca de la estimación puntual).

La propuesta tuvo bastante repercusión en su momento, apareció en editoriales y guías para los autores de algunas revistas, y no ha parado de enriquecerse con nuevas opciones e investigaciones (si queréis aprender más, visitad el blog del autor). Sin embargo, parece que esta visión no acaba de calar del todo, y se han señalado muchos problemas con ella. Aparte de las cuestiones técnicas en las que no voy a entrar (tampoco estoy capacitado para opinar sobre ellas), sospecho que también existe un factor humano. Creo que al final, como pasó también con otra famosa herramienta estadística, los Bayes Factors, hay una tentación irresistible en todas las personas (y en los investigadores, cómo no), por crearse una sensación de certeza, aunque sea vacua e ilusoria. Creo que imponer umbrales fijos y dicotomías, como la regla de decisión basada en los p-valores (significativo/no significativo) sirven precisamente para eso: para generarnos una impresión de confianza, de seguridad. O sí o no. Para borrar los matices. Honestamente, no comparto esta manía de convertirlo todo en una decisión binaria, y de hecho me parece que podría llevarnos a confusiones, prácticas científicas cuestionables (sesgo de publicación, p-hacking), exageraciones… Buf. Pero podemos hablar de ello otro día.

Referencias

Cumming, G. (2013). The New Statistics: Why and How. Psychological Science, 25(1), 7-29.

Advertisements
Posted in Estadística visual | Tagged | Leave a comment

Estadística visual (VI): El tamaño del efecto, y por qué no me hice rico vendiendo crecepelos.

Vamos a aprovechar el verano para repasar algunos conceptos clave de estadística, que sé que algunos/as ya estáis dándole al temario del PIR, o bien simplemente os va la marcha como a mí y no os importa leer de estos temas desde la playa. Esta vez vamos a avanzar un poco con respecto al último post, para tratar otro de esos temas que ojalá me hubieran explicado en clase cuando empecé a estudiar estadística: el tamaño del efecto.

¿Cómo de bien funciona un tratamiento?

Comenzaremos con un ejemplo para ponernos en situación. Imaginad que he descubierto un tónico crecepelo y quiero ponerlo a prueba. ¡Yo estoy convencido de que funciona! La pregunta es: sí, pero ¿cómo de bien funciona?

Para saberlo, como de costumbre, haremos un experimento. En este caso, basta con reclutar una muestra de pacientes con calvicie (¡ay!), y asignarlos al azar a uno de dos grupos: en el grupo Tratamiento, beberán mi tónico milagroso, mientras que en el grupo Control tomarán un placebo (un jarabe sin propiedades especiales más allá de su alegre sabor a fresa). Al cabo de un mes, examinaré la calvorota de todos los participantes, contando el número de cabellos nuevos que han crecido en este periodo. En resumen, obtendré dos cantidades: el número promedio de cabellos nuevos en el grupo Tratamiento, y el número promedio de cabellos en el grupo Control. Si mi tónico crecepelo funciona, la media del grupo Tratamiento será significativamente mayor que la del grupo Control. ¿Hasta aquí bien?

Imaginemos que hago mi estudio y el resultado es el siguiente: En el grupo Tratamiento, de media han crecido unos 4000 cabellos nuevos por cada participante, mientras que en el grupo Control apenas llegamos a un pírrico promedio de 2 cabellos nuevos. Esta diferencia es evidentemente significativa (si calculamos el p-valor, será inferior a 0.05).

Está claro que, si obtuviera un resultado como este, ya me estaría apareciendo el símbolo del dólar en las pupilas y me habría puesto a meditar sobre si prefiero comprarme un yate con 50 metros de eslora o una mansión de lujo, porque ciertamente el tónico está funcionando de maravilla. Pero antes de dejarnos llevar por la fantasía, pensemos en otra situación bastante diferente que podría haberme encontrado:

Imaginad que el resultado hubiera sido que, en promedio, los cabellos nuevos en el grupo Tratamiento fueran 4, frente a sólo 2 en el grupo Control. Esta diferencia es significativa (p < 0.05), de lo cual puedo concluir que efectivamente el tónico funciona. Por otro lado, la ventaja de utilizarlo es claramente insuficiente. Sí, estamos duplicando el número de cabellos con respecto al control, pero no creo que nadie en su sano juicio vaya a pagar un pastizal por esos dos cabellos extra en la calva. Habrá que cambiar de proyecto, que este no parece muy provechoso.

¿Qué enseñanza extraemos de esta historia? En primer lugar, que no basta con preguntarse si un tratamiento funciona o no, sino que también hay que plantearse cómo de bien funciona. Imaginad que el tónico tuviera efectos adversos, o fuera muy caro: merecería la pena tal vez si a cambio nos proporciona una mata de pelo como la de El Puma, pero claramente nadie lo utilizaría si la ventaja fuese casi inapreciable. O si queréis llevaros el ejemplo a la psicología: ¿deberían los pacientes acudir a un terapeuta que, en promedio, sólo mejora sus niveles de ansiedad el equivalente a un punto en un test como el STAI?

En términos estadísticos, el p-valor nos dice si el tratamiento funciona o no, es decir, si esa diferencia entre los dos grupos es lo bastante grande como para que sea muy improbable observarla por puro azar. Por otro lado, la diferencia entre las medias de los dos grupos (en este caso, 4000 – 2 = 3998 cabellos nuevos, o bien 4 -2 = 2 cabellos nuevos) es lo que vamos a llamar “tamaño del efecto”, una medida de cómo de bien funciona un tratamiento, es decir, una cuantificación aproximada de la diferencia entre las poblaciones. Sobre este último concepto vamos a profundizar hoy.

Visualizando el tamaño del efecto

Para entender mejor qué es el tamaño del efecto, al menos en un diseño de este tipo (dos grupos en los que queremos comprar las medias), vamos a jugar con unas simulaciones en R. Por si acaso, si alguien prefiere empezar desde el principio, la lógica de todo el análisis se explica en este post previo.

mean.G1 <- 55   #media en el grupo 1
mean.G2 <- 50   #media en el grupo 2
sd <- 10         #desviación típica (vamos a asumir que es idéntica en ambos grupos)

#Dibujamos las dos muestras:
plot(x=seq(1: 100), 
     dnorm(seq(1:100), mean.G1, sd), 
     type="l", xlab = "", ylab="", col="red", 
     main=paste("Diferencia: ", mean.G1-mean.G2, ", SD = ", sd))
lines(x=seq(1: 100), 
      dnorm(seq(1:100), mean.G2, sd), 
      type="l", col="blue")

Como siempre, podéis probar y cambiar el código en esta web sin necesidad de instalar R ni nada (https://rextester.com/l/r_online_compiler). Este trozo de código dibuja las distribuciones normales con los parámetros (media y desviación típica) de las dos poblaciones de interés: quienes toman el tónico crecepelo y quienes toman el jarabe placebo. En este caso, hemos supuesto que las dos poblaciones van a diferir de forma que en el grupo Tratamiento han crecido, de media, 55 pelos nuevos, mientras que en el grupo Control han crecido 50. Esta diferencia puede producir un resultado estadísticamente significativo siempre que la muestra empleada sea suficiente. Podéis comprobarlo, por ejemplo, para una N de 30 participantes por grupo:

t.test(rnorm(30, mean.G1, sd), rnorm(20, mean.G2, sd))

Tened en cuenta que este resultado no va a ser significativo siempre, debido a que estamos generando una muestra aleatoria cada vez que ejecutamos el código y por lo tanto estamos a merced del error de muestreo, como vimos en post anteriores (probad a ejecutar esta misma línea cuatro o cinco veces, y ved cómo cambia el p-valor). Como estaba diciendo, la manera de “asegurar el tiro” y garantizar que obtendremos un resultado significativo en la mayoría de las ocasiones es tener muestras grandes. En cualquier caso, está claro que hay una diferencia entre las dos poblaciones. En concreto, la diferencia es de 55-50=5 unidades (en este caso, 5 cabellos). Las pruebas estadísticas, con suficiente muestra, pueden detectar esta diferencia, como acabamos de comprobar. Ahora bien, ¿es una diferencia grande o pequeña? Lo sabremos al examinar la figura. Como podéis ver, hay un alto grado de solapamiento entre las dos poblaciones:

Repetid ahora la simulación, cambiando sólo los valores de partida. Vamos a imaginar que la diferencia entre las poblaciones es más grande, por ejemplo, 70-50=20 cabellos nuevos. Sería un crecepelo mucho mejor que el del caso anterior. O podéis probar lo contrario, una diferencia más pequeña, como 51-50=1 cabello de diferencia. La conclusión evidente es que la diferencia de medias afecta al grado de solapamiento entre las distribuciones. Cuanto más parecidas son las medias, más cercanas las distribuciones y mayor solapamiento entre ellas:

Dijimos el otro día que una de las maneras de luchar contra el error de muestreo es tener medidas precisas. Una medida precisa es aquella que, entre otras propiedades, va a producir valores similares si medimos el mismo objeto varias veces. La manera de introducir este factor en nuestra simulación es cambiar el parámetro de desviación típica (“sd”). Cuando la desviación típica es pequeña, la distribución “adelgaza”, y ocupa menos espacio, porque casi todos sus valores se aglutinan muy cerca de la media. Cuando la desviación típica es grande, por el contrario, los valores están más dispersos. Probad con valores grandes o pequeños para el parámetro “sd” de las simulaciones, y ved cómo esto también afecta al solapamiento de las distribuciones:

En esta última imagen, por ejemplo, tenemos exactamente la misma diferencia de medias (60-50=10 cabellos), pero la desviación típica de las distribuciones hace que varíe el grado de solapamiento.

¿Y qué importa el grado de solapamiento entre las poblaciones? Bueno, pues es una manera de “imaginar visualmente” el tamaño del efecto: las distribuciones muy solapadas están indicando un tamaño del efecto más pequeño. Intuitivamente, esto puede entenderse como que las dos poblaciones cuyas diferencias quiero investigar son, en esencia, muy similares.

Una medida estándar: la d de Cohen

Hasta ahora, cuando hablamos de diferencias de medias, las estamos expresando en términos brutos, en las unidades de medida (por ejemplo, número de cabellos nuevos). Esto puede a veces no ser lo más conveniente. ¿Y si quiero establecer algún tipo de comparación entre estudios que utilizan medidas diferentes? Por ejemplo, un estudio puede medir el éxito de una dieta en términos de peso perdido, y otro en términos de reducción de volumen de cintura. Lógicamente cada uno va a expresar la diferencia de medias en sus propias unidades, lo que me impide compararlas directamente. Regla básica en razonamiento estadístico: no se pueden comparar cosas que no son comparables. ¿Tiene sentido decir que 5 kilogramos es mayor que tres centímetros? ¿A que no?

Por suerte, en estadística tenemos nuestros “truquillos” para permitir estas comparaciones, y generalmente consisten en alguna forma de estandarización (la diferencia entre dos valores de tendencia central se divide por su dispersión). Así, cuando hablamos de tamaño del efecto, en vez de hablar de diferencias brutas en las unidades de medida (número de cabellos nuevos, número de kilos perdidos, centímetros de reducción de cintura…), habitualmente usamos una medida estandarizada. En este caso, la más famosa sería la d de Cohen, que se calcula así:

En realidad, hay que andarse con ojo porque hay varias fórmulas ligeramente distintas para hacer este cálculo, pero esta sería la más sencilla. Si la aplicamos a cualquiera de nuestros ejemplos anteriores, podemos calcular la diferencia en unidades estándar entre las dos poblaciones. Por ejemplo, en el primer caso, la diferencia de medias era 55-50=5 cabellos, y dado que la desviación típica era de 10, nos dejaba una d = 0.50.

Cuando enseño estadística en clase, suelo evitar entrar de lleno con las ecuaciones y las fórmulas, optando en su lugar por las visualizaciones. Sin embargo, una vez que hemos intuido el concepto visualmente, la fórmula nos puede ser de ayuda para asentarlo. Como podéis comprobar, la d de Cohen es sensible a las propiedades que habíamos mencionado en las simulaciones: en primer lugar, la distancia entre las distribuciones es la diferencia de medias, y está en el numerador de la fórmula, de modo que a mayor diferencia de medias, mayor d. En segundo lugar, la dispersión (que hemos expresado como la desviación típica) de la distribución está en el denominador de la fórmula, lo que indica que a mayor desviación típica, menor el valor del tamaño del efecto, d. En otras palabras, d está expresando el grado de solapamiento entre las distribuciones. Esto era fácil de extraer de la fórmula, pero es todavía más sencillo entender ese paso después de haber visto las simulaciones previas.

¿Es la d de Cohen el único estadístico para el tamaño del efecto? Evidentemente no, aquí estamos usando el ejemplo más sencillo que se me ocurre, pero no siempre nos va a interesar comparar dos medias de dos grupos. A veces el tamaño del efecto se va a expresar como el grado de asociación entre dos variables numéricas (r de Pearson), o de porcentaje de varianza que predice una variable predictora (R2)… De momento nos quedamos con la d de Cohen, sabiendo que es sólo un caso.

Ahora podéis volver a las simulaciones anteriores y comprobar cómo el tamaño del efecto, medido con la d de Cohen, es efectivamente una expresión del grado de solapamiento entre las distribuciones. A más solapamiento, menor la d de Cohen. Para calcularla en cada caso, usad este código que incluye una línea con el cómputo necesario:

mean.G1 <- 55   #media en el grupo 1
mean.G2 <- 50   #media en el grupo 2
sd <- 10         #desviación típica (vamos a asumir que es idéntica en ambos grupos)
d <- (mean.G1-mean.G2)/sd	#d de Cohen para la población con los parámetros indicados.

#Dibujamos las dos muestras:
plot(x=seq(1: 100), 
     dnorm(seq(1:100), mean.G1, sd), 
     type="l", xlab = "", ylab="", col="red", 
     main=paste("Diferencia: ", mean.G1-mean.G2, ", SD = ", sd, “, d: ”, d))
lines(x=seq(1: 100), 
      dnorm(seq(1:100), mean.G2, sd), 
      type="l", col="blue")

Para comprender mejor este tipo de conceptos, nada como simularlos de primera mano y ver cómo cambian dinámicamente. En este sentido, os puede ayudar esta app online que es una maravilla: https://rpsychologist.com/d3/cohend/

Un aspecto en el que conviene fijarse al jugar con estas visualizaciones: incluso cuando el efecto poblacional es real, y podría ser significativo en un estudio, siempre hay un grado relativamente grande de solapamiento entre las distribuciones. Si, por ejemplo, usáis la app online para examinar un efecto con tamaño d=0.10, veréis que las dos poblaciones van a ser casi idénticas.

Hasta ahora, estamos hablando del tamaño del efecto en la población, pero recordad que generalmente los parámetros de la población son desconocidos (salvo en este caso, porque los estamos simulando). En su lugar, lo que tenemos son estadísticos calculados a partir de la muestra que sirven para estimar estos parámetros, y que están como siempre sujetos al error de muestreo. Esto quiere decir que, si hacemos un estudio, podemos calcular el tamaño del efecto muestral con la d de Cohen usando la misma fórmula que tenéis arriba. En este caso sería el tamaño del efecto “observado”, que es el que generalmente nos cuentan en los artículos. Lo que ocurre es que, como pasa con todos los estadísticos obtenidos a partir de una muestra, si repetimos el estudio el resultado va a ser diferente. Lo mismo que las medias, las desviaciones típicas y los p-valores. Otro día volveremos sobre este punto.

Efectos grandes, efectos pequeños

¿Cuál es la ventaja de tener un estadístico estandarizado como la d de Cohen? En primer lugar, como decía antes, nos permite comparar entre estudios con medidas diferentes. Así, si un estudio mide el éxito de la dieta en términos de kilos perdidos y me da una d = 0.3, y otro estudio lo mide en términos de centímetros de cintura, y me da una d = 0.10,  ya puedo afirmar que, en principio, parece que el primer estudio indica un efecto más grande que el segundo, independientemente de las unidades de medida.

La otra ventaja de las medidas estandarizadas es que nos permiten elaborar guías o pautas para saber cuándo un efecto es “grande”. Bueno, aunque esto requiere mucha cautela y nunca debe tomarse al pie de la letra. Orientativamente, en psicología decimos que un efecto es “pequeño” si d = 0.20, “mediano” si d = 0.50, y “grande” si d = 0.80. En ocasiones vais a ver papers y artículos donde indican tamaños del efecto inmensos, como d = 3.20, ó d = 5.79. Por lo general, recomiendo cautela al interpretarlos, ya que un efecto tan gigantesco estará seguramente sobrestimado. Pensad que la diferencia de estatura entre hombres y mujeres, que es uno de los efectos más grandes que podemos observar, tiene una d de “sólo” 1.20. Cuesta pensar que un efecto psicológico, que generalmente son mucho más sutiles, pueda tener un tamaño dos o tres veces mayor.

Por aquí lo vamos a dejar de momento, aunque queda un paso esencial, que es el de unir los conceptos de tamaño del efecto y de potencia (que vimos en el anterior post), ya que en realidad están íntimamente ligados. Esto lo dejamos para el próximo día. Seguid con vuestros chapuzones veraniegos mientras tanto.

Posted in Estadística visual | Tagged | Leave a comment

Estadística visual (V): Ojalá me hubieran hablado antes de la potencia estadística.

Tras un descanso en el blog, aprovecho las vacaciones y retomo esta serie sobre estadística visual donde la dejamos, para progresar y entender un concepto sumamente importante en el diseño de estudios: la potencia estadística. Vamos a aprender por qué es importante reclutar muestras grandes para tus estudios, y qué ocurre cuando no cumplimos ese objetivo. Como siempre, echaré mano de simulaciones en R y de visualizaciones. ¡Al lío!

Recordemos que, al diseñar un estudio o experimento en psicología, generalmente obtenemos un estadístico que llamamos “p” o “pvalor”, y que toma valores entre 0 y 1. El p-valor nos va a decir la probabilidad de obtener unos datos como los que hemos conseguido (o más extremos) bajo la hipótesis nula. En otras palabras, es una cuantificación de “cómo de sorprendente” sería obtener nuestros datos por azar. Generalmente, usamos un umbral para interpretar el p-valor: si el p-valor es menor de 0.05, decimos que el resultado es significativo, pues los datos son muy “sorprendentes” (improbables bajo la hipótesis nula).

Ahora bien, hay ciertas intuiciones sobre los p-valores que están muy asentadas (como se ve en la imagen), pero que son incorrectas.

En el post anterior, comprobamos que el umbral del p-valor sirve para mantener a raya el error tipo I, o la tasa de “falso positivo”. ¿Cómo lo consigue? Vamos a simular en R unos cuantos experimentos al azar. En cada “experimento”, generamos dos muestras aleatorias de participantes, y las compararemos entre sí obteniendo un p-valor. Recordad que, si no tenéis R a mano, podéis copiapegar el código y jugar con él en esta web sin instalar nada: https://rextester.com/l/r_online_compiler

grupo1.n <- 10 #esto es el tamaño muestral de cada grupo
grupo2.n <- 10
grupo1.mean <- 50 #las medias de las poblaciones son idénticas (luego no hay diferencias)
grupo2.mean <- 50 
grupo1.sd <- 10 #desviación típica de cada población.
grupo2.sd <- 10
numMuestras <- 10000 

pvalue <-c()

for(i in 1:numMuestras){
  grupo1.sample <- rnorm(grupo1.n, grupo1.mean, grupo1.sd)
  grupo2.sample <- rnorm(grupo2.n, grupo2.mean, grupo2.sd)
  pvalue <- c(pvalue, t.test(grupo1.sample, grupo2.sample)$p.value)
}

hist(pvalue) #esta línea produce un gráfico con la distribución de los valores.

En esta simulación, el efecto real que estamos buscando es cero (porque las dos medias poblacionales son idénticas, tienen el mismo valor, 50), es decir, la hipótesis nula es cierta. Sin embargo, cuando examinamos el gráfico con la distribución de los p-valores de los 10000 experimentos, vemos que, a pesar de lo que indica la intuición de los tuiteros de la encuesta que os cité arriba), todos los valores posibles son equiprobables, lo mismo los grandes que los pequeños. Y también vemos que es perfectamente posible encontrar por puro azar resultados significativos (están marcados en amarillo/naranja):

Al contrario de lo que tal vez imaginabas, cualquier valor de p es igual de probable cuando el efecto real es cero (las poblaciones no difieren).

Esto nos ayuda a entender por qué el umbral de significación se ha fijado en 0.05. Daos cuenta de que, en esta figura, el 5% de los p-valores está por debajo de 0.05, dado que la distribución es uniforme: o sea, hay una probabilidad del 0.05, o 5%, de tener un p-valor igual o menor de 0.05, una probabilidad de 0.10, o 10%, de tener un p-valor igual o menor a 0.10, y así sucesivamente. El error tipo I, o “falso positivo”, implica que, aunque el efecto es realmente inexistente, por puro azar encontramos datos que parecen apoyarlo. Si queremos cometer este error no más de un 5% de las veces (es decir, con una probabilidad de 0.05), entonces tiene todo el sentido del mundo que pongamos justo ahí el umbral de significación: sólo afirmaremos que el resultado es significativo cuando p < 0,05, lo que solo ocurre por puro azar el 5% de las veces. Por otro lado, esto también implica que hay que ser cautelosos al interpretar los resultados de un estudio aislado, porque meramente por azar vamos a tener resultados significativos ¡como mínimo el 5% de las veces!

Hasta aquí habíamos llegado en el post anterior, aunque convenía repasar para tenerlo fresco antes de seguir. ¡Continuemos!

Cuando el efecto sí está ahí.

Ahora vamos a imaginar una situación distinta. Estamos probando un tratamiento para la depresión, y para ver si funciona realizamos un estudio conde comparamos la puntuación de depresión de un grupo tratado con la de un grupo control que no ha recibido ningún tratamiento. Aprovecho para señalar que este tipo de grupo de control es nefasto, porque los pacientes no tratados pueden experimentar un deterioro (producido en parte por el efecto nocebo), haciéndonos creer que el tratamiento sí funciona incluso cuando no sea así. Por eso siempre es mejor tener un control que reciba algún tipo de tratamiento (un placebo, o la terapia de referencia…). En cualquier caso, para el ejemplo nos da lo mismo, pues el diseño del estudio es sencillo: vamos a comparar dos grupos, y esperamos que la puntuación del grupo tratado sea menor que la del control. Es decir, estamos imaginando que sí hay un efecto, y queremos detectarlo.

Como en el caso anterior, simularemos 10000 estudios como el que he descrito, y obtendremos para cada uno un p-valor para poder examinar su distribución. El código es idéntico al de antes, solo que ahora fijaremos medias diferentes para las poblaciones que van a generar todos estos estudios. A modo de ejemplo, he usado los valores de media poblacional 50 y 53, lo que produce un tamaño del efecto poblacional de 3 puntos (53-50=3). Cambiad la siguiente línea en el código, y ejecutadlo igual que antes:

grupo1.mean <- 53 #las medias de los dos grupos son diferentes.
grupo2.mean <- 50

Si todo ha ido bien, la forma de la distribución habrá cambiado totalmente: ahora ya no es uniforme, sino exponencial. Los valores pequeños son más probables que los grandes, lo que crea esa asimetría que podéis observar.

Ahora la cosa cambia: los p-valores pequeños aparecen con más probabilidad que los grandes.

La sección del gráfico que está en color amarillo/naranja corresponde a los p-valores significativos (por debajo de 0.05), igual que antes. Pero dado que ahora sabemos que sí que existe un efecto (es decir, las diferencias que encuentran estos 10000 experimentos no se deben únicamente al azar), hay que interpretarlos de otra manera. Ahora la parte resaltada de la distribución no representa resultados que han salido significativos por azar, sino estudios que han tenido éxito al capturar un efecto que sí existe: sabemos que hay diferencias entre las dos poblaciones, y esos son los estudios que han producido una p < 0.05 (significativo).

A esta porción resaltada la vamos a llamar “potencia estadística”: representa la probabilidad de que mi estudio vaya a capturar (obtener p < 0.05) un efecto que sí existe. En este caso, estábamos buscando un efecto relativamente pequeño (recordad, las medias poblacionales eran 50 y 53, una diferencia pequeña de sólo 3 puntos), así que no es de extrañar que la potencia obtenida haya sido un poco decepcionante: fijaos en que sólo un 10% de los resultados han sido significativos (os lo indico en la figura, arriba, donde dice “positive-rate” o “tasa de positivos”: 0.096, aproximadamente 10%). Es decir, que si realizo docenas, o cientos de experimentos como éste, incluso habiendo una diferencia real entre el tratamiento y el control… ¡sólo la voy a encontrar con éxito el 10% de las veces! Un despropósito.

Por suerte, podemos hacer algo para mejorar la potencia. En principio lo ideal sería usar mediciones más precisas, más exactas, lo que va a reducir el dichoso error de muestreo y a reducir las discrepancias entre estudios. Pero si no fuera posible (en psicología es generalmente una pesadilla desarrollar medidas precisas), recordad que hay otra forma de reducir este error de muestreo, que ya vimos en otros posts: aumentar la muestra.

Un consejo: no os creáis nada si no lo ven vuestros propios ojos. ¡Así que simuladlo! Coged el código del ejemplo anterior, y cambiad el tamaño muestral de los estudios, que yo había fijado en 10 por grupo. Subidlo a, por ejemplo, 50, y observad la distribución:

grupo1.n <- 50 #esto es el tamaño muestral de cada grupo
grupo2.n <- 50

¿A que va cambiando la cosa? Efectivamente, al aumentar el tamaño muestral, estamos conteniendo un poco el error de muestreo, y con ello aumentando nuestra potencia. Esto causa que una proporción mayor de estudios sean significativos (p < 0.05). Aquí os pongo algunos ejemplos para que lo visualicéis mejor:

Tres simulaciones con el mismo efecto, pero distinta potencia (tamaño muestral).

En estos tres ejemplos, lo único que está variando es la N, o tamaño muestral: en la fila de arriba, los grupos tienen 10 participantes, en la fila de en medio, 100, y en la de abajo, 200 participantes. Lo interesante es fijarse en cómo va aumentando la tasa de positivos, o potencia, al aumentar la muestra: hemos subido de un mísero y decepcionante 0.096 (aproximadamente 10% de los resultados son p < 0.05), a un más prometedor 0.85 (el 85% de los resultados son p < 0.05). En la fila de en medio, con una N de 100 participantes por grupo, la mitad de los estudios que hemos simulado producen el resultado esperado, y la otra mitad fallan. Es como lanzar una moneda al aire. Si repites el estudio, idéntico en todos los sentidos, podrías obtener un resultado diferente. Desde luego, esto no es lo que uno tenía en mente cuando decía que estaba haciendo ciencia.

Hay que tener en cuenta un detalle que no he mencionado: la potencia o “tasa de éxito” de los estudios también va a depender del tamaño del efecto real (es decir, de la magnitud de la diferencia entre las dos medias poblacionales, en este caso). Con una muestra de 100 participantes puede que tenga baja potencia para detectar una diferencia de 3 puntos (pequeña), pero podría ser una potencia aceptable para detectar efectos más grandes, de 20 puntos por ejemplo. Como siempre, probad a cambiar los números en la simulación (en este caso, dejando fija la N y cambiando las diferencias entre las medias) para aseguraros de que entendéis lo que está pasando.

La utilidad del concepto de potencia

¿Y para qué queremos saber esto? Bien, creo que una de las cosas que más me ha perjudicado en mi formación estadística es precisamente que no me hablasen de esto mucho antes, desde el principio. Sí, antes de meternos a prender ANOVAs y análisis complicados. Mirar y entender estas distribuciones que os he enseñado arriba es un antídoto contra el autoengaño: es relativamente fácil obtener un p-valor significativo por azar (como vimos en las primeras simulaciones), y es todavía más fácil hacer un estudio y que NO salga significativo por falta de potencia (mirad, si no, la segunda fila del gráfico anterior: el 50% de los estudios van a fallar). Por otro lado, ahora que sabemos cómo se comportan los p-valores en uno y otro caso, podemos planificar con la potencia en mente. Básicamente, la enseñanza que hay que extraer de todo esto es que, si no queremos estrellarnos una y otra vez con un resultado no significativo, necesitamos muestras grandes. Mucho más grandes de lo que solía ser habitual hace unos años en psicología.

Y ya que estamos con el tema, ¿cuál es la potencia habitual en psicología? ¿Estamos como en la primera fila del gráfico, o como en la de abajo? Pues bien, se han hecho unas cuantas estimaciones examinando los estudios publicados (ojo, esto supone un sesgo: no sabemos cuál podría ser la potencia de los estudios que no se han publicado), con resultados un tanto mezclados. Es cierto que hay grandes diferencias en función del área: en estudios sobre personalidad trabajan con muestras grandes, mientras que en ámbitos neuropsicológicos (debido a que estudian muestras de pacientes difíciles de conseguir, o bien usan técnicas de medición muy caras) ocurre lo contrario, y las muestras tienden a ser demasiado pequeñas. Para que os hagáis una idea, una estimación de la potencia en ámbitos de psicología clínica (Rossi, 1990) nos dice que, para detectar un efecto de tamaño pequeño o medio, los estudios publicados tienen una potencia de 0.17 y 0.57, respectivamente. O sea, que cuando las diferencias reales son pequeñas, hay campos de la psicología donde los estudios se diseñan de tal forma que entre un 17% y un 57% logran capturar el resultado, lo cual es desastroso. No podéis verme, pero mientras escribo estas líneas estoy haciendo facepalm muy fuerte.

Y otra enseñanza que habremos adquirido al entender el concepto de potencia es que hay que desconfiar cuando los resultados de un artículo son, digamos, demasiado bonitos

Imaginad un artículo donde intentan demostrar el efecto negativo de los videojuegos sobre la concentración. Es uno de esos artículos donde se describen múltiples experimentos, pongamos por ejemplo, siete. Cada uno de ellos utiliza una manipulación ligeramente diferente, o tiene una medición o tipo de muestra algo distinta, y con ello pretenden ofrecer evidencia robusta de que el fenómeno existe en un rango de posibles situaciones. Hasta aquí bien. ¿Cuál es el problema? Que los siete experimentos aportan un resultado significativo. No cuatro, ni seis, no: los siete.

¿Y qué?, me diréis. Al fin y al cabo esto debería interpretarse como que el resultado es robusto y replicable: ¡se ha replicado nada menos que siete veces! ¿Por qué debería levantar mi ceja y sospechar? Pues porque es un resultado demasiado bonito para ser verdad. La clave está en que la potencia de cada estudio individual no es perfecta (no llega al 100%). Es decir, como hemos visto, siempre hay cierta probabilidad de que, incluso aunque el efecto esté ahí, el estudio no sea capaz de detectarlo y no produzca un resultado significativo. Ahora pensad en cómo esto afecta a la probabilidad de obtener una secuencia de experimentos con resultados perfectos.

Para hacerlo más fácil, pensadlo de la siguiente manera. Imaginemos que los siete estudios están realizados con una potencia media: 0.50. Es decir, asumiendo que el efecto es real y lo podemos ver, el 50% de los experimentos van a producir una p < 0.05. Es como lanzar una moneda al aire. Pero es que el artículo no está contando un experimento aislado, ¡sino una serie de siete! O sea: has lanzado la moneda siete veces, y las siete te ha salido cara, que es justo lo que predecías. ¿Sospechoso?

¡Podemos calcular exactamente cómo de sospechoso es el resultado! Si recordáis las clases de matemáticas del bachillerato, la probabilidad de obtener una secuencia de sucesos en experimentos independientes se calcula como la probabilidad conjunta de todos ellos. En este caso, sería así:

0.50 x 0.50 x 0.50 x 0.50 x 0.50 x 0.50 x 0.50 = 0.0078.

Traduciendo a porcentaje: si intento replicar la cadena de siete experimentos en idénticas circunstancias, sólo lo conseguiré el 0.78% de las veces. Menos del 1%. Es muy improbable. Tan improbable como obtener con una moneda siete caras seguidas de siete lanzamientos.

La cosa se pone todavía peor si recordamos que, en realidad, la potencia media en los estudios de psicología puede ser bastante menor de 50%. Imaginemos que es por ejemplo del 30%. La probabilidad de obtener siete resultados significativos sería de 0.00022, o sea, del 0.02%.

¿Cómo interpretar entonces esos artículos preciosos, fantásticos, que nos dan tanta envidia, en los que todo sale significativo y están repletos de asteriscos? En dos palabras: publicación selectiva. Quizá los autores realizaron no siete, sino veinte o treinta experimentos como los que describen, pero luego seleccionaron aquellos que salieron significativos para contarlos en el artículo, callándose el resto. De hecho, esto parece ser que ocurre de manera muy habitual en ciertos ámbitos y sobre todo en algunas revistas, como la prestigiosa Science (Francis et al., 2014). Cuando uno lee la literatura científica, urge mantener una mentalidad escéptica.

Con esta reflexión lo dejamos por hoy. Otro día seguimos, ¡prometido! Buen verano.

Referencias

Si quieres, también puedes aprender algo sobre la lógica del contraste de hipótesis y el error de muestreo en los posts anteriores de esta serie.

Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (IV): Controlando los errores

En un post anterior os conté brevemente cómo funciona la lógica del contraste de hipótesis en estadística, intentando hacer hincapié en visualizar los conceptos. Supongo que todos acabamos entendiendo que, al final, esta forma de usar estadística se basa en tomar una decisión (“¿rechazo la hipótesis nula o no?”) mediante la interpretación del p-valor. Por supuesto, esta aproximación no está exenta de problemas y limitaciones (de hecho, hay críticas para dar y tomar), pero lo crucial es que este p-valor nos permite hacer algo muy importante: mantener a raya nuestros errores para que no aparezcan demasiado a menudo. Vamos a ver cómo lo hace, y de paso también comprenderemos por qué ese umbral arbitrario de significación que tantos dolores de cabeza nos ha provocado a los investigadores (me refiero al infame p < 0.05) 😦

Lo primero que vamos a hacer es colocarnos en el escenario de la hipótesis nula, como hicimos en el primer post de esta serie. Es decir, vamos a asumir que no hay diferencias entre dos grupos de personas, o lo que es lo mismo: que todas las diferencias que encontremos se deberán al error de muestreo.

Esta situación aparece claramente cuando planteamos un estudio basado en una hipótesis totalmente absurda, así que vamos a inventarnos una. La tipografía Comic Sans despierta un odio cruel y visceral entre muchos diseñadores gráficos, informáticos, y en general entre toda la gente de bien. Uno de los motivos es que esta tipografía genera en el lector una sensación de infantilidad (más que de diversión) que acaba siendo desagradable. “¿Qué pasa? ¿Me han tomado por un crío de 13 años?” Bueno, imaginemos que alguien plantea un estudio con un objetivo totalmente absurdo, y propone que basta ver unos minutos de dibujos animados infantiles para que, inadvertidamente, tu antipatía hacia la Comic Sans se reduzca notablemente. ¿Tiene sentido? Ninguno (1). Aun así imaginad el experimento: a la mitad de mis participantes, el grupo experimental, les hago ver un par de capítulos de Dora la Exploradora, mientras en el grupo control están viendo el telediario. Después, todos los participantes deben evaluar cuánto les gusta el mismo texto escrito en Comic Sans. Nuestra descabellada hipótesis predice que en el grupo experimental se rebajarán las evaluaciones negativas con respecto al control.

 ¿Es lo bastante absurdo? Sigamos. Ahora imaginemos que llevamos a cabo este estudio, y como decíamos el otro día calculamos el estadístico t para comparar las medias, obteniendo un p-valor. Este p-valor servirá para tomar una decisión: si es significativo (menor de 0.05), diremos que el tratamiento de Dora la Exploradora ha funcionado para rebajar el odio a la Comic Sans. Hemos planteado una situación absurda, una hipótesis que seguramente es falsa. Por lo tanto, probablemente la hipótesis nula es “verdadera” en este caso. ¿Qué p-valor creéis que obtendremos con mayor probabilidad? ¿Uno muy grande, no significativo, como por ejemplo p = 0.823? ¿O uno muy pequeño, significativo, como p = 0.002? Venga, os doy un minuto para contestar y luego seguís leyendo.

¿Ya lo habéis pensado?

Bien, si habéis respondido que bajo la hipótesis nula (recordemos, no hay diferencias reales en la población) el p-valor sería grande, no significativo, ¡enhorabuena! Habéis participado usando la intuición. Tendría su lógica, ¿no? Efecto nulo, p-valor no significativo; efecto grande, p-valor significativo… Pero lamentablemente esto es incorrecto.

Vaya palo. Vale, ya lo iréis comprobando: la estadística está llena de situaciones que van contra toda intuición, como nos pasaba el otro día con los intervalos de confianza. Así que en vez de dejarnos llevar por las intuiciones, vamos a hacer algo incluso más divertido. ¡Vamos a hacer simulaciones! Para ello, utilizaré el software R, como siempre.

En la siguiente imagen, he simulado nada menos que 10.000 muestras aleatorias de una población en la que no hay diferencias entre grupos (por lo tanto, en este caso la hipótesis nula está en lo cierto). Es un escenario como el de nuestro ejemplo con el estudio de la Comic Sans.

Distribución de p-valores bajo la hipótesis nula.

Para cada una de esas muestras he calculado su estadístico t y su p-valor correspondiente. A continuación, he representado la frecuencia de cada valor para p. Cuanto más alta es la barra, más frecuente es ese valor de p en las simulaciones. Los p-valores significativos (es decir, menores de 0.05) están resaltados en naranja. Recordemos que estamos bajo la hipótesis nula, así que ahora podremos saber si es más habitual encontrar un p-valor pequeño que uno grande, sólo mirando la altura de las barras.

¿Qué es lo que descubrimos? Que si examinamos las 10.000 muestras, no son particularmente más habituales los p-valores grandes que los pequeños. La distribución es uniforme (quiere decir que todos los valores entre 0 y 1 son igual de probables).

Pues vaya chasco, diréis: el p-valor no es nada informativo cuando la hipótesis nula es cierta. Y es verdad. Pero sí podemos usar el p-valor como herramienta de control de error.

Hay varios errores que podemos cometer en la estadística inferencial. Entre ellos tenemos el error tipo I, también llamado “falso positivo”, que consiste en afirmar que algo existe cuando no es así. Si yo proclamo que he visto un unicornio rosa entrar en mi habitación, en seguida me diréis que habrán sido mis imaginaciones o que debería irme a la cama de una vez. En nuestro ejemplo de hoy, equivaldría a decir que el tratamiento de Dora la Exploradora ha funcionado, aunque realmente no sea así. Este tipo de error es particularmente dañino en ciencia. ¡Imaginad que concluyo que un medicamento está funcionando para tratar una enfermedad grave, pero en realidad esto no es cierto! Por eso hemos decidido mantener a raya este tipo de error, el falso positivo, de forma que no ocurra muy frecuentemente. Concretamente, nos gustaría que este error sólo tuviera lugar en el 5% de las ocasiones.

Volved a mirar la figura anterior. Hemos dicho que, bajo la hipótesis nula, todos los p-valores (entre 0 y 1) son igual de probables. Los valores que están por debajo de 0.05 (los marcados en naranja) representan, por tanto, el 5% del total de p-valores posibles en esta situación (0.05 es el 5% de 1). Esto significa que, si sólo nos permitimos afirmar que un efecto existe (o sea, rechazar la hipótesis nula) cuando p < 0.05, ¡estamos efectivamente reduciendo la tasa de error tipo I al 5%! Así es como el p-valor controla los falsos positivos.

De hecho lo podemos comprobar en la propia simulación: en la parte superior os he incluido la proporción de estudios simulados que son significativos, y en este caso se acerca mucho a 0.05, justo como estaba previsto.

Y es que esta idea funciona casi siempre, en teoría. En la práctica, como quizá veamos algún día en otro post, se dan ciertas situaciones que hacen que inflemos enormemente la tasa de error tipo I hasta límites insospechados, muy por encima del 5% (ved la siguiente figura, adaptada de un trabajo de Simmons et al., 2011, y pasad miedo).

Adaptado de Simmons et al. (2011).

Por otro lado, la misma simulación que hemos hecho para ver cómo se distribuyen los p-valores nos puede servir para aprender otras cosas. Esto os lo cuento en el próximo post. Hasta entonces, ¡creo que hay material para pensar de sobra!

(1) Nota: ¿quién sabe? En estos locos días, a lo mejor hay alguien que ha investigado exactamente esto, con la misma premisa. ¯\_(ツ)_/¯

Referencias

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science, 22(11), 1359-1366.

Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (III): El traicionero baile de los intervalos de confianza

En un post anterior estuvimos definiendo qué es un intervalo de confianza, y adelantamos que va a ser una herramienta útil en el contexto del análisis de datos. Vamos a profundizar un poco en este tema, aprovechándonos de una genial visualización interactiva realizada por Kristoffer Magnusson, que tenéis en este enlace:

Visita la web y juega un poco con las simulaciones.https://rpsychologist.com/d3/CI/

Esta visualización está basada en la misma idea que la simulación del otro día: Es un proceso de muestreo aleatorio, aunque esta vez lo han implementado en una web interactiva, de modo que podemos juguetear con los valores y ver cómo cambian los intervalos.

En esencia, aquí tenemos una media poblacional que se representa con esa línea naranja vertical. Podéis imaginar que es cualquier cosa, por ejemplo, el porcentaje real de estudiantes que detesta la estadística, o el número promedio de horas que la gente pasa viendo series cada semana. En cualquier caso, este es el parámetro de la población que, en nuestra práctica científica, desconocemos, y que nos gustaría estimar con nuestro estudio.

Desde que la cargamos, la web va a ponerse a simular en tiempo real cientos de muestras a partir de esa población. Las vemos moviéndose hipnóticamente por la pantalla. Para cada muestra, la web nos calcula su media muestral (el punto azul) e intervalo de confianza. Podemos ver fácilmente cómo las medias obtenidas en cada muestra son un poco diferentes, y casi nunca coinciden perfectamente con la media poblacional. Gracias al post anterior, sabemos que esto se debe al error de muestreo, que introduce este ruido aleatorio en la medida.

En cuanto a los intervalos de confianza, estos van a contener dentro de sus límites el valor real de la población casi todo el tiempo (de hecho, el 95% de las veces, si no tocamos nada en la simulación). Cuando el intervalo no contiene a la media, aparece resaltado en color rojo. Además, el panel izquierdo de la simulación nos lleva la cuenta del número de intervalos que capturan la media real, para que comprobéis que a la larga va a coincidir con el nivel de confianza (en el ejemplo de la imagen de abajo, el porcentaje real de intervalos que incluyen la media real es de 94.7%, muy cerca del objetivo de confianza deseado, 95%):

¡94.7%! ¡Casi, casi lo ha clavado!

Ahora que hemos repasado los elementos de esta visualización, podemos empezar a jugar un poco con los parámetros de la simulación para ver cómo afecta esto a las estimaciones. Así que ve a la web, trastea un poco, y cuando te hayas cansado vuelve aquí para seguir leyendo.

¿Ya estás de vuelta? Seguimos.

Por defecto, en esta simulación los intervalos de confianza están fijados al nivel del 95%, que es lo habitual en ciencias como la psicología, pero podemos cambiarlo a otros niveles, como el 99% o el 90%, que se usan en otras situaciones. Si fijamos un valor de confianza elevado, el intervalo se volverá más amplio. Si por el contrario fijamos un valor más pequeño, como por ejemplo un 10%, o un 20%, el intervalo se acortará. ¿Por qué?

El nivel de confianza representa el porcentaje de estos intervalos que, a largo plazo, acabarán conteniendo el valor del parámetro. Es decir, si los intervalos de confianza están calculados al nivel del 95%, el 95% de ellos contendrán el valor real de la media poblacional. Si nos volvemos más liberales y fijamos una confianza del 90%, los intervalos serán más pequeños y sólo el 90% de ellos contendrán el valor de la media poblacional. De hecho podéis comprobar que esto es así mirando el panel izquierdo en la simulación (ese 94.7% de la imagen de arriba se aproxima mucho al nivel de confianza, al menos cuando hemos generado un número muy grande de muestras). Aquí se puede entender el sentido de la palabra “confianza” en este contexto frecuentista: si repito el proceso de muestreo aleatorio un número infinito de veces, puedo estar seguro de que el 95% (o el 90%, o el nivel que escoja) de esas muestras va a tener un intervalo de confianza que contiene a la media poblacional. Sí, lo sé, el lenguaje se vuelve raro en cuanto lo toca un matemático.

Otro parámetro que podemos alterar en esta simulación para ver qué ocurre es el del tamaño muestral. En el post anterior vimos cómo el número de datos de cada muestra (la n) afectaba a la calidad de la estimación. No es lo mismo tomar una decisión a partir de un estudio con muchos participantes que tomar de referencia un estudio sobre una muestra pequeña, ¿verdad? Y de nuevo el responsable de esto es el error de muestreo: su impacto, aunque aleatorio, será más relevante sobre las muestras pequeñas. Bien, probad ahora a hacer que las muestras sean más grandes, por ejemplo, de 100 participantes:

En cuanto aumentamos el tamaño muestral, los intervalos cambian de amplitud.

Como veis, a partir de ese momento (cuando he cambiado de n=5 a n=100), las medias muestrales han dejado de alejarse tanto de la media poblacional, y se han vuelto “menos bailonas”. También los intervalos de confianza se han vuelto más estrechos, lo cual se puede interpretar como un aumento de precisión en la medida. Aun así, a largo plazo, seguiremos teniendo la misma proporción de intervalos que no incluyen la media real (dependiendo del nivel de confianza que hayamos impuesto: si trabajamos al 95%, el 5% de los intervalos aparecerán en rojo porque no han capturado la media poblacional).

Cuidado, ¡los intervalos tienen trampa!

En ocasiones podéis leer interpretaciones del intervalo de confianza como un rango de valores “plausibles” para el parámetro poblacional. Por ejemplo, imaginad que hago un estudio para estimar la cantidad de horas semanales que pasa la gente en Netflix u otras plataformas, y obtengo una media muestral de 45 horas, con un intervalo entre 25 y 65 horas (un rango bastante amplio). Ya de entrada, podríamos descartar como “plausibles” algunos valores del intervalo: ¡probablemente nadie pase 65 horas delante de la televisión! Pero avancemos. Con estos datos, alguien podría afirmar que “hay una probabilidad del 95% de que el valor real de la media esté dentro de mi intervalo de confianza, es decir, entre 25 y 65”. ¿Os parece una buena conclusión?

De hecho, se trata de una interpretación bastante intuitiva del concepto, además de extendida (según Hoekstra et al., 2014, más del 50% de los estudiantes e investigadores la juzgan como válida). Pero en realidad la interpretación no es correcta, puesto que nos aleja de la estricta lógica frecuentista que subyace a la propia definición del intervalo. No perdamos de vista que el intervalo (como todo lo que calcule a partir de mi muestra) es siempre una estimación, y va a cambiar necesariamente si repito el estudio con una muestra nueva (debido, una vez más, al error de muestreo y otros factores).

Si en este ejemplo repito mi estudio, podría encontrarme con otro intervalo diferente, por ejemplo, 5-45, ó 58-98. No hay más que mirar de nuevo las simulaciones de la web para percatarse de cómo a partir de una misma población podemos extraer intervalos muy diferentes entre sí. Si queremos ser rigurosos, deberíamos abstenernos de hacer estas interpretaciones sobre un intervalo aislado, y nunca perder de vista el conjunto que nos ofrece la simulación que estamos viendo: cada muestra va a ser diferente, con una media diferente y un intervalo distinto, y sólo en el largo plazo estaremos seguros de que el 95% de los intervalos contiene el valor real.

Conclusiones

En primer lugar, la mejor manera de entender ciertos conceptos estadísticos es simularlos y visualizarlos. Recuerdo la de veces que, en clase, me hablaron de intervalos de confianza, ¡la de veces que los calculé! Y sólo cuando fui capaz de simularlos y observarlos en movimiento entendí realmente su utilidad… y por qué los interpretamos mal.

En segundo lugar, el error de muestreo (inevitable) nos va a generar incertidumbre en las estimaciones. No vale la pena resistirse, hay que aprender a asumirlo. Es normal, para eso está la estadística. Por otro lado, esto nos debería ayudar a entender que tenemos que ser críticos con los resultados de experimentos o estudios aislados. En vez de dar el dato por bueno, haría bien en echar un vistazo a la incertidumbre que lo acompaña (el intervalo de confianza, la n, y ya veremos más adelante el p-valor). Y en cualquier caso, interpretar un estudio aislado va a ser siempre complicado, pues el intervalo que hemos calculado no nos dice nada por sí solo (lo único que sabemos es que si calculamos otros 99, hasta tener 100, 95 de ellos van a contener la media real, y ni siquiera sabemos si el intervalo que tenemos delante es de ese díscolo 5% que no la contiene). Así que mejor repite ese estudio, a ser posible con una muestra grande, antes de sacar conclusiones definitivas.

Y por último, evitemos los malentendidos: los intervalos de confianza no son un concepto sencillo, a pesar de lo que parece, porque ofrecen interpretaciones intuitivas y fáciles que son, realmente, incorrectas. En este artículo (Hoekstra et al., 2014) detallan algunas de las interpretaciones erróneas más comunes, y podemos ver que hasta los que nos dedicamos a la investigación caemos en la trampa, así que está bien tenerlo en cuenta: no te confíes con los intervalos de confianza, que son traicioneros.

Referencias

Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E. J. (2014). Robust misinterpretation of confidence intervals. Psychonomic Bulletin & Review, 21(5), 1157-1164.

Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (II): El error de muestreo y una cuestión de confianza. Enter simulations.

Continúo con mi repaso sobre estadística básica para centrarme en un aspecto que hemos tocado muy de refilón. Imaginad que leemos en las noticias que se ha publicado un estudio con una conclusión que nos llama la atención, por ejemplo: “El 90% de los estudiantes de psicología prefieren la tortilla de patata sin cebolla”.

Leemos el titular, levantamos la ceja, y caemos en la cuenta de que el estudio se realizó con una muestra muy pequeña. Intuitivamente pensamos que el tamaño de la muestra es una amenaza a la capacidad de generalizar a toda la población los resultados obtenidos en la muestra. ¿Qué habría pasado si repetimos el estudio, otra vez con una muestra muy pequeña, pero al día siguiente? Es probable que el resultado cambie radicalmente (hay esperanza para los concebollistas).

El concepto que queremos ilustrar aquí se llama error de muestreo. La población real (a la que queremos generalizar nuestros resultados) tiene una distribución guiada por unos parámetros (como la media, μ, y la desviación típica, σ, en el caso de una distribución normal). Pero estos parámetros son generalmente desconocidos. ¡Nadie sabe cuál es la media “real” en la población! Para ello, tendría que encuestar a todas y cada una de las personas que forman parte de la población de interés, sin dejarnos ni una. En vez de eso, lo que hacemos es extraer una muestra de esa población, generalmente mediante un proceso aleatorio. La muestra tiene un tamaño mucho más pequeño y manejable, y nos permite calcular estadísticos como la media muestral, x, y la desviación típica muestral s. Estos estadísticos sí son conocidos porque se calculan a partir de la muestra. La gracia del asunto es que los estadísticos muestrales son una aproximación al parámetro de la población. Si en mi muestra la media es de 80, no sé cuál será la media poblacional porque nunca puedo estar seguro, pero mi estimación informada sería de “alrededor de 80”.

Eso sí, mi generalización tendrá que tener cierto margen de error, ya que cada muestra que extraiga de la población va a ser un poco diferente, debido a ese error de muestreo que habíamos explicado. En la siguiente figura, tenemos la representación de una distribución poblacional (arriba), y algunas muestras pequeñas (cada una con n=5) extraídas de la misma. Podemos ver cómo esas distribuciones no coinciden exactamente con la población: tendrán distintas medias, desviaciones típicas, y forma.

Como decía en el post anterior, podemos pensar en el proceso de muestreo como si consistiera en extraer bolas de un bombo de lotería. La población contiene una proporción determinada de bolas con un número par (por ejemplo, el 50%), que sería el parámetro poblacional. En cada muestra (extracción de un número pequeño de bolas) tendremos una proporción de bolas pares e impares ligeramente diferente (estadístico muestral), aunque si extrajésemos miles de muestras por este procedimiento, al final acabaríamos acercándonos mucho a ese 50%, ¿verdad?

¿Cuánto podría variar el valor del estadístico en cada muestreo? Buena pregunta, y depende de una serie de factores. Para comprobarlo, nada como echar mano de una herramienta fundamental para entender la estadística: vamos a simular el proceso de muestreo en R (por cierto: todo lo que programo es feo e incómodo, lo sé). La ventaja de ilustrar el concepto con simulaciones es que en estas, al contrario que en la vida real, sí podemos partir de un parámetro poblacional conocido.

En este ejemplo, he creado una “población imaginaria” con media 50 y desviación típica 10. Estos valores son arbitrarios y los he decidido yo, que es la gran ventaja de trabajar con simulaciones. Ahora vamos a extraer 20 muestras de esa población, cada una con un tamaño de 5 elementos:

trueMean <- 50      #Media poblacional
trueSD <- 10         #Desviación típica poblacional
numMuestras <- 20   #Número de muestras que queremos extraer
N <- 5              #Tamaño de cada muestra
meanSeq <- c()      #Vector que contendrá las medias obtenidas.

for (i in 1:numMuestras){
    currentData<-rnorm(N, trueMean, trueSD)        #Extrae N datos de la población
    meanSeq<-c(meanSeq, mean(currentData))   #Almacena la media de cada muestra
}

Ya sólo nos quedaría comprobar las medias que hemos obtenido en las 20 muestras, para ver cuánto se apartan del valor del parámetro conocido (la media poblacional era 50).

meanSeq
[1] 47.22 45.68 46.99 56.47 55.27 52.28 49.06 47.11 57.18 54.78 48.22 53.70 42.86 51.21 47.41 42.39 44.64 51.54 49.60 41.59

Aquí podemos ver que las medias se aproximan a 50, pero con variaciones aleatorias entre ellas: unas se pasan por mucho, otras se quedan cortas… Es el efecto del error de muestreo. Pero esto sólo lo sabemos porque es una simulación y nosotros hemos fijado los valores de los parámetros de antemano.

Entonces, si el parámetro poblacional es desconocido, y cada extracción muestral va a tener un resultado diferente por el error de muestreo, ¿estamos condenados a no poder hacer inferencias sobre la población? Claro que no, podemos hacerlas, pero siempre con un grado de incertidumbre.

Una cuestión de (Intervalos de) confianza

¡Y para trabajar con la incertidumbre es para lo que fue inventada la estadística! Vamos a repasar una herramienta básica, pero no siempre bien entendida, que nos ayuda a entender cómo de robusta es nuestra estimación a pesar del error de muestreo: los intervalos de confianza.

Un intervalo de confianza es un rango definido entre dos valores (límite inferior y límite superior), construido de forma que haya una cierta probabilidad de que contenga un valor desconocido (esa probabilidad es la confianza, generalmente fijada al 95%). En el centro del intervalo tenemos el valor de nuestro estadístico, la media muestral, que es nuestra mejor estimación para el parámetro poblacional desconocido. Los límites del intervalo se van a decidir en función de cómo de variable es la medición en la muestra (es decir, tendrán en cuenta su desviación típica, s, y su tamaño muestral, n). La idea es que, si repetimos un muestreo o un estudio muchas veces, el 95% de ellos van a contener el parámetro poblacional.

Esto significa también que el intervalo de confianza es un indicador de la precisión de nuestra muestra: si el intervalo es muy grande, significa que la medición no ha sido precisa (no nos informa mucho acerca del parámetro poblacional, ya que hay mucha variabilidad en la muestra); si el intervalo es pequeño, entonces nuestra estimación ha sido precisa.

Avancemos. ¿Qué factores pueden hacer que mis estimaciones sean más o menos precisas? Para simplificar, vamos a reducirlos a dos: el tamaño de la muestra y la dispersión.

En la siguiente figura, tenemos un ejemplo de todo lo que estoy contando. A partir de una población con media μ=50, hemos extraído 20 muestras. De arriba a abajo, los paneles difieren en el tamaño de esas muestras: pequeño (n=5), mediano (n=10), y grande (n=200). Los puntos representan la media obtenida en cada una de las muestras, con sus respectivos intervalos de confianza.

Fijaos en cómo cada muestra tiene una media ligeramente distinta, aunque en global todas oscilan en torno a la media poblacional. Las desviaciones con respecto a la media poblacional son más grandes cuanto más pequeño es el tamaño muestral. Por ejemplo, arriba podemos ver algunos valores para la media que están por encima de 60 o por debajo de 30, mientras que en el panel inferior se mueven entre los 42 y los 58 puntos, más cerca del valor real. Además de esto, mirad los intervalos de confianza: la mayoría de los intervalos contienen el valor real de la población (a la larga, serían el 95%). Ahora bien, los intervalos del panel inferior son los más pequeños, indicando mayor precisión en nuestras estimaciones. Así que ya sabéis: si queremos de verdad averiguar si a los estudiantes les gusta la tortilla con o sin cebolla, ¡necesitamos encuestar a una muestra cuanto más grande, mejor! (voy a obviar otros aspectos de un buen muestreo, como el que sea representativo, y me quedo en el plano del tamaño)

Otro factor que puede afectar a la precisión de nuestra estimación a partir de la muestra es la dispersión de la variable que estudiamos. Creo que se entenderá bien con este ejemplo. Imaginad que tengo un tanque con una solución de agua salada, y me interesa conocer la concentración de sal que hay dentro. Un procedimiento posible sería extraer una muestra pequeña del tanque con una jeringuilla, y medir la concentración de sal dentro de esa muestra. Sólo para estar seguros, repito la operación, y veo que el valor en la segunda muestra es el mismo. Una tercera vez, y obtengo el mismo valor. Apenas hay variación, ¿por qué? Una solución de agua salada suele tener una composición homogénea. Eso explica que las muestras sean muy similares entre sí, con apenas variaciones. Podemos imaginar que sus medias tienen intervalos de confianza muy pequeños, y que todas bailan muy cerca del valor real.

Pero la mayoría de los fenómenos en psicología son harina de otro costal. El equivalente, en este ejemplo, sería un tanque que no está lleno de agua salada (concentración homogénea), sino de pequeñas piedritas que se reparten de manera desigual. Esto va a crear diferencias grandes entre muestras sucesivas: unas veces la muestra pillará más piedritas, otras veces pillará menos.

El concepto que esta historia pretendía ilustrar es el de la desviación típica, la variabilidad que existe en la población (y que visualizamos como la “anchura” de la distribución poblacional), que nos dice cuánto se concentran los valores alrededor del parámetro μ. Mediante la siguiente simulación, vamos a ver cómo la desviación típica poblacional afecta a la robustez de las estimaciones muestrales, sobre todo si las muestras tienen tamaño pequeño:

De nuevo, fijaos en dos cosas: las medias muestrales se acercan al valor real (50) en ambos casos, pero están menos dispersas y son más consistentes cuando la desviación típica es pequeña (el equivalente a sacar una jeringa de un tanque de agua salada) que cuando la variabilidad es grande. En segundo lugar, ved cómo los intervalos de confianza también se hacen más pequeños en ese caso, indicando que las estimaciones serán más precisas.

Conclusiones

Hemos repasado un par de conceptos básicos: error de muestreo e intervalo de confianza. También hemos empezado a entender por qué las muestras grandes son mejores para hacer inferencias. Por otro lado, conviene recordar que el tamaño muestral no lo es todo, ya que aspectos más cualitativos del proceso de muestreo pueden ser vitales para que la muestra sea representativa. Por último, hemos visto un par de ejemplos de simulación con R que nos pueden ayudar a entender conceptos. Probad a cambiar los parámetros de la población, y ved cómo las muestras generadas van respondiendo a esos cambios.

ACTUALIZACiÓN (19/05/2019): He corregido una errata que había en el código, y he reemplazado uno de los gráficos por otro más evidente.

Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (I): Lo más elemental

Según mi experiencia, primero como alumno, y segundo como docente, no hay materia que más miedo meta en el cuerpo de los estudiantes de Psicología que la fatídica estadística. Seguro que más de uno tiene flashbacks de cuando estudiaba la carrera que son dignos de un veterano del Vietnam.

Por otro lado, la misma experiencia me dice que en gran parte este miedo nace del desconocimiento inicial, y en muchos casos se acentúa porque tanto los profesores como los manuales son muy dados a entrar de lleno en las ecuaciones, cuando aún no estamos dotados del conocimiento básico para desentrañarlas. Al final, muchos estudiantes acaban por resignarse y limitarse a repetir las mismas formulitas y operaciones sin entenderlas, como si fueran el perro de Pavlov… Al igual que los investigadores novatos nos acostumbramos a confiar en software engañosamente sencillo (SPSS, estoy pensando en ti), repitiendo clics con el ratón como un ritual y sin comprender lo que está haciendo la máquina entre bambalinas.

Por suerte, en un momento dado de mi vida conté con el apoyo y la cabezonería necesarios para, por fin, ¡empezar a ver la luz! Y la clave estaba delante de mis narices. Las ecuaciones y fórmulas están bien, sirven para realizar operaciones y establecer analogías entre conceptos, pero habíamos olvidado un paso básico, anterior: ¡la estadística hay que visualizarla para comprenderla! Nada como una buena visualización para comprender (aunque sea intuitivamente) un concepto. Después podemos ir a las ecuaciones y profundizar, pero ese paso es, al menos para mí, fundamental para entender algo.

La segunda gran herramienta para entender la estadística llegó mucho más tarde, cuando aprendí un poco de programación: las simulaciones. ¿Te surge una duda de qué ocurriría en un escenario concreto? Bien, ¡simúlalo y responde tu pregunta! Hoy en día es una de los métodos que más utilizo para aprender (y el más divertido). Y os prometo que aprendo algo nuevo casi a diario.

En esta serie de posts que inauguro ahora, intentaré ilustrar un par de conceptos básicos de estadística mediante estas dos herramientas: visualizaciones y simulaciones con el programa R. Espero que, si estás estudiando psicología u otra carrera en la que se utilice el análisis de datos, te sirva para ver que la estadística no es tan complicada. ¡Vamos al lío!

La lógica del análisis

Seguramente ya conocéis la rutina de la estadística que usamos habitualmente en psicología (frecuentista, basada en el test de significación para la hipótesis nula, NHST), pero la vamos a repasar en este post antes de avanzar hacia temas más interesantes.

El primer paso es plantearse una pregunta de investigación. Por ejemplo, ¿quién gasta más dinero en champú y cosméticos para el cabello, los jugadores de fútbol, o los fans del heavy metal? Esta pregunta se puede resolver recolectando datos. En este caso, contactaríamos con una muestra de jugadores de fútbol y de aficionados a los Judas Priest, y les preguntaríamos cuánto dinero se dejan al mes en este tipo de productos. Para cada uno de los grupos tendríamos un gasto mensual promedio. ¡Pan comido!

Ahora nos debemos plantear dos posibles escenarios: o bien no hay diferencias entre los dos grupos (Hipótesis nula, H0), o bien sí las hay (Hipótesis alternativa, H1).

post0

En nuestra muestra, seguramente las dos medias obtenidas no serán idénticas, es decir, habrá alguna diferencia entre los dos grupos. Por ejemplo, podría ser que los metaleros gastasen, de media, 3.53 euros más que los jugadores de fútbol. Esta diferencia observada en mi muestra es el tamaño del efecto observado. En este caso lo estamos expresando en las unidades de medida (euros), pero suele ser más conveniente convertirlo a una escala estandarizada. Por ejemplo, podría usar la d de Cohen, que se calcula usando las medias obtenidas, sus desviaciones típicas, y los tamaños de muestra. La ventaja de usar un tamaño del efecto estandarizado es que me permite comparar situaciones muy diversas.

post1

Ahora bien, que haya una diferencia en mi muestra no quiere decir que ésta sea extrapolable a la población. A mí no me interesa saber si en mi muestra gastan más o menos dinero unos que otros, porque eso es trivial. Lo que quiero saber es qué ocurre de manera general, ¿verdad? Tenemos que tener claro el concepto de error de muestreo. Mi muestra ha sido extraída aleatoriamente de la población, y por lo tanto los parámetros que yo mida en mi muestra no tienen por qué corresponderse con los de la población. Pensad en el siguiente ejemplo: imaginemos un bombo de la lotería, con cientos de números pares e impares. Si yo extrajera una muestra del bombo de, pongamos, 3 bolas, y comprobara que dos de ellas han salido pares… ¿quiere eso decir que el bombo contiene dos tercios de bolas pares? ¡Claro que no! La muestra está sujeta a un error aleatorio. Si repito la extracción, podría salirme un resultado completamente distinto, como por ejemplo las tres bolas impares, o las tres bolas pares… Extrapolar es siempre arriesgado, pues implica incertidumbre.

Bueno, entonces, ¿cómo damos el paso de la diferencia observada en mi muestra a la población general? Es para eso precisamente que usamos la estadística, para cuantificar esa incertidumbre y usarla para tomar decisiones. En este ejemplo, como estamos comparando dos medias, podríamos hacer una prueba t. El cálculo es sencillo, pero como decía antes, mejor visualicemos:

post2

En la figura, he dibujado las distribuciones de los dos grupos, con su característica forma de campana (distribuciones normales o Gaussianas). Las líneas verticales representan las medias de cada grupo. En esta metáfora visual, nos interesa saber cuánto se solapan las dos distribuciones. Si se solapasen en gran medida, diríamos que no hay diferencias apreciables entre los grupos. Ahora bien: hay dos parámetros que nos van a indicar el grado de solapamiento. En primer lugar, la distancia entre las dos medias, que hemos llamado antes “tamaño del efecto”. Así es, cuanto más separadas estén las medias, menos solapamiento. El segundo parámetro de interés es la “anchura” de las distribuciones (su parámetro de dispersión, como por ejemplo la desviación típica). Si las distribuciones son anchas, ocuparán más espacio y por tanto se solaparán en mayor medida que si fueran estrechas (siguiente imagen).

post3

Simplificando bastante el concepto, diré que la prueba t consiste en calcular un estadístico (la t de Student) que utiliza estos dos parámetros para saber cuánto se solapan las distribuciones: cuando hay mucho solapamiento, t tendrá un valor pequeño, mientras que cuando las distribuciones están muy separadas, t adquirirá valores altos. Si vais a la ecuación del estadístico, comprobaréis cómo efectivamente es una función de la diferencia de medias, y que las desviaciones típicas aparecen en el denominador (a más anchura, mayor solapamiento, y menor valor de t).

Este valor de t tiene otro estadístico asociado a él, que es el p-valor. ¿Qué significa? Imaginemos ahora por un momento que la hipótesis nula (H0) fuera correcta. Eso quiere decir que no hay diferencias reales (en la población) entre los dos grupos. Por lo tanto, cualquier diferencia que hubiéramos detectado en nuestra muestra se debería al azar, al error de muestreo. Pensemos ahora: ¿cómo de probable sería encontrarnos por puro azar con una diferencia como la que hemos hallado, de 3.53 euros? La lógica nos dice que una diferencia grande sería poco atribuible al azar, ¿verdad? Imaginad por un momento que la diferencia encontrada en nuestra muestra hubiera sido de 300 euros. ¡Sería muy improbable encontrar un valor tan alto por pura casualidad!

Pues bien, el p-valor es la probabilidad de encontrarnos por puro azar con una diferencia como la que hemos hallado, o mayor. Así, si el p-valor es muy pequeño, concluiremos que la diferencia encontrada es demasiado grande como para atribuirla al azar, y que probablemente habrá también diferencias en la población. Aquí es donde entra en juego el famoso umbral de significación, un valor arbitrario, escogido por convención, que nos permite tomar decisiones. Si p < 0.05, decimos que el resultado es estadísticamente significativo, y que podemos rechazar la hipótesis nula, porque la diferencia es demasiado improbable por azar. Por otro lado, si p > 0.05, el resultado no es significativo, y concluimos que las diferencias pueden explicarse por azar (provisionalmente retenemos la hipótesis nula porque no tenemos evidencia para rechazarla).

Hasta aquí hemos descrito el proceso que va desde la recogida de datos hasta la toma de decisión basada en los datos del estudio. De momento no ha habido simulaciones, pero estoy deseando enseñaros algunas en el próximo post, que espero llegue pronto (si el trabajo lo permite).

Posted in Uncategorized | Tagged | 2 Comments