CURSO DE ESTADESTECA MAL: 9. Cuando no sabes qué análisis es el “correcto”

Ya estoy aquí otra vez, dispuesto a revivir este blog. Y lo voy a hacer recuperando un debate que últimamente me he encontrado en mis respectivos entornos (el virtual, del salseo en Twitter y otras redes, y el profesional). Quizá os sea de ayuda este post para quienes tenéis entre manos algún tipo de análisis de datos (¿tu tesis doctoral? ¿tu TFM?) y estáis recibiendo mensajes un tanto contradictorios por parte de los “expertos” (tu director/a de tesis, la gente de los foros de estadística…). Vamos allá.

TL;DR: Por más que te digan lo contrario, necesitas teoría y conocimiento sobre tu tema de investigación para plantear e interpretar un análisis estadístico sin meter la gamba.

Imaginad esta situación que me he encontrado montones de veces, a ver si os suena. Una doctoranda ha trabajado duro recogiendo sus datos. Se ha currado los cuestionarios, el muestreo… Ahora tiene una tabla de datos enorme y aparecen algunas discrepancias con su director de tesis. Resulta que hay al menos dos maneras de analizar estos datos. Nuestra doctoranda propone un tipo de análisis que tiene en cuenta algunas posibles variables confundidas (entre allas el género, la edad y el nivel socioeconómico) y las controla. El director, por su parte, propone “simplificar” el análisis de cara al proceso de revisión, y dejar fuera del mismo las variables que no sean relevantes. El argumento del director es que el análisis es “más simple” y por lo tanto más sencillo de comprender. Además, el análisis sencillo nos permite dejar fuera nuestras opiniones subjetivas acerca de qué variables merece la pena controlar o no, y es más “objetivo” porque simplemente “deja hablar a los datos” (¿a que habéis oído esta frase más de una vez?). Y encima todo sale significativo <cheff kiss>. Nuestra doctoranda se rasca la cabeza y se preocupa un poco: pero, ¿cómo es posible que los dos análisis, tan diferentes en planteamiento, sean correctos? ¿Es que no debería haber una única manera correcta de analizar mis datos?

Y no es la única que se preocupa. Hace unas semanas, en Twitter, se popularizó este artículo (Breznau et al., 2022) en el que le envían el mismo set de datos a distintos equipos de investigación para que lo analicen, y encuentran una variabilidad enorme de modelos, técnicas de análisis y, por supuesto, resultados obtenidos. Mientras que algunos equipos llegaron a una conclusión, otros llegaron a la opuesta. Repito: están analizando los mismos datos.

La reacción del 90% de mi TL en Twitter: ¡el pánico! Es alarmante. Ya no podemos confiar en la cencia. Ni en la estadística. ¡Ven ya, meteorito!

Y… no, mira. Creo que esta es una mala interpretación de este resultado. No me refiero tanto al comentario de esta persona, que salvando lo de “scary”, que sí es un juicio de valor, no está sino describiendo el hallazgo, sino a la reacción bastante alarmista de muchos tuiteros, que algunos casi estaban proponiendo que la ciencia es toda una sarta de mentiras. Es que incluso en el paper mismo hablan de fuentes de variabilidad como “sesgos” (principalmente el sesgo de confirmación). Vamo a calmarno.

Por un lado, tengamos en cuenta que los datos suministrados en este estudio eran bastante ambiguos, que las hipótesis propuestas a los equipos de investigación eran muy vagas y permitían distintos enfoques… Pero es que aun así este resultado no tiene nada de sorprendente, e incluso, si me apuras, nada de malo.

Y es que al decidir usar un modelo estadístico u otro, o al decidir si vas a transformar tu variable dependiente… estás tomando decisiones que es lógico y deseable que afecten al resultado. ¡Pero si las tomas precisamente por eso! Porque crees que te ayudarán a capturar mejor la información que estás buscando. Son decisiones que, en mi opinión, simplemente hay que exponer y justificar con transparencia (lo cual, eso sí te lo admito, rara vez hacemos).

Pero es verdad que hay toda una corriente que aboga por reducir el impacto (si es que eso es posible) de estas decisiones, para reducir el sesgo que producen. Somos humanos, dicen, cometemos errores. Y somos “subjetivos”. Así que eliminemos o reduzcamos el factor humano de la ecuación. Así, el director de tesis de nuestro ejemplo propone “dejar hablar a los datos”, como si fueran una entidad con voluntad y capacidad de expresarse. Otros llevan esta idea al extremo y podrían, por ejemplo, usar algoritmos de machine learning para aprender automáticamente de tu set de datos: qué variables extraigo, qué variables tienen qué papel, qué combinación produce el mejor ajuste… Sin ir tan lejos, hay gente que propone que sólo los matemáticos o los estadísticos experimentados analicen los datos de los estudios, bajo la premisa de que ellos o ellas saben “cuál es la manera correcta” de analizar los datos, mientras que el experto o experta en el tema, que ha planeado el estudio y ha recogido los datos, no sabría tomar estas decisiones sin contaminar el resultado y por eso hay que dejarlo fuera.

De manera más general, Judea Pearl expone en su libro The Book of Why (Pearl & Mackenzie, 2018) algunos argumentos que van contra esta corriente que podríamos llamar “dirigida desde los datos” o (“data-driven”). De manera convincente, Pearl nos dice que lo llevamos claro si pretendemos analizar los datos sin tener una teoría acerca del proceso que los ha generado. Tu conocimiento previo del problema, de la situación de medida, etc., te va a ayudar a decidir qué tipo de modelo y de supuestos debes incluir en tu análisis. Y eso no te lo dicen los datos por sí solos.

Como en este blog somos amantes de R y de las simulaciones, vamos a simular unos cuantos datos para entender tres situaciones en las cuales nuestro conocimiento previo es *crucial* para no meter la pata. Se trata de la confusión de variables, la colisión de variables (lo siento, no sé cómo traducir “collider” 👉👈), y la mediación.

Caso 1. Confusión de variables

Vamos a poner un ejemplo tan simple que lo entienda cualquiera. Imagina que estás interesado/a en las habilidades lectoras de los niños y adolescentes, así que te vas a un colegio y les haces una prueba de habilidad lectora a todos los estudiantes de entre los 7 y los 17 años. Además, como eres un investigador/a concienzudo/a, vas a recoger un montón de otras variables, incluyendo parámetros físicos (estatura, peso, edad…).

Y entonces, bajo la premisa de que “es mejor dejar hablar a los datos”, decides explorar a lo loco ese archivo inmenso, y calculas una tabla TERRIBLE (como argumenté en otro post), gigantesca, con todas las correlaciones que resultan de cruzar entre sí todas las variables. Vamos, unos quinientos coeficientes de correlación, por lo menos. Y te llevas una sorpresa. Pues oye, ¿que no resulta que la talla del zapato correlaciona significativamente con la habilidad lectora? Ouch.

Claro, ante esta observación podríamos tomar dos posturas. La primera es interpretar esa correlación de forma causal, y pensar de qué manera podemos obligar a los niños pequeños a usar zapatos más grandes para así mejorar su habilidad lectora. La segunda, más sensata, es plantearnos que esto no tiene ningún sentido. ¿De dónde ha salido esta correlación, aparentemente espuria?

Pues lo que decía antes. Vamos a usar el selebro, y nuestro conocimiento previo sobre el mundo. ¿Por qué deberían correlacionar talla de zapato y lectura? Una posibilidad es que ambas variables sean en realidad consecuencia de una misma causa, la edad. Con la edad, los niños crecen y con ellos sus pies. También con la edad, y los años acumulados de experiencia escolar, mejoran sus habilidades lectoras. Como vemos en este gráfico (*):

En este caso, nuestra conclusión sería que probablemente la edad es una variable confundida que explica la correlación (seguramente espuria) entre talla de zapato y habilidad lectora. Esto quiere decir que mi análisis de correlación debería controlar esa variable confundida (edad) para revelar realmente la asociación entre las otras dos variables.

Vamos a empezar con las simulaciones, que me duermo. Para abrir boca, voy a generar tres variables a partir de una distribución normal. Según el modelo del gráfico, tanto X (talla) como Y (lectura) son consecuencias de una causa común, la variable confundida W (edad), así que las genero a las dos linealmente a partir de esta última, usando la ecuación clásica de un modelo de regresión con coeficientes que me invento sobre la marcha.

set.seed(200)
n <- 500 # Vamos a generar 500 datos…
W <- rnorm(n, 0, 1) # Variable confundida (edad)
X <- 1 + 1.5*W + rnorm(n, 0, 3) # Variable predictora (talla de zapato)
Y <- 2 + 2.1*W + rnorm(n, 0, 3) # Variable dependiente (habilidad lectora) 

Podemos ver cómo X e Y correlacionan en mi set de datos, lo cual me había alarmado inicialmente:

summary(lm(Y~X))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.9333     0.1755  11.014  < 2e-16 ***
X             0.2553     0.0482   5.296 1.78e-07 ***

¿Lo veis? La talla de calzado correlaciona con la lectura, p < 0.05.

Pero claro, es que ambas correlacionan, cada una por su parte, con su causa común, la variable confundida W 🤔

Entonces, dado que hemos usado nuestro conocimiento previo para identificar una variable confundida en nuestros datos, lo que tenemos que hacer es controlar su efecto en nuestro análisis. ¿Cómo? Introduciendo esta variable (edad, W) en el modelo:

summary(lm(Y~X+W))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.24240    0.14601  15.358   <2e-16 ***
X           -0.07884    0.04526  -1.742   0.0822 .  
W            2.50843    0.16304  15.385   <2e-16 ***

Como veis, en este nuevo análisis que controla la edad ya no hay una relación significativa entre talla de zapato y habilidad lectora (<respira aliviado>). Y esta sería la interpretación correcta, eso sí, suponiendo que mi modelo de la figura de arriba (el gráfico que trata la edad como variable confundida) sea cierto.

Caso 2. Sesgo de colisión (“collider bias”)

Vamos con otro ejemplo clásico. Inteligencia y atractivo físico son dos atributos que pueden llevar al éxito a una persona. Podríamos pensar, en principio, que ambos atributos ocurren de manera bastante independiente (el ser más o menos inteligente no afecta al atractivo, así es la lotería de la genética, amigos). En cualquier caso, ambos atributos pueden producir el mismo resultado, que es el éxito en la vida: tanto las personas muy atractivas como las muy inteligentes tienen más papeletas para triunfar. Vamos a representarlo gráficamente:

Ahora bien, imagina que tomamos una muestra de actores y actrices de Hollywood que han triunfado en su carrera y conseguido muchos premios. Y para cada uno de estos sujetos obtenemos tanto un test de inteligencia como una puntuación de atractivo físico. Como mi agenda de estrellas de Hollywood para realizar estudios es algo escasa, mejor vamos a simular los datos. Así generamos tres variables, X (atractivo), Y (inteligencia) y Z (éxito):

set.seed(200)
X <- rnorm(n, 0, 3)
Y <- rnorm(n, 0, 3)
Z <- 1.6 + 1.2*X + 0.9*Y + rnorm(n, 0, 3) #collider
dataset <- data.frame(X, Y, Z)

Hemos dicho que queremos examinar participantes que ya han demostrado su éxito (son estrellas reconocidas), así que podemos seleccionar solo los valores más altos de Z (éxito). Esto lo hacemos en el siguiente paso, que elimina de nuestra matriz de datos todos los casos con valores de éxito negativos (los que no han conseguido premios, los que llevan tiempo sin protagonizar un taquillazo…).

conditionalZ <- dataset[!(dataset$Z<0)] # con esto elimino del data set todos los casos con éxito negativo.

Y ahora, tras esta selección de datos, examinamos la correlación entre atractivo e inteligencia

summary(lm(conditionalZ$Y~conditionalZ$X))  
Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)      1.1760     0.1810   6.498 3.15e-10 ***
conditionalZ$X  -0.2049     0.0643  -3.186  0.00158 ** 

…Y entonces empiezan a no salirnos las cuentas. Porque analizando los datos compruebo, con estupor, que cuanto menos atractivo eres, más inteligente. ¿Veis cómo la correlación es negativa? Y el resultado es significativo, p < 0.05. ¿Cómo puede ser esto? ¿Habremos descubierto una nueva teoría genética? ¿Será verdad el cliché de que los empollones son feos, y los guaperas tontos del bote? Lo dudo. De nuevo no tiene sentido tomar en serio esta correlación.

Y es que, mirando la estructura que hemos dibujado arriba y que deriva de nuestro conocimiento previo del mundo, caemos en la cuenta de que Z es la consecuencia común de X e Y. En términos estadísticos, esta variable es un “colisionador” (¿veis cómo confluyen en el gráfico las flechas causales?) que puede interferir en nuestra inferencia sobre las otras dos variables.

El problema es que nuestra selección de casos hemos filtrado la muestra para quedarnos solo con las personas de mayor éxito, y por eso estamos distorsionando la relación observada entre las variables inteligencia y atractivo. Al eliminar los casos con valores más bajos de Z estamos también eliminando valores de las otras variables… pero de forma sistemática, introduciendo un sesgo.

Esto significa que, cuando hemos identificado una variable “de colisión” (“collider”), no debemos condicionar el análisis en esa variable. Es decir, no debemos seleccionar la muestra en función de Z, y *tampoco* intentar controlar Z metiéndola en el modelo. ¿Queréis comprobarlo? Pues venga, que hacer simulaciones es gratis. El siguiente análisis, con la muestra completa (es decir, sin eliminar los casos de menor éxito), está controlando el éxito al medir la relación atractivo-inteligencia:

summary(lm(Y~X+Z))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.83541    0.11661  -7.164 2.84e-12 ***
X           -0.58339    0.05162 -11.302  < 2e-16 ***
Z            0.48519    0.02674  18.143  < 2e-16 ***

Y entonces sale a la luz esta relación atractivo-inteligencia, que es significativa (p < 0.05), que no sabemos cómo interpretar y que probablemente es un artefacto. Bueno, en este caso, como los datos son simulados, lo podemos confirmar: es un artefacto 😈.

Como veis, al controlar por Z aparece esa correlación espuria que no está presente cuando sacamos esa variable del modelo. Es una correlación engañosa, sin sentido. En este caso, el modelo correcto sería claramente este, el que examina la relación X-Y sin ningún otro predictor ni control (insisto, todo esto si damos por bueno el modelo de la figura de arriba, que trata a X y Z como causas independientes de Y).

summary(lm(Y~X))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03366    0.13693   0.246    0.806
X            0.07607    0.04721   1.611    0.108

Moraleja: si identificas una variable de este tipo (un “collider”), no se te ocurra controlarla en el modelo estadístico, porque es un error.

Caso 3. Variables mediadoras

Y nos queda el tercer ejemplo en discordia. Sabemos que la calidad del sueño puede afectar al rendimiento en el trabajo. Los días que no has dormido bien son como un capítulo de The Walking Dead. Sin embargo, podríamos pensar que esta influencia no es directa, sino que hay otro factor relevante: el nivel de alerta. Porque claro, a veces puede que hayas descansado como un bebé, pero si no te has tomado el café en el desayuno es posible que tampoco des pie con bola, ¿no? Diríamos que la calidad del sueño es la causa distal del rendimiento, y el nivel de alerta es más proximal. Algo como esto:

Pues como somos cientefecos vamos a recoger unos cuantos datos. Medimos la calidad del sueño con un cuestionario, el nivel de alerta mediante una prueba conductual de atención, y el rendimiento laboral según una serie de indicadores que hemos elegido. Pues bien. Generemos esos datos:

set.seed(500)
A <- rnorm(n, 0, 3) # Calidad del sueño
B <- 0.7*A  + rnorm(n, 0, 3) # Nivel de alerta
C <- 0.5*B  + rnorm(n, 0, 3) # Rendimiento laboral

Según lo que hemos explicado, sería esperable que los días que peor hemos dormido tengamos un rendimiento más bajo, ¿no? Pues miremos los datos. Vamos a probar un modelo que examina el efecto de la calidad del sueño (A) sobre el rendimiento (C), controlando el nivel de alerta (B). Oh shit!

summary(lm(C~A+B))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.13893    0.12818  -1.084    0.279    
A           -0.05057    0.05117  -0.988    0.323    
B            0.57940    0.04346  13.332   <2e-16 ***

Lo que nos sugiere el modelo es que el nivel de alerta afecta al rendimiento… Pero la calidad del sueño no lo hace (p = 0.323). ¿Cómo puede ser?

Entonces reparamos en un pequeño detalle, y lo tienes en la figura de arriba. Las tres variables forman una cadena, es decir, lo que estamos describiendo es un modelo mediacional (Kenny, 2021). Así que, para ver el efecto de A sobre C, no tenemos que condicionar en B, ni intentar controlar B. Tendríamos que sacar esa variable del modelo. Así:

summary(lm(C~A))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.23133    0.14898  -1.553    0.121    
A            0.33969    0.04885   6.954 1.12e-11 ***

Ahora sí tiene sentido el resultado. Parece que la calidad del sueño afecta al rendimiento significativamente, p < 0.05. Y es el resultado que tiene sentido interpretar… pero insisto otra vez: ¡eso dando por bueno el modelo que hemos descrito en el gráfico que supone una estructura mediacional y no de otro tipo!

El drama

En todos estos casos, hemos podido hacer un análisis que nos lleva a conclusiones absurdas o poco útiles. No sé si podríamos decir que esos análisis de los ejemplos (controlar un mediador o un collider en el modelo, no controlar una confundida) son “incorrectos”, o simplemente lo que ocurre es que nos están dando una respuesta (probablemente válida) a una pregunta que ni nos interesa ni nos queríamos plantear. Así que como mínimo pueden producir errores y confusiones al interpretarlos. Pero, y aquí está el asunto clave, la única manera de determinar cuál es el análisis que nos interesa consiste en examinar muy bien la situación en la que se recogen los datos, tener al menos una teoría de cómo ha sido ese proceso… y entonces decidir qué factores deben incluirse en el modelo y cuáles no. Para ello, nos puede ayudar dibujar gráficos “causales” de nodos y flechas como los de este post (que se llaman DAG y se usan mucho en inferencia causal e inteligencia artificial).

Seguro que os estáis anticipando a lo que iba a decir: ¿esto no abre la puerta a la subjetividad? Pues mira, no sé si a la subjetividad, pero seguramente permite que haya diferencias de criterio. Un ejemplo famoso lo cita el propio Judea Pearl en su libro. Ronald Fisher, famoso estadístico, era además un aliado infalible de la industria tabaquera (Stolley, 1991).

En 1950-1960, había ya una cantidad enorme de datos como para sospechar que fumar tabaco produce problemas de salud como el cáncer de pulmón. Sin embargo, algunos críticos de esta teoría, como el propio Fisher, se agarraban a un clavo ardiendo proponiendo, por ejemplo la existencia de un factor subyacente, “el gen del tabaquismo”, que produciría, por un lado, mayor tendencia a desarrollar el hábito de fumar, y por otro lado mayor peligro de tener un cáncer de pulmón. Usando los gráficos que tan útiles nos han resultado en este post, veríamos el modelo a la izquierda de la siguiente figura. Claro que los detractores de Fisher tenían otro modelo en mente: sí, quizá exista ese “gen del tabaco”, pero la relación entre fumar y cáncer de pulmón no es espuria, sino causal (modelo de la derecha). Así que distintos expertos parecen tener distintos modelos y por lo tanto realizan diferentes análisis.

Conclusiones

La moraleja de este post es que, más que llevarse las manos a la cabeza por que los analistas tengan cierto grado de libertad a la hora de proponer modelos o examinar los datos, habría que aceptarlo como algo no solo inevitable, sino como una necesidad: sencillamente no puedes decidir cuál es el modelo estadístico que más encaja con tu pregunta sin tener clara esa pregunta, y sin tener una idea de los procesos que generaron los datos.

Esto implica varias cosas:

  • Que soy bastante escéptico (¡por ahora!) de las propuestas para usar algoritmos automáticos de inteligencia artificial para “sacar el mayor rendimiento de los datos”. Me parece que en algunos casos nos pueden inspirar ideas, a modo exploratorio, pero luego habría que hacer estudios bien diseñados para confirmarlas o refutarlas. No podemos interpretar los datos sin tener alguna “teoría” o pista que nos ayude a darles sentido. Ya digo: por ahora.
  • Lo siento por el profesor y la doctoranda del ejemplo, pero no creo que haya una “única” manera correcta de analizar los datos en un estudio concreto. Dependerá de cuál sea la pregunta que nos queremos hacer, y también (¡anatema!) de las asunciones y supuestos y creencias que tengamos acerca del proceso que ha generado los datos. Si yo he leído mucho, y por eso lo tengo clarísimo, y sé que una determinada variable es probablemente una confundida, pues entonces tendré que controlarla en el modelo. La de veces que habremos hecho análisis totalmente absurdos e inútiles porque “lo ha pedido un revisor” que cuñadea y que no es ni siquiera experto en el campo. Cosas como controlar el género o la edad en un análisis cuando realmente no son variables confundidas.
  • También soy limitadamente escéptico hacia algunas propuestas que se escuchan a veces sobre la necesidad o conveniencia de que expertos analistas (matemáticos, estadísticos) se encarguen del análisis de datos en los proyectos de investigación o las tesis, en vez de los propios investigadores. A ver, depende de qué rol tenga el analista en el proyecto, y también de su nivel de implicación, de si va a estar presente en todo el proceso, ya desde el diseño… Si el analista es meramente una especie de consultor al que le mandas los datos, los analiza y te devuelve in informe con las conclusiones, ¡ojo! Y es que, como estoy argumentando, quien hace la pregunta de investigación es quien decide el modelo que debe ponerse a prueba, y para eso hace falta conocimiento de dominio. Podría ser que el estadístico te esté dando una respuesta a una pregunta que no te interesa. Si tu tesis es de psicología, para plantear un buen análisis hay que ser experto o experta en ese tema. O transmitirle ese conocimiento al analista, claro, pero eso es probablemente mucho más difícil que traducir lo que los expertos ya sabemos de nuestro tema de investigación a una pregunta concreta que podamos formular en el análisis. Creo sinceramente que el mejor análisis para tu estudio solo lo puedes proponer tú, que eres quien sabe más del tema.
  • No necesariamente estoy hablando de incorporar la subjetividad al análisis, ¡a pesar de que mucha gente lo interpreta así! (y de hecho es la crítica común en artículos como el que citamos arriba). Decisiones como clasificar una variable como mediadora o confundida se pueden basar en evidencia, en datos, en teoría… Que haya distintos modos de interpretar esa evidencia, o que le demos distintos pesos a piezas de evidencia que a veces son contradictorias, de forma que al final tengamos propuestas de análisis diferentes según quién lo está planteando, ¿se puede llamar subjetividad? Pues igual hay que perderle el “miedo” a esa palabra. Para mí es más importante que las decisiones estén bien justificadas y de forma transparente, para que se puedan debatir diferentes puntos de vista: “venga, arguméntame por qué crees que esta variable es mediadora y así justificas tu decisión de no controlarla”. Curiosamente, pocos artículos leo donde de verdad esto se lo tomen en serio y te expliquen con transparencia todas las decisiones que han tomado en el modelado.
  • Sí que hay tradiciones o aproximaciones al modelado que incorporan todo esto. Por ejemplo la gente que diseña modelos generativos en la tradición Bayesiana hace exactamente lo que hemos explicado: piensan en la situación donde se recogieron los datos para modelarla al detalle, definen las variables que pueden afectar a esa situación y describen el proceso generativo de los datos mediante distribuciones de probabilidad. Claro, para hacer este trabajo de modelado hay que combinar el conocimiento estadístico con el conocimiento de tu tema de investigación. Nadie dijo que fuera fácil.

(*) Este tipo de gráficos se llaman DAGs (Directed Acyclic Graphs) y se usan un montón en inferencia causal.

Referencias

  • Breznau, N., Rinke, E. M., Wuttke, A., Adem, M., Adriaans, J., Alvarez-Benjumea, A., Andersen, H. K., Auer, D., Azevedo, F., Bahnsen, O., Balzer, D., Bauer, G., Bauer, P. C., Baumann, M., Baute, S., Benoit, V., Bernauer, J., Berning, C., Berthold, A., … Nguyen, H. H. V. (2021). Observing Many Researchers Using the Same Data and Hypothesis Reveals a Hidden Universe of Uncertainty. MetaArXiv. https://doi.org/10.31222/osf.io/cd5j9
  • Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
  • Stolley, P. D. (1991). When genius errs: R.A. Fisher and the lung cancer controversy. American Journal of Epidemiology, 133(5), 416-425; discussion 426-428. https://doi.org/10.1093/oxfordjournals.aje.a115904
Posted in Estadística MAL | Tagged , , | Leave a comment

Hoy hablamos de nudging: sobre urinarios gorrinos y premios Nobel

Debo reconocer que en los últimos tiempos me había aficionado a divulgar sobre todo haciendo hilos de Twitter, pero con los últimos golpes de timón del nuevo CEO de la compañía (máquina, crack, rey, titán, gigante, planetoide), he decidido que tengo que retomar el clásico blog(*), y de paso así produzco materiales que puedo usar en clase. Así que aquí me tenéis, dispuesto a hablar de un tema maravilloso e interesante como es el de los urinarios masculinos del aeropuerto de Ámsterdam y su increíble conexión con el premio Nóbel. Pues sí. Vamos a hablar de los nudges.

– ¿Los nudgets?

-No, los nudges.

-¿Esto?

-No, eso son nuggets. Trocitos de pollo. Bueno, “dicen que es pollo”, aunque no podemos estar seguros. Pero en fin, ¡que no! Que es otra cosa: nud-ges. 🤦‍♂️

Mira, para no liarnos vamos a usar una traducción libre del término que a mí particularmente me gusta: “empujoncitos”. Pues venga.

¿Qué es un “nudge” (“empujoncito”)?

Vamos a empezar con un ejemplo. Y como os decía antes: ¿qué tendrán que ver los urinarios de un aeropuerto con el permio Nóbel? Pues bueno. Resulta que en el Aeropuerto de Ámsterdam estaban ya hasta las narices de limpiar los urinarios de caballeros, porque la gente es muy cerda y lo dejaba todo salpicado. Claro, tampoco es plan de multar a los infractores: ¿qué vas a hacer, poner un vigilante que esté 24/7 con una vara preparada por si alguien echa unas gotillas fuera?

Así que pensaron la siguiente solución. Fijaos bien en la foto. ¿Veis una pegatina con el dibujo de una mosca en cada urinario?

El caso es que fue poner la pegatina y mejorar la limpieza de los baños inmediatamente, sin hacer nada más. Claro, la gente llega, ve la mosquita, e intenta apuntar con el chorro dentro del urinario, no fuera. Y mancha menos. Brillante idea. Y barata. Seguro que entre los lectores habrá gente que haya visto este tipo de pegatinas (a veces con el dibujo de una mosca, a veces con una diana) en los urinarios. Y funciona.

Bueno, pues este tipo de intervención se conoce como “nudge” (“empujoncito”), y el economista Richard Thaler lo define como “pequeños cambios en la arquitectura de elección que alteran el comportamiento de las personas de manera predecible”.

Como seguro que esa definición no nos aclara nada, os lo concreto un poco más: un empujoncito es un cambio, a menudo sutil, en el contexto en el cual las personas tomamos decisiones, y que consigue hacer más probable que se elija una de las opciones, sin prohibiciones ni imposiciones.

Por ejemplo, ¿cómo sabemos que la mosquita de los urinarios es un empujoncito? Porque cumple las siguientes características:

  • Es un cambio sutil en el contexto en el que la gente toma decisiones. En este caso, es una pegatina pequeña en el urinario.
  • …Que facilita que la gente elija una de las opciones (apuntar dentro del urinario, no fuera).
  • …Pero lo hace sin imposiciones ni prohibiciones (nadie te obliga a apuntar a la mosca, puedes no hacerlo).
  • …Sin alterar la estructura de pagos de la decisión (nadie te va a dar premios ni a castigar por tomar una decisión u otra).
  • …Y de forma que la persona puede, si lo desea, ignorar la intervención (puedes obviar que la mosca está ahí sin mucho esfuerzo).

Pues bueno, este tipo de intervenciones ha cosechado un éxito impresionante en la esfera aplicada. Todo el mundo usa empujoncitos. Los gobiernos e instituciones los incluyen en sus medidas, las compañías en los diseños de sus dispositivos y programas, o en la gestión de sus empleados (Ebert & Freibichler, 2017), los publicistas y vendedores en su planificación de la experiencia del cliente, y en general cualquiera los puede aprovechar en su vida cotidiana. Su “descubridor” (o más bien popularizador), el economista Richard Thaler, ganó el premio Nobel de economía en 2017 por sus contribuciones a la economía conductual.

El planteamiento de los empujoncitos realmente no es nuevo, ni complejo. Se trata de aprovechar algunos principios psicológicos que afectan a nuestras decisiones para facilitar que nos decantemos por una opción y no por otra. Principios a menudo sencillos pero relativamente potentes, como nuestra tendencia a hacer lo mismo que hacen los demás, o a seguir haciendo las cosas de la misma forma que en el pasado… Todo eso lo hacemos sin planteárnoslo mucho. Pues entonces, se trata de aprovechar esas “fuerzas” para ayudar a tomar mejores decisiones.

Claro, he dicho “tomar mejores decisiones”, pero eso en realidad depende de cada cual. Hay una cierta tendencia a enfocar los empujoncitos como una estrategia bienintencionada para hacer las cosas que realmente el individuo necesita o quiere hacer. Por ejemplo, si una persona quiere cuidar su dieta pero tiene tentaciones y está a punto de pedirse una pizza cuatro quesos, podríamos diseñar algún tipo de empujoncito (como avisos y recordatorios, formas de organizar las comidas o incluso de distribuir los alimentos en la nevera) que le ayude a decantarse por la opción más sana. Pero si a mí me interesara, siguiendo con este ejemplo, fomentar que la persona elija la comida basura (no sé, imaginad que tengo acciones de McDonalds), podría igualmente diseñar empujones para que opte por este tipo de comida. Algunos autores se refieren a estos empujones en la “mala” dirección como “sludges” (en vez de “nudges”).

Algunos tipos de empujoncito

Como todo se entiende mejor con ejemplos, vamos a hacer eso precisamente, poner ejemplos de los diferentes tipos de empujoncito que se pueden utilizar.

Prueba social. Un descubrimiento recurrente en la psicología social es que las personas tendemos a seguir lo que creemos que es la norma en nuestro grupo. Es decir, que si a nuestro alrededor la gente que es como nosotros realiza una determinada acción, o tiene una determinada opinión, vamos a tender a imitarlos. ¿Cómo podemos implementar este principio en un empujoncito? Pues imagina que estamos diseñando la página web de un comercio. Si me interesa vender un producto que tiene muy buenas reseñas, tal vez podría funcionar si muestro bien visibles esas opiniones positivas que indican que la mayor parte de la gente prefiere esa opción. El cliente pensará: “si a todo el mundo le gusta este producto, qué porras, tendré que elegirlo”.

Efectos de orden. Otro efecto muy robusto de la psicología es la llamada “curva de posición serial” (Murdock, 1962). Para entendernos: nuestra memoria es falible, y cuando nos presentan una secuencia de información tendemos a quedarnos sobre todo con el elemento que abría la serie (efecto de primacía) y, todavía más, con los últimos elementos en presentarse (efecto de recencia). Este principio se puede diseñar para “empujar” a las personas a tomar determinadas decisiones. Por ejemplo, si un camarero te recita la carta en el restaurante, es más probable que elijas los últimos elementos de la serie, los que son más fáciles de recordar.

Simplificar mensajes/limitar las opciones. Es bien sabido que las personas podemos “aturullarnos” cuando nos ofrecen demasiada información de golpe, o cuando tenemos muchas opciones para elegir. Por eso se puede facilitar la decisión si se simplifica el proceso: por ejemplo, tal vez se puede reducir el número de opciones disponibles en un menú para que la opción deseada se elija más a menudo que las otras, al evitar la distracción.

Usar opciones por defecto. Otra de las fuerzas que moldean nuestras decisiones es el llamado “sesgo del statu quo” (Kahneman et al., 1991). Nos acostumbramos a hacer las cosas de una manera, y luego nos cuesta cambiar. Siempre compramos en el mismo supermercado, las mismas marcas… La opción más cómoda es “no hacer nada” y dejarse llevar por la rutina. Ahora pensad: ¿por qué España es un país que lidera los rankings en donación de órganos? Porque en España, al contrario que en otros países, la opción por defecto es la donación. Es decir, una persona puede decidir NO donar sus órganos, pero para ello lo tiene que decir explícitamente, así que la mayoría lo dejamos estar. Otro ejemplo es la estrategia de muchos servicios de streaming (como Netflix) consistente en reproducir automáticamente el siguiente episodio de una serie, salvo que toques un botón para cancelarlo. De este modo nos “empujan” a seguir con el maratón de la serie de moda.

Reducir/aumentar la fricción. Un grupo de estrategias muy usadas consisten en facilitar una determinada opción, reduciendo sus complicaciones o desventajas. O bien hacerlo al revés: dificultar las opciones alternativas. Por ejemplo, imagina que quiero fomentar que te apuntes a un gimnasio: entonces te recomendaré la opción más cómoda, la que esté más cercana a tu casa, la que requiera menos papeleo y trámites al matricularte… Todo para que no abandones ni te eches para atrás. O imagina que quiero que la gente compre alimentos sanos y saludables. Entonces, reduciría la fricción de esa elección haciendo que estos estuvieran en el lugar más accesible y cómodo del supermercado, mientras que relegaría las chucherías a la zona más lejana de la tienda (combino reducción de fricción de la opción deseada con aumento de fricción de la alternativa indeseada). La clave es que todavía puedes comprar phoskitos si quieres, vida mía, pero te va a costar un poco más encontrarlos y por lo tanto es más probable que venzas la tentación.

Avisos en el momento de la decisión. Si habéis usado Twitter u otras redes sociales, es posible que hayáis visto ese mensaje que aparece a veces cuando vas a compartir un contenido, que dice algo así como “espera un momento, ¿seguro que quieres compartir sin haber leído antes la noticia?”. Pues sí, se trata de un empujoncito dirigido a evitar la propagación de bulos. En general se ha comprobado que la gente comparte menos noticias falsas si le dejan tiempo para pensar detenidamente en la noticia en vez de darle al retuit compulsivamente (Pennycook et al., 2022).

Críticas

Por supuesto, hay muchos autores críticos con el concepto y detractores del uso de los empujoncitos. Voy a agrupar las críticas en tres tipos: éticas, empíricas y conceptuales.

En primer lugar, hay quien ve en estas técnicas una forma de manipulación. Cuando es el estado el que aplica los empujoncitos, podríamos hablar de “paternalismo” e iría contra las libertades individuales. O sea, que por muy buenas intenciones que tenga, si yo quiero comerme un bollycao, ¿quién es el ministro de sanidad, o el de consumo, para inducirme a no hacerlo? Pues bueno, es un debate. No tomo partido, primero porque no tengo una opinión clara, y segundo porque creo que es un asunto de opiniones, y no tengo nada que aportar como psicólogo. Lo único que me atrevo a apuntar es que, generalmente, todas nuestras decisiones pueden verse influidas por otras personas. Es decir, que incluso aunque no quieras influir sobre los demás es casi inevitable que esto ocurra. Así que puedes renunciar a los empujoncitos, pero influirás de otra manera (incluso involuntariamente).

En segundo lugar, hay críticas que tienen que ver con la solidez de la ciencia detrás de los empujoncitos. Hace unos meses se hizo famoso este meta-análisis (Maier et al., 2022) que venía a sugerir que toda la literatura científica en torno a este concepto está plagada del conocido problema del “sesgo de publicación” del que hemos hablado en este blog (por ejemplo, aquí), y que en realidad muchos de los resultados serían falsos positivos.

Claro que hay quien responde que el problema no es tan grave como lo quieren pintar en ese artículo. Los empujoncitos son cambios sutiles en el contexto decisional, así que es esperable que sus efectos sean pequeños. Además se trata de un concepto heterogéneo, como ahora veremos, un “cajón de sastre” en el que caben intervenciones muy diferentes, así que es difícil cuantificar la magnitud del efecto “general”. Podéis leer este argumento a modo de contra-crítica en este hilo de Twitter, o en este artículo de respuesta.

Y esto nos lleva a las críticas de tipo conceptual. Bien, hemos dicho que realmente esto de los empujoncitos no es un concepto unitario, sino más bien un conjunto de aplicaciones de diferentes principios cognitivos que afectan a las decisiones, y que tienen algunos elementos en común pero por lo demás son diferentes. Esto ayuda a reconciliarnos con esa baja solidez empírica que hemos comentado: dado que el empujoncito es más bien una “etiqueta” para referirnos a muchos tipos de intervención diferentes, no podemos esperar que todas las intervenciones que caben en dicha etiqueta tengan un tamaño del efecto similar, o respondan de manera homogénea a otros factores (Szaszi et al., 2022).

Vamos a dejarlo aquí, espero que os haya entretenido o incluso resultado interesante este mundo de los nudges y la “economía conductual”.

(*) Este post es una versión extendida de los hilos respectivos en Mastodon (el original) y en Twitter. Voy a intentar retomar el blog para este tipo de divulgación.

Referencias

  • Kahneman, D., Knetsch, J.L., Thaler, R.H. (1991). Anomalies: The endowment effect, loss aversion, and status quo bias. Journal of Economic Perspectives.
  • Maier, M., Bartoš, F., Stanley, T. D., Shanks, D. R., Harris, A. J. L., & Wagenmakers, E.-J. (2022). No evidence for nudging after adjusting for publication bias. Proceedings of the National Academy of Sciences, 119(31), e2200300119. https://doi.org/10.1073/pnas.2200300119
  • Murdock, Bennet (1962). Serial Position Effect of Free Recall. Journal of Experimental Psychology, 64(5), 482-488. doi:10.1037/h0045106.
  • Pennycook, G., & Rand, D. G. (2022). Nudging Social Media toward Accuracy. The ANNALS of the American Academy of Political and Social Science, 700(1), 152–164. https://doi.org/10.1177/00027162221092342
  • Szaszi, B., Higney, A., Charlton, A., Gelman, A., Ziano, I., Aczel, B., Goldstein, D. G., Yeager, D. S., & Tipton, E. (2022). No reason to expect large and consistent effects of nudge interventions. Proceedings of the National Academy of Sciences, 119(31), e2200732119. https://doi.org/10.1073/pnas.2200732119
  • Thaler, R. H., & Sunstein, C. R. (2011). Un pequeño empujón / Nudge: El impulso que necesitas para tomar mejores decisiones sobre salud, dinero y felicidad. Madrid: Taurus.
Posted in Psicología social | Tagged , | Leave a comment

Habituación, sensibilización y bromitas de oficina

Saludos de nuevo. No, esta vez no os voy a hablar de estadística, así que podéis quedaros, no os marchéis, que haya calma.

Llevaba tiempo buscando una excusa para retomar el blog, y mira por dónde, la encontré. ME ENCANTA dar clase de la asignatura de aprendizaje. De verdad, es uno de los temas que adoro. Y como veo que hay mucha gente que tiene problemillas para entender algunos conceptos, me he dicho: Pues voy a intentar ayudar. Así que aquí estoy, dispuesto a hablaros de la forma de aprendizaje más sencilla que probablemente existe. ¿Me acompañáis un rato?*

Habituación: qué pasa cuando repites, y repites…

Bueno, como casi todos los y las estudiantes de psicología saben, algunos estímulos tienen la propiedad de producir una respuesta reconocible en los organismos, que no necesita ser aprendida sino que puede ser refleja, o incondicionada. Por ejemplo:

Si me pegas un grito sin mediar aviso cuando estoy distraído escribiendo el blog, lo más probable es que me cague en todo lo que se menea me lleve un susto de muerte y se me ponga el corazón como el de un colibrí. Que ya te vale con las bromas pesadas.

Otro ejemplo: si voy a visitar a la familia y le llevo un regalo a mi sobrina de tres años, seguramente tendrá una reacción de alegría y se abalance a desenvolverlo con toda el ansia. Es el efecto que producen los sustos y los regalos, ¿verdad?

Ahora bien. Imagina que cualquiera de estas dos situaciones se repite con cierta frecuencia. La primera vez que me pegas un susto por poco me matas, pero si intentas hacer lo mismo cada media hora pensaré dos cosas: que ya no me asustas por más que grites, y que necesito que te tomes unas vacaciones bien lejos de mí, José Ricardo. Y lo mismo con mi sobrina: la primera vez que le hago un regalo le hace ilusión, pero si todos los días le llevo el mismo puñetero puzle de Mickey Mouse yo creo que se acabará cansando, ¿no?

Pues bueno, esto que estoy describiendo y que es tan cotidiano se llama habituación. Lo que sucede es que un estímulo te producía inicialmente una respuesta más o menos intensa (como el respingo por el susto, o la ilusión por el regalo), pero si lo repetimos y repetimos, acabaremos por debilitar dicha respuesta. Sencillo, ¿verdad?

Podéis pensar más ejemplos: ¿Por qué tras el primer día en clase de crossfit me quiero morir del dolor, pero al cabo de tres meses hasta me sabe a poco cada sesión? Habituación. ¿Por qué al entrar en una casa con un problema de cañerías me molesta el olor, pero si paso unos días viviendo allí ya ni lo noto? Habituación. ¿Por qué el primer día de vacaciones no te deja dormir el ruido del tráfico constante que pasa frente al apartamento que has alquilado, pero un par de semanas después no lo notas? Habituación. ¿Por qué la primera vez que me comí un kebab me pareció una exquisitez, pero si lo hago tres veces por semana acabo aburrido de tanta salsa de yogur? Habituación. Y así…

¿Es la habituación permanente? No tiene por qué. Podemos hablar de habituación “a corto plazo” o “a largo plazo”. La cuestión es que si, una vez que la respuesta a un estímulo se ha habituado, pasamos una temporada más o menos larga sin volver a exponernos, la respuesta original puede reaparecer (lo llaman recuperación espontánea). Así, durante todo el curso te habitúas al sonido del despertador y lo introduces en tu rutina, pero después de las vacaciones que te has pegado sin madrugar, levantarse de la cama los primeros días de septiembre es un infierno. En navidades acabas harto de comer mantecados, pero cada año, cuando compras la primera remesa en noviembre, los vuelves a coger con ganas.

Lo fundamental de la habituación es que es un tipo de aprendizaje sencillo, por lo tanto ni siquiera forma parte del “aprendizaje asociativo”, porque no consiste en asociar dos estímulos entre sí. Es simplemente una forma de aprendizaje que implica ir reduciendo la respuesta conforme un mismo estímulo se repite varias veces. No te compliques la vida.

Es tan sencillo, tan sencillo, que lo podemos observar en seres muuuuy diferentes a los seres humanos: en invertebrados como la babosa de mar Aplysia (lo cual nos ha brindado una oportunidad de lujo para estudiar el proceso a nivel neuronal), o en los gusanos (planarias)…

…¡O incluso (aunque esto es controvertido) en plantas como la Mimosa pudica! ¿Veis esa respuesta de retracción de las hojas? Pues la estimulación repetida puede hacer que se debilite, igual que en los ejemplos anteriores.

Sensibilización, cuando no estás de humor para tonterías

Claro que, si la cosa fuera tan, tan sencilla de entender, los estudiantes de psicología no tendrían tantos problemas en clase y yo no estaría escribiendo este post. Y es que a veces la estimulación repetida no produce habituación, sino otra cosa. Que aparentemente tiene el resultado opuesto.

Imagina que anoche te fuiste de fiesta y hoy estás con un resacón del quince, pero aun así has venido a trabajar. Entonces llego yo y te pregunto que dónde está la grapadora. Tú me miras con ojos vidriosos intentando procesar la pregunta, así estás de lento de reacción porque ya se sabe, noches alegres, mañanas tristes. Antes de que contestes ya he vuelto a la carga: “La grapadora, ¿sabes dónde está?”. Empieza a borbotear en tu garganta lo que quiere sonar a gruñido y ya está otra vez la vocecita “¿no lo sabes? La grapadora. Solía estar aquí. ¿Te suena dónde está?”. Cada vez que te repito la misma puñetera pregunta se te va clavando en el selebro, como un alfiler. Y otra vez la pregunta. Y otra.

En este caso, también hay una estimulación repetida. Pero si en la habituación la repetición del estímulo conduce a que se vaya reduciendo la respuesta, en la sensibilización es al revés. Cada vez que te pregunto te encabronas más porque te molesta mi voz.

El término “sensibilización” ya nos da una pista: estás más sensible. Es como cuando te ponen una inyección muy dolorosa en el brazo, y después alguien te roza sin querer la zona del pinchazo, y esa sensación que normalmente no te molesta ahora es como si te restregaran una lija del siete. Te vuelves más sensible a la estimulación y por lo tanto tus respuestas son más exageradas.

Pero habituación y sensibilización no son el mismo proceso. De hecho, es fácil observar diferencias, aparte de lo evidente de que tienen resultados opuestos (habituación: menos respuesta / sensibilización: más respuesta). Mientras que la habituación es específica del estímulo, la sensibilización no lo es. ¿Y esto que significa? Te lo explico:

La primera vez que me pegaste un grito sin avisar me dio un vuelco el corazón del susto. Cuando fuiste repitiendo tu bromita, esa respuesta (el susto) a ese estímulo (el grito) se habituó. Eso quiere decir que si vuelves a intentar asustarme gritando, no te funcionará. Ahora bien, esto no significa que ahora yo sea Daredevil, el invulnerable hombre sin miedo. No, habrá otras cosas que me asusten. No sé, échale imaginación: enséñame una araña (culona), vístete de vampiro, o de informe secreto de la ANECA. Verás cómo entonces me acojono otra vez. Porque a esos estímulos NO estoy habituado, solo a tu grito. La habituación es, por tanto, específica de un estímulo concreto.

Fíjate en cómo sabemos si la habituación es específica del estímulo: ¡cambiando el estímulo por otro! (y comprobando que la respuesta ya no está habituada a todos los estímulos posibles).

Sin embargo, la sensibilización no funciona así. Si tienes resaca, no solo te molesta mi voz cuando te pregunto por la grapadora de marras. Te molesta la radio con la Rosalía a todo trapo, te molesta el ruido de la impresora… Te molesta todo porque estás sensibilizado, y la sensibilización *no* es específica de un estímulo concreto, sino que es un estado general en el que la respuesta (en este caso, la molestia) se magnifica.

Eso sí, ambos fenómenos se producen por la estimulación repetida. Eso es lo que tienen en común, y tiene que quedar claro para no confundirlos con otros diferentes.

¿Por qué a veces me habitúo, y a veces me sensibilizo?

Por regla general, la estimulación repetida conduce a la habituación. Pero en ocasiones nos puede llevar al otro resultado, la sensibilización. ¿Por qué esta diferencia?

Hay un experimento clásico que se realizó con ratas y que nos da alguna pista (**). Veréis, los animales tenemos un tipo de respuesta que damos cuando algún estímulo, como un ruido fuerte y repentino, nos pilla desprevenidos. Lo llamamos “respuesta de orientación” (“startle response”). En los humanos puede consistir en dar un respingo o levantar la cabeza y abrir los ojos para no perder detalle, y en las ratitas se manifiesta como una postura corporal muy característica, con el lomo arqueado como veis en la imagen. 😍

A unos científicos se les ocurrió la idea de repetir la estimulación (un ruido repentino) que provoca esta respuesta de orientación en ratas (Davis, 1974). Lo que pasa es que había dos grupos de ratas. En el primer grupo, el ruido repentino era de una intensidad media (60 dB), ni demasiado fuerte ni demasiado flojo. En el segundo grupo, el ruido era un bocinazo bien fuerte (80 dB). En la figura tenéis los resultados:

El eje vertical recoge la intensidad de la respuesta de orientación. Como podéis ver, en la figura de la izquierda tenemos al grupo de ratas que escucharon el sonido de intensidad media. La línea descendente indica que, al ir repitiendo ese sonido, la respuesta de orientación (ese “¿qué pasa, qué es ese ruido?”) va descendiendo. Es decir, se va habituando.

Pero en la figura de la derecha tenemos el grupo que se expone al ruido fuerte, ¡y vemos el resultado opuesto! Cuanto más repetimos el ruido, más reacciona la rata. Está sensibilizada.

Es decir, el mismo sonido parece que ha sido capaz de afectar a la conducta de maneras diferentes en función de su intensidad. Estímulos suaves tienden a habituarse (el ruido de fondo de la impresora, el murmullo del aire acondicionado…), reduciendo la respuesta inicial, mientras que estímulos más fuertes sensibilizan con cada repetición, produciendo respuestas más y más intensas (como aquel lunes en la oficina, que te pregunté por la grapadora nada más que unas pocas veces y al final acabé con un ojo morado por algún motivo que evidentemente no viene al caso).

Lo que pasa es que cuando investigamos un poco más, vemos que la cosa es un poquito más compleja y que realmente los dos procesos, habituación y sensibilización, pueden ocurrir a la vez. ¿Pero cómo es posible?

Pues bien, según la teoría de los dos procesos, habituación y sensibilización son precisamente eso, dos procesos independientes que actúan al unísono, en paralelo, cada vez que la estimulación se repite. La conducta que observamos (respuesta que aumenta o que se reduce) es el resultado de la combinación de ambos procesos. Es decir, si la sensibilización es más fuerte que la habituación, eso es lo que veremos en la ratita del experimento, o en el humano con resaca y mal genio. Es una carrera de a ver quién gana.

¿Por qué a veces gana un proceso y a veces el otro? ¿De qué depende? ¿Y por qué la habituación es específica del estímulo que se presenta, mientras que la sensibilización no? Ahí la teoría nos propone una caracterización de los dos procesos que lo explica. La habituación y la sensibilización son resultado de dos sistemas diferentes en el organismo: el sistema estímulo-respuesta es un sistema de aprendizaje que conecta el input sensorial con las respuestas, y por lo tanto admite especificidad (respuestas concretas para estímulos concretos). Este sistema es el responsable de la habituación.

Por otro lado, el sistema de estado (que no implica un aprendizaje en sí) determina nuestra predisposición a responder a estímulos excitantes, en general. Y esta predisposición general aumenta o disminuye según algunos factores como si hemos descansado o no, si estamos nerviosos, si estamos bajo los efectos de alguna sustancia… Este sistema es el que produce la sensibilización. Así se entiende cómo este proceso no tiene esa capacidad de ser específico con algunos estímulos y no con otros, y que lo observemos sobre todo cuando estamos alterados (como aquella vez que viniste con resaca a la oficina y la grapadora no apareció en todo el día, qué cosa más rara y qué irritable estabas, y yo tuve que ir a urgencias porque acabé con un ojo morado por un motivo que no tenía nada que ver con esto).

Adaptación sensorial, fatiga, y otros fenómenos que nos lían

Ya casi acabo, prometido. Y llegamos a una de las partes que más suelen llevar a error a los estudiantes de primer curso. Resulta que hay algunos fenómenos que se pueden confundir con la habituación, pero que *no* son habituación (ni siquiera son aprendizaje), y ya tenemos el lío montado. Así que vamos a ver cómo los distinguimos…

Adaptación sensorial: Bueno, pues aquel día que estaba buscando la grapadora por la oficina, como estabas tan irritable, me salí un momento a la calle a darme una vuelta, a ver si me despejaba. Ya sabéis: Granada, 40 grados en junio, un solazo… Y yo sin mis gafas de sol. A los quince minutos, preocupado porque no se me ocurría dónde podría estar la grapadora, volví a la oficina y me encontré con que habías apagado todas las luces y bajado las persianas. Claro, hijo mío, con la resaca te molestaba la luz, ¿eh? El caso es que como venía de la calle, de estar a la solana, al entrar en la oficina con todo cerrado no veía ni torta. Todo negro.

Y por eso tropecé con algo al entrar, un objeto pequeño al que di una patada sin verlo, y haciendo ruido con el golpe. Tuve que esperar unos minutos para que mis ojos se acostumbraran a la escasez de luz. Y entonces ya podía verte sentado en tu escritorio y refunfuñando que si soy un torpe, que si hago ruido…

Veamos: cuando salgo a la calle, el sol me deslumbra y necesito unos minutos para adaptarme a tanta luz. Y cuando entro en una habitación oscura, lo mismo. Podríamos confundir esta adaptación sensorial con la habituación o con la sensibilización, ya que implica cambios en mi capacidad de responder. De hecho no he sido capaz de esquivar un objeto que había en el suelo.

Pero si lo piensas bien, te darás cuenta de que la adaptación sensorial no tiene nada que ver con la habituación. Primero, la habituación es un fenómeno de aprendizaje que sucede en el sistema nervioso, mientras que la adaptación sensorial ocurre en los órganos de los sentidos (mis ojos, mis oídos). Segundo, la habituación puede ser a largo plazo, pero la adaptación sensorial es muy transitoria, cuestión de segundos o, como mucho, minutos. Por supuesto, la adaptación sensorial no es específica del estímulo: no es que no vea los objetos de determinado tamaño o los de determinado color… es que no veo nada. No hay especificidad. Ostras, ahora que lo pienso: ¿y si el objeto al que di la patada cuando iba todo cegato era la grapadora que buscaba? 😨

La tabla siguiente resume las diferencias entre habituación y adaptación sensorial:

Fatiga: El otro fenómeno en discordia es la fatiga. Si te apuntas al gimnasio y te pones a levantar pesas, notarás cómo al hacer las series hay un punto a partir del cual ya no puedes seguir (ese momento en el que los gurús del gimnasio te miran con aprobación y dicen: eso, eso, “al fallo”, ahí estás entrenando bien). …CINCO… SEIS… Y…. SIEEEEE…. TEHH. <no puedo más>

Vale, pues si justo en ese momento alguien te pide que le acerques un objeto pequeño y más o menos ligero (como una grapadora), y el movimiento implica los mismos músculos que acabas de fatigar, verás cómo no puedes hacerlo. El músculo no puede, se siente, está de huelga.

Claro, esto se podría confundir con la habituación: hay una respuesta que antes podías hacer (coger una grapadora y levantarla del suelo) pero ahora no, y se debe a la estimulación repetida (por levantar las pesas siete veces).   Sin embargo, ahí acaba el parecido entre las dos cosas. La fatiga no es un proceso de aprendizaje, no sucede en el sistema nervioso, no es duradero (por suerte, solo dura un par de  minutos)… Ahí va otra tabla resumen para que no os lieis.

Conclusiones

Me alegro de que hayamos llegado hasta aquí y apenas me haya apoyado en experimentos con ratitas y procedimientos extraños. Al fin y al cabo la habituación es un proceso cotidiano y muy, muy común en los seres humanos, así que para qué complicarlo más. Espero que esto sirva para prevenir algunos malentendidos.

Por cierto, por si alguien estaba preocupado: ¡APARECIÓ LA GRAPADORA! No sé cómo, pero estaba dentro de un postre de gelatina. Algún gracioso ha querido gastarme una broma. En fin.

(*) Como siempre, chiques, voy a simplificar mucho. Habrá inexactitudes y generalizaciones un poco burdas. Pero el objetivo es que se entienda el concepto, y si no simplifico no sirve de nada este post porque para eso tienes el manual de la asignatura lleno de experimentos con ratas, claro.

(**) Tardaban en salir los puñeteros experimentos con ratas. ¿Cómo vamos a hablar de aprendizaje sin mentarlos? De verdad, hace falta repensar cómo enseñamos esta asignatura.

Referencias

  • Davis, M. (1974). Sensitization of the rat startle response by noise. Journal of Comparative and Physiological Psychology, 87(3), 571–581. https://doi.org/10.1037/h0036985
  • Domjan, M. (2015). The Principles of Learning and Behavior. Austin, TX: Wadsworth
  • Glanzman D. L. (2009). Habituation in Aplysia: the Cheshire cat of neurobiology. Neurobiology of learning and memory92(2), 147–154. https://doi.org/10.1016/j.nlm.2009.03.005
  • Prados, J., Fisher, C., Moreno-Fernández, M. M., Tazumi, T., & Urcelay, G. P. (2020). Short- and long-term habituation of photonegative and exploratory responses in the flatworm planaria (Dugesia). Journal of experimental psychology. Animal learning and cognition46(3), 354–365. https://doi.org/10.1037/xan0000256
  • Serpell, E., & Chaves-Campos, J. (2022). Memory and habituation to harmful and non-harmful stimuli in a field population of the sensitive plant, Mimosa pudica. Journal of Tropical Ecology, 38(2), 89-98. doi:10.1017/S0266467421000559

Posted in Aprendizaje | Leave a comment

ESTADÍSTICA VISUAL (IX): Por fin vas a calcular 100 intervalos de confianza

Hay que ver cómo es la estadística y cómo somos capaces de hacer e interpretar análisis complejos… y a la vez que no nos entren en la mollera algunos conceptos básicos. Así de engañosa es. Uno de esos conceptos que se nos atragantan constantemente es el de los intervalos de confianza. ¡Madre mía, las vueltas que le habremos dado! Crees que lo tienes claro, y al cabo de un tiempo, venga otra vez a preguntar por lo mismo. Y venga a mirarlo en la Wikipedia. No hay manera. Vamos a ver si de una vez por todas dejamos asentado este concepto tan resbaladizo, o al menos lo vamos a intentar de una manera diferente, con visualizaciones y simulaciones. ¿Me acompañáis?

¿Qué es un intervalo de confianza?

Hemos hablado de los intervalos de confianza en este blog (aquí, y aquí), con el objetivo de ilustrar el error de muestreo. Pero creo que nunca nos hemos metido a fondo con el concepto, cómo se calcula y cómo se visualiza. Habrá que ponerse las pilas.

A menudo usamos el concepto de intervalo de confianza en el contexto de problemas de estimación. Ya sabéis: ahí fuera, en el mundo real, hay una población que se define con un parámetro (por ejemplo, la edad promedio de todos los jugadores de rugby del mundo, o el máximo kilometraje alcanzado por un Ford Fiesta en todo el país… lo que queráis). Lo que sucede es que las poblaciones son taaaan grandes que son inaccesibles. No es práctico encuestar a todos los jugadores de rugby del mundo, o mirar el cuentakilómetros de todos los automóviles de España. Por eso los parámetros tienen valor desconocido.

Así que en vez de estudiar directamente los parámetros, los vamos a estimar a través de una muestra. En la muestra sí podemos conocer los estadísticos como la media, porque son de menor tamaño y fácilmente calculables. De este modo, podría reclutar por ejemplo 100 jugadores de rugby, y asumir que (si el muestreo está bien hecho), el promedio calculado a partir de la muestra nos ofrecerá una buena estimación del parámetro poblacional.

Es decir, podemos entender la estimación y el muestreo como “viajes” de ida y vuelta entre la población (cuyos parámetros desconocemos) y la muestra (cuyos estadísticos sí conocemos).

Lo que ocurre es que las estimaciones no son perfectas, hay incertidumbre. Puede ser que el estadístico de mi muestra no coincida con el valor del parámetro de la población. O que diferentes muestras de la misma población tengan estadísticos diferentes… Entre otras fuentes de incertidumbre, tenemos ese maldito error de muestreo que os expliqué alguna vez). Así que necesitamos alguna herramienta para comunicar la incertidumbre, y ahí entran los intervalos de confianza.

Un intervalo de confianza viene definido por dos valores (límite inferior y límite superior) que nos indican la incertidumbre que ha rodeado al proceso de estimación. Pero, ¿cómo se interpreta?

La confusa interpretación de un intervalo de confianza

Imaginemos que la edad promedio en nuestra muestra de 100 jugadores de rugby es de 28.5 años. Ese es el valor del estadístico, y también va a ser nuestra estimación del valor del parámetro poblacional. Ahora bien, sabemos que probablemente no serán exactamente iguales, debido al error de muestreo entre otras cosas. Por eso calculamos un intervalo de confianza.

Los intervalos se pueden construir con diferentes niveles de confianza. Generalmente, en psicología usamos intervalos del 95%. Pero son habituales también intervalos del 90% o del 99%. Luego comprobaremos las implicaciones de esta decisión.

Imaginemos ahora que el intervalo de confianza al 95% en este ejemplo va de 25.5 a 31.5 años. ¿Cómo interpretamos este intervalo?

En primer lugar, hay que fijarse en su anchura (en este caso, cubre un total de 6 años). Cuanto más ancho sea el intervalo, mayor incertidumbre en la estimación. Por eso, un intervalo estrecho nos diría que podemos aproximar con bastante precisión el valor del parámetro.

En segundo lugar, podemos interpretar el intervalo como que “hay un 95% de probabilidad” de que el parámetro poblacional esté entre 25.5 y 31.5. Ahora bien, esta interpretación tiene un poco de trampa, o mejor dicho, aunque sea en principio correcta es compatible con algunos errores muy intuitivos y traicioneros. Realmente, hay un 95% de probabilidad de que un intervalo de confianza al 95% contenga la media poblacional. Pero claro, cada intervalo concreto (como el nuestro, 25.5 – 31.5) o bien la contiene, o bien no la contiene, así que ya no es una cuestión de “probabilidad”. Vaya lío. Es que, al ser un concepto de inspiración frecuentista, para entender el intervalo de confianza hay que imaginar experimentos repetidos indefinidamente.

Por eso las explicaciones habituales del intervalo de confianza suelen plantearse tal que así: Imagina que obtienes 100 muestras aleatorias de esa población, y por lo tanto ahora tienes 100 intervalos de confianza. De esos 100, 95 contienen el parámetro buscado, la media poblacional… ¡Pero no sabes si este intervalo en particular pertenece al 95% que sí contiene la media, o al 5% que no la contiene! Es decir, ese 95% de confianza va asignado al procedimiento de cálculo de los intervalos: simplemente te garantiza que, a largo plazo, aproximadamente el 95% de los intervalos que construyas van a contener el parámetro. ¿Se entiende mejor así?

¿Cómo se calcula un intervalo de confianza?

Para entender bien el concepto, tenemos que comprender en primer lugar la intuición que tiene detrás. No obstante, también nos puede ayudar el echar un vistazo a cómo se calcula. ¿Nos ponemos con ello?

Siguiendo con los ejemplos que estamos viendo, un intervalo de confianza para la media poblacional se calcularía de la siguiente manera: vamos a definir un intervalo alrededor de la media muestral (conocida), cuyo tamaño va a depender de (a) el tamaño muestral (cuanto más grande, más estrecho será el intervalo porque la precisión de la estimación mejorará), (b) la dispersión de la muestra (cuanto menos dispersa, más precisión y menos anchura del intervalo), y (c) el nivel de confianza requerido (generalmente, como hemos dicho, 95%). Así, calculamos los dos valores que definen el intervalo, que son sus límites superior e inferior.

En estas fórmulas, sd es la desviación típica de la muestra (standard deviation), y n su tamaño. La constante va a depender de nuestro nivel de confianza deseado. Por ejemplo, para un intervalo de confianza al 95% será 1.96. ¿De dónde sale este número tan extraño, 1.96? Pues bien, es el correspondiente al punto de corte que abarca el 95% central de una distribución normal estandarizada.

Fijaos en cómo la desviación típica está en el numerador de la fórmula (a mayor desviación, más ancho será el intervalo), mientras que la n está en el denominador (a mayor n, menor intervalo). Esto será importante.

Sé que este punto es el más abstracto, aunque tampoco importa mucho si no lo comprendéis del todo. Lo que le estamos diciendo a la fórmula es: imagina una distribución normal estándar, centrada en una media de 0 y con desviación típica 1, y toma el 95% central de la misma (es decir, “corta en -1.96 y +1.96”). Esto valdría para cualquier ejemplo donde asumamos una distribución normal, porque aquí no hay unidades de ningún tipo. Por eso ahora solo falta “traducirla” a las unidades propias de nuestra aplicación, es decir, indicarle cuál es la media y dispersión de nuestra muestra. Por eso multiplicamos ese punto de corte, 1.96 en este caso, por el error estándar de la muestra (desviación típica / raíz cuadrada de n).

Aplicando las fórmulas, podemos calcular el intervalo deseado. Por ejemplo, imagina que en tu muestra de 25 jugadores de rugby el promedio de edad es de 27.3 años, con desviación típica de 2.1. Usando las fórmulas anteriores para un intervalo de confianza al 95%, nos da el resultado siguiente:

Límite superior: 27.3 + 1.96 * (2.1/raíz(25)) = 27.3 + 0.82 = 28.12.

Límite inferior: 27.3 – 1.96 * (2.1/raíz(25)) = 27.3 – 0.82 = 26.48.

Generalmente no vamos a aplicar la fórmula a mano, sino que vamos a usar software que calcule los intervalos por nosotros. Ahora vamos a automatizar el cálculo para permitirnos jugar un poco con R y con los intervalos. Para ello, ve a R y copia el siguiente código:

CI <- function(media, desvt, n, conf = 0.95){
  LInferior <- media - abs(qnorm((1-conf)/2))*(desvt/sqrt(n))
  LSuperior <- media + abs(qnorm((1-conf)/2))*( desvt /sqrt(n))    
  return(c(LInferior, LSuperior))
}

Este código(*) genera una nueva función personalizada que nos permitirá calcular intervalos de confianza dados unos estadísticos muestrales (media, desviación típica y n).

Por ejemplo, hagamos una prueba con una muestra de 20 jugadores de rugby cuya media muestral para la variable edad es de 29.7 años y su desviación típica 4.2. Teclead en la consola de R:

CI(media = 29.7, desvt = 4.2, n = 20, conf = .95)

O simplemente (ya que el programa asume que el nivel de confianza es del 95% por defecto):

CI(29.7, 4.2, 20)

…Que devuelve este resultado:

[1] 27.8593 31.5407

Es decir, que mi estimación para la media de edad poblacional es 29.7, con un intervalo de confianza al 95% de [27.86, 31.54].

Hemos dicho que la anchura del intervalo va a depender de varios parámetros del estudio, en concreto del tamaño muestral (n) y de la desviación típica. Vamos, por tanto, a imaginar que hemos obtenido una muestra con idéntica media muestral, 29.7, pero una desviación típica más pequeña que antes, de sólo 0.8.

CI(media = 29.7, desvt = .8, n = 20, conf = .95)
[1] 29.34939 30.05061

Fijaos cómo se ha reducido la anchura del intervalo de confianza [29.35, 30.05], indicando que hemos mejorado mucho la precisión. La media no ha cambiado, así que ambos intervalos están centrados en torno al mismo valor, 29.7 años.

Vamos a hacer otra prueba modificando el otro parámetro que podía afectar a la precisión de la estimación, el tamaño muestral. Imaginemos que la media muestral sigue siendo de 29.7 años y la desviación típica es de 4.2 años, pero la n es mucho mayor, de 200 personas en vez de 20:

CI(media = 29.7, desvt = 4.2, n = 200, conf = .95)
[1] 29.11792 30.28208

El aumento de muestra también se traduce en mayor precisión, y por tanto en intervalos más estrechos [29.12, 30.28].

También podríamos hacer pruebas cambiando el nivel de confianza, simplemente asignando otro valor entre 0 y 1 al parámetro “conf” (prueba con valores como .90, .99…). Pero creo que lo habéis entendido ya a estas alturas, así que os dejo esa prueba a vosotros y vosotras.

Imagina que calculas 100 intervalos…

Llegamos a la parte interesante.

Por último, vamos a hacer algunas pruebas más para acabar de entender bien este resbaladizo concepto. Ya hemos dicho que, con frecuencia, cuando nos explican qué es un intervalo de confizanza, nos invitan a imaginar qué pasaría si obtenemos 100 muestras de la misma población y calculamos sus 100 intervalos de confianza. Pues bien, ¿sabeis qué? Que no hace falta que lo imagines. Porque vais a hacerlo.

Bueno, por suerte no vamos a calcular los 100 intervalos a mano. Para eso tenemos R 🙂

Copia y ejecuta esta función en R para automatizar el proceso:

generaIntervalos <- function(MediaPob = 0,
                             DesvTPob = 1,
                             n = 50,
                             numMuestras = 100
                             ){
  SampleNames <-c()
  SamplesM <- c()
  SamplesUpper <- c()
  SamplesLower <- c()
  
  for(i in 1:numMuestras){
    
    CurrentSample <- 
      rnorm(n,
            mean = MediaPob,
            sd = DesvTPob)
    SampleNames <- c(SampleNames, paste0("Muestra", i))
    SamplesM <- c(SamplesM, mean(CurrentSample))
    SamplesLower <- c(SamplesLower, CI(mean(CurrentSample), sd(CurrentSample),n)[1])
    SamplesUpper <- c(SamplesUpper, CI(mean(CurrentSample), sd(CurrentSample), n)[2])  }
  
  return(
    data.frame(
      Muestra = SampleNames,
      Media = SamplesM,
      LInferior = SamplesLower,
      LSuperior = SamplesUpper
    )
         )
}

La nueva función generaIntervalos() sirve para producir cuantos intervalos queramos a partir de la misma población de partida, inmediatamente. Pruébala si quieres.

Empezaremos decidiendo unos parámetros poblacionales de partida: ¿cuál es la media poblacional real? ¿y su desviación típica? Generalmente estos parámetros son desconocidos (¡precisamente por eso hacemos estudios y muestreos!), pero como esto es una simulación, vamos a imaginar que los sabemos. También habrá que decidir el tamaño de cada muestra, y cuántas muestras queremos extraer. Por ejemplo, teclea:

generaIntervalos(MediaPob = 25, 
DesvTPob = 14, 
n = 20, 
numMuestras = 100)

Así obtendrás nada menos que 100 muestras aleatorias de 20 participantes cada una, obtenidas de la misma población, y sabiendo que los parámetros poblacionales que definen a esa población son media 25 años, y desviación típica 14 años.

Para facilitarte la interpretación, os voy a poner el resultado en una figura:

¿Qué vemos en esta simulación? Lo primero, dado que cada muestra es aleatoria, los estadísticos muestrales (media y desviación típica) van a fluctuar. Con ellos, como hemos dicho, cambian los intervalos de confianza al 95%. Unos van a ser más anchos y otros más estrechos, y también van a estar centrados en diferentes valores. ¡Cada vez que ejecutéis la simulación os van a salir resultados diferentes, como en la vida real cuando hacemos un estudio!

La cuestión es que, de estos 100 intervalos, 94 han capturado correctamente el valor poblacional para la media (que era 25 años, y está marcado con esa línea azul). Aunque a ti te salgan números diferentes, aproximadamente el 95% de los intervalos que calculemos contendrán la media poblacional, como habíamos prometido. Solo ahora, al haber hecho el esfuerzo de calcular esos 100 intervalos, podemos verlo con toda claridad. Si contemplamos cada uno de los intervalos de manera aislada, solo sabremos que este procedimiento produce intervalos exitosos (contienen el parámetro) el 95% del tiempo, pero NO SABREMOS SI UN INTERVALO EN CONCRETO LO CONTIENE O NO. ¿Se entiende ahora?

Por supuesto, podemos seguir jugando a cambiar parámetros en la simulación. ¿Y si nos da por reclutar muestras mayores? En vez de 20 participantes por muestra, vamos a reclutar diez veces más, 200:

generaIntervalos(MediaPob = 25, 
DesvTPob = 14, 
n = 200, 
numMuestras = 100)

Como veis, hemos ganado en precisión porque ahora los intervalos son mucho más estrechos que antes. Sin embargo, no hemos cambiado el hecho de que el 95% de los intervalos (aproximadamente) van a contener el parámetro poblacional, ya que esta es una propiedad del procedimiento que hemos usado para calcularlos.

Ahora podrías seguir haciendo pruebas y jugando, que es como mejor se aprende, a cambiar detalles de la simulación. Puedes, por ejemplo, usar un nivel de confianza diferente (90%, 99%), o cambiar los parámetros poblacionales. A ver qué pasa.

Imagino que, si este post no os ha servido para afianzar lo que ya sabéis sobre los traicioneros intervalos de confianza, sí que os valrá al menos para que, la próxima vez que alguien os repita “Imagina que calculas 100 intervalos…” le respondáis: “No me hace falta imaginarlo, ya lo he hecho con R”. ¡Hasta la próxima, que espero que sea pronto!

(*) NOTA: el código obtiene el intervalo a través de una distribución normal. Cuando las muestras son pequeñas, conviene utilizar otra aproximación a través de la distribución t de Student. Así, habría que reemplazar la función qnorm(probabilidad) por qt(probabilidad, grados de libertad), siendo los grados de libertad n-1. Cuando la muestra es muy grande (es decir, los grados de libertad tienden a infinito), la distribución t se aproxima mucho a una distribución normal y los dos métodos producen idéntico resultado.

(**) NOTA 2: Cómo me habría gustado haceros una aplicación interactiva para este post. Lo he intentado gracias al paquete Shiny, pero como soy totalmente novato en ese tema y no me ha quedado redonda, lo dejaremos para otra ocasión. Sigo aprendiendo.

Posted in Estadística visual | Tagged , , | Leave a comment

Mi contribución en las UNED talks: Psicología de la irracionalidad en tiempo de pandemia

Qué gozada esto de ir recuperando la normalidad después de que haya pasado “lo más gordo” de la pandemia. Y con esa normalidad progresiva van volviendo los eventos presenciales. En mi caso, el pasado 15 de noviembre estuvimos en la sede de la UNED en Madrid para participar en la edición de 2021 de las UNED talks, con el título de “Psicología y Ciencia para seguir mejorando nuestro mundo”.

Lo cierto es que intimidaba un poco plantarme allí por el lujazo de los otros invitados. Atención al cartel:

  • Roberto Colom (UAM)
  • Helena Matute (Universidad de Deusto)
  • Fernando Blanco (Universidad de Granada)
  • Inmaculada Sánchez-Queija (Universidad de Sevilla)
  • María Xesús Froxán (UAM)
  • Miguel Ángel Carrasco (UNED)

En definitiva, temas muy variados y también enfoques diferentes que dan para reflexionar. Una sesión muy estimulante. Aquí tenéis el enlace a todas las charlas: https://canal.uned.es/series/614acaf2b6092340cf73e225

…Y aquí está el enlace a mi contribución: La psicología de la irracionalidad en tiempos de pandemia. ¿Anti-vacunas? ¿Gente que bebe lejía para evitar la COVID? Todo esto tiene sentido cuando se examina desde el prisma de la psicología experimental.

Si tenéis un rato, os animo a ver cada uno de los videos. Merece la pena.

Posted in Uncategorized | Leave a comment

CURSO DE ESTADESTECA MAL: 8. ¿Cómo decidir el tamaño muestral para tu estudio? ¿Cómo contestar al revisor 2?

Hola de nuevo. Últimamente no me da la vida para actualizar el blog, pero tenía muchas ganas de retomarlo para hablar de algo que nos ha pasado a todas las personas que por algún motivo u otro trabajamos en investigación. Seguro que una de las siguientes situaciones os es familiar:

Situación A: Por fin has diseñado tu estudio. Lo has tenido todo en cuenta: selección de los mejores instrumentos, control de variables… Todo pinta bien. Sin embargo, ahora tienes que planear cómo vas a llevarlo a cabo. Y esto implica, entre otras cosas, decidir el tamaño de tu muestra. Claro, una muestra grande siempre es preferible, pero a menudo no es posible por motivos prácticos. ¿Bastará con 20 participantes? ¿Quizá necesites algunos más? Si el estudio no sale significativo, no podrías descartar que ha sido por la falta de muestra. Entonces, ¿merecería la pena esforzarte para llegar a los 200 participantes, o será demasiado? ¿¿Cómo vas a tomar esta decisión??

Situación B: Acaba de llegarte la carta de decisión de una revista científica. El editor te invita a reenviar tu manuscrito, siempre que respondas a los comentarios de los revisores, especialmente ese Revisor 2 tan pesado. Resulta que el Revisor 2 te pide que justifiques el tamaño muestral de tu estudio. Claro, podrías contestarle la verdad, que no tenías ninguna justificación a priori para el tamaño muestral, que únicamente reclutaste participantes hasta que te parecieron “suficientes”, a ojo. Pero no es eso lo que te pide el revisor. Te está pidiendo que hagas un “análisis de potencia a priori” (a priori power analysis). ¿Qué es eso? No tienes ni idea de cómo contestar y has entrado en pánico. ¡HALLUDA!    

En este post vamos a hablar de análisis de potencia, y vamos a aprender cómo salir de estas dos situaciones tan comunes y, en ocasiones, angustiosas.

Refrescando conceptos

Antes de empezar, conviene recordar algunos conceptos básicos que ya hemos tratado en este blog: tamaño muestral, tamaño del efecto y potencia estadística. 

El tamaño muestral (N) es, simplemente, la cantidad de puntos de datos que reúnes para tu estudio. Por ejemplo, si estás haciendo una encuesta y cada pregunta se la haces una sola vez a cada participante, tu tamaño muestral es el número de respuestas contestadas, o sea, el número de participantes que han respondido.

El tamaño del efecto es la magnitud del efecto, es decir, de la diferencia (si estás comparando grupos o variables), o de la asociación entre dos variables. Por ejemplo, si vas a comparar un grupo experimental con un grupo control, un tamaño del efecto grande significa que los dos grupos son muy diferentes en la variable estudiada. Conviene distinguir entre el tamaño del efecto “real” o poblacional (que hace referencia a la población y por lo tanto es desconocido, y lo asumimos estable), y el tamaño del efecto “observado” o muestral (que es la diferencia o la asociación obtenida en tu estudio concreto, y por lo tanto puede variar si lo repites, debido a las fluctuaciones del error de muestreo).

Por último, la potencia estadística es la probabilidad de obtener un resultado significativo (p< 0.05) en un estudio o conjunto de estudios, asumiendo que el efecto poblacional existe, o sea, asumiendo que es mayor de cero. Cuanta más potencia, más probabilidad de obtener un resultado significativo. Si te dicen que un estudio tiene una potencia de, por ejemplo, 0.80, esto quiere decir que, siempre que el efecto exista, lo veremos el 80% de las veces que repitamos la medición (un 80% de “verdaderos positivos” frente a un 20% de “falsos negativos”). Un estudio de baja potencia (por ejemplo, de 0.20), por su parte, sólo produce resultado significativo el 20% del tiempo, y por lo tanto es poco eficiente (nada menos que el 80% de los resultados obtenidos son falsos negativos). (*)


Los cuatro posibles resultados que puedes obtener en tu estudio.

Como hemos visto anteriormente, los tres conceptos están conectados (ver post anterior). Cuanto más grande es la muestra, o cuanto mayor es el tamaño del efecto, mayor potencia tenemos para verlo. Una vez que se comprende bien esto, la estadística cobra nuevo sentido, y evitamos desastres como el de utilizar muestras ridículamente pequeñas como para detectar el efecto con una probabilidad aceptable (ver este otro post sobre cómo insistir en hacer estudios de baja potencia puede sesgar la literatura).  

Ahora que ya están las ideas claras y frescas en nuestras cabezas, vamos a pensar posibles soluciones a las situaciones que hemos presentado antes. Os recuerdo el dilema: ¿Cómo decidir el tamaño muestral para mi estudio (Situación A)?, o ¿Cómo justificarlo, si es que ya está hecho (Situación B)?

Opción 1. Decidir el tamaño muestral improvisando sobre la marcha (MAL).

Estoy convencido de que todos y todas hemos caído aquí alguna vez. Una estrategia tentadora, sobre todo cuando eres un impaciente o tus recursos son limitados, es la de ir recogiendo la muestra y, de vez en cuando, echando un vistazo a los datos para ver “cómo van”. Si, por ejemplo, tengo N=50 y el efecto no está ni se le espera (imagínate que calculamos el p-valor y es de 0.89, muy lejos de la significación), quizá me desanime y decida cancelar la recogida de datos. Ahora bien, si con la misma N=50 el p-valor está justito por encima del umbral (p = 0.061), seguro que hago un esfuerzo y le echo unos pocos participantes más.

Quizá esto te parezca una práctica inofensiva, pero en realidad es una forma más de hacerse trampas al solitario. Como vimos en un post anterior, cuando la muestra es pequeña, los estadísticos que calculamos a partir de ella fluctúan mucho al meter un dato más o menos, y esto se aplica también al p-valor. Así, no es raro obtener un resultado significativo totalmente espurio que se desvanece al incrementar la muestra. O dicho de otra manera: si sigues este procedimiento de calcular el p-valor y continuar con la recogida de datos cuando es mayor de 0.05, al final está garantizado que vas a obtener un resultado significativo, ¡aunque sea por puro azar! Os recuerdo esta figura (del post anterior) que lo ilustra: si cada día introducimos dos datos nuevos, y cada día calculamos el p-valor, “el viaje” que este va haciendo hasta estabilizarse puede ser de infarto.

El viaje del “p-valor” conforme vamos introduciendo sujetos en un escenario en el que el efecto real es cero (no existe).

De hecho, es justamente por este motivo por el que el revisor de la Situación B te ha pedido que justifiques tu tamaño muestral. En teoría, si calculamos un p-valor tenemos que seguir unas reglas. Y entre estas reglas hay una muy básica que dice que el tamaño muestral se decide antes de recoger los datos, no sobre la marcha, en función de los resultados obtenidos.

Pues bien, lección aprendida. No usaremos la opción 1.

Opción 2. Decidir el tamaño muestral “a ojo”.

La segunda opción es también muy popular, y menos maligna que la anterior, aunque también tiene sus peligros. No es raro que a veces decidamos el tamaño muestral en función de lo que nos parece “razonable”. Por ejemplo: ¿Cuál es la N de estudios similares que se han publicado ya? También hay quien usa reglas de andar por casa, como “tiene que haber veinte sujetos por celda, mínimo” (esta la he escuchado yo infinidad de veces).

El problema con esta aproximación es que, al no basarse en un argumento razonado y detallado, corre el riesgo de simplemente repetir como un zombi los errores del pasado: “Si a Fulanito le publicaron su estudio con N=25, a mí me tiene que funcionar con el mismo tamaño muestral”, o “Este efecto no existe porque he hecho tres experimentos con N=20 y en ninguno de ellos ha salido el resultado significativo”. Ambas conclusiones son erróneas: puede ser simplemente que los estudios estén muy faltos de potencia dado el tamaño del efecto que estás buscando, y de ahí el resultado no significativo.

Y es que no hay que olvidar que, como hemos dicho, tamaño del efecto, potencia y tamaño muestral son tres conceptos conectados. Así, no tiene mucho sentido decidir el tamaño muestral sin pensar en cuál es el efecto que estoy buscando, o qué probabilidad de detectarlo deseo asegurar.

Moraleja: no hay un tamaño muestral “apropiado” que sirva para todas las situaciones ni momentos. Dependerá, entre otras cosas, del efecto que quieras buscar, y también de cuestiones prácticas. Así que la opción 2 también hay que descartarla.

Opción 3. Lo que te pide el revisor (y también está MAL casi siempre): análisis de potencia “a priori”.

Y llegamos a la opción estrella, que me he encontrado numerosas veces en las cartas de los revisores o como recomendación de las propias revistas, y hasta en algunas guías de buenas prácticas. Es lo que llaman el análisis de potencia a priori. ¿En qué consiste y por qué está mal casi siempre que se aplica?

El análisis de potencia a priori es un protocolo para decidir el tamaño muestral que, a diferencia de los anteriores, sí se basa en la información correcta. Es decir, dependerá del efecto que estés buscando y de cuánto quieras arriesgarte a tener un estudio fallido.

Entonces, lo que deberías hacer según este protocolo es:

Paso 1. Examina la literatura para estimar el tamaño del efecto más probable para este fenómeno. Por ejemplo, puedes buscar un meta-análisis donde informen del tamaño del efecto, o bien simplemente promediar los efectos que vas encontrando sobre el tema. Imagina que así llegas a la conclusión de que el tamaño del efecto probable para tu fenómeno es d = 0.81. O sea, un efecto muy grande.

Paso 2. Decidimos un nivel de potencia que sea aceptable para nosotros. Generalmente, por convención, se suele fijar al 80% o 90%. Esto significa que si repetimos el estudio 100 veces, el efecto será significativo en 80 ó 90 de estos intentos, que no está nada mal. Si me conformase con una potencia del 50%, ¡hacer el estudio sería como lanzar una moneda al aire! Mejor no bajar del 80%.

Paso 3. Conocidos los dos valores anteriores, estima la N requerida. Hemos dicho que potencia, tamaño muestral (N) y tamaño del efecto están conectados. Necesitarás mayor N cuanta más potencia quieras conseguir y menor sea el efecto que quieras observar. Por lo tanto, si asumimos que el efecto “real” (poblacional) coincide con nuestra estimación (d = 0.81), podemos calcular cuánta muestra (N) haría falta para obtener el resultado significativo con una probabilidad que hayamos fijado como aceptable (por ejemplo, del 80%).

Hacer los números no es complicado si usas la ayuda del software (como por ejemplo JASP, Jamovi, o el paquete pwr para R). Con este último método, sería tan fácil como teclear esto en vuestra terminal de R:

library(pwr) #Primero cargamos el paquete pwr.

pwr.t.test(power = 0.80, d = 0.81, sig.level = 0.05)

Y obtendríamos este resultado inmediato:

Two-sample t test power calculation 

              n = 24.9236
              d = 0.81
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

El cálculo me indica que necesito una muestra de 25 personas por grupo (N = 50) para detectar ese efecto de d = 0.81 con una probabilidad del 80%. O sea, que ya tengo una justificación adecuada para la muestra de mi experimento. ¡Ya puedo empezar el reclutamiento!

En realidad la lógica de este análisis no está mal, y en principio no tiene nada de malo hacerlo. Lo que pasa es que a menudo debemos aplicarla en un entorno real donde los investigadores e investigadoras no estamos siguiendo las reglas del juego, y por lo tanto aplicar el protocolo nos conducirá al error. Vamos a explicar por qué.

El primer problema de esta técnica es que, generalmente, la aplicamos cuando no debemos. Por ejemplo, en la Situación B descrita arriba. Y es que se llama análisis “a priori” porque se realiza, supuestamente, antes de recoger los datos. …Pero la realidad es que a menudo lo hacemos cuando nos lo pide el revisor, es decir, una vez recogida la muestra y analizados los datos. O sea, mal. Lo que el revisor quiere que le digas es que tu estudio (ya realizado) tenía la capacidad de detectar el efecto (estimado a partir de estudios previos). Pero si los datos ya están recogidos, lo único que puedes determinar es si tu muestra era lo bastante grande o no comparada con el cálculo que has hecho en el Paso 3. Eso es muy poco útil.

Pero hay más pegas. El problema está fundamentalmente en el Paso 1. Estamos dando por sentado que el efecto observado y reportado en la literatura nos da una estimación fiable, no sesgada, del efecto “real” en la población. Esto no es así. Como hemos visto en otros posts, el llamado “sesgo de publicación” hace que pasen a la literatura únicamente los resultados significativos, que son justo los que sobrestiman sistemáticamente el tamaño del efecto. Es decir, si te vas a la literatura publicada, verás efectos grandes como d = 0.81, d = 1.20…, que son exageraciones del efecto real, seguramente mucho más modesto. Los efectos pequeños como d = 0.05 no son significativos con muestras pequeñas, y por eso no se publican. Además, cuanto menor sea la muestra de los estudios, más probabilidad de que la sobrestimación sea muy grande. No en vano los efectos detectados en estudios de replicación con muestras enormes son generalmente más bajos que los estudios originales que intentan replicar (Camerer et al., 2018). ¡Ojo! Este sesgo puede afectar también a los meta-análisis, salvo que pongan algún tipo de medida para contrarrestarlo (mira este post donde lo explico).


Tomar como base para hacer la estimación del efecto poblacional (Paso 1) un “estudio piloto” puede ser una estrategia algo mejor. Un estudio piloto es, por lo general, muy similar al estudio definitivo que planeas realizar, pero con una muestra algo más pequeña, y tiene el objetivo de testar tus instrumentos de medida. Al menos te estarás basando en un dato que no ha pasado el filtro del sesgo de publicación. Sin embargo, tampoco es la mejor opción (Albers & Lakens, 2018), porque seguirás usando el efecto observado en tu estudio (en este caso, el piloto) como estimación del efecto poblacional, a pesar de que esta estimación puede ser muy deficiente, sobre todo con muestras demasiado pequeñas (y generalmente, los pilotos tienen muestras pequeñas). Es decir, seguirás confundiendo, en cierta medida, estadístico (muestra) y parámetro (población).

Una variante del proceso implica no trabajar con una estimación del tamaño del efecto en el Paso 1, sino con el “efecto más pequeño que sea de tu interés”. O sea: imagina que trabajas en el ámbito clínico, y tus motivaciones son prácticas. Un tratamiento que funcione, pero que suponga una mejora minúscula, inapreciable en la vida real, seguramente no merece la pena. Así, podrías por ejemplo decidir que no te interesa ningún efecto menor de d=0.40. Fijarías ese valor en el Paso 1, y decidirías un tamaño muestral que te permita ver efectos de ese tamaño (o mayor) con la probabilidad que decidas. En este caso, el análisis a priori estaría bien empleado, pero sigue presente el problema de decidir efectos son interesantes y qué efectos podemos ignorar.

En resumen, el análisis de potencia a priori es una herramienta que puede funcionar y proporcionar información útil… si la usamos cuando procede, es decir, antes de recoger los datos. Por desgracia, los revisores siempre la piden cuando los datos ya están analizados, y esto nos conduce al desastre.

Opción 4 (LA QUE DEBES PROBAR). Análisis de sensibilidad.

Con el tiempo, el análisis de potencia a priori ha acabado desaconsejándose, al menos como se usa habitualmente (es decir, mal). Quizá en un mundo perfecto, sin sesgo de publicación ni p-hacking, podríamos usarlo, siempre antes de recoger los datos, pero mientras tanto hay que pensar alternativas. Sin cambiar nada realmente esencial con respecto al anterior, el análisis de sensibilidad puede ser una buena opción para la mayoría de los casos cuando estés en la situación B.

Si has intentado hacer un análisis a priori de manera honesta, te habrás dado cuenta de lo enormemente difícil que es observar efectos pequeños. Por ejemplo, para ver una diferencia de d = 0.20 (un efecto que se considera “pequeño”) entre dos grupos con una potencia del 80%, necesitas nada menos que ¡786 participantes!

pwr.t.test(power=0.8, d = 0.2, sig.level = 0.05)

Two-sample t test power calculation 

              n = 393.4057
              d = 0.2
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

Realmente, esto es una cura de humildad. Parece que estamos condenados a estudiar efectos grandes que requieran menos medios, o bien a seguir jugando a la lotería con cada estudio (con potencias muy bajas para ver esos efectos). No podemos invertir miles de participantes en cada estudio que se nos ocurra, ¿verdad? ¿Habría alguna forma de tener en cuenta los aspectos prácticos y económicos en todo esto?

Pues bien, vamos a hacer un análisis de sensibilidad. Así es cómo deberíamos obrar, por lo menos si estuviéramos en la Situación B descrita más arriba:

-Paso 1. Vamos a fijar el tamaño muestral (N). Si estás en la Situación B, el estudio ya está hecho, así que la N es conocida. Si estás en la situación A, por lo menos puedes tener una idea acerca de qué cantidad de datos es factible recopilar. O sea, puedes decidir qué tamaño muestral te puedes permitir dados tus recursos económicos y temporales. Y es que no todo el mundo investiga en una universidad de la Ivy League ni tiene capacidad para recoger cien mil datos para su trabajo de fin de grado. Vamos a suponer que puedo permitirme recoger una N de 100 participantes. Hoy en día, con los procedimientos online, es un tamaño factible.

-Paso 2. Decide qué potencia quieres alcanzar. Es decir, cuánto estás dispuesto a arriesgarte a que el experimento produzca un “falso negativo”. Generalmente, si queremos hacer las cosas bien, fijaremos un nivel de potencia alto, como 80% ó 90%. Cualquier cosa por debajo de ahí ya es demasiado arriesgado.

Paso 3. Calcula cuál es el tamaño del efecto más pequeño que puedes ver con su muestra, al nivel de potencia que has fijado. Como los tres conceptos están relacionados, una vez fijada la N y el nivel de potencia deseado, sabemos cuál es el efecto más pequeño detectable con tu experimento. Piensa en ello como si estuvieras usando una red para pescar. Los peces más pequeños que los agujeros de la red podrán escapar con cierta facilidad. El análisis de sensibilidad te dice qué tamaño tienen los peces más pequeños que puedes capturar con un nivel dado de seguridad (el 80% o el 90% de las veces).

Usando el paquete pwr, puedes hacer un análisis de sensibilidad en una línea:

pwr.t.test(power=0.8, n = 50, sig.level = 0.05)
     Two-sample t test power calculation 

              n = 50
              d = 0.565858
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

Pues bien, si haces (o ya has hecho) tu estudio con N = 100 (o sea, 50 personas en cada grupo), tienes una probabilidad del 80% de ver un efecto d = 0.57 o mayor. Esto podría ser aceptable si piensas que el efecto que estás buscando es relativamente grande. Pero si sospechas que el efecto es pequeño, el análisis te está diciendo: “busca una red con agujeros más pequeños, porque se te van a escapar casi todos los peces menores de ese tamaño”.

El análisis de sensibilidad tiene más sentido antes de realizar el estudio (Situación A), pero, a diferencia del análisis a priori, puede usarse una vez recogida la muestra (Situación B), y por eso creo que puede ser una opción para contestar al revisor 2. Sin duda mucho mejor que hacer un “análisis a priori” que no es “a priori” de verdad, ¿no?

 

A veces, como complemento al análisis de sensibilidad, se pueden utilizar las llamadas “curvas de sensibilidad” o “curvas de potencia”. Es fácil calcularlas a partir de la información que proporciona el paquete pwr o con software como G*Power, y nos sirven para determinar cómo de potente puede ser un estudio en distintos escenarios.

Esta sería la curva de sensibilidad que nos muestra el efecto más pequeño que podemos detectar con una potencia del 80% y diversos tamaños muestrales (desde 5 hasta 100 sujetos por grupo). Como veis, con 5 sujetos por grupo sólo pescamos los peces más grandes, o sea, efectos gigantescos de d=2.0 o más. Pero con 60 sujetos por grupo ya es posible detectar efectos medianos (d=0.50) la mayoría de las veces.

Otra forma en la que se puede presentar la misma información es la curva de potencia. Imaginemos que no sé muy bien qué tamaño tiene el efecto que busco. Podría ser grande (d>0.80), mediano (d=0.50), o pequeño (d<0.20), según las convenciones habituales. Así que voy a simular los tres escenarios, para ver con qué probabilidad podría detectar cada uno de estos tres efectos con mi muestra.

Como veis, la interpretación es la misma. Si mi muestra es pequeña (pongamos que recluto 10 personas por grupo), entonces tengo un 40% de probabilidad de detectar efectos grandes (d=0.8), un 20% de probabilidad de detectar efectos medianos (d=0.50), y nada más que un 7% de probabilidad de detectar efectos pequeños (d=0.20).

Estas figuras me pueden servir para tomar decisiones que involucran toda la información necesaria, además de aspectos prácticos: si, por ejemplo, me es posible reclutar 100 participantes, pero la ganancia en términos de potencia no compensa, quizá me arriesgue a reclutar 80 y reserve los recursos para otro fin. Mirando la curva puedo ver cuánto gano y cuánto pierdo por estas decisiones.

Conclusiones

¡Me ha quedado un post largo y no hemos hecho más que rascar la superficie!

Evidentemente hay más opciones por explorar para dar respuesta al atribulado investigador que se encuentre en la Situación A o en la Situación B. Por ejemplo, en la primera situación (antes de recoger los datos), podríamos emplear un plan de muestreo secuencial (Lakens, 2017), fijar un objetivo de precisión (Rothman & Greenland, 2019), o aprovechar la acumulación de evidencia que permiten los Bayes Factors (Schonbrodt et al., 2015). Por su parte, una vez recogida la muestra (Situación B), también tenemos opciones para contestar al revisor, como simplemente dibujar un intervalo de confianza alrededor del efecto observado en la muestra, de forma que describes cómo de informativo ha sido tu estudio.

En definitiva, todo un mundo de posibilidades, que no se agota en las prácticas más habituales que hemos empleado casi todos los investigadores (las Opciones 1, 2 y 3 que hemos descrito).

(*) Vamos a suponer para este post que el umbral de significación es p = 0.05, como es habitual en Psicología.

Posted in Estadística MAL | Tagged | Leave a comment

ESTADÍSTICA VISUAL (VIII). Gráficos con barras de error: manual de usuario

Hola de nuevo. Ya tenía ganas de ir actualizando el blog, pero este año pandémico tan extraño nos está llevando a todo el mundo al borde del colapso, y atesoramos cada minuto de estar tumbado al sol como si fuera oro. Aun así, siempre me gratifica volver al mundo de la estadística y de las simulaciones, así que aquí llega este nuevo post de verano tardío.

En posts anteriores, aprendimos que los datos y resultados estadísticos se pueden presentar visualmente de distintas maneras: con tablas, y con figuras de distinto tipo. También dijimos que las figuras de barras, un clásico al que todos recurrimos frecuentemente, tienen algunos problemillas (¿recordáis aquello del #barbarplot?). Básicamente, cuando estas figuras están recogiendo un estadístico como la media o la mediana, nos están privando de conocer los detalles de la distribución de los datos, que puede ser muy importante para interpretar el resultado. Y además, tampoco nos dicen nada acerca de la precisión de la medida. Vamos, que contienen únicamente un resumen muy básico de los datos.

Un poco pobre, ¿no? :-/

Una manera de enriquecer las figuras de barras es añadirle unas barras de error (realmente, no siempre se le llama “barra de error”, pero vamos a dejarlo por ahora). La barra de error nos va a marcar un intervalo alrededor del estadístico que está recogiendo el gráfico (usualmente la media), para que lo utilicemos en nuestra interpretación (*). Por ejemplo, si miráis las siguientes dos gráficas correspondientes a dos experimentos, ¿cuál os parece que ha encontrado la diferencia más clara entre los dos grupos? ¿cuál creéis que ha logrado mayor precisión en la medida? Aunque no os estoy dando de momento información básica sobre las barras de error, diríamos que el experimento de la izquierda ha sido más preciso y ha encontrado diferencias más evidentes entre los grupos, porque los intervalos marcados por las barras de error son menores. ¿Verdad?

A ver de qué estudio te fiarías más.

Bueno, pues aunque esta interpretación ha sido sencilla, realmente el trabajo con las barras de error puede ser bastante más complicado, y es de lo que vamos a hablar en el post de hoy.

¿Qué tipo de barras de error empleamos?

Si estás elaborando un gráfico de barras como los de este post, una de las preguntas que tienes que hacerte es qué estadístico debería recoger la barra de error. Y es que hay al menos tres opciones muy extendidas (que te ofrecen en casi cualquier paquete estadístico), y cada una se interpreta de manera diferente: desviación típica (en inglés, standard deviation, SD), error típico de la media (standard error of the mean, SE o SEM), e intervalo de confianza (IC). Además para tomar esta decisión, también es importante saber cuál es el objetivo del gráfico: informar acerca de los datos de la muestra (descripción) o ayudar en el contraste de hipótesis (inferencia).

Paso a paso. Vamos a empezar asumiendo que tu objetivo al hacer la figura es puramente descriptivo: quieres representar tus datos, y simplemente dar toda la información necesaria para que esa información sobre la muestra se comprenda bien. ¿Qué opciones tenemos?

Opción 1. Barras de error con desviación típica (Standard Deviation, SD)

Si la media o la mediana son estadísticos de centralidad (nos dicen en qué valores está centrada la distribución de los datos), la desviación típica es un estadístico de dispersión (nos dice en qué medida los datos se alejan de ese centro de la distribución). Una barra de error que contiene la desviación típica nos está diciendo, por lo tanto, cómo de dispersos están los datos alrededor de la media muestral.

No soy aficionado a poner ecuaciones, pero en este caso, vamos a hacer una excepción. La desviación típica de la muestra (SD) se calcula así:

Si examináis esta ecuación, su estructura os recordará a la de la media aritmética: en el numerador sumamos una serie de elementos, y luego lo dividimos por el total de elementos (n). Y es que, en realidad, la desviación típica no es más que un promedio. En concreto, es el promedio de las diferencias entre cada dato (xi) con respecto a la media muestral. Tal vez ahora se entiende por qué este estadístico sirve para medir la dispersión de los datos. Cuanto más alejados están, en promedio, los datos de la media muestral, mayor es la desviación típica.

Una vez calculada, podemos usar la desviación típica en nuestra figura: las barras de error cubren el intervalo de dos desviaciones típicas, una por encima y otra por debajo de la media. Aquí tenéis un ejemplo de cómo quedarían dos barras de error con distribuciones más o menos dispersas (SD = 30 y SD = 5). He sobreimpuesto los datos reales a la figura en forma de puntos, para que apreciéis en qué consiste esa dispersión. Cada punto es un dato: ¿notáis cómo cambia la distribución alrededor de la media?

La desviación típica refleja la dispersión de los datos

Opción 2. Barras de error con error típico de la media (Standard Error of the Mean, SEM)

Si la desviación típica mide la dispersión en los datos, con el error típico de la media (SEM) vamos a expresar una idea un poco diferente. Sabemos (porque lo hemos visto en el blog, aquí) que cada vez que repetimos un estudio, el resultado va a ser un poquito diferente, debido al llamado error de muestreo. Si tu medida es buena (tu muestra es grande, tus instrumentos precisos), entonces no va a haber demasiada variación entre muestreo y muestreo, sino que las medidas serán bastante consistentes. Pues bien, el SEM nos va a aproximar cómo de precisa o consistente es la estimación de la media poblacional a partir de la media muestral

La fórmula para calcular el error típico de la media (SEM) sería la siguiente:

O sea, que si los datos están muy dispersos (desviación típica grande) o si la n es muy pequeña, tendríamos una SEM grande, es decir, estimaciones poco precisas de la media poblacional.

Entonces, cuando veáis una figura con el error típico de la media en las barras de error, tenéis que comprender que nos están transmitiendo algo acerca de la calidad del estudio: cuanto más pequeño el intervalo que cubre la barra de error, más precisión.

Opción 3. Barras de error con intervalos de confianza (CI)

Sin embargo, la mayoría de las veces el objetivo de nuestro estudio no se reduce a estimar un parámetro poblacional como la media. Muy a menudo queremos poner a prueba hipótesis: ¿funciona este tratamiento? ¿hay diferencia entre estos dos grupos? Es decir, nuestro objetivo, más que descriptivo, es inferencial. Para esos casos puede ser recomendable que nuestras barras de error contengan el intervalo de confianza (recuerda lo que era, y cómo interpretarlo, en este post).

El cálculo del intervalo de confianza es algo más complejo, aunque aún es sencillo como para hacerlo a mano, y de nuevo serviría como una medida de la precisión de nuestro estudio. Cuando el intervalo es muy grande, indica que el estudio ha sido poco informativo.

La ventaja del intervalo de confianza es que podemos escoger un nivel de confianza (generalmente, la costumbre es usar el 95%). La interpretación, aunque un poco engañosa, es directa: si repitiéramos el estudio 100 veces, 95 de los intervalos de confianza contendrán la media poblacional (esto ya lo hemos visto, recuerda este post).

Imaginad que estáis viendo un gráfico con los resultados de un experimento: ¿cómo saber si la diferencia entre dos grupos es significativa? Realmente, deberíamos hacer un test en condiciones (en este caso podría ser apropiada una prueba t), y calcular un p-valor. Si el p-valor es menor de 0.05, el resultado es significativo y concluimos que las diferencias son lo bastante grandes como para no atribuirlas al azar (recuerda cómo se interpreta un p-valor en este post previo).

Pero, más allá de hacer el test pertinente, la figura también puede ayudarnos en el contraste de hipótesis gracias a los intervalos de confianza (**). Si los intervalos de confianza al 95% para las dos medias no se solapan el uno con el otro, podemos decir que la diferencia entre esas dos medias es significativa al nivel p = 0.05.

¿Y si hay un poco de solapamiento entre los intervalos? ¿Diríamos entonces que la diferencia no es significativa? No necesariamente, y aquí es donde hace falta un ojo entrenado. Si el solapamiento es menor de la cuarta parte del del intervalo (o sea, la mitad de uno de sus brazos), entonces la diferencia todavía puede ser significativa, aunque esta regla solo vale para muestras mayores de n = 10 (Cumming et al., 2007) y para contrastes entre grupos independientes (***). La siguiente figura está tomada de ese artículo, y representa visualmente esta idea:

Figura 4 de Cumming et al. (2007)

A continuación, os enseño un ejemplo con datos simulados. He extraído tres muestras de distinto tamaño a partir de dos poblaciones (experimentales y controles). En la muestra de la izquierda (n = 10, es decir, 5 participantes por grupo), los intervalos de confianza están muy solapados, lo que indica que esa diferencia no es significativa. No lo es, de hecho, si hacemos el test correspondiente, t(8) = 0.43, p = 0.68. Sin embargo, al aumentar la muestra podemos incrementar la potencia, es decir, la probabilidad de observar el efecto buscado si es que este existe. Como podéis ver, en la muestra de la derecha (la más grande) los intervalos se han vuelto más estrechos y apenas se solapan, indicando que la diferencia es significativa. Así lo corrobora el test: t(198) = 3.35, p = 0.001.

Los intervalos de confianza pueden orientar en el contraste de hipótesis

En cualquier caso, esta comparación visual no debería reemplazar al test propiamente dicho, que tiene en cuenta otras consideraciones, y en ocasiones nos puede llevar a conclusiones diferentes. Es simplemente una ayuda para que el gráfico pueda contar una historia. En el próximo punto veremos cómo podemos exprimir el potencial de los intervalos de confianza con otra visualización diferente.

Mientras tanto, quiero que veáis una cosa. Hemos comentado antes que error típico de la media (SEM), intervalo de confianza (CI) y desviación típica (SD) tienen significados diferentes, y ahora estamos en situación de comprobarlo.

En la siguiente simulación he generado tres muestras a partir de la misma población. Las tres muestras difieren en su tamaño: pequeño (n= 5), mediano (n=25), y grande (n=100). Ahora, he representado las medias de cada muestra con las tres opciones para las barrar de error que hemos comentado en el post: desviación típica (SD), error típico (SEM) e intervalo de confianza al 95% IC).

Los tres tipos de barras de error, y cómo varían (o no) con el tamaño muestral

¿Notáis algo raro cuando nos movemos de una muestra pequeña (izquierda) a otra más grande (derecha)? Si os fijáis bien, veréis cómo las barras que contienen el error típico y el intervalo de confianza (SEM y CI) se hacen más estrechas cuando aumentamos la muestra. ¿Qué significa esto? Pues que estos dos estadísticos, aunque tengan interpretaciones diferentes, nos informan acerca de la precisión en la estimación (en este caso, de la media poblacional). Cuanto mayor es la muestra, mayor precisión, y por lo tanto intervalo más estrecho.

Sin embargo, los intervalos construidos con la desviación típica permanecen bastante insensibles al aumento del tamaño muestral. ¿Por qué? Porque simplemente indican en qué medida los datos están dispersos, y esto es algo que no tiene por qué correlacionar con el tamaño muestral.

Opción 4. Tamaño del efecto e intervalo de confianza

Por último, vamos a comentar una opción bastante diferente, pero que tiene otras ventajas. Imaginemos que el objetivo del gráfico no es simplemente representar los datos, sino comunicar la presencia (y magnitud) de un efecto estadístico, de forma que nos ayude en el contraste de hipótesis. Es decir, el propósito del mismo no es meramente descriptivo, sino inferencial.

Antes hemos comentado cómo pueden usarse los intervalos de confianza al 95% para intuir decisiones sobre la significación, siempre que se cumplan algunos supuestos. Ya os avisé de que este examen visual no debe reemplazar al análisis estadístico, porque ambas estrategias (examen gráfico y test) están trabajando sobre informaciones diferentes. En concreto, el examen visual trabajaba con la precisión de las estimaciones de las medias, mientras que el test, con su p-valor, está haciendo algo distinto: está cuantificando la magnitud de la diferencia, y diciéndonos si es esperable por azar.

¿Cómo podríamos hacer un gráfico que transmitiese esta información? La respuesta nos la da Geoff Cumming (2013), con su famosa propuesta de “The New Statistics” (aunque de nueva tiene poco). Lo primero que hay que hacer es calcular el tamaño del efecto observado. Puedes repasar este post anterior donde se explica qué es el tamaño del efecto. En el caso de dos grupos independientes, el tamaño del efecto estandarizado (con un estadístico llamado d de Cohen) se obtiene al restar las dos medias y dividir el resultado por la desviación típica de ambos grupos (en realidad, hay varias fórmulas ligeramente diferentes para distintas situaciones). Este tamaño del efecto observado es una estimación del tamaño del efecto “real”, el que existe en la población. Como todas las estimaciones, contiene un margen de error, así que nos gustaría expresar esta incertidumbre por medio de alguna guía visual, como un intervalo de confianza. Es exactamente el punto donde habíamos empezado el post de hoy.

Entonces, necesitamos construir un intervalo de confianza alrededor del tamaño del efecto observado que nos diga cómo de precisa es la estimación. Esto tiene un poco más de complicación, pero numerosos paquetes estadísticos nos simplifican el trabajo. El resultado sería algo como lo que sigue:

Simple y directo: el tamaño del efecto con su intervalo de confianza.

Quizá os recuerde este tipo de figura a las que solemos encontrar en los meta-análisis (forest plots). En general la interpretación es similar. Fijaos en que en vez de representar las medias muestrales y sus intervalos, estamos presentando directamente la diferencia entre cada par de medias (estandarizada), y el intervalo de esa diferencia.

Usando los datos simulados de antes, estoy representando los tamaños del efecto en tres muestras: pequeña, mediana y grande. Si os fijáis, los tres intervalos contienen el valor real del tamaño del efecto en la población (d = 0.30). No es extraño, porque si están correctamente elaborados, el 95% de los intervalos contendrán ese valor. Además, los intervalos varían en su amplitud.

La primera muestra (a la izquierda) ha producido un tamaño del efecto cuyo intervalo de confianza es muy ancho debido a la poca precisión de las muestras pequeñas. El intervalo que he representado, [-1.54, 0.97], incluye el cero. Esto sí lo podemos interpretar como un efecto no significativo, p > 0.05. Siempre que el intervalo no capture el cero, podremos decir que el efecto no es significativo.

Sin embargo, los intervalos calculados para las muestras de tamaño mediano [0.46, 1.73] y grande [0.19, 0.76] no incluyen el cero, así que están produciendo resultados significativos, como corroboramos al hacer los test pertinentes. Es decir, al presentar la información de esta manera, el examen visual nos permite sacar conclusiones sobre nuestras hipótesis: si hemos detectado el efecto o no.

Más aún: existe otro uso (menos conocido) de estos intervalos, y es el de evaluar la potencia del estudio, aunque sea de manera aproximada y a posteriori. Imaginad que nuestro estudio fuera el de la muestra pequeña (a la izquierda). Suele ser peliagudo interpretar un resultado no significativo, ya que no sabemos si (a) realmente el efecto que buscamos no existe, o si por el contrario (b) el efecto sí existe, pero no lo hemos detectado porque el estudio era poco potente. ¿Y ahora qué hacemos? Aunque no es la solución perfecta, sí puede ser informativo elaborar un gráfico como el de arriba. Si lo hacemos, comprobamos cómo el intervalo de confianza al 95% contiene un rango enorme de valores: desde efectos muy grandes (d = 0.97) hasta efectos gigantescos en la otra dirección (d = -1.54). En definitiva, esto sugiere que, independientemente del resultado que hayamos encontrado y del p-valor, el estudio ha sido poco informativo. Habría que plantearse repetirlo con una muestra más grande. Por lo general, este es un uso de los intervalos de confianza que no veo a menudo, y que puede ser muy útil en ciertas situaciones. Mucho mejor que otras opciones como las que comenta en este post Daniel Lakens.

Conclusiones

Espero que en este post hayamos aprendido algunas cosas. La primera, que los gráficos de barras, cuando representan estadísticos de centralidad como la media, deberían ir acompañados de barras de error. En segundo lugar, hay varias formas de obtener barras de error y cada una tiene una interpretación diferente. Un gráfico con barras de error que no especifica qué está representando acaba siendo inútil. Si haces un gráfico de barras, tendrás que escoger el estadístico más apropiado para cada situación (generalmente, los intervalos de confianza al 95% son la opción más útil).

Por último, si tu interés es mayormente inferencial (comunicar si un resultado es estadísticamente significativo o no, o si los datos van en línea con una hipótesis dada), entonces puede ser recomendable presentar un gráfico con una medida del tamaño del efecto observado junto con su intervalo de confianza. No sólo estás comunicando de manera efectiva la decisión con respecto al contraste de hipótesis, sino que puedes hacerte una idea de cómo de potente o informativo ha sido el estudio.

Notas

(*) Nota: De todas formas, incluso usando las barras de error correctamente, los gráficos de barras siguen teniendo problemas. En este link lo explican muy bien.

(**) Nota: Hay que andarse con un poco de cuidado, porque los intervalos de confianza, en según qué situaciones, podrían no ser simétricos (es decir, centrados en la media).

(***) Nota: los intervalos construidos con el error típico de la media (SEM) también se pueden utilizar en el contraste de hipótesis, aunque es un poco más difícil de leer hasta que te acostumbras. Por ejemplo, para que un resultado sea significativo, necesitas que los intervalos SEM estén completamente separados y haya entre ellos un hueco de como mínimo la extensión de medio intervalo. 

Referencias

Posted in Estadística visual | Tagged | 5 Comments

Curso de ESTADESTECA MAL. 7. Cuando eres un impaciente y acabas haciendo p-hacking.

Volvemos con nuestro curso de estadesteca mal, repasando todas las prácticas incorrectas y los conceptos equivocados que plagan la estadística en psicología. Porque ya lo sabes, si a menudo piensas que estás metiendo la pata cuando haces o interpretas un análisis estadístico, esta serie de posts es para ti. 
En el post de hoy vamos a hablar de un concepto que ya ha ido saliendo en entregas anteriores, el famoso p-hacking. Vamos a definir el concepto, usando algunos ejemplos, y vamos a visualizarlo mediante simulaciones en R.

No todos los resultados son iguales

Lo primero que tenemos que recordar es que cuando hacemos un estudio, el resultado puede ser significativo (p < 0.05) o no significativo (p > 0.05).

Si el resultado es significativo, tenemos dos opciones:

  • O bien es un verdadero positivo, y por lo tanto estamos rechazando la hipótesis nula (la de que no hay efecto) correctamente.
  • O bien es un falso positivo, y mi conclusión de que el efecto que estoy observando no se debe al azar es errónea.

Ya sabéis que la probabilidad de encontrar un resultado significativo cuando el efecto existe realmente (verdadero positivo) depende de la potencia, porque lo hemos hablado en posts anteriores (aquí y aquí). Si somos cuidadosos diseñando nuestro estudio, podríamos alcanzar por ejemplo una potencia del 80%. O sea, que si el efecto es real, lo detectaré (resultado positivo) en el 80% de los casos.

La otra situación es más peliaguda. En el caso del falso positivo, el resultado ha sido significativo “por casualidad”. Este tipo de error, el falso positivo, o error Tipo 1 para los amigos, es el que generalmente queremos mantener muy a raya, ya que es particularmente problemático (lo conocimos en este post anterior). Si, por ejemplo, afirmo que una medicina puede tratar una enfermedad y resulta que me equivocaba, estaré poniendo en riesgo las vidas de miles. Por eso fijamos el umbral de significación en p = 0.05, para que el falso positivo, en principio, nunca suba del 5%. …Hoy vamos a ver cómo se puede incrementar esta tasa de error de la manera más tonta.

Pero bueno, como no hay manera de diferenciar un falso positivo de un verdadero positivo, cuando tu estudio es significativo, date por satisfecho/a: ya puedes publicarlo. Enhorabuena.

Por su parte, si el resultado no es significativo, p > 0.05, deberíamos concluir que no podemos descartar que el efecto observado se deba al azar. Como antes, este resultado también puede ser:

  • Un verdadero negativo: es decir, realmente no existe el efecto que estaba buscando.
  • Un falso negativo: el efecto existe, pero mi estudio no ha sido capaz de detectarlo. Generalmente esto sucede cuando la potencia es insuficiente (repasad el concepto aquí).

Como veis, hay cierta asimetría en esta situación. Cuando el resultado es significativo, nos ponemos contentos porque podemos afirmar que hemos “encontrado algo”, y corremos a publicarlo. Cuando el resultado no es significativo, por el contrario, siempre tendremos la incertidumbre de cómo interpretarlo: ¿es un verdadero negativo, o simplemente me ha faltado potencia? Y además, debido al conocido como “sesgo de publicación” (que os cuento en este post), si el resultado no es significativo es muy difícil que lo publique en ninguna revista. Si no hay publicación, no hay beca, no hay financiación, no hay trabajo. Y qué duro es acer la cencia (Cientefico, 2017).

Empeñados en encontrar una diferencia significativa

En esta situación, no es raro que hayamos desarrollado hábitos que, de una manera u otra, consiguen que un resultado no significativo se convierta en significativo. Ojo, me refiero a prácticas que no constituyen en sí un fraude o una manipulación deliberada de los casos, o al menos no en todos los casos. Pueden ser técnicas muy inocentes y sutiles que aplicamos de manera incluso automática.

Estas prácticas se conocen como p-hacking: “torturar” los datos de distintas maneras hasta que p se vuelve menor de 0.05 (Ioannidis, 2005, Simmons et al., 2011). Las distintas prácticas de p-hacking son tan extendidas y tienen un aspecto tan inocente que os van a resultar familiares. Algunas de ellas son:

  • Añadir más participantes a la muestra si vemos que p está cerquita de la significación.
  • Excluir outliers o casos extraños (repasad este post sobre los outliers, si queréis).
  • Introducir una variable moderadora o una covariable que no estaba prevista. Las clásicas son edad y género.
  • Probar a analizar un subconjunto de los datos originales: por ejemplo, sólo las mujeres, o sólo las personas de menos de 50 años, o sólo quienes hayan puntuado en el cuestionario por debajo de un umbral…
  • Cambiar de técnica de análisis. Por ejemplo, si tu modelo de regresión con la edad como variable predictora no acaba de funcionar, podrías cambiarlo por una prueba t en la que comparas jóvenes vs. mayores, tras aplicar un punto de corte arbitrario.

En definitiva, se trata de tener la flexibilidad suficiente para ir probando y, al final, escoger el análisis que más nos conviene para presentar un resultado significativo.

Pero vamos a ver: ¿Quién no ha echado un ojo a los datos una mañana y ha decidido que va a meter unos pocos participantes más de los previstos? ¿Quién no ha probado a introducir en el modelo una covariable para “limpiar los resultados”? Esto lo hemos hecho todos. Sólo ahora empezamos a entender que estas prácticas tan extendidas pueden suponer un problema severo (Head et al., 2015). 

¿Cómo de severo es el problema? Pues veréis, generalmente, estás técnicas no aparecen de forma aislada, sino que se usan una tras otra, hasta conseguir un resultado significativo. La consecuencia es que el error Tipo 1, la probabilidad de obtener un falso positivo, se incrementa notablemente. Por ejemplo, simplemente combinando algunas de estas técnicas, podemos llegar a un % de falsos positivos ¡de más del 60%! (Simmons et al., 2011) ¿Cómo te quedas?

En el resto del post, vamos a intentar entender cómo el p-hacking puede distorsionar los resultados, mediante algunas simulaciones en R que van a representar una de estas prácticas más inocentes.

Simulando el p-hacking con R

Imaginemos el siguiente escenario. Dicen que escuchar música clásica mejora la inteligencia de los bebés (el “efecto Mozart”, Campbell, 1997), así que ¿por qué no funcionaría el mismo principio en adultos? Además, vamos a imaginar que mi teoría dice que este efecto es acumulativo, y es más potente cuantas más notas musicales haya captado mi oído.

Por lo tanto, inspirándonos en nuestra película de cabecera, “La Naranja Mecánica”, hemos creado un método de administración de música clásica “express”. Este método consiste en, simplemente, ponerse unos auriculares y escuchar en bucle las obras completas de Mozart a una velocidad 1000 veces más rápida de la normal. A esta velocidad los violines suenan como una ametralladora de explosiones de neutrones, pero bueno, sigue siendo Mozart. La idea es que, a lo largo de una sesión de dos horas, la exposición a música clásica habrá sido de tal calibre que tendremos que ver ese efecto en la inteligencia.

Así que vamos a probar el procedimiento con un experimento: a la mitad de los participantes, al azar, les tocará exponerse a la música clásica, mientras que a la otra mitad, que hará de control, le pondremos un popurrí de disco de los 70 y trap, también a toda pastilla. Al acabar la sesión, todos harán una prueba de inteligencia, para que podamos comparar los dos grupos.

¿Tiene sentido el experimento? No tenéis que decir que sí, porque da un poco igual. El caso es que, como las sesiones son un poco largas, cada día puedo testar nada más que unos pocos participantes, 3 ó 4. Y como soy un impaciente, al final de cada día voy a mirar qué pinta tienen los datos. ¿Qué es lo que descubriré?

Comenzamos con el código de R que va a reproducir este escenario. Vamos a empezar especificando los parámetros de la simulación. Por ejemplo, al fijar las medias poblacionales de los dos grupos con el mismo valor, 50, estamos diciendo que el efecto que está buscando el experimento no existe en la población (o sea, que el método de tortura auditiva no funciona). Vamos a asumir que el primer día que miro los datos tengo 10 participantes, 5 en cada grupo, y que a partir de ahí hago el experimento a 4 participantes nuevos al día (2 en cada grupo).

Copiad este código en la consola de R y ejecutadlo.

######
parámetros de la simulación:
######
grupo1.n <- 5  #La N de cada grupo el primer día
grupo2.n <- 5
Upperlimit <- 100 #Límites superior e inferior de la variable que estoy midiendo (CI).
Lowerlimit <- 0
grupo1.mean <- 50  #La media poblacional de CI en cada grupo
grupo2.mean <- 50
grupo1.sd <- 10 #Desviación típica poblacional del CI en cada grupo
grupo2.sd <- 10
RealD <- (grupo1.mean-grupo2.mean) / sqrt((grupo1.sd^2 + grupo2.sd^2)/2) #Este es el tamaño del efecto “real”, en la población.
nAdded <- 2 #Incremento de n en cada vuelta
nReps <- 30 #Número de veces que vas a p-hackear

Ahora necesitamos hacer las funciones que forman la simulación. Para ello, simplemente ejecutad este código:

#Función que hace las simulaciones...
runSims <- function(){ 
  grupo1.data <<- round(rtruncnorm(n=grupo1.n, a=Lowerlimit, b=Upperlimit, mean=grupo1.mean, sd=grupo1.sd),0)
  grupo2.data <<- round(rtruncnorm(n=grupo2.n, a=Lowerlimit, b=Upperlimit, mean=grupo2.mean, sd=grupo2.sd),0)
  
  ttest <- t.test(grupo1.data, grupo2.data)
  
  sims <<- data.frame(
    sample = 0,
    meanG1 = mean(grupo1.data),
    meanG2 = mean(grupo2.data),
    sdG1 = sd(grupo1.data),
    sdG2 = sd(grupo2.data),
    n = length(grupo1.data)+length(grupo2.data),
    t = as.numeric(ttest$statistic),
    d = (mean(grupo1.data)-mean(grupo2.data))/
      (sqrt(
        ((grupo1.n-1)*var(grupo1.data)+(grupo2.n-1)*var(grupo2.data))/(grupo1.n+grupo2.n-2)
      )),
    p = round(ttest$p.value, 8),
    sig = ifelse(ttest$p.value<0.05, "yes", "no")
  )
  
}
#Función para hacer p-hack...
pHack <- function(){
  for(i in 1:nReps){
    grupo1.data <<- c(grupo1.data, round(rtruncnorm(n=nAdded, a=Lowerlimit, b=Upperlimit, mean=grupo1.mean, sd=grupo1.sd), 0))
    grupo2.data <<- c(grupo2.data, round(rtruncnorm(n=nAdded, a=Lowerlimit, b=Upperlimit, mean=grupo2.mean, sd=grupo2.sd), 0))
    
    ttest <- t.test(grupo1.data, grupo2.data)
    
    simsNew <- data.frame(
      sample = i,
      meanG1 = mean(grupo1.data),
      meanG2 = mean(grupo2.data),
      sdG1 = sd(grupo1.data),
      sdG2 = sd(grupo2.data),
      n = length(grupo1.data)+length(grupo2.data),
      t = as.numeric(ttest$statistic),
      d = (mean(grupo1.data)-mean(grupo2.data))/
        (sqrt(
          ((grupo1.n-1)*var(grupo1.data)+(grupo2.n-1)*var(grupo2.data))/(grupo1.n+grupo2.n-2)
        )),
      p = round(ttest$p.value, 8),
      sig = ifelse(ttest$p.value<0.05, "yes", "no")
    ) 
    sims <<- rbind(sims, simsNew) 
  }
}

Ya estamos preparados. Vamos a ver qué tal se nos ha dado el primer día de trabajo en el laboratorio. Para ello, simplemente teclead en la consola runSims(). El resultado de mi experimento está guardado en la variable sims, y en mi caso tiene este aspecto*.

sims[1,]
sample   meanG1   meanG2   sdG1   sdG2   n    t      d      p     sig
0        49.60    49.40    7.40   6.07   10   0.05   0.03   0.96  no

¡Qué decepción! Tras haberme pegado un curro de pasar 10 participantes, la cosa no pinta bien. Las medias muestrales son muy parecidas (49.60 vs. 49.40), lo cual indica que el procedimiento express no funciona. La diferencia no es significativa, p = 0.96.

Pero recordad lo que dijimos antes. Nunca podemos estar seguros de si un resultado negativo es un *falso* negativo. Igual es simplemente que me falta potencia, ya que tengo muy poquitos sujetos todavía. Voy a volver al trabajo, a ver qué sucede mañana. …Y aquí tendría la simulación correspondiente al segundo día, con una N=14):

sims[2,]
sample   meanG1   meanG2   sdG1   sdG2   n    t    d    p    sig
1        53.86    48.86    9.56   5.43   14   1.20 0.64 0.26 no

Todavía nada significativo, p = 0.26, pero oye, quien quiere creer acaba viendo al fantasma: ¿pues no está ligeramente más alta la media del grupo experimental? Son datos “prometedores”. ¡Merece la pena insistir!

En eso que sigo dejándome las pestañas con el experimento, y llega el tercer día, cuando me encuentro con esto:

sims[3,]
sample   meanG1   meanG2   sdG1    sdG2    n    t     d      p      sig
2        54.44    44.78    8.80    10.08   18   2.17  1.021  0.046  yes

¡¡¡Sí!!! ¡Lo sabía! Era cuestión de insistir, el que la sigue la consigue. Ahora que tengo una muestra más grande, de 18 participantes, mi resultado es significativo: p = 0.046. ¡Ya puedo invitar a todo el laboratorio a una cena, e ir escribiendo el paper para contar el resultado.

PARA. EL. CARRO.

Vamos a ver, Fernando, ¿es que no te acuerdas de todo lo que hemos hablado sobre el falso positivo? ¿Cómo sabemos que este resultado no es uno de esos que salen por azar?

Pensémoslo un poco. Hasta llegar al tercer día en el que descorchamos el champán, ¿cuántos p-valores hemos calculado? Uno por día, o sea, tres veces. Bueno, pues resulta que los p-valores tienen sus manías, y una de las reglas que hay que seguir para interpretarlos es que sólo hay que calcularlos una vez. Si cambio algo, si echo o incluyo a un participante, si meto una variable más… estoy distorsionando el significado de ese p-valor, inflando la tasa de falso positivo (error tipo 1) por encima del 5%.

En este ejemplo (tan habitual por otro lado), el problema está en lo que se llama reclutamiento con parada opcional (“optional stopping rule”). En vez de fijar un tamaño muestral desde el principio, simplemente voy recogiendo datos, y me detengo sólo cuando el resultado concuerda con mis expectativas (cuando es significativo).

Este procedimiento en sí está condenado a producir un resultado positivo, tarde o temprano. Siempre que el resultado no es significativo al final del día, lo que hago es meter unos pocos sujetos más y darle otra oportunidad. Así, podría pasarme mucho tiempo, muchos días, y acabar encontrando que cualquier conjunto de datos aleatorio va a dar una p < 0.05.

Para visualizar mejor dónde estaba el engaño, vamos a representar el “viaje” que han hecho los p-valores a lo largo de los días que ha durado mi experimento (aquí represento un total de 30 días):

Si me hubiera detenido en el día 3, o en el 5, estaría convencido de que el estudio ha funcionado. Pero como he continuado recogiendo muestra hasta los treinta días, puedo ver claramente que aquello fue un espejismo.

Podríamos creer que los p-valores son educados y se comportan de forma predecible, pero ya veis que no. Bajo la hipótesis nula, todos los valores de p son igual de probables, y con muestras pequeñas se comportan de forma más bien errática: al principio no encontramos un resultado significativo, hacia el tercer día por pura casualidad los p-valores son más pequeños… pero si sigo recogiendo muestra, ya veis cómo hacia el día 9 vuelven a subir.

A la derecha, como propina, tenemos el mismo trayecto, pero ahora con la estimación del tamaño del efecto, la d de Cohen. Dado que el efecto real es 0, todos esos valores que vemos ahí son sobrestimaciones, a veces muy grandes, del efecto real. Conforme añadimos muestra y se contiene el error de muestreo, la d observada en cada día se va acercando al valor real.

¿Qué es lo que habría que hacer para evitar esta forma sutil de p-hacking? Idealmente, hay que especificar el tamaño muestral a priori, antes de recoger los datos. Y nunca ampliar la muestra una vez que ya la he analizado.  

Conclusión

Estamos empezando a entender que podemos alterar totalmente las conclusiones y los resultados de un estudio, de maneras muy inocentes y casi sin darnos cuenta. Sólo con introducir unos pocos participantes más puedo estar inflando la tasa de falso positivo significativamente. Próximamente seguiremos reflexionando sobre otras formas de p-hacking, y sobre sus consecuencias.

Referencias

  • Campbell, D. (1997). The Mozart Effect: Tapping the Power of Music to Heal the Body, Strengthen the Mind, and Unlock the Creative Spirit. New York: Avon Books

*NOTA: como siempre que hacemos simulaciones, cada vez que ejecutemos el código el resultado cambiará, porque los números se han generado aleatoriamente. Si quieres comprobarlo, ejecuta otra vez el código. Y otra más.

Posted in Estadística MAL, Uncategorized | Tagged , | Leave a comment

Curso de ESTADESTECA MAL: 6. Los estudios pequeños arruinan la literatura

¡Estamos de vuelta! Vamos a seguir con esta serie de posts analizando todas esas prácticas estadísticas que, queramos o no, acabamos haciendo mal. Hoy vamos a recuperar dos conceptos ya tratados, la falta de potencia estadística y el sesgo de publicación, para preguntarnos: ¿podrían estos dos factores, conspirando juntos, cargarse completamente la literatura publicada? ¿Deberíamos poner toda nuestra confianza y fe en los famosos meta-análisis (combinaciones de múltiples estudios)? Os lo cuento.

Simulando una literatura con baja potencia

El primero de los conceptos que tenemos que refrescar es el de potencia estadística. Lo hemos comentado ya en un par de post anteriores en la serie sobre estadística visual (aquí y aquí), pero os lo recuerdo: la potencia estadística es la probabilidad de que mi estudio encuentre un resultado significativo, sabiendo que el efecto que busco es real. Es decir, si por ejemplo asumo que las mascarillas de tela pueden reducir la tasa de infección por el SARS-COV19, un estudio con una potencia del 0.50 (50%) sólo podría detectar un resultado significativo la mitad de las veces. Por eso generalmente queremos potencias altas, lo que implica, entre otras cosas, trabajar con muestras grandes. El beneficio añadido de tener muestras grandes es que reducimos el impacto del error de muestreo (como vimos en este otro post), mejorando la precisión de nuestras estimaciones.

Además, la potencia debe ir en consonancia con el tamaño del efecto que estoy buscando, como ya expliqué. Si busco un efecto pequeño, necesito que el estudio tenga mucha potencia (muestras grandes, mediciones precisas), o de lo contrario no podré detectarlo, es decir, no tendré resultados significativos, a pesar de que el efecto sea real.

Lo lógico sería, entonces, que los investigadores diseñáramos experimentos de alta potencia, para asegurarnos de captar los efectos que buscamos aunque sean pequeños, y de paso mejorar nuestras estimaciones. Lo que pasa es que un estudio grande y potente es también costoso. Como resultado, en algunas áreas de la ciencia tenemos un déficit sistemático de potencia. Por poner un ejemplo, usar muestras de unas pocas docenas de participantes sigue siendo relativamente habitual en campos como la nutrición deportiva o la neuroimagen. Esto implica que la gran mayoría de los estudios que se hacen en estas áreas producen (en principio) resultados nulos, no significativos. Pero, ¿qué consecuencias tiene esto para ti, que estás documentándote y leyendo papers para preparar tu TFG o TFM? ¿Cómo puede la baja potencia contaminar la literatura e impedir que tus conclusiones sean correctas?

Ya sabéis que una de las técnicas que más me gustan para aprender de estadística es la simulación: utilizar programas informáticos para representar escenarios posibles, cambiar sus parámetros, y ver cómo esto les va afectando. De modo que voy a reciclar un código de R que vimos en un post anterior para imaginar qué pasaría si, en un área concreta de la investigación, hubiera un déficit de potencia sistemático como el que he descrito. Vamos al lío.

He simulado 10.000 estudios aleatorios que investigan un mismo efecto. Este efecto es real, y tiene un tamaño del efecto poblacional de d=0.3, es decir, un efecto pequeño a moderado. Os recuerdo que en la realidad no podríamos conocer este dato, ¡es lo bueno que tienen las simulaciones, que me lo puedo inventar! Cada estudio tiene una muestra que a priori es poco potente: N = 20 (comparamos dos grupos de 10 personas).

plot01_pcurva

Este gráfico, como ya os he contado otras veces, es la distribución de los 10.000 p-valores que he calculado. Solamente una porción de los estudios, marcada en naranja, ha producido un resultado significativo (p < 0.05). En este caso, alrededor un 10% de los resultados son significativos, lo que implica que en esta simulación hemos encontrado una potencia de aproximadamente el 10%, o 0.1. ¡Una birria! ¡Un derroche!

Primera moraleja: Si leéis un estudio donde dicen que el tamaño del efecto es de d=0.3 o menor, y la muestra es de N=20 o menor… O bien han tenido una suerte increíble (solo un 10% de los estudios deberían dar resultado significativo), o bien se están callando los otros 9 estudios donde el resultado no era significativo. O bien… hay algo raro.

Bueno, alguno estará pensando, ¿y qué si se están derrochando los recursos en hacer estudios poco potentes? Siguen siendo estudios válidos, pueden aportar información. Sí, claro, es cierto. Pero con matices. En primer lugar, antes os comenté que los estudios con baja potencia también producen estimaciones poco precisas de los efectos. Por ejemplo, en nuestras simulaciones sabemos que el efecto real es d=0.3, y efectivamente, el efecto promedio observado en los 10.000 estudios se acerca mucho a ese valor, ¡pero con mucha dispersión! Veis que hay muchos estudios con estimaciones del tamaño del efecto de d>1, o incluso cercanos a d=2… Y también un número nada despreciable de estudios que se equivocan en el signo, es decir, estiman efectos negativos, que indicarían una diferencia entre grupos, pero en la dirección contraria, como por ejemplo, encontrar que usar la mascarilla facilita la propagación del virus. ¿Lo veis?

plot02_dplot

De nuevo, podemos tener a algún escéptico moviendo la cabeza, pensando “¿Y qué más da? Lo importante es que los estudios no están sesgados, simplemente carecen de precisión por tener muestras pequeñas”. Y es cierto, tiene razón: el promedio del efecto que hemos observado en nuestros 10.000 estudios (punto blanco en la figura) se acerca mucho al valor real (línea vertical). Además, contamos con una herramienta que nos permite agregar múltiples estudios en uno solo, para estimar el tamaño del efecto combinado, la técnica conocida como “meta-análisis”. Podríamos hacer meta-análisis y simplemente no confiar demasiado en los estudios aislados. ¡Caso cerrado!

De hecho, a modo de experimento, aquí tenemos un meta-análisis con los primeros 10 estudios de esta simulación. La estimación del efecto, que se representa con ese diamante que veis ahí, se acerca mucho a la d=0.3, que sabemos que es el valor correcto. Lo que pasa es que hay tanto ruido en los datos, tan poca precisión, que ni agregando 10 estudios conseguimos que sea significativo.

forest04

Pero incluso este escenario peca de optimista. Y lo es porque la literatura publicada no tiene el aspecto que os estoy enseñando en estas figuras, debido a un proceso conocido como publicación selectiva, o sesgo de publicación, del que ya hablé en el anterior post. En pocas palabras: el sesgo de publicación consiste en que determinados resultados tienen más facilidad que otros de verse publicados. Por ejemplo, los estudios con resultados significativos o que encajan con las teorías y expectativas actuales se publican más fácilmente que los estudios no concluyentes o que no producen resultados significativos.

Entonces, ¿qué pasa si tenemos un montón de estudios de baja potencia, y ahora seleccionamos sólo los positivos para que se publiquen? ¿Puede eso sesgar, y por lo tanto contaminar la literatura? ¡Claramente sí!

En esta figura, volvemos a representar los tamaños del efecto observados en nuestras simulaciones, sólo que ahora he marcado en amarillo los resultados significativos y que van en la dirección esperada (positivos). Como podéis comprobar, aunque el promedio de efectos observados de *todos* los estudios sea bastante correcto, cuando sólo consideramos los significativos estamos inflando enormemente nuestra estimación: nos da una d promedio de casi 1.2, que es un tamaño INMENSO. Para que os hagáis una idea, la diferencia de estatura promedio entre hombres y mujeres viene a ser de d=1, así que este efecto que hemos detectado es más grande, y a todas luces falso.

plot03_dplotsig

¿Cuáles son las consecuencias de tener una literatura repleta de efectos inflados? La primera ya la hemos dicho: los meta-análisis van a dejar de ser tan útiles para poner algo de orden. Ved lo que ocurre cuando aplicamos el meta-análisis a lo loco y sin pensar sobre algunos de los estudios que han sido significativos. Ahora el meta-análisis es significativo, y ofrece un tamaño del efecto exagerado, que duplica con creces el valor real. Por eso nunca os creáis un meta-análisis que no incorpore algún tipo de corrección para el sesgo de publicación. Agregar docenas, o incluso cientos, de efectos sesgados solo produce conclusiones también sesgadas. Cuidadín.

forest03

Sigamos con el escepticismo: ¿es tan grave que los tamaños del efecto estén sobrestimados? Quiero decir, leyendo esta literatura, me queda claro que el efecto existe, o sea, que usar mascarillas reduce la propagación del virus. Simplemente tengo que ignorar la magnitud del efecto, porque por culpa de la baja potencia y del sesgo de publicación, este no es fiable. ¿Podría valer así?

Bueno, pues de nuevo, no es una opción muy recomendable en la práctica. ¿Recordáis que os hablé del análisis de potencia a priori? En teoría, los investigadores diseñamos nuestros estudios para que tengan potencia óptima, y esto implica basarse en la literatura para tener una idea de cuál puede ser el tamaño del efecto que estoy buscando. Pero claro, si la literatura me ofrece efectos inflados, multiplicados varias veces por su tamaño real, me está condenando a diseñar sistemáticamente estudios de baja potencia, en la creencia de que las muestras pequeñas son suficientes. O sea, que la situación nos mete en un círculo vicioso: como los estudios son de baja potencia y sólo publicamos los que exageran la estimación, seguiremos haciendo estudios con muestras insuficientes.

Arreglando el mundo: potencia aceptable

Otro aspecto bueno que tienen las simulaciones es que, con ellas, es muy fácil “arreglar el mundo” y ver qué pasaría si hiciéramos las cosas bien. Ojalá en la vida real fuera tan sencillo. Vamos a ver qué ocurre cuando los estudios tienen buena potencia, muestras grandes, mediciones precisas…

Repetimos las simulaciones: de nuevo, 10.000 estudios sobre un efecto pequeño, d=0.3, pero ahora con muestras grandes, N = 300 (150 en cada grupo).

plot04_pcurva

¡Cómo ha cambiado la cosa! Ahora un 75% de los estudios tienen resultados significativos, es decir, hemos incrementado la potencia al 75%, que ya empieza a ser un valor aceptable.

Bueno, y las estimaciones del tamaño del efecto, ¿habrán mejorado en precisión? Pues claro que sí: como veis, ahora el rango de valores es bastante más estrecho. No se ven muchos estudios sobrestimando groseramente el efecto, como antes:

plot05_dplot

¿Y qué pasa con el sesgo de publicación? ¿Seguirá estropeando las estimaciones? Podemos ver que ahora su efecto es bastante menos pernicioso: el efecto se “hincha” un poco cuando sólo miramos los resultados significativos, pero mucho menos que en el escenario de baja potencia que habíamos visto antes.

plot06_dplotsig

El motivo es que, cuando la muestra es pequeña (baja potencia), hace falta observar un efecto muy grande para que el resultado salga significativo. Así que, si solo se publican los resultados significativos, estamos basando nuestras conclusiones en esos pocos estudios con observaciones más extremas y exageradas.

Conclusiones

Si has acabado este post, enhorabuena por tu paciencia. Con un poco de suerte, habrás llegado a la conclusión de que, una vez más, tenemos que ser críticos con la literatura publicada. Generalmente, los efectos que se publican en áreas donde las muestras son poco potentes (ya sabéis, N = 15, N = 20…) están hinchados y no hay que tomarlos muy en serio, ni siquiera en un meta-análisis. Afortunadamente, hoy en día existen técnicas para estimar la magnitud de la distorsión introducida por el sesgo de publicación. Si lees un meta-análisis y no dice cómo ha tomado en cuenta la publicación selectiva de resultados… mala cosa.

¡Otro día seguimos!

Posted in Estadística MAL | Tagged , , , | Leave a comment

Curso de ESTADESTECA MAL: 5. ¿Por qué no deberías creer muchos de los resultados que se publican? Una disección de la literatura científica

Ahora que todo el mundo está confinado en casa por culpa de un peligroso bicho, he pensado que era buen momento para recuperar el blog, sobre todo porque la ansiedad del momento no me permite concentrarme en otras cosas. Esta vez voy a hablar de algo un poco diferente. Mi plan es demostraros, con un par de simulaciones de R, por qué no podemos creer una parte apreciable de la literatura científica publicada. ¿Quiere esto decir que los científicos/as están mintiendo? No exactamente, como veremos. Vamos allá.

Cuatro tipos de resultado

Para hacer nuestras simulaciones, voy a tener que crear un modelo que represente el proceso que estamos intentando describir, en este caso, el de publicación de un artículo científico. Lo primero que tenemos que hacer es considerar que cuando los investigadores/as realizamos un estudio, generalmente estamos poniendo a prueba una hipótesis. Por ejemplo: ¿Correlacionarán la ansiedad académica y el estrés en los estudiantes? ¿Funcionará este nuevo fármaco para tratar la diabetes? En cualquiera de estos casos, los investigadores hacen una predicción (la correlación entre ansiedad y estrés es mayor de cero, el fármaco reduce los síntomas de la enfermedad con respecto a un control…) que es puesta a prueba en el estudio, mediante un conjunto de técnicas que llamamos “contraste de hipótesis”, o “contraste de significación para la hipótesis nula” (NHST, por sus siglas en inglés). La lógica del NHST la hemos cubierto ya en un post previo, que tenéis aquí.

Por abreviar, en el estudio se obtiene un estadístico, llamado “p-valor”, que nos indica cómo de improbable es el resultado observado si asumimos que la hipótesis nula es cierta, es decir, que el resultado se debe únicamente al azar. Si el resultado del estudio es significativo (generalmente, p < 0.05), rechazaremos provisionalmente la hipótesis nula. Si el resultado no es significativo (p > 0.05), diremos que no podemos descartar que la hipótesis nula sea cierta, es decir, que no podemos decir que el resultado no se deba enteramente al azar. Fijaos en un detalle curioso: en este proceso, en ningún momento se habla directamente de la hipótesis que tenía el investigador en mente, conocida como la hipótesis alternativa. Simplemente se toma una decisión sobre si descartar o no la hipótesis nula para un estudio concreto.

Lo que pasa es que, como vimos en un post previo, el error de muestreo es bastante traicionero, y puede conseguir que, por puro azar, observemos resultados en nuestra muestra que no se corresponden con la realidad (con la población). Así que la situación quedaría recogida en una tabla como esta:

Los cuatro tipos de resultado que puedes encontrar en un estudio científico.

Dado que la hipótesis que plantea el investigador puede ser correcta o incorrecta, tenemos dos formas de acertar y dos formas de equivocarnos: si la hipótesis alternativa era correcta y el p-valor significativo, estamos ante un “verdadero positivo”. Por el contrario, si la hipótesis alternativa era correcta, pero el p-valor no era significativo, estamos ante un “falso negativo”, o “error Tipo II”. Un “falso positivo”, también conocido como “error Tipo I”, aparecerá cuando nuestra hipótesis de partida era incorrecta, pero nuestro resultado es significativo. Por último, si nuestra hipótesis era incorrecta y el p-valor es no significativo, habremos dado con un verdadero negativo. En total, cuatro tipos de resultado que nos podemos encontrar en cualquier estudio que emplee contraste de hipótesis.

Ahora vamos a plantearnos en qué proporciones se distribuyen en la literatura publicada estos cuatro tipos de resultado. Idealmente, para que fuera plenamente fiable, querríamos que la literatura contuviese cuantos más verdaderos positivos y negativos mejor, y nos gustaría que no tuviera mucha representación de falsos resultados, ¿verdad? En otras palabras, querríamos que el proceso de publicación actuase como un filtro que dejase pasar solo los resultados verdaderos. Ya veremos que eso entra en el terreno de la utopía…

El proceso de publicación en un mundo ideal

Vamos a empezar a simular el proceso de publicación con R. Para ello, tenemos que definir un modelo que nos permita saber qué estudios se van a publicar y qué estudios no. Evidentemente, el modelo será una simplificación muy burda de la realidad, mucho más compleja, pero estamos aquí para aprender y reflexionar…

Comencemos planteándonos qué porcentaje de las hipótesis que los científicos y científicas se plantean son correctas. Podría ser razonable asumir que en algunas áreas los expertos tienen una capacidad predictiva con alta precisión, de forma que prácticamente sólo plantean hipótesis correctas. Sin embargo, en el contexto de la psicología, donde no tenemos teorías bien desarrolladas y aún discrepamos en asuntos fundamentales (como el de la medición, o incluso el objeto de estudio), creo que es más sensato admitir que, muy a menudo, los investigadores plantean hipótesis que no se corresponden con la realidad. En principio esto no tiene nada de malo, puesto que así también se puede avanzar: basta con hacer estudios y comprobar que estas hipótesis incorrectas no acumulan evidencia a su favor.

En resumen, y siendo generosos, vamos a asumir que la probabilidad de atinar con una hipótesis correcta es de 0.6 (es decir, el 60% de las veces que planteamos una nueva hipótesis, esta es cierta).

A continuación, ¿cuál será la probabilidad de obtener un resultado significativo? Dependerá, lógicamente, de si la hipótesis planteada es cierta o no. Si es cierta, debería ser más fácil encontrar un p-valor que la sostenga. En concreto, si la hipótesis en cierta, la probabilidad de obtener un resultado significativo se llama potencia estadística. Si necesitas refrescar este concepto, no te preocupes, repasa este post previo. Por convención, se dice que un valor aceptable de potencia estadística no debe ser inferior a 0.8. Es decir, deberíamos diseñar nuestros estudios de manera que, si de verdad el efecto que buscamos existe, lo encontremos el 80% de las veces.

¿Cuál es la probabilidad de obtener un falso positivo? En este caso es también una cantidad conocida. Cuando planteamos una hipótesis incorrecta (es decir, un efecto que no existe realmente), imponemos un criterio para que el error Tipo I (falso positivo) no ocurra más del 5% de las veces (revísalo en este post si te hace falta). Por lo tanto, la probabilidad de este tipo de resultado es 0.05, ó 5%.

Ahora continuamos. El estudio está realizado, y el análisis ha sido significativo o no. Queda la tarea de escribirlo e intentar publicarlo en una revista. Es bien conocido que este proceso no es del todo neutral, pues se ha documentado la presencia de sesgos de publicación. Fundamentalmente, existe un sesgo a favor de los resultados significativos. Es decir, a las editoriales no les gusta publicar resultados no concluyentes, o no significativos. Esto quiere decir que es más fácil publicar un resultado significativo (sea auténtico o falso) que uno resultado no significativo. Así nace también el concepto del “cajón de los fracasos”, conocido como “the file drawer problem”: una buena parte de los resultados, sea por no ser significativos o por otros motivos, acaban sin publicarse. Esto quiere decir que echamos a perder muchísima información que podría ser valiosa, junto con otra que no.

Para modelar este sesgo de publicación, vamos a asumir que el 50% de los resultados significativos se publican, pero solo el 1% de los resultados no significativos, independientemente de que sean resultados verdaderos o falsos. En este caso, los números me los he inventado, pero podrían ser una opción razonable (agradecería comentarios, es fácil rehacer la simulación con otros valores de partida).

Ya tenemos todos los elementos que componen nuestro proceso (simulado) de publicación, de forma que podemos averiguar cómo de probable es que cada uno de los cuatro tipos de resultado de la tabla acabe publicado en la literatura.

Aquí tenéis el código de R que permite hacer la simulación completa. En cada paso del proceso, utilizamos una distribución binomial para decidir si el estudio sale significativo o no, o se publica o no:

H <- 0.6 #probabilidad de proponer una H correcta.
power <- 0.8 #probabilidad de detectar un efecto que existe.
alpha <- 0.05 #probabilidad de detectar un efecto que no existe.
PubPos <- 0.5 #Probabilidad de publicar un resultado significativo.
PubNull <- 0.01 #Probabilidad de publicar un resultado no significativo.
nSims <- 10000 #Número de simulaciones.
  
sims <- data.frame(H = rbinom(nSims, 1, H))
sims<-
  sims %>%
  mutate(PSig = (H*power)+((1-H)*alpha)) %>%
  mutate(Sig = rbinom(nSims, 1, PSig)) %>%
  mutate(tipo = 
           ifelse((H==1)&(Sig==1), "True Positive",
                  ifelse((H==1)&(Sig==0), "False Negative",
                         ifelse((H==0)&(Sig==1), "False Positive",
                                ifelse((H==0)&(Sig==0), "True Negative", NA
                                ))))) %>%
  mutate(Publish = rbinom(nSims, 1, ((Sig*PubPos)+((1-Sig)*PubNull))))

El resultado de la simulación es el siguiente:

En un mundo ideal, podríamos confiar en la literatura científica.

Así es la disección de la literatura científica en un mundo ideal. En la literatura publicada (derecha) proliferan los resultados significativos (un 94%), por efecto del sesgo de publicación. Sólo una mínima parte de los resultados publicados son nulos (no significativos). La probabilidad de encontrarse con un falso positivo es incluso algo menor a la probabilidad nominal del error Tipo I (4%). Sólo es una pena que tengamos en el cajón (izquierda) un montón de resultados aparentemente válidos: verdaderos positivos, y sobre todo verdaderos negativos. Pero no es algo muy grave, y por lo menos el proceso ha filtrado correctamente los falsos negativos, que es lo que más nos interesaba.

Bah… Contened la emoción. No os creáis nada de esto. Como suelen decir de los modelos matemáticos, “garbage in, garbage out”. Y es que el modelo es simplista, pero además hemos partido de unos supuestos que en la realidad sabemos que no se sostienen. Vamos a ver por qué.

Disección de la literatura en el mundo real

Es que vamos a ver. La simulación anterior se ha basado en números óptimos, increíbles. La realidad va a ser muy distinta. A continuación voy a repetir la simulación con otros valores que creo más cercanos a la realidad.

Para empezar, ¿es sensato asumir que más de la mitad de las veces que plantemos una hipótesis ésta sea correcta? A mí ya de entrada me parece una exageración, especialmente en psicología. Aun así, como no quiero que sea el foco de este argumento, voy a dar el supuesto por bueno: seguiremos asumiendo que el 60% de las hipótesis son, a priori, correctas.

Hemos dicho que la potencia mínima recomendable a la hora de diseñar un estudio es del 80%. Algunos autores proponen más, un 90%. Esto requiere muestras muy grandes de participantes, y en principio garantizaría que no hacemos estudios faltos de potencia que pasen por alto los efectos que estamos buscando. Sin embargo, hacer un estudio con buena potencia es muy caro. Casi nadie sigue la recomendación del 90%, ni del 80% siquiera. Yo sigo encontrándome con artículos en revistas de alto impacto con muestras de 10 participantes por celda. ¿Cuál sería un valor más realista de la potencia en psicología? Esto depende muchísimo del área de estudio (no es lo mismo el área de personalidad que la de social o la de neurociencia), pero algunas estimaciones nos dejan bastante mal. Por ejemplo, hay estudios que nos asignan una potencia promedio del 50%, que es como lanzar una moneda al aire, e incluso todavía peores, rondando el 30%.

Treinta. Por. Ciento.

En fin, que sí, que tenemos un problema serio de potencia. Actualizaremos la simulación con este dato.

Más problemas que nos impone la dura realidad. Hemos dicho que la tasa de error Tipo I debería mantenerse por debajo del 5%, ¿verdad? Bien, pues tampoco es así en la vida real. ¿Habéis oído hablar del p-hacking? Se trata de un conjunto de técnicas, algunas de ellas muuuuy extendidas, que consisten en alterar el proceso de análisis de datos para obtener un p-valor significativo. Por ejemplo, es habitual que la gente pruebe distintos tipos de análisis hasta dar con el que mejores resultados produce, o excluya participantes sin un plan previo… Debo aclarar que, aunque el p-hacking se considere una práctica cuestionable, no siempre es premeditado, ni se hace con la intención de engañar. De hecho, puede ser muy sutil. En cualquier caso, y juicios aparte, ahora nos interesa tener una estimación de cómo de grave es el problema, es decir, cómo de fácil es conseguir mediante el p-hacking que un resultado no significativo se vuelva significativo. Pues bien, agarraos a la silla, porque un estudio se dedicó a calcularlo y…

Probar distintas técnicas de análisis hasta obtener un resultado significativo: la receta para el falso positivo.

Eso es, ¡puede llegar al 60%! Es una barbaridad. Por supuesto, esto no quiere decir que todos los estudios se hayan p-hackeado en tal grado. Siendo conservador, para la nueva simulación voy a asumir que, al tener en cuenta que hay algunos estudios p-hackeados, la probabilidad del falso positivo se incrementa desde un 5% hasta un 25%.

En cuanto al sesgo de publicación, lo vamos a dejar como estaba, que bastante grave era en la primera simulación.

Con estos nuevos datos, he rehecho las simulaciones y obtengo el siguiente patrón:

La triste realidad de la literatura publicada.

¡Hay más de un 30% de la literatura que son falsos positivos! Es decir, son resultados significativos que se usan para apoyar la existencia un efecto que no existe realmente. La pena es que el sesgo de publicación, esa preferencia por publicar los resultados significativos, impide que pasen a la literatura gran parte de los negativos verdaderos, que podrían compensar a los falsos positivos.

Conclusiones

No puedo afirmar con rigor que los resultados de la segunda simulación se acercan más a la realidad que la primera figura. No puedo, pero vamos, que lo creo. Por desgracia. La consecuencia es que hay una porción nada desdeñable de la literatura científica que presenta conclusiones falsas. ¿Tal vez estoy siendo demasiado pesimista? Hay quien iría más lejos todavía, o si no leed a Ioannidis.

¿Cómo separar el grano de la paja? Esto es lo más complicado. Muchas veces no lo podemos saber. En ocasiones, los falsos positivos se delatan por sus números imposibles: muestras pequeñas, abundancia de resultados significativos, análisis de muchas variables dependientes o indicadores a la vez… Pero admito que en el resto de los casos, es imposible diferenciar a simple vista los resultados poco fiables. Creo que las revistas podrían dar un paso al frente y ayudarnos un poco, simplemente relajando sus criterios para permitir la publicación de resultados nulos con más frecuencia. Esto tendría la consecuencia directa de que podríamos confrontar un falso positivo (obtenido por azar) con otros estudios que no encuentren el mismo efecto. A la vez, al no exigir un umbral de significación para la publicación, seguramente descendería la incidencia de algunas formas de p-hacking, al perder incentivos.

Posted in Estadística MAL, Uncategorized | Tagged , | Leave a comment