Fernando Blanco

Así que quieres usar ChatGPT en el aula, ¿eh? Algunas reflexiones de un docente universitario

Posted on June 9, 2025 by Fernando Blanco

Pues resulta que por motivos profesionales llevo unos días pensando y debatiendo mucho acerca de esta cuestión: cómo gestionamos el hecho (real y actual) de que el alumnado utiliza herramientas de Inteligencia Artificial en el contexto académico, y lo hace de manera masiva. ¡Es el tema de moda!

El caso es que veo a mis alumnos y alumnas, y usan ChatGPT para todo. Le preguntan cosas que les costaría tres segundos responder por otra vía (más directa y fiable). La usan para conversar y pasar el rato. Confían en las respuestas ciegamente y a veces lo que más me flipa es que confían aunque contradiga la realidad manifiesta. ¿A quién vas a creer, a tus propios ojos o a ChatGPT? Pues eso. Esto último no es sorprendente, y lo demuestran investigaciones que indican que hemos construido una máquina particularmente persuasiva, para lo bueno (por ej., sacarte del pozo de las teorías conspirativas; Costello et al., 2024, 2025) y para lo malo (por ej., si la respuesta de la IA se equivoca puede empeorar tu rendimiento en una tarea muy sencilla de resolver; Vicente & Matute, 2023).

Dado que se utiliza tantísimo, hay una presión muy grande para integrar esta herramienta en el trabajo del aula, sea de una manera u otra, y en todos los niveles educativos (aunque yo me centro en el mío, que es la universidad). Y es donde me he encontrado con posiciones y argumentos que considero quizá extremistas, sea por un lado (alarmismo injustificado, vamos a morir todos) o por el otro (“la IA es el futuro, reemplacemos a los profesores”; Merlan, 2025).

Mi posición es que, por un lado, tenemos ante nosotros una herramienta con potencial y que ha transformado el mundo para bien o para mal (quizá el debate es si hay más de lo primero o de lo segundo), así que necesariamente tenemos que educar en su uso para que nuestro alumnado esté preparado para el reto que supone. Pero por otro lado, lanzarse a los brazos de las grandes corporaciones para dejar que nos manipulen como deseen tampoco me parece razonable. Digamos que estoy en un punto intermedio. Supongo. Mi postura va evolucionando conforme leo cosas y observo el mundo.

Así que este post lo voy a usar como tablón para exponer mi opinión actual (siempre en proceso de cambio) en torno a este tema y para argumentarla. No pretendo convencer a nadie, no me toméis muy en serio. Pero me parece que con todo lo que he leído y discutido del asunto, es interesante aclarar mis ideas y ponerlas en orden.

Por cierto, aunque en este texto use el término IA o Inteligencia Artificial, que como científico cognitivo que soy tampoco me entusiasma mucho, me voy a centrar básicamente en modelos de lenguaje (Large Langauage Models, LLM) como ChatGPT, porque son los más populares actualmente. Además, sé que existen aplicaciones específicas de distintas tecnologías y arquitecturas de IA para resolver problemas diversos que son muy prometedoras. Pero rindámonos a la evidencia: mis alumnos no suelen programarse una red neuronal recurrente para resolver sus dudas, sino que se conectan al chatbot de ChatGPT y le preguntan qué tiempo va a hacer mañana.

Los tres requisitos para el uso responsable de la IA

Mi argumento parte de una obviedad: las aplicaciones de IA como ChatGPT son una herramienta. Como tal, se pueden utilizar de manera responsable o irresponsable. ¿Qué es lo que considero un uso responsable en el contexto educativo?

Para responder a la pregunta, la piedra angular de mi argumento es que, al usar este tipo de herramienta, estamos delegando una actividad en el software. O sea, a menudo no es como usar un cuchillo para cortar el pan, sino más bien como pedir a alguien que venga con su cuchillo y lo corte por ti. Esto puede ser muy conveniente y útil en determinadas situaciones.

Pero claro, hay que ser consciente de que tú no estás haciendo la actividad, sino que la estás delegando, es decir, te la está haciendo “alguien”. Para lo bueno y para lo malo. Esto creo que tiene implicaciones en el contexto educativo que luego comentaré.

Partiendo de esta idea, propongo que podemos reducir las situaciones de uso responsable de las herramientas de IA en el contexto educativo a las que cumplen con tres requisitos:

La actividad que delegas en la IA no está siendo objeto de evaluación en este momento.
No necesitas o no quieres en este momento ejercitar la habilidad para realizar la actividad que has decidido delegar.
Tenemos la capacidad y posibilidad de verificar que el resultado es correcto.

A continuación explico los tres requisitos uno por uno.

Requisito 1. La evaluación: no siempre que usas una IA estás haciendo trampa

Este es el tema que más controversia genera (Bin-Nashwan et al., 2023; Walsh, 2025), por sus ramificaciones éticas y legales, aunque quizá para mí es el menos importante de los tres. Yo, como otros, lo veo como una cuestión de honestidad académica, pero también pienso que afecta al diseño de la propia evaluación y toca de lleno en el asunto de la confianza entre las partes. A ver.

Cuando diseñamos una evaluación, el supuesto en el que se basa todo es que la persona cuya habilidad es evaluada la está usando realmente. Por ejemplo, si estoy haciendo una encuesta en la que pregunto a la gente cuánto tiempo aguanta bajo el agua, asumo que nadie me va a trolear respondiendo que puede aguantar horas, pero paseando en un submarino.

Lo que pasa es que si la evaluación está mal diseñada, entonces a veces es posible resolverla satisfactoriamente sin poner en juego la habilidad evaluada. O sea, que si no prevemos de alguna manera el uso de herramientas IA en la evaluación, y esas herramientas se usan frecuentemente, corremos el riesgo de estar evaluando otra cosa.

De todas maneras, esto no impide que podamos usar inteligencia artificial en la evaluación de manera responsable: lo importante es que la habilidad que se está evaluando en este momento no esté siendo delegada en la herramienta (o en otra persona, que vendría a ser lo mismo).

Por poner un símil, si quiero evaluar la capacidad de sintetizar textos en la forma de un trabajo académico, podemos plantearnos usar una IA para pulir la redacción, o para generar algún tipo de esquema, o para traducir esos textos si están en otro idioma… Todo eso son actividades que (tal como lo veo) no están siendo evaluadas en el trabajo como lo hemos diseñado. Se supone que no quiero evaluar si redactas bien, o si cometes faltas de ortografía… La habilidad que quiero evaluar sigue estando ahí y por eso usar la IA de esa manera no merma sustancialmente mi evaluación.

Ahora bien, si lo que hace el/la estudiante es pedir a ChatGPT “escríbeme un ensayo de veinte páginas sobre el tema tal”, y a continuación copiapegarlo y ponerle su nombre en la portada… Todos entendemos que ahí la actividad de evaluación está mal enfocada, ¿verdad? Porque se está resolviendo la tarea sin usar la habilidad.

Por lo tanto, la moraleja es que tenemos que plantear situaciones de evaluación que pongan algún tipo de límite a la delegación de las habilidades que queremos medir.

Requisito 2. Actividad no ejercitada, competencia no adquirida

Este es el elemento central, el que más me interesa. Ser competente en un dominio concreto implica una combinación de conocimientos, habilidades y aptitudes (Illeris, 2004; McClelland, 1973). A menudo, sobre todo en el caso de las habilidades, para llegar a un grado de maestría aceptable necesitamos práctica. Difícilmente vas a ser un buen ciclista si nunca te subes a una bicicleta.

Así, un elemento fundamental de toda experiencia de aprendizaje es el ejercicio de la habilidad que nos interese mejorar. Incluso la adquisición de conocimientos, por cierto, también requiere a menudo un esfuerzo, y no siempre es posible aprender un concepto, o comprenderlo, a base de exponerse pasivamente al mismo.

Por este motivo, los docentes solemos incorporar a nuestras clases actividades, ejercicios, preguntas… Son un elemento fundamental porque además de proporcionar información para la (auto)evaluación, constituyen oportunidades de práctica, y por lo tanto de ejercitar la habilidad e ir fortaleciéndola. La primera vez que lees un artículo científico, tardas mucho y te enteras de poco. Cuando llevas leídos veinte o treinta, ya le has pillado el truco. Es como ir al gimnasio para entrenar un músculo.

Ahora viene lo interesante: ¿qué pasa cuando delegamos una actividad en la IA? Pues básicamente lo mismo que cuando la delegamos en otra persona. No es muy diferente preguntar a ChatGPT “hazme un resumen de este texto” que pedirle a un compañero que lo haga, o copiarlo de internet. El resultado es un documento, un trabajo escrito, pero lo de menos es ese documento o su calidad. Se trataba de practicar, de adquirir la habilidad o perfeccionarla. Y al haberla delegado, no has hecho ese ejercicio que necesitabas.

De nuevo, nos podemos plantear si el ejercicio estaba bien planteado. A fin de cuentas, si se puede resolver la tarea sin usar la habilidad, cabe pensar que el diseño del ejercicio es erróneo. Imagina que quiero que te ejercites subiendo escaleras, pero lo que te digo es que nos vemos en el décimo piso y no te aviso de que no puedes coger el ascensor. Mal diseño.

Por otro lado, no siempre es posible culpar al diseño de la actividad. El usuario también tiene que ser responsable en el uso de la herramienta. Imagino que nadie me impide llevarme una carretilla elevadora al gimnasio, cargarla de pesas y levantarlas unas cuantas veces sin hacer ningún esfuerzo. También podría pedir a un compañero que fuese al gimnasio por mí, y dudo que el reglamento lo prohibiese. Pero si lo hiciera, sería una tontería que desvirtúa la actividad misma, ya que el objetivo de la actividad es ejercitarse, no levantar las pesas del suelo. Es algo que el propio usuario debería ser capaz de evitar instantáneamente.

¿Es este un pensamiento ingenuo por mi parte? No lo sé. Pero hay estudiantes que ya se han olido la tostada y por eso evitan abusar de esta tecnología (si nos creemos su relato).

Por supuesto, de nuevo conviene plantear algunas distinciones útiles para no mezclar churras con merinas. La IA te permite automatizar y delegar tareas que, a lo mejor, no necesitas ejercitar en este momento. ¡Y eso es bueno! Tareas simples y repetitivas que no suponen un enriquecimiento significativo de tus habilidades, o tareas que ya sabes hacer, o simplemente tareas de relevancia secundaria en el trabajo a las que no quieres prestar atención ahora miso. Por ejemplo: reorganizar textos, resumirlos, revisar la ortografía o la sintaxis… podrían entrar dentro de esta categoría en ocasiones, dependiendo del contexto. En principio, dado que no necesitamos ejercitar la habilidad en este preciso momento, no pasa nada por delegar en la herramienta, y así tendrías más tiempo para centrarte en lo importante.

Ahora bien, insisto: no siempre las tareas que delegamos en la IA son las que no necesitamos practicar. A veces simplemente delegamos porque no tenemos tiempo, o ganas. Como el que se salta el gimnasio. Y ahí ocurre lo que decía antes: Habilidad no ejercitada, habilidad que a lo mejor no vas a dominar. Si nunca has intentado cocinar una fideuá ni nada que se le parezca, es difícil que alcances la excelencia cocinando ese plato.

Y oye, no pasa nada si no saber cocinar una fideuá. Por supuesto (si quieres), puedes delegar esa actividad en una multinacional a cambio de tus datos, o de tu dinero. Pero hay habilidades que sí son más cruciales. Leer. Escribir. Argumentar. A eso voy.

Y como mínimo, tienes que ser consciente de las consecuencias: si no te ejercitas, no te desarrollas. Lo cual puede ser aceptable a veces, pero a veces no. Por eso hay quien hace comparaciones que me parecen lamentables: “Usar ChatGPT hoy es como usar la calculadora: simplemente una herramienta. En el futuro la usaremos para todo”. Bueno, sí y no. Puedes usarla de esa manera, pero asumiendo las consecuencias de esa delegación de funciones. Desde hace mucho existe software capaz de recitar un texto en voz alta, pero imagino que nadie estaría dispuesto a defender que la lectura está obsoleta. Que dejemos de enseñar a los niños y niñas a leer. Que total, ya hay una tecnología en manos de grandes corporaciones super poderosas que va a librarnos de esa carga, tener que leer por nosotros mismos. Un futuro nada distópico nos espera, nenes.

Requisito 3: Verificación. La máquina de dar gato por liebre.

Y aquí es donde el símil de la calculadora hace agua, porque esta calculadora no da siempre la respuesta correcta, no es fiable. Todo el mundo que sabe algo del tema coincide en la necesidad de verificar cuidadosamente las respuestas de ChatGPT.

Sin embargo, entre los usuarios de la herramienta, que a menudo no conocemos sus entresijos, percibo una sobrestimación enorme de sus capacidades. No es raro encontrarme con alumnado (¡o también colegas míos!) que le preguntan dudas como si fueran un oráculo o un ser omnisciente. Y no les culpo, es algo generalizado: tenemos artículos periodísticos a tutiplén con premisa bastante absurdas como “hemos preguntado a ChatGPT por el tiempo que va a hacer este verano y esto es lo que nos ha contado”, o “el número premiado en la lotería según ChatGPT”… Un sinsentido y un ridículo, en fin. La herramienta no se ha diseñado para predecir el futuro, ni la meteorología, sino para generar frases que den el pego.

Detengámonos un poco ahí. ¿Para qué fue diseñada chatGPT?

Existen diversas arquitecturas y distintos sistemas de aprendizaje artificial, pero ChatGPT (junto con otros como Deepseek) pertenece a una familia de modelos generativos llamados LLM (Large Language Models), que son básicamente sistemas de predicción de palabras. Piensa en el texto predictivo del teclado de tu móvil: ¿te has preguntado cómo lo hace para “adivinar” la palabra que quieres usar en cada momento? Lo que hace es examinar una base de datos de palabras y después basa su predicción en un modelo estadístico que ha aprendido a partir de su uso.

Bueno, pues esta familia (los LLM) hacen básicamente esto mismo, pero con la salvedad de que se los ha alimentado con tooooodos los textos que existen en internet (por cierto, pasándose las legislaciones y el copyright por los microchips, ojo).

Esto dota a los LLM de una capacidad asombrosa de producir textos en lenguaje natural aparentemente indistinguible de los de un humano. Es un hito increíble de la tecnología, es cierto, pero se trata de imitar una actividad humana (la expresión lingüística) de manera que “da el pego”. Un acto de ilusionismo muy convincente, si quieres.

Y lo llamo ilusionismo porque esta capacidad lingüística, si bien es asombrosa, no implica que la IA “conozca” nada, ni “entienda” lo que dice. Así, si le propones un problema de lógica que podría resolver un niño (el famoso juego del barquero, el lobo, la oveja y la lechuga), podrá hacerlo bien, pero si cambias uno de los elementos para convertirlo en esencialmente el mismo problema, pero con otras palabras (si cambias el lobo por, yo qué sé, un T. Rex), entonces “peta”.

Otro ejemplo: ChatGPT 3.5 puede hacer poemas y rimar palabras, pero fácilmente entra en contradicciones.

Así, no conviene fiarse de estos modelos para resolver tareas lógicas o matemáticas. No están diseñados para ello, solo para generar frases.

Pero no es que la IA “sea tonta”. Es otra cosa, y hay errores más preocupantes. Hay dos conceptos importantes que hay que entender bien: sesgo y alucinación. El primero tiene que ver con la representatividad de los datos que se han suministrado a la IA como set de entrenamiento. A menudo el modelo simplemente reproduce aquello con lo que lo han entrenado. Como lo hemos alimentado con montones de casos en los que, por ejemplo, se resuelve el problema del barquero correctamente, entonces devuelve esa misma solución aunque ahora ya no tenga sentido. No es un error, es el funcionamiento esperado, solo que nos genera un problema cuando usamos la herramienta para hacer tareas para las que no está pensada.

Pero eso sí, cuando el set de datos de entrenamiento contiene un sesgo (por ejemplo de género, de raza…) el modelo lo va a reproducir salvo que le pongamos alguna limitación ad hoc. Hay montón de ejemplos documentados de sesgos en las respuestas de ChatGPT, hasta el punto de que sus creadores lo han reconocido (Piers, 2024).

El segundo concepto importante tiene un nombre gracioso, “alucinación” (Ji et al., 2023), que viene a significar que, en su proceso de generar textos superficialmente creíbles, el modelo puede… inventarse cosas. Puede producir falsedades, puede inventarse las referencias. Y ojo, todo esto mientras usa un lenguaje convincente y persuasivo con mucha seguridad (Dolan, 2024). Ha habido casos curiosos, como por ejemplo una IA que recomendó un banco de alimentos como si fuera una atracción turística, un abogado que preparó su caso con ChatGPT para descubrir que estaba lleno de jurisprudencia inventada y acabó pagando un multazo de 5000 dólares, una IA que recomendó tirarse de un puente a una persona con depresión (yo no me estoy inventando nada de esto), y otros muchos.

Un ejemplo que encontré el otro día con las búsquedas de Google, ahora que le han metido la IA con calzador hasta en la sopa: ¿Eran hermanas Mary Shelley y Jane Austen?

Ahora bien, para ser justos, muchos de estos ejemplos corresponden a versiones antiguas de los modelos. Posteriormente (a partir de la versión que usa ChatGPT 4) se han incorporado a los LLM lo que llaman “modelos de razonamiento”, que se basan en aprendizaje por reforzamiento. Gracias a esta innovación, el modelo puede “reconstruir” un proceso de razonamiento. Es decir, puede elaborarte los pasos por los que ha llegado a una conclusión, y esto permite resolver algunos problemas que hace solo unos meses eran imposibles. ¿Significa esto que ChatGPT ya puede “pensar”? Me temo que no.

En primer lugar, los propios desarrolladores (Anthropic) reconocen que no siempre lo que “dice” el modelo se corresponde con lo que “piensa” (Chen et al., 2025). Además no hay evidencia de que este razonamiento sea tal, y se han identificado las limitaciones de la actual arquitectura y estrategia para solucionar problemas de complejidad alta, por eso se habla de la “ilusión de razonamiento” (Shojaee et al., 2025).

Además, está el dato (también reconocido por los desarrolladores) de que los errores no han disminuido al incorporar sistemas de razonamiento, sino justo al contrario: las alucinaciones han aumentado, especialmente con determinadas tareas en los últimos meses.

Como observación informal: ¿nunca habéis pensado “qué inteligente es ChatGPT para responder a cosas que desconozco, pero qué ceporra cuando le pregunto cosas que yo ya sé?” Es que siempre da el pego, está diseñada para eso. La validez del contenido es secundaria para estos modelos, es de hecho un subproducto. La conclusión de toda esta argumentación es que utilizar una herramienta de IA generativa como ChatGPT sin la adecuada supervisión humana se consideraría un uso irresponsable de la misma. ¿Estamos de acuerdo?

El problema es que cuando nos llevamos el uso de la herramienta al terreno educativo, el potencial usuario o usuaria está aprendiendo, y por lo tanto a menudo carece de la capacidad de verificar lo que está leyendo. Es decir, que sin la presencia vigilante de un/a docente, estamos dejando al alumnado a merced de una máquina de desinformación que además es ultra-persuasiva.

Problemas adicionales

Evidentemente, en este análisis superficial dirigido a argumentar mi postura me he dejado en el tintero un montón enorme de posibles problemas que ni he mencionado, pero que son importantes, de hecho muy importantes: cuestiones éticas (¿quién ha entrenado este sistema, con qué información?), de privacidad (¿de verdad estamos cediendo alegremente nuestros datos, los de nuestro alumnado, a cambio del privilegio de entrenar su herramienta?), e incluso consecuencias medioambientales (que parece una tontería pero no lo es). En fin, me he centrado en unos problemas pero no quiero desmerecer otros que también son relevantes.

Algunos posibles usos de la IA en el aula

Para terminar, voy a dar rápidamente mi opinión, dados los razonamientos que he expuesto arriba, acerca de algunos posibles usos de ChatGPT por parte del alumnado.

Preguntar dudas de la materia: Es un uso que veo bastante extendido. Te explican una cosa en clase, no acabas de entenderla, y le preguntas al chatbot para que te la explique. ¿Es este un uso responsable? En principio no habría problema con los dos primeros criterios que he propuesto. Ahora bien, tenemos problemas con el tercero. Si ChatGPT se vuelve majareta, alucina, y contesta alguna tontería, ¿será el alumnado capaz de detectar el error? ¿Y si te retransmite un sesgo aunque sea de manera accidental? ¿No sería mejor preguntar al profesor o profesora, que para eso están y se supone que son expertos en la materia?

Realizar tareas mecánicas y sencillas, pero a menudo tediosas o pesadas: Por ejemplo, podrías generar datos aleatorios que cumplan unas condiciones para luego analizarlos en clase de estadística. Podrías reestructurar código de programación, o automatizar envío de e-mails, o transformar archivos de un formato a otro, reestructurarlos… Si no son habilidades que ahora mismo estén siendo evaluadas o que tengas que ejercitar en este preciso momento (requisitos 1 y 2), no veo problema, dado que la herramienta te facilita la vida y no afecta a tu aprendizaje. Además las tareas sencillas son resolubles con los nuevos sistemas que incorporan modelos de razonamiento, como hemos explicado.

Buscar información: Anteriormente los LLM como ChatGPT estaban offline, lo que quiere decir que no podían acceder a internet para consultar información, y si preguntabas por un tema actual te lo indicaban amablemente en la respuesta (“lo siento, pero no me han entrenado para responder a esta cuestión”). Actualmente, el bot puede conectarse y buscar información en tiempo real, lo que lo hace mucho más potente. Ahora bien: NO es un buscador de información, no se ha diseñado para eso. Puede bucear en internet, pero no sabe distinguir una fuente fiable de cualquier paginucha de mandangas. Y además no te va a devolver el enlace directamente, sino que te lo va a transformar en una respuesta expresada con convicción. Confiar en esa respuesta sin verificarla es equivalente a clicar en el primer enlace que te da Google y darle credibilidad. Hoy por hoy, es una mala idea: un estudio encontró que los LLM tienden a citar fuentes incorrectas ¡o inexistentes! entre un 37% (Perplexity.ai) y un 94% (Grok) del tiempo (Jaźwińska & Chandrasekar, 2025).

Pedir que te resuelva los deberes: Aunque no lo parezca a primera vista, aquí para determinar si el uso es responsable o no tenemos que hacernos algunas preguntas. En primer lugar, ¿es una actividad que está siendo evaluada en este momento? Quizá estemos ante una evolución mal diseñada si se puede resolver de esta manera, pero quizá estés haciendo un uso irresponsable de la herramienta, equivalente a pedir a tu papá que te haga un trabajo de clase. Por otro lado, imaginemos que utilizas la respuesta para intentar entender cómo ha llegado a la conclusión (que te describa los pasos, los razonamientos). Eso sí sería una experiencia de aprendizaje válida e incluso enriquecedira (siempre que puedas verificar que los pasos son correctos, ojo, para cumplir el requisito 3) y por eso en principio lo veo bien. Aunque quizá lo razonable sería pedirle a tu profesor o profesora que la próxima vez te proporcione un problema resuelto con todos los pasos a modo de ejemplo, para que no tengas que confiar en una máquina. ¿No sería mucho mejor?

Procesar y combinar textos, como los apuntes, o extraer los puntos clave para luego estudiar. En principio, me parece un buen uso siempre y cuando puedas verificar que el resultado es correcto (requisito 3).

Pulir el idioma, o la expresión, o la ortografía de un trabajo. En el nivel en el que yo ejerzo mi docencia (universitario), a menudo se suele entender que estas cuestiones corresponden a habilidades que ya están adquiridas o bien son hasta cierto punto irrelevantes para lo que se quiere evaluar. Generalmente yo quiero saber si has entendido conceptos de psicología, no si sabes escribir de manera más o menos legible. Por lo tanto, no veo el problema en que ChatGPT “edite” tu texto para hacerlo más legible sin cambiar el contenido. Siempre que el contenido lo hayas elaborado tú.

Traducir documentos de otro idioma: Lo mismo. Salvo que el objetivo de la actividad sea adquirir soltura con ese idioma, en cuyo caso sería como el notas de arriba que se llevaba una carretilla elevadora al gimnasio e incumplirías el requisito 2, esta habilidad no necesitas ejercitarla en este momento, porque tú lo que quieres es documentarte. Por tanto, adelante.

Resumir un texto: Esto es más delicado. Por un lado, se aplica lo que al caso anterior. Si el sentido de la actividad que te han propuesto no es adquirir o ejercitar la habilidad de comprender el texto (requisito 2), sino que simplemente lo necesitas para documentarte, adelante. Por otro lado, cumplir con el requisito 3 nos lleva a la dificultad de verificar un resumen de un texto que no te has leído. Y de hecho ChatGPT comete errores garrafales al resumir textos, como muestran las investigaciones («When ChatGPT Summarises, It Actually Does Nothing of the Kind.», 2024).

Referencias

Bin-Nashwan, S. A., Sadallah, M., & Bouteraa, M. (2023). Use of ChatGPT in academia: Academic integrity hangs in the balance. Technology in Society, 75, 102370. https://doi.org/10.1016/j.techsoc.2023.102370
Chen, Y., Benton, J., Radhakrishnan, A., Uesato, J., Denison, C., Schulman, J., Somani, A., Hase, P., Wagner, M., Roger, F., Mikulik, V., Bowman, S., Leike, J., Kaplan, J., & Perez, E. (2025). Reasoning Models Don’t Always Say What They Think. https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf
Costello, T. H., Pennycook, G., & Rand, D. (2025). Just the facts: How dialogues with AI reduce conspiracy beliefs. OSF. https://doi.org/10.31234/osf.io/h7n8u_v1
Costello, T. H., Pennycook, G., & Rand, D. G. (2024). Durably reducing conspiracy beliefs through dialogues with AI. Science (New York, N.Y.), 385(6714), eadq1814. https://doi.org/10.1126/science.adq1814
Dolan, E. W. (2024, junio 9). Scholars: AI isn’t «hallucinating» — it’s bullshitting. PsyPost – Psychology News. https://www.psypost.org/scholars-ai-isnt-hallucinating-its-bullshitting/
Illeris, K. (2004). Transformative Learning in the Perspective of a Comprehensive Learning Theory. Journal of Transformative Education, 2, 79-89. https://doi.org/10.1177/1541344603262315
Jaźwińska, K., & Chandrasekar, A. (2025). AI Search Has A Citation Problem. Columbia Journalism Review. https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y., Chen, D., Dai, W., Chan, H. S., Madotto, A., & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1-38. https://doi.org/10.1145/3571730
McClelland, D. C. (1973). Testing for competence rather than for «intelligence.» American Psychologist, 28(1), 1-14. https://doi.org/10.1037/h0034092
Merlan, A. (2025). Meet the Educational Entrepreneurs Who Want to Teach a New Generation of Elon Musks. Mother Jones. https://www.motherjones.com/politics/2025/03/elon-musk-schools/
Piers. (2024). Even ChatGPT Says ChatGPT Is Racially Biased. Scientific American. https://www.scientificamerican.com/article/even-chatgpt-says-chatgpt-is-racially-biased/
Shojaee, P., Mirzadeh, I., & Alizadeh, K. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. https://ppc.land/content/files/2025/06/the-illusion-of-thinking.pdf
Vicente, L., & Matute, H. (2023). Humans inherit artificial intelligence biases. Scientific Reports, 13(1), Article 1. https://doi.org/10.1038/s41598-023-42384-8
Walsh, J. D. (2025). Rampant AI Cheating Is Ruining Education Alarmingly Fast. Intelligencer. https://nymag.com/intelligencer/article/openai-chatgpt-ai-cheating-education-college-students-school.html
When ChatGPT summarises, it actually does nothing of the kind. (2024). R&A IT Strategy & Architecture. https://ea.rna.nl/2024/05/27/when-chatgpt-summarises-it-actually-does-nothing-of-the-kind/

Posted in Uncategorized | Tagged ChatGPT, docencia | Leave a comment

El Dunning-Kruger estadístico, o por qué no siempre deberías hacer caso cuando te dicen que tu correlación es muy débil

Posted on June 18, 2023 by Fernando Blanco

Ya sabemos que las redes sociales las carga el diablo, y en concreto Twitter nos puede servir para aprender muchas cosas interesantes y compartir papers, pero también para montarnos discusiones eternas basándonos en cualquier tontería que se nos ocurra. Hoy os voy a hablar de uno de esos temas recurrentes que asoman de vez en cuando en esta red social, generando montones de hilos y debates y peleas… que al cabo de un tiempo se olvidan y vuelven a repetirse. Como las estaciones o como algo inevitable. En este caso, el debate es en torno a la estadística, y por eso nos interesa.

Generalmente, todo empieza cuando alguien publica una imagen con un gráfico de dispersión y una línea de ajuste, y lanza alguna afirmación para interpretarlo: “Comer chocolate correlaciona con la calidad del sexo”, “Las personas con mejor gusto para vestir tienen más parejas”… El último caso que recuerdo (y lo selecciono porque afortunadamente no ha sido ni de lejos de los más polémicos) ocurrió cuando alguien posteó este aparentemente inocente gráfico con algunas correlaciones entre renta y voto.

Y se lía. Ya digo que en esta ocasión la gente estuvo muy civilizada e incluso dada al diálogo (chapeau, gente!), pero otras veces por poco se llega a las manos por una discusión casi idéntica, anda que si no está la pantalla en medio… Aun así, en todos estos flames podemos encontrar dos tipos de críticas recurrentes que son las que yo quería comentar:

“Oye, pero dónde vas, que esa nube de puntos no tiene “forma de línea”, y por tanto esos datos son aleatorios jajaja”.
“Sí, bueno, pero esa R cuadrado (tenéis el valor en el gráfico) es muy pequeña. Una R cuadrado de menos de 0.99 indica que no existe correlación, y por tanto esos datos son aleatorios. Es que los de las ciencias sociales no tenéis ni idea, jaja”.

Antes de pasar a analizar estos argumentos, que es lo que encuentro interesante, aprovecho para mencionar que me parecen muy reveladoras las formas y los modos de quienes suelen escribirlos, más que nada porque indican que por debajo hay toda una serie de creencias erróneas en torno a la ciencia, los datos, la probabilidad… Y viniendo de gente con perfiles en los que exhiben título de carrera técnica (y alusiones a las criptomonedas, habitualmente). Vaya tela. Os pongo alguna perla de ejemplo:

PERLA #1: “Si le entrego a mi jefe/profesor esa correlación tan baja, me despide”

Ah, perdona. Yo creía que la ciencia consiste justo en intentar comprender la realidad y para ello usamos las matemáticas y la estadística, para hacer estimaciones e interpretar los datos. No sabía que el objetivo es obtener modelos con ajustes perfectos independientemente de cuáles sean los fenómenos de estudio, y que la consecuencia de no conseguirlos iba a ser mi despido. Pues nada, falseo los datos, o bien overfitteo, y ya está: ajuste perfecto y a vivir engañado, que eres un crack, un titán, un mastodonte.

PERLA #2: “Yo ahí no distingo a ojo ninguna correlación, por lo tanto no hace falta estadística.

Claro, hombre. Y nosotros, los tontos, perdiendo el tiempo analizando los datos y obteniendo estimadores y calculando p-valores… Imagino que esta gente, para saber la hora, mirará la sombra de los edificios en vez de consultar un reloj, y calculará las distancias a ojo (“¿que a cuántos Km está el pueblo? Náh, a unas dos o tres escuchas de Bohemian Rhapsody yendo a velocidad normal, ni muy lento ni como si tuviera ganas de llegar, jajaja”).

Aquí el dibujante Randall Munroe, el de xkcd, también patinó lo suyo, y por eso aparece a menudo en esos flames turras apoyando este argumento:

En fin. Que a veces estas discusiones son todo un catálogo de prepotencia y Dunning-Kruger, y que mucha de esta gente, por sus respuestas, deduzco que no ha analizado en su vida datos que hayan salido del mundo real en campos como la psicología, la biología o la medicina. Porque si no, no se entiende este empeño en equivocarse y encima alardear de ello. Pero vamos a pasar por alto las formas y a centrarnos en los argumentos que esgrime esta gente, porque eso sí me interesa dejarlo claro. Te cuento.

“Nubes de puntos” y el problema de estimar correlaciones “a ojo”

Esto ya te lo sabes, porque lo hemos contado en el blog anteriormente: en principio, la forma que adopta una nube de puntos te da una pista de la magnitud y dirección de una correlación:

Y por eso todo el mundo quiere ver los gráficos, y espera encontrar esas formas reconocibles.

Lo que pasa, querido amigo, es que, lamentándolo mucho, ni tus ojos ni tu sistema cognitivo son perfectos e infalibles. Pueden engañarte la luz, la escala, los colores. Pero ojo, también tus motivaciones e intereses, tus expectativas… Así que no, no podemos evaluar correlaciones a ojo. Y si quieres algo de ciencia que avale lo que digo, hay por ahí algún estudio de psicofísica sobre percepción de correlaciones a ojo, e indica que es una tarea que a los humanos se nos da realmente mal (Elliott, 2021).

O, si quieres algo un poco más interactivo, prueba a comparar este par de nubes de puntos que he generado con este visualizador de correlaciones: ¿las distingues entre sí? Está difícil. A la izquierda, correlación de 0.20. A la derecha, correlación de 0.30. Ya puedes tener buen ojo para diferenciarlas.

Y luego está el hecho de que los datos reales pueden ser más ruidosos y feos que los de las simulaciones. En ocasiones la correlación está ahí aunque el aspecto de la nube engañe.

Voy a seguir el ejemplo de Richard McElreath. Prueba a ejecutar el siguiente código en R:

set.seed(123)
N <- 200
X <- rnorm(N)
Y <- rnorm(N, 0.4*X)

Ahora tenemos dos variables, X e Y. Aunque las hemos generado con una semilla aleatoria, ambas correlacionarán con un coeficiente de aproximadamente r = 0.4, que es un efecto bastante fuerte. Aun así puede que la nube de puntos no parezca muy sugerente:

plot(X, Y, col = 2, lwd = 2, xlim = c(-4, 4), ylim = c(-4, 4))
abline(lm(Y ~ X))

Y te lo voy a poner peor. Una transformación habitual en algunos escenarios es lo que llaman “rank transformation”, o transformación por rango: reemplazamos los valores por su posición ordenada en la muestra, en función de su magnitud. Esto se hace en algunas situaciones en las que, por lo que sea, optamos por métodos no paramétricos de inferencia. Pues bien, la nube de puntos tiene este aspecto cuando la transformamos así:

plot(rank(X), rank(Y), col = 2, lwd = 2)
abline(lm(rank(Y) ~ rank(X)))

¿Qué? ¿A que no tiene pinta de correlacionar? Ahí no hay forma de línea, la nube no apunta hacia arriba, parece todo muy aleatorio y ruidoso… Pero las dos variables correlacionan. Comprobémoslo:

cor.test(rank(X), rank(Y))

	Pearson's product-moment correlation

data:  rank(X) and rank(Y)
t = 4.1878, df = 198, p-value = 4.237e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1525463 0.4078501
sample estimates:
      cor 
0.2852501

Lo creas o no, ahí existe una correlación, y es significativa (p < 0.001). Tus ojos y tus expectativas te pueden engañar.

Piensa que, al fin y al cabo, inventamos la estadística justo para eso: para no dejarnos engañar por nuestros sesgos y limitaciones, y para ayudarnos a separar la señal del ruido, aunque este aparente significar algo más. Que justo calculamos coeficientes de correlación, estimadores, p-valores y todo eso por ese preciso motivo. Para que vengas tú ahora con tu ojo biónico a hacer estimaciones de brocha gorda en pleno 2023.

Recuerda: si quieres saber si en un set de datos hay señal (correlación) o simplemente ruido, una cosa que puedes hacer es calcular el p-valor, que te sacará de dudas. En este ejemplo concreto, el p valor es significativo, lo cual quiere decir que la correlación, visible o no a simple vista, es distinguible entre el ruido.

“Lo siento, tu R cuadrado es muy pequeña”

Más allá de los que se empeñan en juzgar las correlaciones “a ojímetro”, tenemos la otra variante de comentario escéptico que os he dicho antes: esa gente que mira el grado de ajuste (a menudo medido con ese estadístico llamado R cuadrado) y dice que “bah, es muy pequeña, eso no demuestra que exista una relación, solo estás mirando ruido”. A menudo los dos comentarios van juntos, puesto que una nube de puntos bien compactada en torno a la línea de ajuste va a tener casi siempre un valor elevado de R cuadrado, mientras que un ajuste bajo se acompañará de una nube dispersa. Pero vamos a comentarlo…

¿Qué es la R cuadrado? El estadístico R cuadrado, conocido como “coeficiente de determinación” se utiliza a veces como una cuantificación del tamaño del efecto (en este caso, de la magnitud de la correlación entre dos variables). Os contaré qué significa, y luego vamos al tema que nos ocupa.

Cuando ajustamos una línea a una nube de puntos, observaremos que no todos los puntos caen exactamente en la línea, sino que se quedan flotando más o menos “alrededor”. Esto únicamente quiere decir que nuestro modelo (que se representa con la línea) no es perfecto. Que hay cierto error asociado a la predicción. Ese error de predicción que está cometiendo nuestro modelo lo podemos calcular al agregar todas las distancias entre cada punto y la predicción (la línea), lo que habitualmente se llaman “residuos” del modelo. Cuanto más lejos estén los puntos de la línea, más error y por lo tanto peor es mi modelo.

Pero para calcular la R cuadrado, también influye la variabilidad que hay en nuestros datos (cómo de separados están los datos de la media), un atributo que represento en esta otra figura. La línea horizontal es la media de la variable dependiente (y). Cuanto más dispersos están los puntos alrededor de esa línea, más variabilidad o “ruido”.

En realidad, la R cuadrado viene dada por el cociente entre esos dos grupos de distancias: la cantidad agregada de error de predicción que cometemos, y la variabilidad de los datos. Es decir, la R cuadrado es una proporción que expresa “cuánta señal” hay en tus datos con respecto a la cantidad de ruido aleatorio que contienen.

Así, una R cuadrado grande (cercana a 1) nos dice que nuestro modelo predice muy ajustadamente los datos (hay más señal que ruido). Una R cuadrado pequeñita (cercana a 0) nos diría que nuestro modelo no predice bien los datos, “no ajusta bien”, porque no produce distancias residuales mucho menores que el más simple de los modelos: la media de y. De hecho, se puede expresar la R cuadrado como el porcentaje de varianza “explicada” o “capturada” por el modelo.

O sea, que en la imagen de la izquierda, x predice el 98% de la variabilidad en y, pero en la imagen de la derecha solo predice un 6%. Al simular los datos para hacer las figuras, lo único que he cambiado entre ambas es la cantidad de variabilidad aleatoria (“ruido”) en la variable dependiente, pero la correlación real (poblacional) entre las variables es idéntica.

Vale, entonces: ¿qué pasa si mi R cuadrado es baja? Pues esto nos indica que tu modelo no captura una parte sustancial de la variabilidad en y. Esto puede significar que tal vez no has incluido en el modelo alguna variable predictora relevante (de ahí el error grande en el numerador de la ecuación), o que tus medidas no son buenas y hay muchísimo ruido (de ahí un valor grande en el denominador)… O simplemente que la asociación que buscas entre x e y es pequeña. Es decir, y por resumir: que la variable y (como el voto en la gráfica de arriba) depende de muchas cosas, entre ellas x, pero no solo x.

Pero, aquí va lo importante: ¿me está diciendo este estadístico si mis datos “son aleatorios”? No, solo me está indicando que mi modelo es insuficiente para explicar el 100% de la variabilidad en la variable dependiente. El modelo explica una parte más o menos pequeña de esa variabilidad. O sea, la asociación entre las dos variables presenta un efecto pequeño.

Que un efecto sea pequeño no quiere decir que sea inexistente. O que no sea consistente. O que no sea relevante. Solo es eso, pequeño. El caso es que, en Twitter y en otros lugares, no faltará quien señale una R cuadrado de menos de 0.70 y grite: “¡Esa correlación no existe porque la R cuadrado no es de 0.99!”.

El problema de los efectos pequeños

(Si lo necesitas, repasa este post sobre el tamaño del efecto).

Reflexionemos un poco sobre los efectos pequeños. Para empezar, podemos plantearnos a qué porras le llamamos “efecto pequeño”. Y es que no es ninguna tontería la pregunta. ¿Dónde ponemos la frontera entre un efecto pequeño, uno mediano y uno grande?

Existen algunas indicaciones, pero no dejan de ser convenciones un tanto arbitrarias. Por ejemplo, Cohen considera que una correlación menor de r = 0.3 se considera “pequeña”, y una de más de r = 0.5 se considera “grande”. Pero claro, esto es meramente una guía para hacerse una idea y no nos dice mucho sin saber el contexto (¿es un estudio de psicología? ¿de ingeniería? ¿es un experimento de laboratorio o una medición al natural?). Yo no os animo a hablar de efectos “grandes” o “pequeños” así en el vacío, sin un contexto.

Aun así, hay algunos comentarios en Twitter que parecen asumir que una R cuadrado menor de 0.8 es “basura” (literalmente lo han dicho). A lo mejor aquí alguno de esos comentaristas se lleva una sorpresa: ¡La R cuadrado en realidad es *menor* de lo que creen! En modelos sencillos como la mayoría de los gráficos de puntos que se comparten en redes, solo tenemos una pareja de variables, x e y. En la mayoría de esos casos, el ajuste (R cuadrado) del modelo coincide con el cuadrado del coeficiente de correlación de Pearson, r. O sea, que si tomamos lo que para Cohen es una correlación grande de r = 0.8, vemos que corresponde a una R cuadrado de 0.8^2 = 0.64, que no suena tan “potente”. Así que cuando los tuiteros con carreras técnicas critican una R cuadrado de 0.25 por ser despreciable, que sepáis que realmente corresponde a un efecto de tamaño mediano-grande para una correlación (r = 0.50) según las convenciones como la de Cohen, y lo que probablemente ocurre es que esta gente no sabe lo que significa R cuadrado. En fin.

Si queréis hacer conversiones entre distintos estadísticos estandarizados para el tamaño del efecto, podéis acudir a esta web. Podréis, por ejemplo, pasar de R cuadrado a d de Cohen, o a r de Pearson… Lo que queráis. Eso sí, con algunas cautelas porque las traducciones no son siempre perfectas y dependen de más cosas que no estamos comentando. Pero si jugáis un poco, veréis cómo a veces las equivalencias no son las que la gente asume en internet. Por ejemplo, si os ayuda a visualizarlo mejor, una R cuadrado de 0.20 corresponde a una correlación de Pearson de r = 0.45, ¡y una d de Cohen de 1!

Pero quizá ayude un poco más ver las cosas en su contexto. Os doy algunas pistas:

La diferencia de estatura promedio entre hombres y mujeres es lo bastante grande como para verla “a simple vista”. Quiero decir, seguramente nadie necesite mirar una estadística y calcular un p-valor para averiguar que la diferencia existe, y que por lo general los hombres suelen ser, en promedio, más altos que las mujeres, ¿verdad? Pues bueno, esa diferencia tiene un tamaño de d = 1.72. O lo que es lo mismo, una r = 0.65, o una R cuadrado de 0.42. Un efecto que podemos considerar, seguramente, grande. Lo veis aquí:

Aun así, podéis ver cómo hay un porcentaje de hombres más bajos que muchas mujeres, y que hay solapamiento entre las distribuciones, como es lógico. ¡Y sigue siendo un efecto grande aunque la R cuadrado sea de menos 0.50!

Otra situación en la que esperaríamos efectos grandes es cuando correlacionamos una variable consigo misma. Que me diréis: ¿esto para qué querría hacerlo? Pues bien, en psicometría esto se hace de manera recurrente al validar cuestionarios. Generalmente, se obtienen medidas de la correlación de un cuestionario en ocasiones sucesivas en el mismo individuo, o se dividen los ítems en dos mitades para ver cómo correlacionan entre sí… En estos casos, esperaríamos correlaciones altas, ya que estamos correlacionando algo “consigo mismo”, ¿verdad? Pues bueno. Los psicómetras consideran aceptables los valores de r mayores de 0.70 (R cuadrado de 0.49). ¡Y estamos hablando de algo correlacionando consigo mismo! ¿En qué situación cabría esperar correlaciones mayores?
Seguro que habéis usado alguna vez un analgésico como el ibuprofeno. Creo que hay consenso en que este tipo de medicamentos funciona para calmar el dolor, ¿verdad? Pues algunas estimaciones del tamaño del efecto analgésico nos dicen que ronda el valor de r = 0.14 (R cuadrado 0.02). Otras, un poco mayor, r = 0.21 (R cuadrado 0.04). Uno de los comentaristas criptobros de Twitter no tardaría en deciros que es “puro ruido”. 🤦‍♂️

De todo esto podemos concluir ciertas cosas sobre los efectos pequeños, algunas de ellas no tan evidentes como mucha gente cree. Lo primero es que los efectos pequeños no tienen por qué ser insignificantes. De hecho pueden ser importantes. Pensad en el ibuprofeno. El efecto es estadísticamente pequeño, pero lo suficientemente sólido como para que millones de personas lo utilicen. O, mejor aún: imaginad un tratamiento para una enfermedad mortal que solo cura al 5% de quienes la toman. Es una tasa de éxito mínima, pero si no hay otro tratamiento disponible ¡yo tengo claro que lo tomaría!

A veces los efectos pequeños se vuelven más importantes por efecto acumulativo. Tomar el sol durante 10 minutos seguidos implica una exposición mínima a la radiación ionizante, y seguramente nadie te diría que eso va a incrementar sustancialmente la probabilidad de desarrollar un melanoma. Ahora bien, si la exposición es más prolongada y repetida, ese efecto minúsculo, pero acumulado, puede acabar en un cáncer de piel, ¿verdad?

Otras veces la importancia práctica de un efecto no viene tan determinada por su tamaño, sino más bien por otros factores como su consistencia. La historia de la ciencia contiene ejemplos de efectos minúsculos pero regulares que han llevado a descubrimientos fundamentales sobre las leyes de la materia. Por si te ayuda a visualizarlo: imagina una relación entre dos variables que es muy débil, pero contiene muy poco ruido.

En cualquier caso, nunca deberías cometer el error de interpretar un tamaño del efecto en el vacío. Influirán muchas cosas como por ejemplo el campo de estudio, la situación en la que se recogen los datos… A pesar de lo que dice el ejército de cuñaos:

…Porque sí, necesitas un contexto para interpretar el tamaño del efecto: ¿A qué llamamos efecto “grande” o “pequeño”? Una pastilla que funciona en el 20% de la gente para aliviar algún problema podría ser lo bastante buena. Un avión que se estrellara solo el 0.01% del tiempo sería inaceptable.

Un matiz que puede ser relevante: ¿qué tipo de fenómeno estamos describendo? Un efecto observado en laboratorio, en situaciones controladas, será probablemente más grande que uno observado en el mundo real, en un trabajo de campo sin tanto control. Sospecho que la sorpresa de algunos comentaristas desubicados con carrera técnica viene de aquí: en campos que tratan con datos “reales” (biología, medicina…) es común que los efectos sean más pequeños porque los fenómenos son complejos y multicausales, y los efectos que se ven en el laboratorio quedan más diluidos en el ruido cuando se miden en el mundo real. En ciencias sociales, esto es todavía más claro. En psicología, salvo que hablemos de un efecto observado en un experimento de laboratorio, encontrar correlaciones de r = 0.3 o mayores en un estudio de campo nos parece suficiente. Y si esos efectos son consistentes y se replican… Qué más quieres.

Conclusiones

Para ir cerrando, vamos a recopilar lo que (se supone) hemos aprendido hoy:

Tus sentidos y tu sistema cognitivo te pueden jugar una mala pasada. Necesitas la estadística justo para compensar esos sesgos y limitaciones. No seas cafre y no juzgues los datos “a ojo”.
El que un efecto sea pequeño no quiere decir que sea inexistente. Son cosas distintas, la estimación del tamaño del efecto observado y la capacidad de distinguirlo entre el ruido. Para lo segundo se inventó la estadística inferencial.
El que un efecto sea pequeño no implica que sea insignificante o despreciable. Hay ejemplos de efectos de magnitud pequeña o mediana, pero muy relevantes en la práctica.

Bonus: Lo que sí podrías criticar

Claro, si estás en Twitter será porque te va la marcha, y no puedes dejar pasar la oportunidad de criticar y destrozar a todo el que tú creas que se equivoca, ¿verdad? Pues venga, que no se diga: te voy a ayudar dándote unos cuantos argumentos de crítica que sí tendrían sentido. Así, cuando te pongan delante una figura de puntos y la quieras desacreditar, piensa…

¿De dónde salen los datos? ¿Es una fuente fiable?
¿Tiene sentido teórico o lógico la relación que se está planteando?
¿De verdad estás buscando una relación lineal? (Porque a veces se ven datos que piden a gritos un ajuste cuadrático, por ejemplo)
¿Cómo se ha seleccionado la muestra? ¿Podría no ser representativa, o ser un ejemplo de cherry-picking…?
¿Es una muestra lo bastante grande? (y ojo, que para esto tampoco valen los juicios “a ojímetro”, ya que el tamaño será apropiado o no en función de muchos condicionantes)
¿Se cumplen los supuestos del análisis?
¿No estarán interpretando una correlación en términos causales? Ya sabes que eso no se hace, salvo que tengas muy, muy, claro lo que estás haciendo y lo mucho que puedes meter la pata.

Posted in Estadística MAL | Tagged estadística | Leave a comment

CURSO DE ESTADESTECA MAL: 9. Cuando no sabes qué análisis es el “correcto”

Posted on December 2, 2022 by Fernando Blanco

Ya estoy aquí otra vez, dispuesto a revivir este blog. Y lo voy a hacer recuperando un debate que últimamente me he encontrado en mis respectivos entornos (el virtual, del salseo en Twitter y otras redes, y el profesional). Quizá os sea de ayuda este post para quienes tenéis entre manos algún tipo de análisis de datos (¿tu tesis doctoral? ¿tu TFM?) y estáis recibiendo mensajes un tanto contradictorios por parte de los “expertos” (tu director/a de tesis, la gente de los foros de estadística…). Vamos allá.

TL;DR: Por más que te digan lo contrario, necesitas teoría y conocimiento sobre tu tema de investigación para plantear e interpretar un análisis estadístico sin meter la gamba.

Imaginad esta situación que me he encontrado montones de veces, a ver si os suena. Una doctoranda ha trabajado duro recogiendo sus datos. Se ha currado los cuestionarios, el muestreo… Ahora tiene una tabla de datos enorme y aparecen algunas discrepancias con su director de tesis. Resulta que hay al menos dos maneras de analizar estos datos. Nuestra doctoranda propone un tipo de análisis que tiene en cuenta algunas posibles variables confundidas (entre allas el género, la edad y el nivel socioeconómico) y las controla. El director, por su parte, propone “simplificar” el análisis de cara al proceso de revisión, y dejar fuera del mismo las variables que no sean relevantes. El argumento del director es que el análisis es “más simple” y por lo tanto más sencillo de comprender. Además, el análisis sencillo nos permite dejar fuera nuestras opiniones subjetivas acerca de qué variables merece la pena controlar o no, y es más “objetivo” porque simplemente “deja hablar a los datos” (¿a que habéis oído esta frase más de una vez?). Y encima todo sale significativo <cheff kiss>. Nuestra doctoranda se rasca la cabeza y se preocupa un poco: pero, ¿cómo es posible que los dos análisis, tan diferentes en planteamiento, sean correctos? ¿Es que no debería haber una única manera correcta de analizar mis datos?

Y no es la única que se preocupa. Hace unas semanas, en Twitter, se popularizó este artículo (Breznau et al., 2022) en el que le envían el mismo set de datos a distintos equipos de investigación para que lo analicen, y encuentran una variabilidad enorme de modelos, técnicas de análisis y, por supuesto, resultados obtenidos. Mientras que algunos equipos llegaron a una conclusión, otros llegaron a la opuesta. Repito: están analizando los mismos datos.

La reacción del 90% de mi TL en Twitter: ¡el pánico! Es alarmante. Ya no podemos confiar en la cencia. Ni en la estadística. ¡Ven ya, meteorito!

Y… no, mira. Creo que esta es una mala interpretación de este resultado. No me refiero tanto al comentario de esta persona, que salvando lo de “scary”, que sí es un juicio de valor, no está sino describiendo el hallazgo, sino a la reacción bastante alarmista de muchos tuiteros, que algunos casi estaban proponiendo que la ciencia es toda una sarta de mentiras. Es que incluso en el paper mismo hablan de fuentes de variabilidad como “sesgos” (principalmente el sesgo de confirmación). Vamo a calmarno.

Por un lado, tengamos en cuenta que los datos suministrados en este estudio eran bastante ambiguos, que las hipótesis propuestas a los equipos de investigación eran muy vagas y permitían distintos enfoques… Pero es que aun así este resultado no tiene nada de sorprendente, e incluso, si me apuras, nada de malo.

Y es que al decidir usar un modelo estadístico u otro, o al decidir si vas a transformar tu variable dependiente… estás tomando decisiones que es lógico y deseable que afecten al resultado. ¡Pero si las tomas precisamente por eso! Porque crees que te ayudarán a capturar mejor la información que estás buscando. Son decisiones que, en mi opinión, simplemente hay que exponer y justificar con transparencia (lo cual, eso sí te lo admito, rara vez hacemos).

Pero es verdad que hay toda una corriente que aboga por reducir el impacto (si es que eso es posible) de estas decisiones, para reducir el sesgo que producen. Somos humanos, dicen, cometemos errores. Y somos “subjetivos”. Así que eliminemos o reduzcamos el factor humano de la ecuación. Así, el director de tesis de nuestro ejemplo propone “dejar hablar a los datos”, como si fueran una entidad con voluntad y capacidad de expresarse. Otros llevan esta idea al extremo y podrían, por ejemplo, usar algoritmos de machine learning para aprender automáticamente de tu set de datos: qué variables extraigo, qué variables tienen qué papel, qué combinación produce el mejor ajuste… Sin ir tan lejos, hay gente que propone que sólo los matemáticos o los estadísticos experimentados analicen los datos de los estudios, bajo la premisa de que ellos o ellas saben “cuál es la manera correcta” de analizar los datos, mientras que el experto o experta en el tema, que ha planeado el estudio y ha recogido los datos, no sabría tomar estas decisiones sin contaminar el resultado y por eso hay que dejarlo fuera.

De manera más general, Judea Pearl expone en su libro The Book of Why (Pearl & Mackenzie, 2018) algunos argumentos que van contra esta corriente que podríamos llamar “dirigida desde los datos” o (“data-driven”). De manera convincente, Pearl nos dice que lo llevamos claro si pretendemos analizar los datos sin tener una teoría acerca del proceso que los ha generado. Tu conocimiento previo del problema, de la situación de medida, etc., te va a ayudar a decidir qué tipo de modelo y de supuestos debes incluir en tu análisis. Y eso no te lo dicen los datos por sí solos.

Como en este blog somos amantes de R y de las simulaciones, vamos a simular unos cuantos datos para entender tres situaciones en las cuales nuestro conocimiento previo es *crucial* para no meter la pata. Se trata de la confusión de variables, la colisión de variables (lo siento, no sé cómo traducir “collider” 👉👈), y la mediación.

Caso 1. Confusión de variables

Vamos a poner un ejemplo tan simple que lo entienda cualquiera. Imagina que estás interesado/a en las habilidades lectoras de los niños y adolescentes, así que te vas a un colegio y les haces una prueba de habilidad lectora a todos los estudiantes de entre los 7 y los 17 años. Además, como eres un investigador/a concienzudo/a, vas a recoger un montón de otras variables, incluyendo parámetros físicos (estatura, peso, edad…).

Y entonces, bajo la premisa de que “es mejor dejar hablar a los datos”, decides explorar a lo loco ese archivo inmenso, y calculas una tabla TERRIBLE (como argumenté en otro post), gigantesca, con todas las correlaciones que resultan de cruzar entre sí todas las variables. Vamos, unos quinientos coeficientes de correlación, por lo menos. Y te llevas una sorpresa. Pues oye, ¿que no resulta que la talla del zapato correlaciona significativamente con la habilidad lectora? Ouch.

Claro, ante esta observación podríamos tomar dos posturas. La primera es interpretar esa correlación de forma causal, y pensar de qué manera podemos obligar a los niños pequeños a usar zapatos más grandes para así mejorar su habilidad lectora. La segunda, más sensata, es plantearnos que esto no tiene ningún sentido. ¿De dónde ha salido esta correlación, aparentemente espuria?

Pues lo que decía antes. Vamos a usar el selebro, y nuestro conocimiento previo sobre el mundo. ¿Por qué deberían correlacionar talla de zapato y lectura? Una posibilidad es que ambas variables sean en realidad consecuencia de una misma causa, la edad. Con la edad, los niños crecen y con ellos sus pies. También con la edad, y los años acumulados de experiencia escolar, mejoran sus habilidades lectoras. Como vemos en este gráfico (*):

En este caso, nuestra conclusión sería que probablemente la edad es una variable confundida que explica la correlación (seguramente espuria) entre talla de zapato y habilidad lectora. Esto quiere decir que mi análisis de correlación debería controlar esa variable confundida (edad) para revelar realmente la asociación entre las otras dos variables.

Vamos a empezar con las simulaciones, que me duermo. Para abrir boca, voy a generar tres variables a partir de una distribución normal. Según el modelo del gráfico, tanto X (talla) como Y (lectura) son consecuencias de una causa común, la variable confundida W (edad), así que las genero a las dos linealmente a partir de esta última, usando la ecuación clásica de un modelo de regresión con coeficientes que me invento sobre la marcha.

set.seed(200)
n <- 500 # Vamos a generar 500 datos…
W <- rnorm(n, 0, 1) # Variable confundida (edad)
X <- 1 + 1.5*W + rnorm(n, 0, 3) # Variable predictora (talla de zapato)
Y <- 2 + 2.1*W + rnorm(n, 0, 3) # Variable dependiente (habilidad lectora)

Podemos ver cómo X e Y correlacionan en mi set de datos, lo cual me había alarmado inicialmente:

summary(lm(Y~X))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.9333     0.1755  11.014  < 2e-16 ***
X             0.2553     0.0482   5.296 1.78e-07 ***

¿Lo veis? La talla de calzado correlaciona con la lectura, p < 0.05.

Pero claro, es que ambas correlacionan, cada una por su parte, con su causa común, la variable confundida W 🤔

Entonces, dado que hemos usado nuestro conocimiento previo para identificar una variable confundida en nuestros datos, lo que tenemos que hacer es controlar su efecto en nuestro análisis. ¿Cómo? Introduciendo esta variable (edad, W) en el modelo:

summary(lm(Y~X+W))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.24240    0.14601  15.358   <2e-16 ***
X           -0.07884    0.04526  -1.742   0.0822 .  
W            2.50843    0.16304  15.385   <2e-16 ***

Como veis, en este nuevo análisis que controla la edad ya no hay una relación significativa entre talla de zapato y habilidad lectora (<respira aliviado>). Y esta sería la interpretación correcta, eso sí, suponiendo que mi modelo de la figura de arriba (el gráfico que trata la edad como variable confundida) sea cierto.

Caso 2. Sesgo de colisión (“collider bias”)

Vamos con otro ejemplo clásico. Inteligencia y atractivo físico son dos atributos que pueden llevar al éxito a una persona. Podríamos pensar, en principio, que ambos atributos ocurren de manera bastante independiente (el ser más o menos inteligente no afecta al atractivo, así es la lotería de la genética, amigos). En cualquier caso, ambos atributos pueden producir el mismo resultado, que es el éxito en la vida: tanto las personas muy atractivas como las muy inteligentes tienen más papeletas para triunfar. Vamos a representarlo gráficamente:

Ahora bien, imagina que tomamos una muestra de actores y actrices de Hollywood que han triunfado en su carrera y conseguido muchos premios. Y para cada uno de estos sujetos obtenemos tanto un test de inteligencia como una puntuación de atractivo físico. Como mi agenda de estrellas de Hollywood para realizar estudios es algo escasa, mejor vamos a simular los datos. Así generamos tres variables, X (atractivo), Y (inteligencia) y Z (éxito):

set.seed(200)
X <- rnorm(n, 0, 3)
Y <- rnorm(n, 0, 3)
Z <- 1.6 + 1.2*X + 0.9*Y + rnorm(n, 0, 3) #collider
dataset <- data.frame(X, Y, Z)

Hemos dicho que queremos examinar participantes que ya han demostrado su éxito (son estrellas reconocidas), así que podemos seleccionar solo los valores más altos de Z (éxito). Esto lo hacemos en el siguiente paso, que elimina de nuestra matriz de datos todos los casos con valores de éxito negativos (los que no han conseguido premios, los que llevan tiempo sin protagonizar un taquillazo…).

conditionalZ <- dataset[!(dataset$Z<0)] # con esto elimino del data set todos los casos con éxito negativo.

Y ahora, tras esta selección de datos, examinamos la correlación entre atractivo e inteligencia…

summary(lm(conditionalZ$Y~conditionalZ$X))  
Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)      1.1760     0.1810   6.498 3.15e-10 ***
conditionalZ$X  -0.2049     0.0643  -3.186  0.00158 **

…Y entonces empiezan a no salirnos las cuentas. Porque analizando los datos compruebo, con estupor, que cuanto menos atractivo eres, más inteligente. ¿Veis cómo la correlación es negativa? Y el resultado es significativo, p < 0.05. ¿Cómo puede ser esto? ¿Habremos descubierto una nueva teoría genética? ¿Será verdad el cliché de que los empollones son feos, y los guaperas tontos del bote? Lo dudo. De nuevo no tiene sentido tomar en serio esta correlación.

Y es que, mirando la estructura que hemos dibujado arriba y que deriva de nuestro conocimiento previo del mundo, caemos en la cuenta de que Z es la consecuencia común de X e Y. En términos estadísticos, esta variable es un “colisionador” (¿veis cómo confluyen en el gráfico las flechas causales?) que puede interferir en nuestra inferencia sobre las otras dos variables.

El problema es que nuestra selección de casos hemos filtrado la muestra para quedarnos solo con las personas de mayor éxito, y por eso estamos distorsionando la relación observada entre las variables inteligencia y atractivo. Al eliminar los casos con valores más bajos de Z estamos también eliminando valores de las otras variables… pero de forma sistemática, introduciendo un sesgo.

Esto significa que, cuando hemos identificado una variable “de colisión” (“collider”), no debemos condicionar el análisis en esa variable. Es decir, no debemos seleccionar la muestra en función de Z, y *tampoco* intentar controlar Z metiéndola en el modelo. ¿Queréis comprobarlo? Pues venga, que hacer simulaciones es gratis. El siguiente análisis, con la muestra completa (es decir, sin eliminar los casos de menor éxito), está controlando el éxito al medir la relación atractivo-inteligencia:

summary(lm(Y~X+Z))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.83541    0.11661  -7.164 2.84e-12 ***
X           -0.58339    0.05162 -11.302  < 2e-16 ***
Z            0.48519    0.02674  18.143  < 2e-16 ***

Y entonces sale a la luz esta relación atractivo-inteligencia, que es significativa (p < 0.05), que no sabemos cómo interpretar y que probablemente es un artefacto. Bueno, en este caso, como los datos son simulados, lo podemos confirmar: es un artefacto 😈.

Como veis, al controlar por Z aparece esa correlación espuria que no está presente cuando sacamos esa variable del modelo. Es una correlación engañosa, sin sentido. En este caso, el modelo correcto sería claramente este, el que examina la relación X-Y sin ningún otro predictor ni control (insisto, todo esto si damos por bueno el modelo de la figura de arriba, que trata a X y Z como causas independientes de Y).

summary(lm(Y~X))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03366    0.13693   0.246    0.806
X            0.07607    0.04721   1.611    0.108

Moraleja: si identificas una variable de este tipo (un “collider”), no se te ocurra controlarla en el modelo estadístico, porque es un error.

Caso 3. Variables mediadoras

Y nos queda el tercer ejemplo en discordia. Sabemos que la calidad del sueño puede afectar al rendimiento en el trabajo. Los días que no has dormido bien son como un capítulo de The Walking Dead. Sin embargo, podríamos pensar que esta influencia no es directa, sino que hay otro factor relevante: el nivel de alerta. Porque claro, a veces puede que hayas descansado como un bebé, pero si no te has tomado el café en el desayuno es posible que tampoco des pie con bola, ¿no? Diríamos que la calidad del sueño es la causa distal del rendimiento, y el nivel de alerta es más proximal. Algo como esto:

Pues como somos cientefecos vamos a recoger unos cuantos datos. Medimos la calidad del sueño con un cuestionario, el nivel de alerta mediante una prueba conductual de atención, y el rendimiento laboral según una serie de indicadores que hemos elegido. Pues bien. Generemos esos datos:

set.seed(500)
A <- rnorm(n, 0, 3) # Calidad del sueño
B <- 0.7*A  + rnorm(n, 0, 3) # Nivel de alerta
C <- 0.5*B  + rnorm(n, 0, 3) # Rendimiento laboral

Según lo que hemos explicado, sería esperable que los días que peor hemos dormido tengamos un rendimiento más bajo, ¿no? Pues miremos los datos. Vamos a probar un modelo que examina el efecto de la calidad del sueño (A) sobre el rendimiento (C), controlando el nivel de alerta (B). Oh shit!

summary(lm(C~A+B))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.13893    0.12818  -1.084    0.279    
A           -0.05057    0.05117  -0.988    0.323    
B            0.57940    0.04346  13.332   <2e-16 ***

Lo que nos sugiere el modelo es que el nivel de alerta afecta al rendimiento… Pero la calidad del sueño no lo hace (p = 0.323). ¿Cómo puede ser?

Entonces reparamos en un pequeño detalle, y lo tienes en la figura de arriba. Las tres variables forman una cadena, es decir, lo que estamos describiendo es un modelo mediacional (Kenny, 2021). Así que, para ver el efecto de A sobre C, no tenemos que condicionar en B, ni intentar controlar B. Tendríamos que sacar esa variable del modelo. Así:

summary(lm(C~A))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.23133    0.14898  -1.553    0.121    
A            0.33969    0.04885   6.954 1.12e-11 ***

Ahora sí tiene sentido el resultado. Parece que la calidad del sueño afecta al rendimiento significativamente, p < 0.05. Y es el resultado que tiene sentido interpretar… pero insisto otra vez: ¡eso dando por bueno el modelo que hemos descrito en el gráfico que supone una estructura mediacional y no de otro tipo!

El drama

En todos estos casos, hemos podido hacer un análisis que nos lleva a conclusiones absurdas o poco útiles. No sé si podríamos decir que esos análisis de los ejemplos (controlar un mediador o un collider en el modelo, no controlar una confundida) son “incorrectos”, o simplemente lo que ocurre es que nos están dando una respuesta (probablemente válida) a una pregunta que ni nos interesa ni nos queríamos plantear. Así que como mínimo pueden producir errores y confusiones al interpretarlos. Pero, y aquí está el asunto clave, la única manera de determinar cuál es el análisis que nos interesa consiste en examinar muy bien la situación en la que se recogen los datos, tener al menos una teoría de cómo ha sido ese proceso… y entonces decidir qué factores deben incluirse en el modelo y cuáles no. Para ello, nos puede ayudar dibujar gráficos “causales” de nodos y flechas como los de este post (que se llaman DAG y se usan mucho en inferencia causal e inteligencia artificial).

Seguro que os estáis anticipando a lo que iba a decir: ¿esto no abre la puerta a la subjetividad? Pues mira, no sé si a la subjetividad, pero seguramente permite que haya diferencias de criterio. Un ejemplo famoso lo cita el propio Judea Pearl en su libro. Ronald Fisher, famoso estadístico, era además un aliado infalible de la industria tabaquera (Stolley, 1991).

En 1950-1960, había ya una cantidad enorme de datos como para sospechar que fumar tabaco produce problemas de salud como el cáncer de pulmón. Sin embargo, algunos críticos de esta teoría, como el propio Fisher, se agarraban a un clavo ardiendo proponiendo, por ejemplo la existencia de un factor subyacente, “el gen del tabaquismo”, que produciría, por un lado, mayor tendencia a desarrollar el hábito de fumar, y por otro lado mayor peligro de tener un cáncer de pulmón. Usando los gráficos que tan útiles nos han resultado en este post, veríamos el modelo a la izquierda de la siguiente figura. Claro que los detractores de Fisher tenían otro modelo en mente: sí, quizá exista ese “gen del tabaco”, pero la relación entre fumar y cáncer de pulmón no es espuria, sino causal (modelo de la derecha). Así que distintos expertos parecen tener distintos modelos y por lo tanto realizan diferentes análisis.

Conclusiones

La moraleja de este post es que, más que llevarse las manos a la cabeza por que los analistas tengan cierto grado de libertad a la hora de proponer modelos o examinar los datos, habría que aceptarlo como algo no solo inevitable, sino como una necesidad: sencillamente no puedes decidir cuál es el modelo estadístico que más encaja con tu pregunta sin tener clara esa pregunta, y sin tener una idea de los procesos que generaron los datos.

Esto implica varias cosas:

Que soy bastante escéptico (¡por ahora!) de las propuestas para usar algoritmos automáticos de inteligencia artificial para “sacar el mayor rendimiento de los datos”. Me parece que en algunos casos nos pueden inspirar ideas, a modo exploratorio, pero luego habría que hacer estudios bien diseñados para confirmarlas o refutarlas. No podemos interpretar los datos sin tener alguna “teoría” o pista que nos ayude a darles sentido. Ya digo: por ahora.
Lo siento por el profesor y la doctoranda del ejemplo, pero no creo que haya una “única” manera correcta de analizar los datos en un estudio concreto. Dependerá de cuál sea la pregunta que nos queremos hacer, y también (¡anatema!) de las asunciones y supuestos y creencias que tengamos acerca del proceso que ha generado los datos. Si yo he leído mucho, y por eso lo tengo clarísimo, y sé que una determinada variable es probablemente una confundida, pues entonces tendré que controlarla en el modelo. La de veces que habremos hecho análisis totalmente absurdos e inútiles porque “lo ha pedido un revisor” que cuñadea y que no es ni siquiera experto en el campo. Cosas como controlar el género o la edad en un análisis cuando realmente no son variables confundidas.
También soy limitadamente escéptico hacia algunas propuestas que se escuchan a veces sobre la necesidad o conveniencia de que expertos analistas (matemáticos, estadísticos) se encarguen del análisis de datos en los proyectos de investigación o las tesis, en vez de los propios investigadores. A ver, depende de qué rol tenga el analista en el proyecto, y también de su nivel de implicación, de si va a estar presente en todo el proceso, ya desde el diseño… Si el analista es meramente una especie de consultor al que le mandas los datos, los analiza y te devuelve in informe con las conclusiones, ¡ojo! Y es que, como estoy argumentando, quien hace la pregunta de investigación es quien decide el modelo que debe ponerse a prueba, y para eso hace falta conocimiento de dominio. Podría ser que el estadístico te esté dando una respuesta a una pregunta que no te interesa. Si tu tesis es de psicología, para plantear un buen análisis hay que ser experto o experta en ese tema. O transmitirle ese conocimiento al analista, claro, pero eso es probablemente mucho más difícil que traducir lo que los expertos ya sabemos de nuestro tema de investigación a una pregunta concreta que podamos formular en el análisis. Creo sinceramente que el mejor análisis para tu estudio solo lo puedes proponer tú, que eres quien sabe más del tema.
No necesariamente estoy hablando de incorporar la subjetividad al análisis, ¡a pesar de que mucha gente lo interpreta así! (y de hecho es la crítica común en artículos como el que citamos arriba). Decisiones como clasificar una variable como mediadora o confundida se pueden basar en evidencia, en datos, en teoría… Que haya distintos modos de interpretar esa evidencia, o que le demos distintos pesos a piezas de evidencia que a veces son contradictorias, de forma que al final tengamos propuestas de análisis diferentes según quién lo está planteando, ¿se puede llamar subjetividad? Pues igual hay que perderle el “miedo” a esa palabra. Para mí es más importante que las decisiones estén bien justificadas y de forma transparente, para que se puedan debatir diferentes puntos de vista: “venga, arguméntame por qué crees que esta variable es mediadora y así justificas tu decisión de no controlarla”. Curiosamente, pocos artículos leo donde de verdad esto se lo tomen en serio y te expliquen con transparencia todas las decisiones que han tomado en el modelado.
Sí que hay tradiciones o aproximaciones al modelado que incorporan todo esto. Por ejemplo la gente que diseña modelos generativos en la tradición Bayesiana hace exactamente lo que hemos explicado: piensan en la situación donde se recogieron los datos para modelarla al detalle, definen las variables que pueden afectar a esa situación y describen el proceso generativo de los datos mediante distribuciones de probabilidad. Claro, para hacer este trabajo de modelado hay que combinar el conocimiento estadístico con el conocimiento de tu tema de investigación. Nadie dijo que fuera fácil.

(*) Este tipo de gráficos se llaman DAGs (Directed Acyclic Graphs) y se usan un montón en inferencia causal.

Referencias

Breznau, N., Rinke, E. M., Wuttke, A., Adem, M., Adriaans, J., Alvarez-Benjumea, A., Andersen, H. K., Auer, D., Azevedo, F., Bahnsen, O., Balzer, D., Bauer, G., Bauer, P. C., Baumann, M., Baute, S., Benoit, V., Bernauer, J., Berning, C., Berthold, A., … Nguyen, H. H. V. (2021). Observing Many Researchers Using the Same Data and Hypothesis Reveals a Hidden Universe of Uncertainty. MetaArXiv. https://doi.org/10.31222/osf.io/cd5j9
Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
Stolley, P. D. (1991). When genius errs: R.A. Fisher and the lung cancer controversy. American Journal of Epidemiology, 133(5), 416-425; discussion 426-428. https://doi.org/10.1093/oxfordjournals.aje.a115904

Posted in Estadística MAL | Tagged estadística, metodología, Simulaciones en R | Leave a comment

Hoy hablamos de nudging: sobre urinarios gorrinos y premios Nobel

Posted on November 23, 2022 by Fernando Blanco

Debo reconocer que en los últimos tiempos me había aficionado a divulgar sobre todo haciendo hilos de Twitter, pero con los últimos golpes de timón del nuevo CEO de la compañía (máquina, crack, rey, titán, gigante, planetoide), he decidido que tengo que retomar el clásico blog(*), y de paso así produzco materiales que puedo usar en clase. Así que aquí me tenéis, dispuesto a hablar de un tema maravilloso e interesante como es el de los urinarios masculinos del aeropuerto de Ámsterdam y su increíble conexión con el premio Nóbel. Pues sí. Vamos a hablar de los nudges.

– ¿Los nudgets?

-No, los nudges.

-¿Esto?

-No, eso son nuggets. Trocitos de pollo. Bueno, “dicen que es pollo”, aunque no podemos estar seguros. Pero en fin, ¡que no! Que es otra cosa: nud-ges. 🤦‍♂️

Mira, para no liarnos vamos a usar una traducción libre del término que a mí particularmente me gusta: “empujoncitos”. Pues venga.

¿Qué es un “nudge” (“empujoncito”)?

Vamos a empezar con un ejemplo. Y como os decía antes: ¿qué tendrán que ver los urinarios de un aeropuerto con el permio Nóbel? Pues bueno. Resulta que en el Aeropuerto de Ámsterdam estaban ya hasta las narices de limpiar los urinarios de caballeros, porque la gente es muy cerda y lo dejaba todo salpicado. Claro, tampoco es plan de multar a los infractores: ¿qué vas a hacer, poner un vigilante que esté 24/7 con una vara preparada por si alguien echa unas gotillas fuera?

Así que pensaron la siguiente solución. Fijaos bien en la foto. ¿Veis una pegatina con el dibujo de una mosca en cada urinario?

El caso es que fue poner la pegatina y mejorar la limpieza de los baños inmediatamente, sin hacer nada más. Claro, la gente llega, ve la mosquita, e intenta apuntar con el chorro dentro del urinario, no fuera. Y mancha menos. Brillante idea. Y barata. Seguro que entre los lectores habrá gente que haya visto este tipo de pegatinas (a veces con el dibujo de una mosca, a veces con una diana) en los urinarios. Y funciona.

Bueno, pues este tipo de intervención se conoce como “nudge” (“empujoncito”), y el economista Richard Thaler lo define como “pequeños cambios en la arquitectura de elección que alteran el comportamiento de las personas de manera predecible”.

Como seguro que esa definición no nos aclara nada, os lo concreto un poco más: un empujoncito es un cambio, a menudo sutil, en el contexto en el cual las personas tomamos decisiones, y que consigue hacer más probable que se elija una de las opciones, sin prohibiciones ni imposiciones.

Por ejemplo, ¿cómo sabemos que la mosquita de los urinarios es un empujoncito? Porque cumple las siguientes características:

Es un cambio sutil en el contexto en el que la gente toma decisiones. En este caso, es una pegatina pequeña en el urinario.
…Que facilita que la gente elija una de las opciones (apuntar dentro del urinario, no fuera).
…Pero lo hace sin imposiciones ni prohibiciones (nadie te obliga a apuntar a la mosca, puedes no hacerlo).
…Sin alterar la estructura de pagos de la decisión (nadie te va a dar premios ni a castigar por tomar una decisión u otra).
…Y de forma que la persona puede, si lo desea, ignorar la intervención (puedes obviar que la mosca está ahí sin mucho esfuerzo).

Pues bueno, este tipo de intervenciones ha cosechado un éxito impresionante en la esfera aplicada. Todo el mundo usa empujoncitos. Los gobiernos e instituciones los incluyen en sus medidas, las compañías en los diseños de sus dispositivos y programas, o en la gestión de sus empleados (Ebert & Freibichler, 2017), los publicistas y vendedores en su planificación de la experiencia del cliente, y en general cualquiera los puede aprovechar en su vida cotidiana. Su “descubridor” (o más bien popularizador), el economista Richard Thaler, ganó el premio Nobel de economía en 2017 por sus contribuciones a la economía conductual.

El planteamiento de los empujoncitos realmente no es nuevo, ni complejo. Se trata de aprovechar algunos principios psicológicos que afectan a nuestras decisiones para facilitar que nos decantemos por una opción y no por otra. Principios a menudo sencillos pero relativamente potentes, como nuestra tendencia a hacer lo mismo que hacen los demás, o a seguir haciendo las cosas de la misma forma que en el pasado… Todo eso lo hacemos sin planteárnoslo mucho. Pues entonces, se trata de aprovechar esas “fuerzas” para ayudar a tomar mejores decisiones.

Claro, he dicho “tomar mejores decisiones”, pero eso en realidad depende de cada cual. Hay una cierta tendencia a enfocar los empujoncitos como una estrategia bienintencionada para hacer las cosas que realmente el individuo necesita o quiere hacer. Por ejemplo, si una persona quiere cuidar su dieta pero tiene tentaciones y está a punto de pedirse una pizza cuatro quesos, podríamos diseñar algún tipo de empujoncito (como avisos y recordatorios, formas de organizar las comidas o incluso de distribuir los alimentos en la nevera) que le ayude a decantarse por la opción más sana. Pero si a mí me interesara, siguiendo con este ejemplo, fomentar que la persona elija la comida basura (no sé, imaginad que tengo acciones de McDonalds), podría igualmente diseñar empujones para que opte por este tipo de comida. Algunos autores se refieren a estos empujones en la “mala” dirección como “sludges” (en vez de “nudges”).

Algunos tipos de empujoncito

Como todo se entiende mejor con ejemplos, vamos a hacer eso precisamente, poner ejemplos de los diferentes tipos de empujoncito que se pueden utilizar.

Prueba social. Un descubrimiento recurrente en la psicología social es que las personas tendemos a seguir lo que creemos que es la norma en nuestro grupo. Es decir, que si a nuestro alrededor la gente que es como nosotros realiza una determinada acción, o tiene una determinada opinión, vamos a tender a imitarlos. ¿Cómo podemos implementar este principio en un empujoncito? Pues imagina que estamos diseñando la página web de un comercio. Si me interesa vender un producto que tiene muy buenas reseñas, tal vez podría funcionar si muestro bien visibles esas opiniones positivas que indican que la mayor parte de la gente prefiere esa opción. El cliente pensará: “si a todo el mundo le gusta este producto, qué porras, tendré que elegirlo”.

Efectos de orden. Otro efecto muy robusto de la psicología es la llamada “curva de posición serial” (Murdock, 1962). Para entendernos: nuestra memoria es falible, y cuando nos presentan una secuencia de información tendemos a quedarnos sobre todo con el elemento que abría la serie (efecto de primacía) y, todavía más, con los últimos elementos en presentarse (efecto de recencia). Este principio se puede diseñar para “empujar” a las personas a tomar determinadas decisiones. Por ejemplo, si un camarero te recita la carta en el restaurante, es más probable que elijas los últimos elementos de la serie, los que son más fáciles de recordar.

Simplificar mensajes/limitar las opciones. Es bien sabido que las personas podemos “aturullarnos” cuando nos ofrecen demasiada información de golpe, o cuando tenemos muchas opciones para elegir. Por eso se puede facilitar la decisión si se simplifica el proceso: por ejemplo, tal vez se puede reducir el número de opciones disponibles en un menú para que la opción deseada se elija más a menudo que las otras, al evitar la distracción.

Usar opciones por defecto. Otra de las fuerzas que moldean nuestras decisiones es el llamado “sesgo del statu quo” (Kahneman et al., 1991). Nos acostumbramos a hacer las cosas de una manera, y luego nos cuesta cambiar. Siempre compramos en el mismo supermercado, las mismas marcas… La opción más cómoda es “no hacer nada” y dejarse llevar por la rutina. Ahora pensad: ¿por qué España es un país que lidera los rankings en donación de órganos? Porque en España, al contrario que en otros países, la opción por defecto es la donación. Es decir, una persona puede decidir NO donar sus órganos, pero para ello lo tiene que decir explícitamente, así que la mayoría lo dejamos estar. Otro ejemplo es la estrategia de muchos servicios de streaming (como Netflix) consistente en reproducir automáticamente el siguiente episodio de una serie, salvo que toques un botón para cancelarlo. De este modo nos “empujan” a seguir con el maratón de la serie de moda.

Reducir/aumentar la fricción. Un grupo de estrategias muy usadas consisten en facilitar una determinada opción, reduciendo sus complicaciones o desventajas. O bien hacerlo al revés: dificultar las opciones alternativas. Por ejemplo, imagina que quiero fomentar que te apuntes a un gimnasio: entonces te recomendaré la opción más cómoda, la que esté más cercana a tu casa, la que requiera menos papeleo y trámites al matricularte… Todo para que no abandones ni te eches para atrás. O imagina que quiero que la gente compre alimentos sanos y saludables. Entonces, reduciría la fricción de esa elección haciendo que estos estuvieran en el lugar más accesible y cómodo del supermercado, mientras que relegaría las chucherías a la zona más lejana de la tienda (combino reducción de fricción de la opción deseada con aumento de fricción de la alternativa indeseada). La clave es que todavía puedes comprar phoskitos si quieres, vida mía, pero te va a costar un poco más encontrarlos y por lo tanto es más probable que venzas la tentación.

Avisos en el momento de la decisión. Si habéis usado Twitter u otras redes sociales, es posible que hayáis visto ese mensaje que aparece a veces cuando vas a compartir un contenido, que dice algo así como “espera un momento, ¿seguro que quieres compartir sin haber leído antes la noticia?”. Pues sí, se trata de un empujoncito dirigido a evitar la propagación de bulos. En general se ha comprobado que la gente comparte menos noticias falsas si le dejan tiempo para pensar detenidamente en la noticia en vez de darle al retuit compulsivamente (Pennycook et al., 2022).

Críticas

Por supuesto, hay muchos autores críticos con el concepto y detractores del uso de los empujoncitos. Voy a agrupar las críticas en tres tipos: éticas, empíricas y conceptuales.

En primer lugar, hay quien ve en estas técnicas una forma de manipulación. Cuando es el estado el que aplica los empujoncitos, podríamos hablar de “paternalismo” e iría contra las libertades individuales. O sea, que por muy buenas intenciones que tenga, si yo quiero comerme un bollycao, ¿quién es el ministro de sanidad, o el de consumo, para inducirme a no hacerlo? Pues bueno, es un debate. No tomo partido, primero porque no tengo una opinión clara, y segundo porque creo que es un asunto de opiniones, y no tengo nada que aportar como psicólogo. Lo único que me atrevo a apuntar es que, generalmente, todas nuestras decisiones pueden verse influidas por otras personas. Es decir, que incluso aunque no quieras influir sobre los demás es casi inevitable que esto ocurra. Así que puedes renunciar a los empujoncitos, pero influirás de otra manera (incluso involuntariamente).

En segundo lugar, hay críticas que tienen que ver con la solidez de la ciencia detrás de los empujoncitos. Hace unos meses se hizo famoso este meta-análisis (Maier et al., 2022) que venía a sugerir que toda la literatura científica en torno a este concepto está plagada del conocido problema del “sesgo de publicación” del que hemos hablado en este blog (por ejemplo, aquí), y que en realidad muchos de los resultados serían falsos positivos.

Claro que hay quien responde que el problema no es tan grave como lo quieren pintar en ese artículo. Los empujoncitos son cambios sutiles en el contexto decisional, así que es esperable que sus efectos sean pequeños. Además se trata de un concepto heterogéneo, como ahora veremos, un “cajón de sastre” en el que caben intervenciones muy diferentes, así que es difícil cuantificar la magnitud del efecto “general”. Podéis leer este argumento a modo de contra-crítica en este hilo de Twitter, o en este artículo de respuesta.

Y esto nos lleva a las críticas de tipo conceptual. Bien, hemos dicho que realmente esto de los empujoncitos no es un concepto unitario, sino más bien un conjunto de aplicaciones de diferentes principios cognitivos que afectan a las decisiones, y que tienen algunos elementos en común pero por lo demás son diferentes. Esto ayuda a reconciliarnos con esa baja solidez empírica que hemos comentado: dado que el empujoncito es más bien una “etiqueta” para referirnos a muchos tipos de intervención diferentes, no podemos esperar que todas las intervenciones que caben en dicha etiqueta tengan un tamaño del efecto similar, o respondan de manera homogénea a otros factores (Szaszi et al., 2022).

Vamos a dejarlo aquí, espero que os haya entretenido o incluso resultado interesante este mundo de los nudges y la “economía conductual”.

(*) Este post es una versión extendida de los hilos respectivos en Mastodon (el original) y en Twitter. Voy a intentar retomar el blog para este tipo de divulgación.

Referencias

Kahneman, D., Knetsch, J.L., Thaler, R.H. (1991). Anomalies: The endowment effect, loss aversion, and status quo bias. Journal of Economic Perspectives.
Maier, M., Bartoš, F., Stanley, T. D., Shanks, D. R., Harris, A. J. L., & Wagenmakers, E.-J. (2022). No evidence for nudging after adjusting for publication bias. Proceedings of the National Academy of Sciences, 119(31), e2200300119. https://doi.org/10.1073/pnas.2200300119
Murdock, Bennet (1962). Serial Position Effect of Free Recall. Journal of Experimental Psychology, 64(5), 482-488. doi:10.1037/h0045106.
Pennycook, G., & Rand, D. G. (2022). Nudging Social Media toward Accuracy. The ANNALS of the American Academy of Political and Social Science, 700(1), 152–164. https://doi.org/10.1177/00027162221092342
Szaszi, B., Higney, A., Charlton, A., Gelman, A., Ziano, I., Aczel, B., Goldstein, D. G., Yeager, D. S., & Tipton, E. (2022). No reason to expect large and consistent effects of nudge interventions. Proceedings of the National Academy of Sciences, 119(31), e2200732119. https://doi.org/10.1073/pnas.2200732119
Thaler, R. H., & Sunstein, C. R. (2011). Un pequeño empujón / Nudge: El impulso que necesitas para tomar mejores decisiones sobre salud, dinero y felicidad. Madrid: Taurus.

Posted in Psicología social | Tagged economía conductual, Psicología social | Leave a comment

Habituación, sensibilización y bromitas de oficina

Posted on November 1, 2022 by Fernando Blanco

Saludos de nuevo. No, esta vez no os voy a hablar de estadística, así que podéis quedaros, no os marchéis, que haya calma.

Llevaba tiempo buscando una excusa para retomar el blog, y mira por dónde, la encontré. ME ENCANTA dar clase de la asignatura de aprendizaje. De verdad, es uno de los temas que adoro. Y como veo que hay mucha gente que tiene problemillas para entender algunos conceptos, me he dicho: Pues voy a intentar ayudar. Así que aquí estoy, dispuesto a hablaros de la forma de aprendizaje más sencilla que probablemente existe. ¿Me acompañáis un rato?*

Habituación: qué pasa cuando repites, y repites…

Bueno, como casi todos los y las estudiantes de psicología saben, algunos estímulos tienen la propiedad de producir una respuesta reconocible en los organismos, que no necesita ser aprendida sino que puede ser refleja, o incondicionada. Por ejemplo:

Si me pegas un grito sin mediar aviso cuando estoy distraído escribiendo el blog, lo más probable es que ~~me cague en todo lo que se menea~~ me lleve un susto de muerte y se me ponga el corazón como el de un colibrí. Que ya te vale con las bromas pesadas.

Otro ejemplo: si voy a visitar a la familia y le llevo un regalo a mi sobrina de tres años, seguramente tendrá una reacción de alegría y se abalance a desenvolverlo con toda el ansia. Es el efecto que producen los sustos y los regalos, ¿verdad?

Ahora bien. Imagina que cualquiera de estas dos situaciones se repite con cierta frecuencia. La primera vez que me pegas un susto por poco me matas, pero si intentas hacer lo mismo cada media hora pensaré dos cosas: que ya no me asustas por más que grites, y que necesito que te tomes unas vacaciones bien lejos de mí, José Ricardo. Y lo mismo con mi sobrina: la primera vez que le hago un regalo le hace ilusión, pero si todos los días le llevo el mismo puñetero puzle de Mickey Mouse yo creo que se acabará cansando, ¿no?

Pues bueno, esto que estoy describiendo y que es tan cotidiano se llama habituación. Lo que sucede es que un estímulo te producía inicialmente una respuesta más o menos intensa (como el respingo por el susto, o la ilusión por el regalo), pero si lo repetimos y repetimos, acabaremos por debilitar dicha respuesta. Sencillo, ¿verdad?

Podéis pensar más ejemplos: ¿Por qué tras el primer día en clase de crossfit me quiero morir del dolor, pero al cabo de tres meses hasta me sabe a poco cada sesión? Habituación. ¿Por qué al entrar en una casa con un problema de cañerías me molesta el olor, pero si paso unos días viviendo allí ya ni lo noto? Habituación. ¿Por qué el primer día de vacaciones no te deja dormir el ruido del tráfico constante que pasa frente al apartamento que has alquilado, pero un par de semanas después no lo notas? Habituación. ¿Por qué la primera vez que me comí un kebab me pareció una exquisitez, pero si lo hago tres veces por semana acabo aburrido de tanta salsa de yogur? Habituación. Y así…

¿Es la habituación permanente? No tiene por qué. Podemos hablar de habituación “a corto plazo” o “a largo plazo”. La cuestión es que si, una vez que la respuesta a un estímulo se ha habituado, pasamos una temporada más o menos larga sin volver a exponernos, la respuesta original puede reaparecer (lo llaman recuperación espontánea). Así, durante todo el curso te habitúas al sonido del despertador y lo introduces en tu rutina, pero después de las vacaciones que te has pegado sin madrugar, levantarse de la cama los primeros días de septiembre es un infierno. En navidades acabas harto de comer mantecados, pero cada año, cuando compras la primera remesa en noviembre, los vuelves a coger con ganas.

Lo fundamental de la habituación es que es un tipo de aprendizaje sencillo, por lo tanto ni siquiera forma parte del “aprendizaje asociativo”, porque no consiste en asociar dos estímulos entre sí. Es simplemente una forma de aprendizaje que implica ir reduciendo la respuesta conforme un mismo estímulo se repite varias veces. No te compliques la vida.

Es tan sencillo, tan sencillo, que lo podemos observar en seres muuuuy diferentes a los seres humanos: en invertebrados como la babosa de mar Aplysia (lo cual nos ha brindado una oportunidad de lujo para estudiar el proceso a nivel neuronal), o en los gusanos (planarias)…

…¡O incluso (aunque esto es controvertido) en plantas como la Mimosa pudica! ¿Veis esa respuesta de retracción de las hojas? Pues la estimulación repetida puede hacer que se debilite, igual que en los ejemplos anteriores.

Sensibilización, cuando no estás de humor para tonterías

Claro que, si la cosa fuera tan, tan sencilla de entender, los estudiantes de psicología no tendrían tantos problemas en clase y yo no estaría escribiendo este post. Y es que a veces la estimulación repetida no produce habituación, sino otra cosa. Que aparentemente tiene el resultado opuesto.

Imagina que anoche te fuiste de fiesta y hoy estás con un resacón del quince, pero aun así has venido a trabajar. Entonces llego yo y te pregunto que dónde está la grapadora. Tú me miras con ojos vidriosos intentando procesar la pregunta, así estás de lento de reacción porque ya se sabe, noches alegres, mañanas tristes. Antes de que contestes ya he vuelto a la carga: “La grapadora, ¿sabes dónde está?”. Empieza a borbotear en tu garganta lo que quiere sonar a gruñido y ya está otra vez la vocecita “¿no lo sabes? La grapadora. Solía estar aquí. ¿Te suena dónde está?”. Cada vez que te repito la misma puñetera pregunta se te va clavando en el selebro, como un alfiler. Y otra vez la pregunta. Y otra.

En este caso, también hay una estimulación repetida. Pero si en la habituación la repetición del estímulo conduce a que se vaya reduciendo la respuesta, en la sensibilización es al revés. Cada vez que te pregunto te encabronas más porque te molesta mi voz.

El término “sensibilización” ya nos da una pista: estás más sensible. Es como cuando te ponen una inyección muy dolorosa en el brazo, y después alguien te roza sin querer la zona del pinchazo, y esa sensación que normalmente no te molesta ahora es como si te restregaran una lija del siete. Te vuelves más sensible a la estimulación y por lo tanto tus respuestas son más exageradas.

Pero habituación y sensibilización no son el mismo proceso. De hecho, es fácil observar diferencias, aparte de lo evidente de que tienen resultados opuestos (habituación: menos respuesta / sensibilización: más respuesta). Mientras que la habituación es específica del estímulo, la sensibilización no lo es. ¿Y esto que significa? Te lo explico:

La primera vez que me pegaste un grito sin avisar me dio un vuelco el corazón del susto. Cuando fuiste repitiendo tu bromita, esa respuesta (el susto) a ese estímulo (el grito) se habituó. Eso quiere decir que si vuelves a intentar asustarme gritando, no te funcionará. Ahora bien, esto no significa que ahora yo sea Daredevil, el invulnerable hombre sin miedo. No, habrá otras cosas que me asusten. No sé, échale imaginación: enséñame una araña (culona), vístete de vampiro, o de informe secreto de la ANECA. Verás cómo entonces me acojono otra vez. Porque a esos estímulos NO estoy habituado, solo a tu grito. La habituación es, por tanto, específica de un estímulo concreto.

Fíjate en cómo sabemos si la habituación es específica del estímulo: ¡cambiando el estímulo por otro! (y comprobando que la respuesta ya no está habituada a todos los estímulos posibles).

Sin embargo, la sensibilización no funciona así. Si tienes resaca, no solo te molesta mi voz cuando te pregunto por la grapadora de marras. Te molesta la radio con la Rosalía a todo trapo, te molesta el ruido de la impresora… Te molesta todo porque estás sensibilizado, y la sensibilización *no* es específica de un estímulo concreto, sino que es un estado general en el que la respuesta (en este caso, la molestia) se magnifica.

Eso sí, ambos fenómenos se producen por la estimulación repetida. Eso es lo que tienen en común, y tiene que quedar claro para no confundirlos con otros diferentes.

¿Por qué a veces me habitúo, y a veces me sensibilizo?

Por regla general, la estimulación repetida conduce a la habituación. Pero en ocasiones nos puede llevar al otro resultado, la sensibilización. ¿Por qué esta diferencia?

Hay un experimento clásico que se realizó con ratas y que nos da alguna pista (**). Veréis, los animales tenemos un tipo de respuesta que damos cuando algún estímulo, como un ruido fuerte y repentino, nos pilla desprevenidos. Lo llamamos “respuesta de orientación” (“startle response”). En los humanos puede consistir en dar un respingo o levantar la cabeza y abrir los ojos para no perder detalle, y en las ratitas se manifiesta como una postura corporal muy característica, con el lomo arqueado como veis en la imagen. 😍

A unos científicos se les ocurrió la idea de repetir la estimulación (un ruido repentino) que provoca esta respuesta de orientación en ratas (Davis, 1974). Lo que pasa es que había dos grupos de ratas. En el primer grupo, el ruido repentino era de una intensidad media (60 dB), ni demasiado fuerte ni demasiado flojo. En el segundo grupo, el ruido era un bocinazo bien fuerte (80 dB). En la figura tenéis los resultados:

El eje vertical recoge la intensidad de la respuesta de orientación. Como podéis ver, en la figura de la izquierda tenemos al grupo de ratas que escucharon el sonido de intensidad media. La línea descendente indica que, al ir repitiendo ese sonido, la respuesta de orientación (ese “¿qué pasa, qué es ese ruido?”) va descendiendo. Es decir, se va habituando.

Pero en la figura de la derecha tenemos el grupo que se expone al ruido fuerte, ¡y vemos el resultado opuesto! Cuanto más repetimos el ruido, más reacciona la rata. Está sensibilizada.

Es decir, el mismo sonido parece que ha sido capaz de afectar a la conducta de maneras diferentes en función de su intensidad. Estímulos suaves tienden a habituarse (el ruido de fondo de la impresora, el murmullo del aire acondicionado…), reduciendo la respuesta inicial, mientras que estímulos más fuertes sensibilizan con cada repetición, produciendo respuestas más y más intensas (como aquel lunes en la oficina, que te pregunté por la grapadora nada más que unas pocas veces y al final acabé con un ojo morado por algún motivo que evidentemente no viene al caso).

Lo que pasa es que cuando investigamos un poco más, vemos que la cosa es un poquito más compleja y que realmente los dos procesos, habituación y sensibilización, pueden ocurrir a la vez. ¿Pero cómo es posible?

Pues bien, según la teoría de los dos procesos, habituación y sensibilización son precisamente eso, dos procesos independientes que actúan al unísono, en paralelo, cada vez que la estimulación se repite. La conducta que observamos (respuesta que aumenta o que se reduce) es el resultado de la combinación de ambos procesos. Es decir, si la sensibilización es más fuerte que la habituación, eso es lo que veremos en la ratita del experimento, o en el humano con resaca y mal genio. Es una carrera de a ver quién gana.

¿Por qué a veces gana un proceso y a veces el otro? ¿De qué depende? ¿Y por qué la habituación es específica del estímulo que se presenta, mientras que la sensibilización no? Ahí la teoría nos propone una caracterización de los dos procesos que lo explica. La habituación y la sensibilización son resultado de dos sistemas diferentes en el organismo: el sistema estímulo-respuesta es un sistema de aprendizaje que conecta el input sensorial con las respuestas, y por lo tanto admite especificidad (respuestas concretas para estímulos concretos). Este sistema es el responsable de la habituación.

Por otro lado, el sistema de estado (que no implica un aprendizaje en sí) determina nuestra predisposición a responder a estímulos excitantes, en general. Y esta predisposición general aumenta o disminuye según algunos factores como si hemos descansado o no, si estamos nerviosos, si estamos bajo los efectos de alguna sustancia… Este sistema es el que produce la sensibilización. Así se entiende cómo este proceso no tiene esa capacidad de ser específico con algunos estímulos y no con otros, y que lo observemos sobre todo cuando estamos alterados (como aquella vez que viniste con resaca a la oficina y la grapadora no apareció en todo el día, qué cosa más rara y qué irritable estabas, y yo tuve que ir a urgencias porque acabé con un ojo morado por un motivo que no tenía nada que ver con esto).

Adaptación sensorial, fatiga, y otros fenómenos que nos lían

Ya casi acabo, prometido. Y llegamos a una de las partes que más suelen llevar a error a los estudiantes de primer curso. Resulta que hay algunos fenómenos que se pueden confundir con la habituación, pero que *no* son habituación (ni siquiera son aprendizaje), y ya tenemos el lío montado. Así que vamos a ver cómo los distinguimos…

Adaptación sensorial: Bueno, pues aquel día que estaba buscando la grapadora por la oficina, como estabas tan irritable, me salí un momento a la calle a darme una vuelta, a ver si me despejaba. Ya sabéis: Granada, 40 grados en junio, un solazo… Y yo sin mis gafas de sol. A los quince minutos, preocupado porque no se me ocurría dónde podría estar la grapadora, volví a la oficina y me encontré con que habías apagado todas las luces y bajado las persianas. Claro, hijo mío, con la resaca te molestaba la luz, ¿eh? El caso es que como venía de la calle, de estar a la solana, al entrar en la oficina con todo cerrado no veía ni torta. Todo negro.

Y por eso tropecé con algo al entrar, un objeto pequeño al que di una patada sin verlo, y haciendo ruido con el golpe. Tuve que esperar unos minutos para que mis ojos se acostumbraran a la escasez de luz. Y entonces ya podía verte sentado en tu escritorio y refunfuñando que si soy un torpe, que si hago ruido…

Veamos: cuando salgo a la calle, el sol me deslumbra y necesito unos minutos para adaptarme a tanta luz. Y cuando entro en una habitación oscura, lo mismo. Podríamos confundir esta adaptación sensorial con la habituación o con la sensibilización, ya que implica cambios en mi capacidad de responder. De hecho no he sido capaz de esquivar un objeto que había en el suelo.

Pero si lo piensas bien, te darás cuenta de que la adaptación sensorial no tiene nada que ver con la habituación. Primero, la habituación es un fenómeno de aprendizaje que sucede en el sistema nervioso, mientras que la adaptación sensorial ocurre en los órganos de los sentidos (mis ojos, mis oídos). Segundo, la habituación puede ser a largo plazo, pero la adaptación sensorial es muy transitoria, cuestión de segundos o, como mucho, minutos. Por supuesto, la adaptación sensorial no es específica del estímulo: no es que no vea los objetos de determinado tamaño o los de determinado color… es que no veo nada. No hay especificidad. Ostras, ahora que lo pienso: ¿y si el objeto al que di la patada cuando iba todo cegato era la grapadora que buscaba? 😨

La tabla siguiente resume las diferencias entre habituación y adaptación sensorial:

Fatiga: El otro fenómeno en discordia es la fatiga. Si te apuntas al gimnasio y te pones a levantar pesas, notarás cómo al hacer las series hay un punto a partir del cual ya no puedes seguir (ese momento en el que los gurús del gimnasio te miran con aprobación y dicen: eso, eso, “al fallo”, ahí estás entrenando bien). …CINCO… SEIS… Y…. SIEEEEE…. TEHH. <no puedo más>

Vale, pues si justo en ese momento alguien te pide que le acerques un objeto pequeño y más o menos ligero (como una grapadora), y el movimiento implica los mismos músculos que acabas de fatigar, verás cómo no puedes hacerlo. El músculo no puede, se siente, está de huelga.

Claro, esto se podría confundir con la habituación: hay una respuesta que antes podías hacer (coger una grapadora y levantarla del suelo) pero ahora no, y se debe a la estimulación repetida (por levantar las pesas siete veces). Sin embargo, ahí acaba el parecido entre las dos cosas. La fatiga no es un proceso de aprendizaje, no sucede en el sistema nervioso, no es duradero (por suerte, solo dura un par de minutos)… Ahí va otra tabla resumen para que no os lieis.

Conclusiones

Me alegro de que hayamos llegado hasta aquí y apenas me haya apoyado en experimentos con ratitas y procedimientos extraños. Al fin y al cabo la habituación es un proceso cotidiano y muy, muy común en los seres humanos, así que para qué complicarlo más. Espero que esto sirva para prevenir algunos malentendidos.

Por cierto, por si alguien estaba preocupado: ¡APARECIÓ LA GRAPADORA! No sé cómo, pero estaba dentro de un postre de gelatina. Algún gracioso ha querido gastarme una broma. En fin.

(*) Como siempre, chiques, voy a simplificar mucho. Habrá inexactitudes y generalizaciones un poco burdas. Pero el objetivo es que se entienda el concepto, y si no simplifico no sirve de nada este post porque para eso tienes el manual de la asignatura lleno de experimentos con ratas, claro.

(**) Tardaban en salir los puñeteros experimentos con ratas. ¿Cómo vamos a hablar de aprendizaje sin mentarlos? De verdad, hace falta repensar cómo enseñamos esta asignatura.

Referencias

Davis, M. (1974). Sensitization of the rat startle response by noise. Journal of Comparative and Physiological Psychology, 87(3), 571–581. https://doi.org/10.1037/h0036985
Domjan, M. (2015). The Principles of Learning and Behavior. Austin, TX: Wadsworth
Glanzman D. L. (2009). Habituation in Aplysia: the Cheshire cat of neurobiology. Neurobiology of learning and memory, 92(2), 147–154. https://doi.org/10.1016/j.nlm.2009.03.005
Prados, J., Fisher, C., Moreno-Fernández, M. M., Tazumi, T., & Urcelay, G. P. (2020). Short- and long-term habituation of photonegative and exploratory responses in the flatworm planaria (Dugesia). Journal of experimental psychology. Animal learning and cognition, 46(3), 354–365. https://doi.org/10.1037/xan0000256
Serpell, E., & Chaves-Campos, J. (2022). Memory and habituation to harmful and non-harmful stimuli in a field population of the sensitive plant, Mimosa pudica. Journal of Tropical Ecology, 38(2), 89-98. doi:10.1017/S0266467421000559

Posted in Aprendizaje | 2 Comments

ESTADÍSTICA VISUAL (IX): Por fin vas a calcular 100 intervalos de confianza

Posted on January 13, 2022 by Fernando Blanco

Hay que ver cómo es la estadística y cómo somos capaces de hacer e interpretar análisis complejos… y a la vez que no nos entren en la mollera algunos conceptos básicos. Así de engañosa es. Uno de esos conceptos que se nos atragantan constantemente es el de los intervalos de confianza. ¡Madre mía, las vueltas que le habremos dado! Crees que lo tienes claro, y al cabo de un tiempo, venga otra vez a preguntar por lo mismo. Y venga a mirarlo en la Wikipedia. No hay manera. Vamos a ver si de una vez por todas dejamos asentado este concepto tan resbaladizo, o al menos lo vamos a intentar de una manera diferente, con visualizaciones y simulaciones. ¿Me acompañáis?

¿Qué es un intervalo de confianza?

Hemos hablado de los intervalos de confianza en este blog (aquí, y aquí), con el objetivo de ilustrar el error de muestreo. Pero creo que nunca nos hemos metido a fondo con el concepto, cómo se calcula y cómo se visualiza. Habrá que ponerse las pilas.

A menudo usamos el concepto de intervalo de confianza en el contexto de problemas de estimación. Ya sabéis: ahí fuera, en el mundo real, hay una población que se define con un parámetro (por ejemplo, la edad promedio de todos los jugadores de rugby del mundo, o el máximo kilometraje alcanzado por un Ford Fiesta en todo el país… lo que queráis). Lo que sucede es que las poblaciones son taaaan grandes que son inaccesibles. No es práctico encuestar a todos los jugadores de rugby del mundo, o mirar el cuentakilómetros de todos los automóviles de España. Por eso los parámetros tienen valor desconocido.

Así que en vez de estudiar directamente los parámetros, los vamos a estimar a través de una muestra. En la muestra sí podemos conocer los estadísticos como la media, porque son de menor tamaño y fácilmente calculables. De este modo, podría reclutar por ejemplo 100 jugadores de rugby, y asumir que (si el muestreo está bien hecho), el promedio calculado a partir de la muestra nos ofrecerá una buena estimación del parámetro poblacional.

Es decir, podemos entender la estimación y el muestreo como “viajes” de ida y vuelta entre la población (cuyos parámetros desconocemos) y la muestra (cuyos estadísticos sí conocemos).

Lo que ocurre es que las estimaciones no son perfectas, hay incertidumbre. Puede ser que el estadístico de mi muestra no coincida con el valor del parámetro de la población. O que diferentes muestras de la misma población tengan estadísticos diferentes… Entre otras fuentes de incertidumbre, tenemos ese maldito error de muestreo que os expliqué alguna vez). Así que necesitamos alguna herramienta para comunicar la incertidumbre, y ahí entran los intervalos de confianza.

Un intervalo de confianza viene definido por dos valores (límite inferior y límite superior) que nos indican la incertidumbre que ha rodeado al proceso de estimación. Pero, ¿cómo se interpreta?

La confusa interpretación de un intervalo de confianza

Imaginemos que la edad promedio en nuestra muestra de 100 jugadores de rugby es de 28.5 años. Ese es el valor del estadístico, y también va a ser nuestra estimación del valor del parámetro poblacional. Ahora bien, sabemos que probablemente no serán exactamente iguales, debido al error de muestreo entre otras cosas. Por eso calculamos un intervalo de confianza.

Los intervalos se pueden construir con diferentes niveles de confianza. Generalmente, en psicología usamos intervalos del 95%. Pero son habituales también intervalos del 90% o del 99%. Luego comprobaremos las implicaciones de esta decisión.

Imaginemos ahora que el intervalo de confianza al 95% en este ejemplo va de 25.5 a 31.5 años. ¿Cómo interpretamos este intervalo?

En primer lugar, hay que fijarse en su anchura (en este caso, cubre un total de 6 años). Cuanto más ancho sea el intervalo, mayor incertidumbre en la estimación. Por eso, un intervalo estrecho nos diría que podemos aproximar con bastante precisión el valor del parámetro.

En segundo lugar, podemos interpretar el intervalo como que “hay un 95% de probabilidad” de que el parámetro poblacional esté entre 25.5 y 31.5. Ahora bien, esta interpretación tiene un poco de trampa, o mejor dicho, aunque sea en principio correcta es compatible con algunos errores muy intuitivos y traicioneros. Realmente, hay un 95% de probabilidad de que un intervalo de confianza al 95% contenga la media poblacional. Pero claro, cada intervalo concreto (como el nuestro, 25.5 – 31.5) o bien la contiene, o bien no la contiene, así que ya no es una cuestión de “probabilidad”. Vaya lío. Es que, al ser un concepto de inspiración frecuentista, para entender el intervalo de confianza hay que imaginar experimentos repetidos indefinidamente.

Por eso las explicaciones habituales del intervalo de confianza suelen plantearse tal que así: Imagina que obtienes 100 muestras aleatorias de esa población, y por lo tanto ahora tienes 100 intervalos de confianza. De esos 100, 95 contienen el parámetro buscado, la media poblacional… ¡Pero no sabes si este intervalo en particular pertenece al 95% que sí contiene la media, o al 5% que no la contiene! Es decir, ese 95% de confianza va asignado al procedimiento de cálculo de los intervalos: simplemente te garantiza que, a largo plazo, aproximadamente el 95% de los intervalos que construyas van a contener el parámetro. ¿Se entiende mejor así?

¿Cómo se calcula un intervalo de confianza?

Para entender bien el concepto, tenemos que comprender en primer lugar la intuición que tiene detrás. No obstante, también nos puede ayudar el echar un vistazo a cómo se calcula. ¿Nos ponemos con ello?

Siguiendo con los ejemplos que estamos viendo, un intervalo de confianza para la media poblacional se calcularía de la siguiente manera: vamos a definir un intervalo alrededor de la media muestral (conocida), cuyo tamaño va a depender de (a) el tamaño muestral (cuanto más grande, más estrecho será el intervalo porque la precisión de la estimación mejorará), (b) la dispersión de la muestra (cuanto menos dispersa, más precisión y menos anchura del intervalo), y (c) el nivel de confianza requerido (generalmente, como hemos dicho, 95%). Así, calculamos los dos valores que definen el intervalo, que son sus límites superior e inferior.

En estas fórmulas, sd es la desviación típica de la muestra (standard deviation), y n su tamaño. La constante va a depender de nuestro nivel de confianza deseado. Por ejemplo, para un intervalo de confianza al 95% será 1.96. ¿De dónde sale este número tan extraño, 1.96? Pues bien, es el correspondiente al punto de corte que abarca el 95% central de una distribución normal estandarizada.

Fijaos en cómo la desviación típica está en el numerador de la fórmula (a mayor desviación, más ancho será el intervalo), mientras que la n está en el denominador (a mayor n, menor intervalo). Esto será importante.

Sé que este punto es el más abstracto, aunque tampoco importa mucho si no lo comprendéis del todo. Lo que le estamos diciendo a la fórmula es: imagina una distribución normal estándar, centrada en una media de 0 y con desviación típica 1, y toma el 95% central de la misma (es decir, “corta en -1.96 y +1.96”). Esto valdría para cualquier ejemplo donde asumamos una distribución normal, porque aquí no hay unidades de ningún tipo. Por eso ahora solo falta “traducirla” a las unidades propias de nuestra aplicación, es decir, indicarle cuál es la media y dispersión de nuestra muestra. Por eso multiplicamos ese punto de corte, 1.96 en este caso, por el error estándar de la muestra (desviación típica / raíz cuadrada de n).

Aplicando las fórmulas, podemos calcular el intervalo deseado. Por ejemplo, imagina que en tu muestra de 25 jugadores de rugby el promedio de edad es de 27.3 años, con desviación típica de 2.1. Usando las fórmulas anteriores para un intervalo de confianza al 95%, nos da el resultado siguiente:

Límite superior: 27.3 + 1.96 * (2.1/raíz(25)) = 27.3 + 0.82 = 28.12.

Límite inferior: 27.3 – 1.96 * (2.1/raíz(25)) = 27.3 – 0.82 = 26.48.

Generalmente no vamos a aplicar la fórmula a mano, sino que vamos a usar software que calcule los intervalos por nosotros. Ahora vamos a automatizar el cálculo para permitirnos jugar un poco con R y con los intervalos. Para ello, ve a R y copia el siguiente código:

CI <- function(media, desvt, n, conf = 0.95){
  LInferior <- media - abs(qnorm((1-conf)/2))*(desvt/sqrt(n))
  LSuperior <- media + abs(qnorm((1-conf)/2))*( desvt /sqrt(n))    
  return(c(LInferior, LSuperior))
}

Este código(*) genera una nueva función personalizada que nos permitirá calcular intervalos de confianza dados unos estadísticos muestrales (media, desviación típica y n).

Por ejemplo, hagamos una prueba con una muestra de 20 jugadores de rugby cuya media muestral para la variable edad es de 29.7 años y su desviación típica 4.2. Teclead en la consola de R:

CI(media = 29.7, desvt = 4.2, n = 20, conf = .95)

O simplemente (ya que el programa asume que el nivel de confianza es del 95% por defecto):

CI(29.7, 4.2, 20)

…Que devuelve este resultado:

[1] 27.8593 31.5407

Es decir, que mi estimación para la media de edad poblacional es 29.7, con un intervalo de confianza al 95% de [27.86, 31.54].

Hemos dicho que la anchura del intervalo va a depender de varios parámetros del estudio, en concreto del tamaño muestral (n) y de la desviación típica. Vamos, por tanto, a imaginar que hemos obtenido una muestra con idéntica media muestral, 29.7, pero una desviación típica más pequeña que antes, de sólo 0.8.

CI(media = 29.7, desvt = .8, n = 20, conf = .95)
[1] 29.34939 30.05061

Fijaos cómo se ha reducido la anchura del intervalo de confianza [29.35, 30.05], indicando que hemos mejorado mucho la precisión. La media no ha cambiado, así que ambos intervalos están centrados en torno al mismo valor, 29.7 años.

Vamos a hacer otra prueba modificando el otro parámetro que podía afectar a la precisión de la estimación, el tamaño muestral. Imaginemos que la media muestral sigue siendo de 29.7 años y la desviación típica es de 4.2 años, pero la n es mucho mayor, de 200 personas en vez de 20:

CI(media = 29.7, desvt = 4.2, n = 200, conf = .95)
[1] 29.11792 30.28208

El aumento de muestra también se traduce en mayor precisión, y por tanto en intervalos más estrechos [29.12, 30.28].

También podríamos hacer pruebas cambiando el nivel de confianza, simplemente asignando otro valor entre 0 y 1 al parámetro “conf” (prueba con valores como .90, .99…). Pero creo que lo habéis entendido ya a estas alturas, así que os dejo esa prueba a vosotros y vosotras.

Imagina que calculas 100 intervalos…

Llegamos a la parte interesante.

Por último, vamos a hacer algunas pruebas más para acabar de entender bien este resbaladizo concepto. Ya hemos dicho que, con frecuencia, cuando nos explican qué es un intervalo de confizanza, nos invitan a imaginar qué pasaría si obtenemos 100 muestras de la misma población y calculamos sus 100 intervalos de confianza. Pues bien, ¿sabeis qué? Que no hace falta que lo imagines. Porque vais a hacerlo.

Bueno, por suerte no vamos a calcular los 100 intervalos a mano. Para eso tenemos R 🙂

Copia y ejecuta esta función en R para automatizar el proceso:

generaIntervalos <- function(MediaPob = 0,
                             DesvTPob = 1,
                             n = 50,
                             numMuestras = 100
                             ){
  SampleNames <-c()
  SamplesM <- c()
  SamplesUpper <- c()
  SamplesLower <- c()
  
  for(i in 1:numMuestras){
    
    CurrentSample <- 
      rnorm(n,
            mean = MediaPob,
            sd = DesvTPob)
    SampleNames <- c(SampleNames, paste0("Muestra", i))
    SamplesM <- c(SamplesM, mean(CurrentSample))
    SamplesLower <- c(SamplesLower, CI(mean(CurrentSample), sd(CurrentSample),n)[1])
    SamplesUpper <- c(SamplesUpper, CI(mean(CurrentSample), sd(CurrentSample), n)[2])  }
  
  return(
    data.frame(
      Muestra = SampleNames,
      Media = SamplesM,
      LInferior = SamplesLower,
      LSuperior = SamplesUpper
    )
         )
}

La nueva función generaIntervalos() sirve para producir cuantos intervalos queramos a partir de la misma población de partida, inmediatamente. Pruébala si quieres.

Empezaremos decidiendo unos parámetros poblacionales de partida: ¿cuál es la media poblacional real? ¿y su desviación típica? Generalmente estos parámetros son desconocidos (¡precisamente por eso hacemos estudios y muestreos!), pero como esto es una simulación, vamos a imaginar que los sabemos. También habrá que decidir el tamaño de cada muestra, y cuántas muestras queremos extraer. Por ejemplo, teclea:

generaIntervalos(MediaPob = 25, 
DesvTPob = 14, 
n = 20, 
numMuestras = 100)

Así obtendrás nada menos que 100 muestras aleatorias de 20 participantes cada una, obtenidas de la misma población, y sabiendo que los parámetros poblacionales que definen a esa población son media 25 años, y desviación típica 14 años.

Para facilitarte la interpretación, os voy a poner el resultado en una figura:

¿Qué vemos en esta simulación? Lo primero, dado que cada muestra es aleatoria, los estadísticos muestrales (media y desviación típica) van a fluctuar. Con ellos, como hemos dicho, cambian los intervalos de confianza al 95%. Unos van a ser más anchos y otros más estrechos, y también van a estar centrados en diferentes valores. ¡Cada vez que ejecutéis la simulación os van a salir resultados diferentes, como en la vida real cuando hacemos un estudio!

La cuestión es que, de estos 100 intervalos, 94 han capturado correctamente el valor poblacional para la media (que era 25 años, y está marcado con esa línea azul). Aunque a ti te salgan números diferentes, aproximadamente el 95% de los intervalos que calculemos contendrán la media poblacional, como habíamos prometido. Solo ahora, al haber hecho el esfuerzo de calcular esos 100 intervalos, podemos verlo con toda claridad. Si contemplamos cada uno de los intervalos de manera aislada, solo sabremos que este procedimiento produce intervalos exitosos (contienen el parámetro) el 95% del tiempo, pero NO SABREMOS SI UN INTERVALO EN CONCRETO LO CONTIENE O NO. ¿Se entiende ahora?

Por supuesto, podemos seguir jugando a cambiar parámetros en la simulación. ¿Y si nos da por reclutar muestras mayores? En vez de 20 participantes por muestra, vamos a reclutar diez veces más, 200:

generaIntervalos(MediaPob = 25, 
DesvTPob = 14, 
n = 200, 
numMuestras = 100)

Como veis, hemos ganado en precisión porque ahora los intervalos son mucho más estrechos que antes. Sin embargo, no hemos cambiado el hecho de que el 95% de los intervalos (aproximadamente) van a contener el parámetro poblacional, ya que esta es una propiedad del procedimiento que hemos usado para calcularlos.

Ahora podrías seguir haciendo pruebas y jugando, que es como mejor se aprende, a cambiar detalles de la simulación. Puedes, por ejemplo, usar un nivel de confianza diferente (90%, 99%), o cambiar los parámetros poblacionales. A ver qué pasa.

Imagino que, si este post no os ha servido para afianzar lo que ya sabéis sobre los traicioneros intervalos de confianza, sí que os valrá al menos para que, la próxima vez que alguien os repita “Imagina que calculas 100 intervalos…” le respondáis: “No me hace falta imaginarlo, ya lo he hecho con R”. ¡Hasta la próxima, que espero que sea pronto!

(*) NOTA: el código obtiene el intervalo a través de una distribución normal. Cuando las muestras son pequeñas, conviene utilizar otra aproximación a través de la distribución t de Student. Así, habría que reemplazar la función qnorm(probabilidad) por qt(probabilidad, grados de libertad), siendo los grados de libertad n-1. Cuando la muestra es muy grande (es decir, los grados de libertad tienden a infinito), la distribución t se aproxima mucho a una distribución normal y los dos métodos producen idéntico resultado.

(**) NOTA 2: Cómo me habría gustado haceros una aplicación interactiva para este post. Lo he intentado gracias al paquete Shiny, pero como soy totalmente novato en ese tema y no me ha quedado redonda, lo dejaremos para otra ocasión. Sigo aprendiendo.

Posted in Estadística visual | Tagged estadística, Simulaciones en R, Visualizaciones | 1 Comment

Mi contribución en las UNED talks: Psicología de la irracionalidad en tiempo de pandemia

Posted on November 18, 2021 by Fernando Blanco

Qué gozada esto de ir recuperando la normalidad después de que haya pasado “lo más gordo” de la pandemia. Y con esa normalidad progresiva van volviendo los eventos presenciales. En mi caso, el pasado 15 de noviembre estuvimos en la sede de la UNED en Madrid para participar en la edición de 2021 de las UNED talks, con el título de “Psicología y Ciencia para seguir mejorando nuestro mundo”.

Lo cierto es que intimidaba un poco plantarme allí por el lujazo de los otros invitados. Atención al cartel:

Roberto Colom (UAM)
Helena Matute (Universidad de Deusto)
Fernando Blanco (Universidad de Granada)
Inmaculada Sánchez-Queija (Universidad de Sevilla)
María Xesús Froxán (UAM)
Miguel Ángel Carrasco (UNED)

En definitiva, temas muy variados y también enfoques diferentes que dan para reflexionar. Una sesión muy estimulante. Aquí tenéis el enlace a todas las charlas: https://canal.uned.es/series/614acaf2b6092340cf73e225

…Y aquí está el enlace a mi contribución: La psicología de la irracionalidad en tiempos de pandemia. ¿Anti-vacunas? ¿Gente que bebe lejía para evitar la COVID? Todo esto tiene sentido cuando se examina desde el prisma de la psicología experimental.

Si tenéis un rato, os animo a ver cada uno de los videos. Merece la pena.

Posted in Uncategorized | Leave a comment

CURSO DE ESTADESTECA MAL: 8. ¿Cómo decidir el tamaño muestral para tu estudio? ¿Cómo contestar al revisor 2?

Posted on January 4, 2021 by Fernando Blanco

Hola de nuevo. Últimamente no me da la vida para actualizar el blog, pero tenía muchas ganas de retomarlo para hablar de algo que nos ha pasado a todas las personas que por algún motivo u otro trabajamos en investigación. Seguro que una de las siguientes situaciones os es familiar:

Situación A: Por fin has diseñado tu estudio. Lo has tenido todo en cuenta: selección de los mejores instrumentos, control de variables… Todo pinta bien. Sin embargo, ahora tienes que planear cómo vas a llevarlo a cabo. Y esto implica, entre otras cosas, decidir el tamaño de tu muestra. Claro, una muestra grande siempre es preferible, pero a menudo no es posible por motivos prácticos. ¿Bastará con 20 participantes? ¿Quizá necesites algunos más? Si el estudio no sale significativo, no podrías descartar que ha sido por la falta de muestra. Entonces, ¿merecería la pena esforzarte para llegar a los 200 participantes, o será demasiado? ¿¿Cómo vas a tomar esta decisión??

Situación B: Acaba de llegarte la carta de decisión de una revista científica. El editor te invita a reenviar tu manuscrito, siempre que respondas a los comentarios de los revisores, especialmente ese Revisor 2 tan pesado. Resulta que el Revisor 2 te pide que justifiques el tamaño muestral de tu estudio. Claro, podrías contestarle la verdad, que no tenías ninguna justificación a priori para el tamaño muestral, que únicamente reclutaste participantes hasta que te parecieron “suficientes”, a ojo. Pero no es eso lo que te pide el revisor. Te está pidiendo que hagas un “análisis de potencia a priori” (a priori power analysis). ¿Qué es eso? No tienes ni idea de cómo contestar y has entrado en pánico. ¡HALLUDA!

En este post vamos a hablar de análisis de potencia, y vamos a aprender cómo salir de estas dos situaciones tan comunes y, en ocasiones, angustiosas.

Refrescando conceptos

Antes de empezar, conviene recordar algunos conceptos básicos que ya hemos tratado en este blog: tamaño muestral, tamaño del efecto y potencia estadística.

El tamaño muestral (N) es, simplemente, la cantidad de puntos de datos que reúnes para tu estudio. Por ejemplo, si estás haciendo una encuesta y cada pregunta se la haces una sola vez a cada participante, tu tamaño muestral es el número de respuestas contestadas, o sea, el número de participantes que han respondido.

El tamaño del efecto es la magnitud del efecto, es decir, de la diferencia (si estás comparando grupos o variables), o de la asociación entre dos variables. Por ejemplo, si vas a comparar un grupo experimental con un grupo control, un tamaño del efecto grande significa que los dos grupos son muy diferentes en la variable estudiada. Conviene distinguir entre el tamaño del efecto “real” o poblacional (que hace referencia a la población y por lo tanto es desconocido, y lo asumimos estable), y el tamaño del efecto “observado” o muestral (que es la diferencia o la asociación obtenida en tu estudio concreto, y por lo tanto puede variar si lo repites, debido a las fluctuaciones del error de muestreo).

Por último, la potencia estadística es la probabilidad de obtener un resultado significativo (p< 0.05) en un estudio o conjunto de estudios, asumiendo que el efecto poblacional existe, o sea, asumiendo que es mayor de cero. Cuanta más potencia, más probabilidad de obtener un resultado significativo. Si te dicen que un estudio tiene una potencia de, por ejemplo, 0.80, esto quiere decir que, siempre que el efecto exista, lo veremos el 80% de las veces que repitamos la medición (un 80% de “verdaderos positivos” frente a un 20% de “falsos negativos”). Un estudio de baja potencia (por ejemplo, de 0.20), por su parte, sólo produce resultado significativo el 20% del tiempo, y por lo tanto es poco eficiente (nada menos que el 80% de los resultados obtenidos son falsos negativos). (*)

Los cuatro posibles resultados que puedes obtener en tu estudio.

Como hemos visto anteriormente, los tres conceptos están conectados (ver post anterior). Cuanto más grande es la muestra, o cuanto mayor es el tamaño del efecto, mayor potencia tenemos para verlo. Una vez que se comprende bien esto, la estadística cobra nuevo sentido, y evitamos desastres como el de utilizar muestras ridículamente pequeñas como para detectar el efecto con una probabilidad aceptable (ver este otro post sobre cómo insistir en hacer estudios de baja potencia puede sesgar la literatura).

Ahora que ya están las ideas claras y frescas en nuestras cabezas, vamos a pensar posibles soluciones a las situaciones que hemos presentado antes. Os recuerdo el dilema: ¿Cómo decidir el tamaño muestral para mi estudio (Situación A)?, o ¿Cómo justificarlo, si es que ya está hecho (Situación B)?

Opción 1. Decidir el tamaño muestral improvisando sobre la marcha (MAL).

Estoy convencido de que todos y todas hemos caído aquí alguna vez. Una estrategia tentadora, sobre todo cuando eres un impaciente o tus recursos son limitados, es la de ir recogiendo la muestra y, de vez en cuando, echando un vistazo a los datos para ver “cómo van”. Si, por ejemplo, tengo N=50 y el efecto no está ni se le espera (imagínate que calculamos el p-valor y es de 0.89, muy lejos de la significación), quizá me desanime y decida cancelar la recogida de datos. Ahora bien, si con la misma N=50 el p-valor está justito por encima del umbral (p = 0.061), seguro que hago un esfuerzo y le echo unos pocos participantes más.

Quizá esto te parezca una práctica inofensiva, pero en realidad es una forma más de hacerse trampas al solitario. Como vimos en un post anterior, cuando la muestra es pequeña, los estadísticos que calculamos a partir de ella fluctúan mucho al meter un dato más o menos, y esto se aplica también al p-valor. Así, no es raro obtener un resultado significativo totalmente espurio que se desvanece al incrementar la muestra. O dicho de otra manera: si sigues este procedimiento de calcular el p-valor y continuar con la recogida de datos cuando es mayor de 0.05, al final está garantizado que vas a obtener un resultado significativo, ¡aunque sea por puro azar! Os recuerdo esta figura (del post anterior) que lo ilustra: si cada día introducimos dos datos nuevos, y cada día calculamos el p-valor, “el viaje” que este va haciendo hasta estabilizarse puede ser de infarto.

El viaje del “p-valor” conforme vamos introduciendo sujetos en un escenario en el que el efecto real es cero (no existe).

De hecho, es justamente por este motivo por el que el revisor de la Situación B te ha pedido que justifiques tu tamaño muestral. En teoría, si calculamos un p-valor tenemos que seguir unas reglas. Y entre estas reglas hay una muy básica que dice que el tamaño muestral se decide antes de recoger los datos, no sobre la marcha, en función de los resultados obtenidos.

Pues bien, lección aprendida. No usaremos la opción 1.

Opción 2. Decidir el tamaño muestral “a ojo”.

La segunda opción es también muy popular, y menos maligna que la anterior, aunque también tiene sus peligros. No es raro que a veces decidamos el tamaño muestral en función de lo que nos parece “razonable”. Por ejemplo: ¿Cuál es la N de estudios similares que se han publicado ya? También hay quien usa reglas de andar por casa, como “tiene que haber veinte sujetos por celda, mínimo” (esta la he escuchado yo infinidad de veces).

El problema con esta aproximación es que, al no basarse en un argumento razonado y detallado, corre el riesgo de simplemente repetir como un zombi los errores del pasado: “Si a Fulanito le publicaron su estudio con N=25, a mí me tiene que funcionar con el mismo tamaño muestral”, o “Este efecto no existe porque he hecho tres experimentos con N=20 y en ninguno de ellos ha salido el resultado significativo”. Ambas conclusiones son erróneas: puede ser simplemente que los estudios estén muy faltos de potencia dado el tamaño del efecto que estás buscando, y de ahí el resultado no significativo.

Y es que no hay que olvidar que, como hemos dicho, tamaño del efecto, potencia y tamaño muestral son tres conceptos conectados. Así, no tiene mucho sentido decidir el tamaño muestral sin pensar en cuál es el efecto que estoy buscando, o qué probabilidad de detectarlo deseo asegurar.

Moraleja: no hay un tamaño muestral “apropiado” que sirva para todas las situaciones ni momentos. Dependerá, entre otras cosas, del efecto que quieras buscar, y también de cuestiones prácticas. Así que la opción 2 también hay que descartarla.

Opción 3. Lo que te pide el revisor (y también está MAL casi siempre): análisis de potencia “a priori”.

Y llegamos a la opción estrella, que me he encontrado numerosas veces en las cartas de los revisores o como recomendación de las propias revistas, y hasta en algunas guías de buenas prácticas. Es lo que llaman el análisis de potencia a priori. ¿En qué consiste y por qué está mal casi siempre que se aplica?

El análisis de potencia a priori es un protocolo para decidir el tamaño muestral que, a diferencia de los anteriores, sí se basa en la información correcta. Es decir, dependerá del efecto que estés buscando y de cuánto quieras arriesgarte a tener un estudio fallido.

Entonces, lo que deberías hacer según este protocolo es:

–Paso 1. Examina la literatura para estimar el tamaño del efecto más probable para este fenómeno. Por ejemplo, puedes buscar un meta-análisis donde informen del tamaño del efecto, o bien simplemente promediar los efectos que vas encontrando sobre el tema. Imagina que así llegas a la conclusión de que el tamaño del efecto probable para tu fenómeno es d = 0.81. O sea, un efecto muy grande.

–Paso 2. Decidimos un nivel de potencia que sea aceptable para nosotros. Generalmente, por convención, se suele fijar al 80% o 90%. Esto significa que si repetimos el estudio 100 veces, el efecto será significativo en 80 ó 90 de estos intentos, que no está nada mal. Si me conformase con una potencia del 50%, ¡hacer el estudio sería como lanzar una moneda al aire! Mejor no bajar del 80%.

–Paso 3. Conocidos los dos valores anteriores, estima la N requerida. Hemos dicho que potencia, tamaño muestral (N) y tamaño del efecto están conectados. Necesitarás mayor N cuanta más potencia quieras conseguir y menor sea el efecto que quieras observar. Por lo tanto, si asumimos que el efecto “real” (poblacional) coincide con nuestra estimación (d = 0.81), podemos calcular cuánta muestra (N) haría falta para obtener el resultado significativo con una probabilidad que hayamos fijado como aceptable (por ejemplo, del 80%).

Hacer los números no es complicado si usas la ayuda del software (como por ejemplo JASP, Jamovi, o el paquete pwr para R). Con este último método, sería tan fácil como teclear esto en vuestra terminal de R:

library(pwr) #Primero cargamos el paquete pwr.

pwr.t.test(power = 0.80, d = 0.81, sig.level = 0.05)

Y obtendríamos este resultado inmediato:

Two-sample t test power calculation 

              n = 24.9236
              d = 0.81
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

El cálculo me indica que necesito una muestra de 25 personas por grupo (N = 50) para detectar ese efecto de d = 0.81 con una probabilidad del 80%. O sea, que ya tengo una justificación adecuada para la muestra de mi experimento. ¡Ya puedo empezar el reclutamiento!

En realidad la lógica de este análisis no está mal, y en principio no tiene nada de malo hacerlo. Lo que pasa es que a menudo debemos aplicarla en un entorno real donde los investigadores e investigadoras no estamos siguiendo las reglas del juego, y por lo tanto aplicar el protocolo nos conducirá al error. Vamos a explicar por qué.

El primer problema de esta técnica es que, generalmente, la aplicamos cuando no debemos. Por ejemplo, en la Situación B descrita arriba. Y es que se llama análisis “a priori” porque se realiza, supuestamente, antes de recoger los datos. …Pero la realidad es que a menudo lo hacemos cuando nos lo pide el revisor, es decir, una vez recogida la muestra y analizados los datos. O sea, mal. Lo que el revisor quiere que le digas es que tu estudio (ya realizado) tenía la capacidad de detectar el efecto (estimado a partir de estudios previos). Pero si los datos ya están recogidos, lo único que puedes determinar es si tu muestra era lo bastante grande o no comparada con el cálculo que has hecho en el Paso 3. Eso es muy poco útil.

Pero hay más pegas. El problema está fundamentalmente en el Paso 1. Estamos dando por sentado que el efecto observado y reportado en la literatura nos da una estimación fiable, no sesgada, del efecto “real” en la población. Esto no es así. Como hemos visto en otros posts, el llamado “sesgo de publicación” hace que pasen a la literatura únicamente los resultados significativos, que son justo los que sobrestiman sistemáticamente el tamaño del efecto. Es decir, si te vas a la literatura publicada, verás efectos grandes como d = 0.81, d = 1.20…, que son exageraciones del efecto real, seguramente mucho más modesto. Los efectos pequeños como d = 0.05 no son significativos con muestras pequeñas, y por eso no se publican. Además, cuanto menor sea la muestra de los estudios, más probabilidad de que la sobrestimación sea muy grande. No en vano los efectos detectados en estudios de replicación con muestras enormes son generalmente más bajos que los estudios originales que intentan replicar (Camerer et al., 2018). ¡Ojo! Este sesgo puede afectar también a los meta-análisis, salvo que pongan algún tipo de medida para contrarrestarlo (mira este post donde lo explico).

Tomar como base para hacer la estimación del efecto poblacional (Paso 1) un “estudio piloto” puede ser una estrategia algo mejor. Un estudio piloto es, por lo general, muy similar al estudio definitivo que planeas realizar, pero con una muestra algo más pequeña, y tiene el objetivo de testar tus instrumentos de medida. Al menos te estarás basando en un dato que no ha pasado el filtro del sesgo de publicación. Sin embargo, tampoco es la mejor opción (Albers & Lakens, 2018), porque seguirás usando el efecto observado en tu estudio (en este caso, el piloto) como estimación del efecto poblacional, a pesar de que esta estimación puede ser muy deficiente, sobre todo con muestras demasiado pequeñas (y generalmente, los pilotos tienen muestras pequeñas). Es decir, seguirás confundiendo, en cierta medida, estadístico (muestra) y parámetro (población).

Una variante del proceso implica no trabajar con una estimación del tamaño del efecto en el Paso 1, sino con el “efecto más pequeño que sea de tu interés”. O sea: imagina que trabajas en el ámbito clínico, y tus motivaciones son prácticas. Un tratamiento que funcione, pero que suponga una mejora minúscula, inapreciable en la vida real, seguramente no merece la pena. Así, podrías por ejemplo decidir que no te interesa ningún efecto menor de d=0.40. Fijarías ese valor en el Paso 1, y decidirías un tamaño muestral que te permita ver efectos de ese tamaño (o mayor) con la probabilidad que decidas. En este caso, el análisis a priori estaría bien empleado, pero sigue presente el problema de decidir efectos son interesantes y qué efectos podemos ignorar.

En resumen, el análisis de potencia a priori es una herramienta que puede funcionar y proporcionar información útil… si la usamos cuando procede, es decir, antes de recoger los datos. Por desgracia, los revisores siempre la piden cuando los datos ya están analizados, y esto nos conduce al desastre.

Opción 4 (LA QUE DEBES PROBAR). Análisis de sensibilidad.

Con el tiempo, el análisis de potencia a priori ha acabado desaconsejándose, al menos como se usa habitualmente (es decir, mal). Quizá en un mundo perfecto, sin sesgo de publicación ni p-hacking, podríamos usarlo, siempre antes de recoger los datos, pero mientras tanto hay que pensar alternativas. Sin cambiar nada realmente esencial con respecto al anterior, el análisis de sensibilidad puede ser una buena opción para la mayoría de los casos cuando estés en la situación B.

Si has intentado hacer un análisis a priori de manera honesta, te habrás dado cuenta de lo enormemente difícil que es observar efectos pequeños. Por ejemplo, para ver una diferencia de d = 0.20 (un efecto que se considera “pequeño”) entre dos grupos con una potencia del 80%, necesitas nada menos que ¡786 participantes!

pwr.t.test(power=0.8, d = 0.2, sig.level = 0.05)

Two-sample t test power calculation 

              n = 393.4057
              d = 0.2
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

Realmente, esto es una cura de humildad. Parece que estamos condenados a estudiar efectos grandes que requieran menos medios, o bien a seguir jugando a la lotería con cada estudio (con potencias muy bajas para ver esos efectos). No podemos invertir miles de participantes en cada estudio que se nos ocurra, ¿verdad? ¿Habría alguna forma de tener en cuenta los aspectos prácticos y económicos en todo esto?

Pues bien, vamos a hacer un análisis de sensibilidad. Así es cómo deberíamos obrar, por lo menos si estuviéramos en la Situación B descrita más arriba:

-Paso 1. Vamos a fijar el tamaño muestral (N). Si estás en la Situación B, el estudio ya está hecho, así que la N es conocida. Si estás en la situación A, por lo menos puedes tener una idea acerca de qué cantidad de datos es factible recopilar. O sea, puedes decidir qué tamaño muestral te puedes permitir dados tus recursos económicos y temporales. Y es que no todo el mundo investiga en una universidad de la Ivy League ni tiene capacidad para recoger cien mil datos para su trabajo de fin de grado. Vamos a suponer que puedo permitirme recoger una N de 100 participantes. Hoy en día, con los procedimientos online, es un tamaño factible.

-Paso 2. Decide qué potencia quieres alcanzar. Es decir, cuánto estás dispuesto a arriesgarte a que el experimento produzca un “falso negativo”. Generalmente, si queremos hacer las cosas bien, fijaremos un nivel de potencia alto, como 80% ó 90%. Cualquier cosa por debajo de ahí ya es demasiado arriesgado.

–Paso 3. Calcula cuál es el tamaño del efecto más pequeño que puedes ver con su muestra, al nivel de potencia que has fijado. Como los tres conceptos están relacionados, una vez fijada la N y el nivel de potencia deseado, sabemos cuál es el efecto más pequeño detectable con tu experimento. Piensa en ello como si estuvieras usando una red para pescar. Los peces más pequeños que los agujeros de la red podrán escapar con cierta facilidad. El análisis de sensibilidad te dice qué tamaño tienen los peces más pequeños que puedes capturar con un nivel dado de seguridad (el 80% o el 90% de las veces).

Usando el paquete pwr, puedes hacer un análisis de sensibilidad en una línea:

pwr.t.test(power=0.8, n = 50, sig.level = 0.05)
     Two-sample t test power calculation 

              n = 50
              d = 0.565858
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

Pues bien, si haces (o ya has hecho) tu estudio con N = 100 (o sea, 50 personas en cada grupo), tienes una probabilidad del 80% de ver un efecto d = 0.57 o mayor. Esto podría ser aceptable si piensas que el efecto que estás buscando es relativamente grande. Pero si sospechas que el efecto es pequeño, el análisis te está diciendo: “busca una red con agujeros más pequeños, porque se te van a escapar casi todos los peces menores de ese tamaño”.

El análisis de sensibilidad tiene más sentido antes de realizar el estudio (Situación A), pero, a diferencia del análisis a priori, puede usarse una vez recogida la muestra (Situación B), y por eso creo que puede ser una opción para contestar al revisor 2. Sin duda mucho mejor que hacer un “análisis a priori” que no es “a priori” de verdad, ¿no?

A veces, como complemento al análisis de sensibilidad, se pueden utilizar las llamadas “curvas de sensibilidad” o “curvas de potencia”. Es fácil calcularlas a partir de la información que proporciona el paquete pwr o con software como G*Power, y nos sirven para determinar cómo de potente puede ser un estudio en distintos escenarios.

Esta sería la curva de sensibilidad que nos muestra el efecto más pequeño que podemos detectar con una potencia del 80% y diversos tamaños muestrales (desde 5 hasta 100 sujetos por grupo). Como veis, con 5 sujetos por grupo sólo pescamos los peces más grandes, o sea, efectos gigantescos de d=2.0 o más. Pero con 60 sujetos por grupo ya es posible detectar efectos medianos (d=0.50) la mayoría de las veces.

Otra forma en la que se puede presentar la misma información es la curva de potencia. Imaginemos que no sé muy bien qué tamaño tiene el efecto que busco. Podría ser grande (d>0.80), mediano (d=0.50), o pequeño (d<0.20), según las convenciones habituales. Así que voy a simular los tres escenarios, para ver con qué probabilidad podría detectar cada uno de estos tres efectos con mi muestra.

Como veis, la interpretación es la misma. Si mi muestra es pequeña (pongamos que recluto 10 personas por grupo), entonces tengo un 40% de probabilidad de detectar efectos grandes (d=0.8), un 20% de probabilidad de detectar efectos medianos (d=0.50), y nada más que un 7% de probabilidad de detectar efectos pequeños (d=0.20).

Estas figuras me pueden servir para tomar decisiones que involucran toda la información necesaria, además de aspectos prácticos: si, por ejemplo, me es posible reclutar 100 participantes, pero la ganancia en términos de potencia no compensa, quizá me arriesgue a reclutar 80 y reserve los recursos para otro fin. Mirando la curva puedo ver cuánto gano y cuánto pierdo por estas decisiones.

Conclusiones

¡Me ha quedado un post largo y no hemos hecho más que rascar la superficie!

Evidentemente hay más opciones por explorar para dar respuesta al atribulado investigador que se encuentre en la Situación A o en la Situación B. Por ejemplo, en la primera situación (antes de recoger los datos), podríamos emplear un plan de muestreo secuencial (Lakens, 2017), fijar un objetivo de precisión (Rothman & Greenland, 2019), o aprovechar la acumulación de evidencia que permiten los Bayes Factors (Schonbrodt et al., 2015). Por su parte, una vez recogida la muestra (Situación B), también tenemos opciones para contestar al revisor, como simplemente dibujar un intervalo de confianza alrededor del efecto observado en la muestra, de forma que describes cómo de informativo ha sido tu estudio.

En definitiva, todo un mundo de posibilidades, que no se agota en las prácticas más habituales que hemos empleado casi todos los investigadores (las Opciones 1, 2 y 3 que hemos descrito).

(*) Vamos a suponer para este post que el umbral de significación es p = 0.05, como es habitual en Psicología.

Posted in Estadística MAL | Tagged potencia | Leave a comment

ESTADÍSTICA VISUAL (VIII). Gráficos con barras de error: manual de usuario

Posted on August 28, 2020 by Fernando Blanco

Hola de nuevo. Ya tenía ganas de ir actualizando el blog, pero este año pandémico tan extraño nos está llevando a todo el mundo al borde del colapso, y atesoramos cada minuto de estar tumbado al sol como si fuera oro. Aun así, siempre me gratifica volver al mundo de la estadística y de las simulaciones, así que aquí llega este nuevo post de verano tardío.

En posts anteriores, aprendimos que los datos y resultados estadísticos se pueden presentar visualmente de distintas maneras: con tablas, y con figuras de distinto tipo. También dijimos que las figuras de barras, un clásico al que todos recurrimos frecuentemente, tienen algunos problemillas (¿recordáis aquello del #barbarplot?). Básicamente, cuando estas figuras están recogiendo un estadístico como la media o la mediana, nos están privando de conocer los detalles de la distribución de los datos, que puede ser muy importante para interpretar el resultado. Y además, tampoco nos dicen nada acerca de la precisión de la medida. Vamos, que contienen únicamente un resumen muy básico de los datos.

Una manera de enriquecer las figuras de barras es añadirle unas barras de error (realmente, no siempre se le llama “barra de error”, pero vamos a dejarlo por ahora). La barra de error nos va a marcar un intervalo alrededor del estadístico que está recogiendo el gráfico (usualmente la media), para que lo utilicemos en nuestra interpretación (*). Por ejemplo, si miráis las siguientes dos gráficas correspondientes a dos experimentos, ¿cuál os parece que ha encontrado la diferencia más clara entre los dos grupos? ¿cuál creéis que ha logrado mayor precisión en la medida? Aunque no os estoy dando de momento información básica sobre las barras de error, diríamos que el experimento de la izquierda ha sido más preciso y ha encontrado diferencias más evidentes entre los grupos, porque los intervalos marcados por las barras de error son menores. ¿Verdad?

Bueno, pues aunque esta interpretación ha sido sencilla, realmente el trabajo con las barras de error puede ser bastante más complicado, y es de lo que vamos a hablar en el post de hoy.

¿Qué tipo de barras de error empleamos?

Si estás elaborando un gráfico de barras como los de este post, una de las preguntas que tienes que hacerte es qué estadístico debería recoger la barra de error. Y es que hay al menos tres opciones muy extendidas (que te ofrecen en casi cualquier paquete estadístico), y cada una se interpreta de manera diferente: desviación típica (en inglés, standard deviation, SD), error típico de la media (standard error of the mean, SE o SEM), e intervalo de confianza (IC). Además para tomar esta decisión, también es importante saber cuál es el objetivo del gráfico: informar acerca de los datos de la muestra (descripción) o ayudar en el contraste de hipótesis (inferencia).

Paso a paso. Vamos a empezar asumiendo que tu objetivo al hacer la figura es puramente descriptivo: quieres representar tus datos, y simplemente dar toda la información necesaria para que esa información sobre la muestra se comprenda bien. ¿Qué opciones tenemos?

Opción 1. Barras de error con desviación típica (Standard Deviation, SD)

Si la media o la mediana son estadísticos de centralidad (nos dicen en qué valores está centrada la distribución de los datos), la desviación típica es un estadístico de dispersión (nos dice en qué medida los datos se alejan de ese centro de la distribución). Una barra de error que contiene la desviación típica nos está diciendo, por lo tanto, cómo de dispersos están los datos alrededor de la media muestral.

No soy aficionado a poner ecuaciones, pero en este caso, vamos a hacer una excepción. La desviación típica de la muestra (SD) se calcula así:

Si examináis esta ecuación, su estructura os recordará a la de la media aritmética: en el numerador sumamos una serie de elementos, y luego lo dividimos por el total de elementos (n). Y es que, en realidad, la desviación típica no es más que un promedio. En concreto, es el promedio de las diferencias entre cada dato (x_i) con respecto a la media muestral. Tal vez ahora se entiende por qué este estadístico sirve para medir la dispersión de los datos. Cuanto más alejados están, en promedio, los datos de la media muestral, mayor es la desviación típica.

Una vez calculada, podemos usar la desviación típica en nuestra figura: las barras de error cubren el intervalo de dos desviaciones típicas, una por encima y otra por debajo de la media. Aquí tenéis un ejemplo de cómo quedarían dos barras de error con distribuciones más o menos dispersas (SD = 30 y SD = 5). He sobreimpuesto los datos reales a la figura en forma de puntos, para que apreciéis en qué consiste esa dispersión. Cada punto es un dato: ¿notáis cómo cambia la distribución alrededor de la media?

La desviación típica refleja la dispersión de los datos

Opción 2. Barras de error con error típico de la media (Standard Error of the Mean, SEM)

Si la desviación típica mide la dispersión en los datos, con el error típico de la media (SEM) vamos a expresar una idea un poco diferente. Sabemos (porque lo hemos visto en el blog, aquí) que cada vez que repetimos un estudio, el resultado va a ser un poquito diferente, debido al llamado error de muestreo. Si tu medida es buena (tu muestra es grande, tus instrumentos precisos), entonces no va a haber demasiada variación entre muestreo y muestreo, sino que las medidas serán bastante consistentes. Pues bien, el SEM nos va a aproximar cómo de precisa o consistente es la estimación de la media poblacional a partir de la media muestral.

La fórmula para calcular el error típico de la media (SEM) sería la siguiente:

O sea, que si los datos están muy dispersos (desviación típica grande) o si la n es muy pequeña, tendríamos una SEM grande, es decir, estimaciones poco precisas de la media poblacional.

Entonces, cuando veáis una figura con el error típico de la media en las barras de error, tenéis que comprender que nos están transmitiendo algo acerca de la calidad del estudio: cuanto más pequeño el intervalo que cubre la barra de error, más precisión.

Opción 3. Barras de error con intervalos de confianza (CI)

Sin embargo, la mayoría de las veces el objetivo de nuestro estudio no se reduce a estimar un parámetro poblacional como la media. Muy a menudo queremos poner a prueba hipótesis: ¿funciona este tratamiento? ¿hay diferencia entre estos dos grupos? Es decir, nuestro objetivo, más que descriptivo, es inferencial. Para esos casos puede ser recomendable que nuestras barras de error contengan el intervalo de confianza (recuerda lo que era, y cómo interpretarlo, en este post).

El cálculo del intervalo de confianza es algo más complejo, aunque aún es sencillo como para hacerlo a mano, y de nuevo serviría como una medida de la precisión de nuestro estudio. Cuando el intervalo es muy grande, indica que el estudio ha sido poco informativo.

La ventaja del intervalo de confianza es que podemos escoger un nivel de confianza (generalmente, la costumbre es usar el 95%). La interpretación, aunque un poco engañosa, es directa: si repitiéramos el estudio 100 veces, 95 de los intervalos de confianza contendrán la media poblacional (esto ya lo hemos visto, recuerda este post).

Imaginad que estáis viendo un gráfico con los resultados de un experimento: ¿cómo saber si la diferencia entre dos grupos es significativa? Realmente, deberíamos hacer un test en condiciones (en este caso podría ser apropiada una prueba t), y calcular un p-valor. Si el p-valor es menor de 0.05, el resultado es significativo y concluimos que las diferencias son lo bastante grandes como para no atribuirlas al azar (recuerda cómo se interpreta un p-valor en este post previo).

Pero, más allá de hacer el test pertinente, la figura también puede ayudarnos en el contraste de hipótesis gracias a los intervalos de confianza (**). Si los intervalos de confianza al 95% para las dos medias no se solapan el uno con el otro, podemos decir que la diferencia entre esas dos medias es significativa al nivel p = 0.05.

¿Y si hay un poco de solapamiento entre los intervalos? ¿Diríamos entonces que la diferencia no es significativa? No necesariamente, y aquí es donde hace falta un ojo entrenado. Si el solapamiento es menor de la cuarta parte del del intervalo (o sea, la mitad de uno de sus brazos), entonces la diferencia todavía puede ser significativa, aunque esta regla solo vale para muestras mayores de n = 10 (Cumming et al., 2007) y para contrastes entre grupos independientes (***). La siguiente figura está tomada de ese artículo, y representa visualmente esta idea:

A continuación, os enseño un ejemplo con datos simulados. He extraído tres muestras de distinto tamaño a partir de dos poblaciones (experimentales y controles). En la muestra de la izquierda (n = 10, es decir, 5 participantes por grupo), los intervalos de confianza están muy solapados, lo que indica que esa diferencia no es significativa. No lo es, de hecho, si hacemos el test correspondiente, t(8) = 0.43, p = 0.68. Sin embargo, al aumentar la muestra podemos incrementar la potencia, es decir, la probabilidad de observar el efecto buscado si es que este existe. Como podéis ver, en la muestra de la derecha (la más grande) los intervalos se han vuelto más estrechos y apenas se solapan, indicando que la diferencia es significativa. Así lo corrobora el test: t(198) = 3.35, p = 0.001.

Los intervalos de confianza pueden orientar en el contraste de hipótesis

En cualquier caso, esta comparación visual no debería reemplazar al test propiamente dicho, que tiene en cuenta otras consideraciones, y en ocasiones nos puede llevar a conclusiones diferentes. Es simplemente una ayuda para que el gráfico pueda contar una historia. En el próximo punto veremos cómo podemos exprimir el potencial de los intervalos de confianza con otra visualización diferente.

Mientras tanto, quiero que veáis una cosa. Hemos comentado antes que error típico de la media (SEM), intervalo de confianza (CI) y desviación típica (SD) tienen significados diferentes, y ahora estamos en situación de comprobarlo.

En la siguiente simulación he generado tres muestras a partir de la misma población. Las tres muestras difieren en su tamaño: pequeño (n= 5), mediano (n=25), y grande (n=100). Ahora, he representado las medias de cada muestra con las tres opciones para las barrar de error que hemos comentado en el post: desviación típica (SD), error típico (SEM) e intervalo de confianza al 95% IC).

Los tres tipos de barras de error, y cómo varían (o no) con el tamaño muestral

¿Notáis algo raro cuando nos movemos de una muestra pequeña (izquierda) a otra más grande (derecha)? Si os fijáis bien, veréis cómo las barras que contienen el error típico y el intervalo de confianza (SEM y CI) se hacen más estrechas cuando aumentamos la muestra. ¿Qué significa esto? Pues que estos dos estadísticos, aunque tengan interpretaciones diferentes, nos informan acerca de la precisión en la estimación (en este caso, de la media poblacional). Cuanto mayor es la muestra, mayor precisión, y por lo tanto intervalo más estrecho.

Sin embargo, los intervalos construidos con la desviación típica permanecen bastante insensibles al aumento del tamaño muestral. ¿Por qué? Porque simplemente indican en qué medida los datos están dispersos, y esto es algo que no tiene por qué correlacionar con el tamaño muestral.

Opción 4. Tamaño del efecto e intervalo de confianza

Por último, vamos a comentar una opción bastante diferente, pero que tiene otras ventajas. Imaginemos que el objetivo del gráfico no es simplemente representar los datos, sino comunicar la presencia (y magnitud) de un efecto estadístico, de forma que nos ayude en el contraste de hipótesis. Es decir, el propósito del mismo no es meramente descriptivo, sino inferencial.

Antes hemos comentado cómo pueden usarse los intervalos de confianza al 95% para intuir decisiones sobre la significación, siempre que se cumplan algunos supuestos. Ya os avisé de que este examen visual no debe reemplazar al análisis estadístico, porque ambas estrategias (examen gráfico y test) están trabajando sobre informaciones diferentes. En concreto, el examen visual trabajaba con la precisión de las estimaciones de las medias, mientras que el test, con su p-valor, está haciendo algo distinto: está cuantificando la magnitud de la diferencia, y diciéndonos si es esperable por azar.

¿Cómo podríamos hacer un gráfico que transmitiese esta información? La respuesta nos la da Geoff Cumming (2013), con su famosa propuesta de “The New Statistics” (aunque de nueva tiene poco). Lo primero que hay que hacer es calcular el tamaño del efecto observado. Puedes repasar este post anterior donde se explica qué es el tamaño del efecto. En el caso de dos grupos independientes, el tamaño del efecto estandarizado (con un estadístico llamado d de Cohen) se obtiene al restar las dos medias y dividir el resultado por la desviación típica de ambos grupos (en realidad, hay varias fórmulas ligeramente diferentes para distintas situaciones). Este tamaño del efecto observado es una estimación del tamaño del efecto “real”, el que existe en la población. Como todas las estimaciones, contiene un margen de error, así que nos gustaría expresar esta incertidumbre por medio de alguna guía visual, como un intervalo de confianza. Es exactamente el punto donde habíamos empezado el post de hoy.

Entonces, necesitamos construir un intervalo de confianza alrededor del tamaño del efecto observado que nos diga cómo de precisa es la estimación. Esto tiene un poco más de complicación, pero numerosos paquetes estadísticos nos simplifican el trabajo. El resultado sería algo como lo que sigue:

Simple y directo: el tamaño del efecto con su intervalo de confianza.

Quizá os recuerde este tipo de figura a las que solemos encontrar en los meta-análisis (forest plots). En general la interpretación es similar. Fijaos en que en vez de representar las medias muestrales y sus intervalos, estamos presentando directamente la diferencia entre cada par de medias (estandarizada), y el intervalo de esa diferencia.

Usando los datos simulados de antes, estoy representando los tamaños del efecto en tres muestras: pequeña, mediana y grande. Si os fijáis, los tres intervalos contienen el valor real del tamaño del efecto en la población (d = 0.30). No es extraño, porque si están correctamente elaborados, el 95% de los intervalos contendrán ese valor. Además, los intervalos varían en su amplitud.

La primera muestra (a la izquierda) ha producido un tamaño del efecto cuyo intervalo de confianza es muy ancho debido a la poca precisión de las muestras pequeñas. El intervalo que he representado, [-1.54, 0.97], incluye el cero. Esto sí lo podemos interpretar como un efecto no significativo, p > 0.05. Siempre que el intervalo no capture el cero, podremos decir que el efecto no es significativo.

Sin embargo, los intervalos calculados para las muestras de tamaño mediano [0.46, 1.73] y grande [0.19, 0.76] no incluyen el cero, así que están produciendo resultados significativos, como corroboramos al hacer los test pertinentes. Es decir, al presentar la información de esta manera, el examen visual nos permite sacar conclusiones sobre nuestras hipótesis: si hemos detectado el efecto o no.

Más aún: existe otro uso (menos conocido) de estos intervalos, y es el de evaluar la potencia del estudio, aunque sea de manera aproximada y a posteriori. Imaginad que nuestro estudio fuera el de la muestra pequeña (a la izquierda). Suele ser peliagudo interpretar un resultado no significativo, ya que no sabemos si (a) realmente el efecto que buscamos no existe, o si por el contrario (b) el efecto sí existe, pero no lo hemos detectado porque el estudio era poco potente. ¿Y ahora qué hacemos? Aunque no es la solución perfecta, sí puede ser informativo elaborar un gráfico como el de arriba. Si lo hacemos, comprobamos cómo el intervalo de confianza al 95% contiene un rango enorme de valores: desde efectos muy grandes (d = 0.97) hasta efectos gigantescos en la otra dirección (d = -1.54). En definitiva, esto sugiere que, independientemente del resultado que hayamos encontrado y del p-valor, el estudio ha sido poco informativo. Habría que plantearse repetirlo con una muestra más grande. Por lo general, este es un uso de los intervalos de confianza que no veo a menudo, y que puede ser muy útil en ciertas situaciones. Mucho mejor que otras opciones como las que comenta en este post Daniel Lakens.

Conclusiones

Espero que en este post hayamos aprendido algunas cosas. La primera, que los gráficos de barras, cuando representan estadísticos de centralidad como la media, deberían ir acompañados de barras de error. En segundo lugar, hay varias formas de obtener barras de error y cada una tiene una interpretación diferente. Un gráfico con barras de error que no especifica qué está representando acaba siendo inútil. Si haces un gráfico de barras, tendrás que escoger el estadístico más apropiado para cada situación (generalmente, los intervalos de confianza al 95% son la opción más útil).

Por último, si tu interés es mayormente inferencial (comunicar si un resultado es estadísticamente significativo o no, o si los datos van en línea con una hipótesis dada), entonces puede ser recomendable presentar un gráfico con una medida del tamaño del efecto observado junto con su intervalo de confianza. No sólo estás comunicando de manera efectiva la decisión con respecto al contraste de hipótesis, sino que puedes hacerte una idea de cómo de potente o informativo ha sido el estudio.

Notas

(*) Nota: De todas formas, incluso usando las barras de error correctamente, los gráficos de barras siguen teniendo problemas. En este link lo explican muy bien.

(**) Nota: Hay que andarse con un poco de cuidado, porque los intervalos de confianza, en según qué situaciones, podrían no ser simétricos (es decir, centrados en la media).

(***) Nota: los intervalos construidos con el error típico de la media (SEM) también se pueden utilizar en el contraste de hipótesis, aunque es un poco más difícil de leer hasta que te acostumbras. Por ejemplo, para que un resultado sea significativo, necesitas que los intervalos SEM estén completamente separados y haya entre ellos un hueco de como mínimo la extensión de medio intervalo.

Referencias

Cumming, G., Fidler, F., & Vaux, D. L. (2007). Error bars in experimental biology. The Journal of cell biology, 177(1), 7–11.
Cumming, G. (2013). The New Statistics: Why and How. Psychological Science, 25(1), 7-29.

Posted in Estadística visual | Tagged estadística | 5 Comments

Curso de ESTADESTECA MAL. 7. Cuando eres un impaciente y acabas haciendo p-hacking.

Posted on June 19, 2020 by Fernando Blanco

Volvemos con nuestro curso de estadesteca mal, repasando todas las prácticas incorrectas y los conceptos equivocados que plagan la estadística en psicología. Porque ya lo sabes, si a menudo piensas que estás metiendo la pata cuando haces o interpretas un análisis estadístico, esta serie de posts es para ti.
En el post de hoy vamos a hablar de un concepto que ya ha ido saliendo en entregas anteriores, el famoso p-hacking. Vamos a definir el concepto, usando algunos ejemplos, y vamos a visualizarlo mediante simulaciones en R.

No todos los resultados son iguales

Lo primero que tenemos que recordar es que cuando hacemos un estudio, el resultado puede ser significativo (p < 0.05) o no significativo (p > 0.05).

Si el resultado es significativo, tenemos dos opciones:

O bien es un verdadero positivo, y por lo tanto estamos rechazando la hipótesis nula (la de que no hay efecto) correctamente.
O bien es un falso positivo, y mi conclusión de que el efecto que estoy observando no se debe al azar es errónea.

Ya sabéis que la probabilidad de encontrar un resultado significativo cuando el efecto existe realmente (verdadero positivo) depende de la potencia, porque lo hemos hablado en posts anteriores (aquí y aquí). Si somos cuidadosos diseñando nuestro estudio, podríamos alcanzar por ejemplo una potencia del 80%. O sea, que si el efecto es real, lo detectaré (resultado positivo) en el 80% de los casos.

La otra situación es más peliaguda. En el caso del falso positivo, el resultado ha sido significativo “por casualidad”. Este tipo de error, el falso positivo, o error Tipo 1 para los amigos, es el que generalmente queremos mantener muy a raya, ya que es particularmente problemático (lo conocimos en este post anterior). Si, por ejemplo, afirmo que una medicina puede tratar una enfermedad y resulta que me equivocaba, estaré poniendo en riesgo las vidas de miles. Por eso fijamos el umbral de significación en p = 0.05, para que el falso positivo, en principio, nunca suba del 5%. …Hoy vamos a ver cómo se puede incrementar esta tasa de error de la manera más tonta.

Pero bueno, como no hay manera de diferenciar un falso positivo de un verdadero positivo, cuando tu estudio es significativo, date por satisfecho/a: ya puedes publicarlo. Enhorabuena.

Por su parte, si el resultado no es significativo, p > 0.05, deberíamos concluir que no podemos descartar que el efecto observado se deba al azar. Como antes, este resultado también puede ser:

Un verdadero negativo: es decir, realmente no existe el efecto que estaba buscando.
Un falso negativo: el efecto existe, pero mi estudio no ha sido capaz de detectarlo. Generalmente esto sucede cuando la potencia es insuficiente (repasad el concepto aquí).

Como veis, hay cierta asimetría en esta situación. Cuando el resultado es significativo, nos ponemos contentos porque podemos afirmar que hemos “encontrado algo”, y corremos a publicarlo. Cuando el resultado no es significativo, por el contrario, siempre tendremos la incertidumbre de cómo interpretarlo: ¿es un verdadero negativo, o simplemente me ha faltado potencia? Y además, debido al conocido como “sesgo de publicación” (que os cuento en este post), si el resultado no es significativo es muy difícil que lo publique en ninguna revista. Si no hay publicación, no hay beca, no hay financiación, no hay trabajo. Y qué duro es acer la cencia (Cientefico, 2017).

Empeñados en encontrar una diferencia significativa

En esta situación, no es raro que hayamos desarrollado hábitos que, de una manera u otra, consiguen que un resultado no significativo se convierta en significativo. Ojo, me refiero a prácticas que no constituyen en sí un fraude o una manipulación deliberada de los casos, o al menos no en todos los casos. Pueden ser técnicas muy inocentes y sutiles que aplicamos de manera incluso automática.

Estas prácticas se conocen como p-hacking: “torturar” los datos de distintas maneras hasta que p se vuelve menor de 0.05 (Ioannidis, 2005, Simmons et al., 2011). Las distintas prácticas de p-hacking son tan extendidas y tienen un aspecto tan inocente que os van a resultar familiares. Algunas de ellas son:

Añadir más participantes a la muestra si vemos que p está cerquita de la significación.
Excluir outliers o casos extraños (repasad este post sobre los outliers, si queréis).
Introducir una variable moderadora o una covariable que no estaba prevista. Las clásicas son edad y género.
Probar a analizar un subconjunto de los datos originales: por ejemplo, sólo las mujeres, o sólo las personas de menos de 50 años, o sólo quienes hayan puntuado en el cuestionario por debajo de un umbral…
Cambiar de técnica de análisis. Por ejemplo, si tu modelo de regresión con la edad como variable predictora no acaba de funcionar, podrías cambiarlo por una prueba t en la que comparas jóvenes vs. mayores, tras aplicar un punto de corte arbitrario.

En definitiva, se trata de tener la flexibilidad suficiente para ir probando y, al final, escoger el análisis que más nos conviene para presentar un resultado significativo.

Pero vamos a ver: ¿Quién no ha echado un ojo a los datos una mañana y ha decidido que va a meter unos pocos participantes más de los previstos? ¿Quién no ha probado a introducir en el modelo una covariable para “limpiar los resultados”? Esto lo hemos hecho todos. Sólo ahora empezamos a entender que estas prácticas tan extendidas pueden suponer un problema severo (Head et al., 2015).

¿Cómo de severo es el problema? Pues veréis, generalmente, estás técnicas no aparecen de forma aislada, sino que se usan una tras otra, hasta conseguir un resultado significativo. La consecuencia es que el error Tipo 1, la probabilidad de obtener un falso positivo, se incrementa notablemente. Por ejemplo, simplemente combinando algunas de estas técnicas, podemos llegar a un % de falsos positivos ¡de más del 60%! (Simmons et al., 2011) ¿Cómo te quedas?

En el resto del post, vamos a intentar entender cómo el p-hacking puede distorsionar los resultados, mediante algunas simulaciones en R que van a representar una de estas prácticas más inocentes.

Simulando el p-hacking con R

Imaginemos el siguiente escenario. Dicen que escuchar música clásica mejora la inteligencia de los bebés (el “efecto Mozart”, Campbell, 1997), así que ¿por qué no funcionaría el mismo principio en adultos? Además, vamos a imaginar que mi teoría dice que este efecto es acumulativo, y es más potente cuantas más notas musicales haya captado mi oído.

Por lo tanto, inspirándonos en nuestra película de cabecera, “La Naranja Mecánica”, hemos creado un método de administración de música clásica “express”. Este método consiste en, simplemente, ponerse unos auriculares y escuchar en bucle las obras completas de Mozart a una velocidad 1000 veces más rápida de la normal. A esta velocidad los violines suenan como una ametralladora de explosiones de neutrones, pero bueno, sigue siendo Mozart. La idea es que, a lo largo de una sesión de dos horas, la exposición a música clásica habrá sido de tal calibre que tendremos que ver ese efecto en la inteligencia.

Así que vamos a probar el procedimiento con un experimento: a la mitad de los participantes, al azar, les tocará exponerse a la música clásica, mientras que a la otra mitad, que hará de control, le pondremos un popurrí de disco de los 70 y trap, también a toda pastilla. Al acabar la sesión, todos harán una prueba de inteligencia, para que podamos comparar los dos grupos.

¿Tiene sentido el experimento? No tenéis que decir que sí, porque da un poco igual. El caso es que, como las sesiones son un poco largas, cada día puedo testar nada más que unos pocos participantes, 3 ó 4. Y como soy un impaciente, al final de cada día voy a mirar qué pinta tienen los datos. ¿Qué es lo que descubriré?

Comenzamos con el código de R que va a reproducir este escenario. Vamos a empezar especificando los parámetros de la simulación. Por ejemplo, al fijar las medias poblacionales de los dos grupos con el mismo valor, 50, estamos diciendo que el efecto que está buscando el experimento no existe en la población (o sea, que el método de tortura auditiva no funciona). Vamos a asumir que el primer día que miro los datos tengo 10 participantes, 5 en cada grupo, y que a partir de ahí hago el experimento a 4 participantes nuevos al día (2 en cada grupo).

Copiad este código en la consola de R y ejecutadlo.

######
parámetros de la simulación:
######
grupo1.n <- 5  #La N de cada grupo el primer día
grupo2.n <- 5
Upperlimit <- 100 #Límites superior e inferior de la variable que estoy midiendo (CI).
Lowerlimit <- 0
grupo1.mean <- 50  #La media poblacional de CI en cada grupo
grupo2.mean <- 50
grupo1.sd <- 10 #Desviación típica poblacional del CI en cada grupo
grupo2.sd <- 10
RealD <- (grupo1.mean-grupo2.mean) / sqrt((grupo1.sd^2 + grupo2.sd^2)/2) #Este es el tamaño del efecto “real”, en la población.
nAdded <- 2 #Incremento de n en cada vuelta
nReps <- 30 #Número de veces que vas a p-hackear

Ahora necesitamos hacer las funciones que forman la simulación. Para ello, simplemente ejecutad este código:

#Función que hace las simulaciones...
runSims <- function(){ 
  grupo1.data <<- round(rtruncnorm(n=grupo1.n, a=Lowerlimit, b=Upperlimit, mean=grupo1.mean, sd=grupo1.sd),0)
  grupo2.data <<- round(rtruncnorm(n=grupo2.n, a=Lowerlimit, b=Upperlimit, mean=grupo2.mean, sd=grupo2.sd),0)
  
  ttest <- t.test(grupo1.data, grupo2.data)
  
  sims <<- data.frame(
    sample = 0,
    meanG1 = mean(grupo1.data),
    meanG2 = mean(grupo2.data),
    sdG1 = sd(grupo1.data),
    sdG2 = sd(grupo2.data),
    n = length(grupo1.data)+length(grupo2.data),
    t = as.numeric(ttest$statistic),
    d = (mean(grupo1.data)-mean(grupo2.data))/
      (sqrt(
        ((grupo1.n-1)*var(grupo1.data)+(grupo2.n-1)*var(grupo2.data))/(grupo1.n+grupo2.n-2)
      )),
    p = round(ttest$p.value, 8),
    sig = ifelse(ttest$p.value<0.05, "yes", "no")
  )
  
}
#Función para hacer p-hack...
pHack <- function(){
  for(i in 1:nReps){
    grupo1.data <<- c(grupo1.data, round(rtruncnorm(n=nAdded, a=Lowerlimit, b=Upperlimit, mean=grupo1.mean, sd=grupo1.sd), 0))
    grupo2.data <<- c(grupo2.data, round(rtruncnorm(n=nAdded, a=Lowerlimit, b=Upperlimit, mean=grupo2.mean, sd=grupo2.sd), 0))
    
    ttest <- t.test(grupo1.data, grupo2.data)
    
    simsNew <- data.frame(
      sample = i,
      meanG1 = mean(grupo1.data),
      meanG2 = mean(grupo2.data),
      sdG1 = sd(grupo1.data),
      sdG2 = sd(grupo2.data),
      n = length(grupo1.data)+length(grupo2.data),
      t = as.numeric(ttest$statistic),
      d = (mean(grupo1.data)-mean(grupo2.data))/
        (sqrt(
          ((grupo1.n-1)*var(grupo1.data)+(grupo2.n-1)*var(grupo2.data))/(grupo1.n+grupo2.n-2)
        )),
      p = round(ttest$p.value, 8),
      sig = ifelse(ttest$p.value<0.05, "yes", "no")
    ) 
    sims <<- rbind(sims, simsNew) 
  }
}

Ya estamos preparados. Vamos a ver qué tal se nos ha dado el primer día de trabajo en el laboratorio. Para ello, simplemente teclead en la consola runSims(). El resultado de mi experimento está guardado en la variable sims, y en mi caso tiene este aspecto*.

sims[1,]
sample   meanG1   meanG2   sdG1   sdG2   n    t      d      p     sig
0        49.60    49.40    7.40   6.07   10   0.05   0.03   0.96  no

¡Qué decepción! Tras haberme pegado un curro de pasar 10 participantes, la cosa no pinta bien. Las medias muestrales son muy parecidas (49.60 vs. 49.40), lo cual indica que el procedimiento express no funciona. La diferencia no es significativa, p = 0.96.

Pero recordad lo que dijimos antes. Nunca podemos estar seguros de si un resultado negativo es un *falso* negativo. Igual es simplemente que me falta potencia, ya que tengo muy poquitos sujetos todavía. Voy a volver al trabajo, a ver qué sucede mañana. …Y aquí tendría la simulación correspondiente al segundo día, con una N=14):

sims[2,]
sample   meanG1   meanG2   sdG1   sdG2   n    t    d    p    sig
1        53.86    48.86    9.56   5.43   14   1.20 0.64 0.26 no

Todavía nada significativo, p = 0.26, pero oye, quien quiere creer acaba viendo al fantasma: ¿pues no está ligeramente más alta la media del grupo experimental? Son datos “prometedores”. ¡Merece la pena insistir!

En eso que sigo dejándome las pestañas con el experimento, y llega el tercer día, cuando me encuentro con esto:

sims[3,]
sample   meanG1   meanG2   sdG1    sdG2    n    t     d      p      sig
2        54.44    44.78    8.80    10.08   18   2.17  1.021  0.046  yes

¡¡¡Sí!!! ¡Lo sabía! Era cuestión de insistir, el que la sigue la consigue. Ahora que tengo una muestra más grande, de 18 participantes, mi resultado es significativo: p = 0.046. ¡Ya puedo invitar a todo el laboratorio a una cena, e ir escribiendo el paper para contar el resultado.

PARA. EL. CARRO.

Vamos a ver, Fernando, ¿es que no te acuerdas de todo lo que hemos hablado sobre el falso positivo? ¿Cómo sabemos que este resultado no es uno de esos que salen por azar?

Pensémoslo un poco. Hasta llegar al tercer día en el que descorchamos el champán, ¿cuántos p-valores hemos calculado? Uno por día, o sea, tres veces. Bueno, pues resulta que los p-valores tienen sus manías, y una de las reglas que hay que seguir para interpretarlos es que sólo hay que calcularlos una vez. Si cambio algo, si echo o incluyo a un participante, si meto una variable más… estoy distorsionando el significado de ese p-valor, inflando la tasa de falso positivo (error tipo 1) por encima del 5%.

En este ejemplo (tan habitual por otro lado), el problema está en lo que se llama reclutamiento con parada opcional (“optional stopping rule”). En vez de fijar un tamaño muestral desde el principio, simplemente voy recogiendo datos, y me detengo sólo cuando el resultado concuerda con mis expectativas (cuando es significativo).

Este procedimiento en sí está condenado a producir un resultado positivo, tarde o temprano. Siempre que el resultado no es significativo al final del día, lo que hago es meter unos pocos sujetos más y darle otra oportunidad. Así, podría pasarme mucho tiempo, muchos días, y acabar encontrando que cualquier conjunto de datos aleatorio va a dar una p < 0.05.

Para visualizar mejor dónde estaba el engaño, vamos a representar el “viaje” que han hecho los p-valores a lo largo de los días que ha durado mi experimento (aquí represento un total de 30 días):

Si me hubiera detenido en el día 3, o en el 5, estaría convencido de que el estudio ha funcionado. Pero como he continuado recogiendo muestra hasta los treinta días, puedo ver claramente que aquello fue un espejismo.

Podríamos creer que los p-valores son educados y se comportan de forma predecible, pero ya veis que no. Bajo la hipótesis nula, todos los valores de p son igual de probables, y con muestras pequeñas se comportan de forma más bien errática: al principio no encontramos un resultado significativo, hacia el tercer día por pura casualidad los p-valores son más pequeños… pero si sigo recogiendo muestra, ya veis cómo hacia el día 9 vuelven a subir.

A la derecha, como propina, tenemos el mismo trayecto, pero ahora con la estimación del tamaño del efecto, la d de Cohen. Dado que el efecto real es 0, todos esos valores que vemos ahí son sobrestimaciones, a veces muy grandes, del efecto real. Conforme añadimos muestra y se contiene el error de muestreo, la d observada en cada día se va acercando al valor real.

¿Qué es lo que habría que hacer para evitar esta forma sutil de p-hacking? Idealmente, hay que especificar el tamaño muestral a priori, antes de recoger los datos. Y nunca ampliar la muestra una vez que ya la he analizado.

Conclusión

Estamos empezando a entender que podemos alterar totalmente las conclusiones y los resultados de un estudio, de maneras muy inocentes y casi sin darnos cuenta. Sólo con introducir unos pocos participantes más puedo estar inflando la tasa de falso positivo significativamente. Próximamente seguiremos reflexionando sobre otras formas de p-hacking, y sobre sus consecuencias.

Referencias

Campbell, D. (1997). The Mozart Effect: Tapping the Power of Music to Heal the Body, Strengthen the Mind, and Unlock the Creative Spirit. New York: Avon Books

Cientefico, El. (2017). La cencia no se ace sola, ahi que acerla. Joyitas del Tuiter.

Head, M.L., Holman, L., Lanfear, R., Kahn, A.T., Jennions, M.D. (2015). The Extent and Consequences of P-Hacking in Science. PLoS Biology, 13(3), e1002106.

Ioannidis, J.P. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science, 22(11), 1359–1366.

*NOTA: como siempre que hacemos simulaciones, cada vez que ejecutemos el código el resultado cambiará, porque los números se han generado aleatoriamente. Si quieres comprobarlo, ejecuta otra vez el código. Y otra más.

Posted in Estadística MAL, Uncategorized | Tagged estadística, p-hacking | Leave a comment

Los tres requisitos para el uso responsable de la IA

Requisito 1. La evaluación: no siempre que usas una IA estás haciendo trampa

Requisito 2. Actividad no ejercitada, competencia no adquirida

Requisito 3: Verificación. La máquina de dar gato por liebre.

Problemas adicionales

Algunos posibles usos de la IA en el aula

Referencias

“Nubes de puntos” y el problema de estimar correlaciones “a ojo”

“Lo siento, tu R cuadrado es muy pequeña”

El problema de los efectos pequeños

Conclusiones

Bonus: Lo que sí podrías criticar

Caso 1. Confusión de variables

Caso 2. Sesgo de colisión (“collider bias”)

Caso 3. Variables mediadoras

El drama

Conclusiones

Referencias

¿Qué es un “nudge” (“empujoncito”)?

Algunos tipos de empujoncito

Críticas

Referencias

Habituación: qué pasa cuando repites, y repites…

Sensibilización, cuando no estás de humor para tonterías

¿Por qué a veces me habitúo, y a veces me sensibilizo?

Adaptación sensorial, fatiga, y otros fenómenos que nos lían

Conclusiones

Referencias

¿Qué es un intervalo de confianza?

La confusa interpretación de un intervalo de confianza

¿Cómo se calcula un intervalo de confianza?

Imagina que calculas 100 intervalos…

Refrescando conceptos

Opción 1. Decidir el tamaño muestral improvisando sobre la marcha (MAL).

Opción 2. Decidir el tamaño muestral “a ojo”.

Opción 3. Lo que te pide el revisor (y también está MAL casi siempre): análisis de potencia “a priori”.

Opción 4 (LA QUE DEBES PROBAR). Análisis de sensibilidad.

Conclusiones

¿Qué tipo de barras de error empleamos?

Opción 1. Barras de error con desviación típica (Standard Deviation, SD)

Opción 2. Barras de error con error típico de la media (Standard Error of the Mean, SEM)

Opción 3. Barras de error con intervalos de confianza (CI)

Opción 4. Tamaño del efecto e intervalo de confianza

Conclusiones

Notas

Referencias

No todos los resultados son iguales

Empeñados en encontrar una diferencia significativa

Simulando el p-hacking con R

Conclusión

Referencias

Archives

Meta