Estadística visual (IV): Controlando los errores

En un post anterior os conté brevemente cómo funciona la lógica del contraste de hipótesis en estadística, intentando hacer hincapié en visualizar los conceptos. Supongo que todos acabamos entendiendo que, al final, esta forma de usar estadística se basa en tomar una decisión (“¿rechazo la hipótesis nula o no?”) mediante la interpretación del p-valor. Por supuesto, esta aproximación no está exenta de problemas y limitaciones (de hecho, hay críticas para dar y tomar), pero lo crucial es que este p-valor nos permite hacer algo muy importante: mantener a raya nuestros errores para que no aparezcan demasiado a menudo. Vamos a ver cómo lo hace, y de paso también comprenderemos por qué ese umbral arbitrario de significación que tantos dolores de cabeza nos ha provocado a los investigadores (me refiero al infame p < 0.05) 😦

Lo primero que vamos a hacer es colocarnos en el escenario de la hipótesis nula, como hicimos en el primer post de esta serie. Es decir, vamos a asumir que no hay diferencias entre dos grupos de personas, o lo que es lo mismo: que todas las diferencias que encontremos se deberán al error de muestreo.

Esta situación aparece claramente cuando planteamos un estudio basado en una hipótesis totalmente absurda, así que vamos a inventarnos una. La tipografía Comic Sans despierta un odio cruel y visceral entre muchos diseñadores gráficos, informáticos, y en general entre toda la gente de bien. Uno de los motivos es que esta tipografía genera en el lector una sensación de infantilidad (más que de diversión) que acaba siendo desagradable. “¿Qué pasa? ¿Me han tomado por un crío de 13 años?” Bueno, imaginemos que alguien plantea un estudio con un objetivo totalmente absurdo, y propone que basta ver unos minutos de dibujos animados infantiles para que, inadvertidamente, tu antipatía hacia la Comic Sans se reduzca notablemente. ¿Tiene sentido? Ninguno (1). Aun así imaginad el experimento: a la mitad de mis participantes, el grupo experimental, les hago ver un par de capítulos de Dora la Exploradora, mientras en el grupo control están viendo el telediario. Después, todos los participantes deben evaluar cuánto les gusta el mismo texto escrito en Comic Sans. Nuestra descabellada hipótesis predice que en el grupo experimental se rebajarán las evaluaciones negativas con respecto al control.

 ¿Es lo bastante absurdo? Sigamos. Ahora imaginemos que llevamos a cabo este estudio, y como decíamos el otro día calculamos el estadístico t para comparar las medias, obteniendo un p-valor. Este p-valor servirá para tomar una decisión: si es significativo (menor de 0.05), diremos que el tratamiento de Dora la Exploradora ha funcionado para rebajar el odio a la Comic Sans. Hemos planteado una situación absurda, una hipótesis que seguramente es falsa. Por lo tanto, probablemente la hipótesis nula es “verdadera” en este caso. ¿Qué p-valor creéis que obtendremos con mayor probabilidad? ¿Uno muy grande, no significativo, como por ejemplo p = 0.823? ¿O uno muy pequeño, significativo, como p = 0.002? Venga, os doy un minuto para contestar y luego seguís leyendo.

¿Ya lo habéis pensado?

Bien, si habéis respondido que bajo la hipótesis nula (recordemos, no hay diferencias reales en la población) el p-valor sería grande, no significativo, ¡enhorabuena! Habéis participado usando la intuición. Tendría su lógica, ¿no? Efecto nulo, p-valor no significativo; efecto grande, p-valor significativo… Pero lamentablemente esto es incorrecto.

Vaya palo. Vale, ya lo iréis comprobando: la estadística está llena de situaciones que van contra toda intuición, como nos pasaba el otro día con los intervalos de confianza. Así que en vez de dejarnos llevar por las intuiciones, vamos a hacer algo incluso más divertido. ¡Vamos a hacer simulaciones! Para ello, utilizaré el software R, como siempre.

En la siguiente imagen, he simulado nada menos que 10.000 muestras aleatorias de una población en la que no hay diferencias entre grupos (por lo tanto, en este caso la hipótesis nula está en lo cierto). Es un escenario como el de nuestro ejemplo con el estudio de la Comic Sans.

Distribución de p-valores bajo la hipótesis nula.

Para cada una de esas muestras he calculado su estadístico t y su p-valor correspondiente. A continuación, he representado la frecuencia de cada valor para p. Cuanto más alta es la barra, más frecuente es ese valor de p en las simulaciones. Los p-valores significativos (es decir, menores de 0.05) están resaltados en naranja. Recordemos que estamos bajo la hipótesis nula, así que ahora podremos saber si es más habitual encontrar un p-valor pequeño que uno grande, sólo mirando la altura de las barras.

¿Qué es lo que descubrimos? Que si examinamos las 10.000 muestras, no son particularmente más habituales los p-valores grandes que los pequeños. La distribución es uniforme (quiere decir que todos los valores entre 0 y 1 son igual de probables).

Pues vaya chasco, diréis: el p-valor no es nada informativo cuando la hipótesis nula es cierta. Y es verdad. Pero sí podemos usar el p-valor como herramienta de control de error.

Hay varios errores que podemos cometer en la estadística inferencial. Entre ellos tenemos el error tipo I, también llamado “falso positivo”, que consiste en afirmar que algo existe cuando no es así. Si yo proclamo que he visto un unicornio rosa entrar en mi habitación, en seguida me diréis que habrán sido mis imaginaciones o que debería irme a la cama de una vez. En nuestro ejemplo de hoy, equivaldría a decir que el tratamiento de Dora la Exploradora ha funcionado, aunque realmente no sea así. Este tipo de error es particularmente dañino en ciencia. ¡Imaginad que concluyo que un medicamento está funcionando para tratar una enfermedad grave, pero en realidad esto no es cierto! Por eso hemos decidido mantener a raya este tipo de error, el falso positivo, de forma que no ocurra muy frecuentemente. Concretamente, nos gustaría que este error sólo tuviera lugar en el 5% de las ocasiones.

Volved a mirar la figura anterior. Hemos dicho que, bajo la hipótesis nula, todos los p-valores (entre 0 y 1) son igual de probables. Los valores que están por debajo de 0.05 (los marcados en naranja) representan, por tanto, el 5% del total de p-valores posibles en esta situación (0.05 es el 5% de 1). Esto significa que, si sólo nos permitimos afirmar que un efecto existe (o sea, rechazar la hipótesis nula) cuando p < 0.05, ¡estamos efectivamente reduciendo la tasa de error tipo I al 5%! Así es como el p-valor controla los falsos positivos.

De hecho lo podemos comprobar en la propia simulación: en la parte superior os he incluido la proporción de estudios simulados que son significativos, y en este caso se acerca mucho a 0.05, justo como estaba previsto.

Y es que esta idea funciona casi siempre, en teoría. En la práctica, como quizá veamos algún día en otro post, se dan ciertas situaciones que hacen que inflemos enormemente la tasa de error tipo I hasta límites insospechados, muy por encima del 5% (ved la siguiente figura, adaptada de un trabajo de Simmons et al., 2011, y pasad miedo).

Adaptado de Simmons et al. (2011).

Por otro lado, la misma simulación que hemos hecho para ver cómo se distribuyen los p-valores nos puede servir para aprender otras cosas. Esto os lo cuento en el próximo post. Hasta entonces, ¡creo que hay material para pensar de sobra!

(1) Nota: ¿quién sabe? En estos locos días, a lo mejor hay alguien que ha investigado exactamente esto, con la misma premisa. ¯\_(ツ)_/¯

Referencias

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science, 22(11), 1359-1366.

Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (III): El traicionero baile de los intervalos de confianza

En un post anterior estuvimos definiendo qué es un intervalo de confianza, y adelantamos que va a ser una herramienta útil en el contexto del análisis de datos. Vamos a profundizar un poco en este tema, aprovechándonos de una genial visualización interactiva realizada por Kristoffer Magnusson, que tenéis en este enlace:

Visita la web y juega un poco con las simulaciones.https://rpsychologist.com/d3/CI/

Esta visualización está basada en la misma idea que la simulación del otro día: Es un proceso de muestreo aleatorio, aunque esta vez lo han implementado en una web interactiva, de modo que podemos juguetear con los valores y ver cómo cambian los intervalos.

En esencia, aquí tenemos una media poblacional que se representa con esa línea naranja vertical. Podéis imaginar que es cualquier cosa, por ejemplo, el porcentaje real de estudiantes que detesta la estadística, o el número promedio de horas que la gente pasa viendo series cada semana. En cualquier caso, este es el parámetro de la población que, en nuestra práctica científica, desconocemos, y que nos gustaría estimar con nuestro estudio.

Desde que la cargamos, la web va a ponerse a simular en tiempo real cientos de muestras a partir de esa población. Las vemos moviéndose hipnóticamente por la pantalla. Para cada muestra, la web nos calcula su media muestral (el punto azul) e intervalo de confianza. Podemos ver fácilmente cómo las medias obtenidas en cada muestra son un poco diferentes, y casi nunca coinciden perfectamente con la media poblacional. Gracias al post anterior, sabemos que esto se debe al error de muestreo, que introduce este ruido aleatorio en la medida.

En cuanto a los intervalos de confianza, estos van a contener dentro de sus límites el valor real de la población casi todo el tiempo (de hecho, el 95% de las veces, si no tocamos nada en la simulación). Cuando el intervalo no contiene a la media, aparece resaltado en color rojo. Además, el panel izquierdo de la simulación nos lleva la cuenta del número de intervalos que capturan la media real, para que comprobéis que a la larga va a coincidir con el nivel de confianza (en el ejemplo de la imagen de abajo, el porcentaje real de intervalos que incluyen la media real es de 94.7%, muy cerca del objetivo de confianza deseado, 95%):

¡94.7%! ¡Casi, casi lo ha clavado!

Ahora que hemos repasado los elementos de esta visualización, podemos empezar a jugar un poco con los parámetros de la simulación para ver cómo afecta esto a las estimaciones. Así que ve a la web, trastea un poco, y cuando te hayas cansado vuelve aquí para seguir leyendo.

¿Ya estás de vuelta? Seguimos.

Por defecto, en esta simulación los intervalos de confianza están fijados al nivel del 95%, que es lo habitual en ciencias como la psicología, pero podemos cambiarlo a otros niveles, como el 99% o el 90%, que se usan en otras situaciones. Si fijamos un valor de confianza elevado, el intervalo se volverá más amplio. Si por el contrario fijamos un valor más pequeño, como por ejemplo un 10%, o un 20%, el intervalo se acortará. ¿Por qué?

El nivel de confianza representa el porcentaje de estos intervalos que, a largo plazo, acabarán conteniendo el valor del parámetro. Es decir, si los intervalos de confianza están calculados al nivel del 95%, el 95% de ellos contendrán el valor real de la media poblacional. Si nos volvemos más liberales y fijamos una confianza del 90%, los intervalos serán más pequeños y sólo el 90% de ellos contendrán el valor de la media poblacional. De hecho podéis comprobar que esto es así mirando el panel izquierdo en la simulación (ese 94.7% de la imagen de arriba se aproxima mucho al nivel de confianza, al menos cuando hemos generado un número muy grande de muestras). Aquí se puede entender el sentido de la palabra “confianza” en este contexto frecuentista: si repito el proceso de muestreo aleatorio un número infinito de veces, puedo estar seguro de que el 95% (o el 90%, o el nivel que escoja) de esas muestras va a tener un intervalo de confianza que contiene a la media poblacional. Sí, lo sé, el lenguaje se vuelve raro en cuanto lo toca un matemático.

Otro parámetro que podemos alterar en esta simulación para ver qué ocurre es el del tamaño muestral. En el post anterior vimos cómo el número de datos de cada muestra (la n) afectaba a la calidad de la estimación. No es lo mismo tomar una decisión a partir de un estudio con muchos participantes que tomar de referencia un estudio sobre una muestra pequeña, ¿verdad? Y de nuevo el responsable de esto es el error de muestreo: su impacto, aunque aleatorio, será más relevante sobre las muestras pequeñas. Bien, probad ahora a hacer que las muestras sean más grandes, por ejemplo, de 100 participantes:

En cuanto aumentamos el tamaño muestral, los intervalos cambian de amplitud.

Como veis, a partir de ese momento (cuando he cambiado de n=5 a n=100), las medias muestrales han dejado de alejarse tanto de la media poblacional, y se han vuelto “menos bailonas”. También los intervalos de confianza se han vuelto más estrechos, lo cual se puede interpretar como un aumento de precisión en la medida. Aun así, a largo plazo, seguiremos teniendo la misma proporción de intervalos que no incluyen la media real (dependiendo del nivel de confianza que hayamos impuesto: si trabajamos al 95%, el 5% de los intervalos aparecerán en rojo porque no han capturado la media poblacional).

Cuidado, ¡los intervalos tienen trampa!

En ocasiones podéis leer interpretaciones del intervalo de confianza como un rango de valores “plausibles” para el parámetro poblacional. Por ejemplo, imaginad que hago un estudio para estimar la cantidad de horas semanales que pasa la gente en Netflix u otras plataformas, y obtengo una media muestral de 45 horas, con un intervalo entre 25 y 65 horas (un rango bastante amplio). Ya de entrada, podríamos descartar como “plausibles” algunos valores del intervalo: ¡probablemente nadie pase 65 horas delante de la televisión! Pero avancemos. Con estos datos, alguien podría afirmar que “hay una probabilidad del 95% de que el valor real de la media esté dentro de mi intervalo de confianza, es decir, entre 25 y 65”. ¿Os parece una buena conclusión?

De hecho, se trata de una interpretación bastante intuitiva del concepto, además de extendida (según Hoekstra et al., 2014, más del 50% de los estudiantes e investigadores la juzgan como válida). Pero en realidad la interpretación no es correcta, puesto que nos aleja de la estricta lógica frecuentista que subyace a la propia definición del intervalo. No perdamos de vista que el intervalo (como todo lo que calcule a partir de mi muestra) es siempre una estimación, y va a cambiar necesariamente si repito el estudio con una muestra nueva (debido, una vez más, al error de muestreo y otros factores).

Si en este ejemplo repito mi estudio, podría encontrarme con otro intervalo diferente, por ejemplo, 5-45, ó 58-98. No hay más que mirar de nuevo las simulaciones de la web para percatarse de cómo a partir de una misma población podemos extraer intervalos muy diferentes entre sí. Si queremos ser rigurosos, deberíamos abstenernos de hacer estas interpretaciones sobre un intervalo aislado, y nunca perder de vista el conjunto que nos ofrece la simulación que estamos viendo: cada muestra va a ser diferente, con una media diferente y un intervalo distinto, y sólo en el largo plazo estaremos seguros de que el 95% de los intervalos contiene el valor real.

Conclusiones

En primer lugar, la mejor manera de entender ciertos conceptos estadísticos es simularlos y visualizarlos. Recuerdo la de veces que, en clase, me hablaron de intervalos de confianza, ¡la de veces que los calculé! Y sólo cuando fui capaz de simularlos y observarlos en movimiento entendí realmente su utilidad… y por qué los interpretamos mal.

En segundo lugar, el error de muestreo (inevitable) nos va a generar incertidumbre en las estimaciones. No vale la pena resistirse, hay que aprender a asumirlo. Es normal, para eso está la estadística. Por otro lado, esto nos debería ayudar a entender que tenemos que ser críticos con los resultados de experimentos o estudios aislados. En vez de dar el dato por bueno, haría bien en echar un vistazo a la incertidumbre que lo acompaña (el intervalo de confianza, la n, y ya veremos más adelante el p-valor). Y en cualquier caso, interpretar un estudio aislado va a ser siempre complicado, pues el intervalo que hemos calculado no nos dice nada por sí solo (lo único que sabemos es que si calculamos otros 99, hasta tener 100, 95 de ellos van a contener la media real, y ni siquiera sabemos si el intervalo que tenemos delante es de ese díscolo 5% que no la contiene). Así que mejor repite ese estudio, a ser posible con una muestra grande, antes de sacar conclusiones definitivas.

Y por último, evitemos los malentendidos: los intervalos de confianza no son un concepto sencillo, a pesar de lo que parece, porque ofrecen interpretaciones intuitivas y fáciles que son, realmente, incorrectas. En este artículo (Hoekstra et al., 2014) detallan algunas de las interpretaciones erróneas más comunes, y podemos ver que hasta los que nos dedicamos a la investigación caemos en la trampa, así que está bien tenerlo en cuenta: no te confíes con los intervalos de confianza, que son traicioneros.

Referencias

Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E. J. (2014). Robust misinterpretation of confidence intervals. Psychonomic Bulletin & Review, 21(5), 1157-1164.

Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (II): El error de muestreo y una cuestión de confianza. Enter simulations.

Continúo con mi repaso sobre estadística básica para centrarme en un aspecto que hemos tocado muy de refilón. Imaginad que leemos en las noticias que se ha publicado un estudio con una conclusión que nos llama la atención, por ejemplo: “El 90% de los estudiantes de psicología prefieren la tortilla de patata sin cebolla”.

Leemos el titular, levantamos la ceja, y caemos en la cuenta de que el estudio se realizó con una muestra muy pequeña. Intuitivamente pensamos que el tamaño de la muestra es una amenaza a la capacidad de generalizar a toda la población los resultados obtenidos en la muestra. ¿Qué habría pasado si repetimos el estudio, otra vez con una muestra muy pequeña, pero al día siguiente? Es probable que el resultado cambie radicalmente (hay esperanza para los concebollistas).

El concepto que queremos ilustrar aquí se llama error de muestreo. La población real (a la que queremos generalizar nuestros resultados) tiene una distribución guiada por unos parámetros (como la media, μ, y la desviación típica, σ, en el caso de una distribución normal). Pero estos parámetros son generalmente desconocidos. ¡Nadie sabe cuál es la media “real” en la población! Para ello, tendría que encuestar a todas y cada una de las personas que forman parte de la población de interés, sin dejarnos ni una. En vez de eso, lo que hacemos es extraer una muestra de esa población, generalmente mediante un proceso aleatorio. La muestra tiene un tamaño mucho más pequeño y manejable, y nos permite calcular estadísticos como la media muestral, x, y la desviación típica muestral s. Estos estadísticos sí son conocidos porque se calculan a partir de la muestra. La gracia del asunto es que los estadísticos muestrales son una aproximación al parámetro de la población. Si en mi muestra la media es de 80, no sé cuál será la media poblacional porque nunca puedo estar seguro, pero mi estimación informada sería de “alrededor de 80”.

Eso sí, mi generalización tendrá que tener cierto margen de error, ya que cada muestra que extraiga de la población va a ser un poco diferente, debido a ese error de muestreo que habíamos explicado. En la siguiente figura, tenemos la representación de una distribución poblacional (arriba), y algunas muestras pequeñas (cada una con n=5) extraídas de la misma. Podemos ver cómo esas distribuciones no coinciden exactamente con la población: tendrán distintas medias, desviaciones típicas, y forma.

Como decía en el post anterior, podemos pensar en el proceso de muestreo como si consistiera en extraer bolas de un bombo de lotería. La población contiene una proporción determinada de bolas con un número par (por ejemplo, el 50%), que sería el parámetro poblacional. En cada muestra (extracción de un número pequeño de bolas) tendremos una proporción de bolas pares e impares ligeramente diferente (estadístico muestral), aunque si extrajésemos miles de muestras por este procedimiento, al final acabaríamos acercándonos mucho a ese 50%, ¿verdad?

¿Cuánto podría variar el valor del estadístico en cada muestreo? Buena pregunta, y depende de una serie de factores. Para comprobarlo, nada como echar mano de una herramienta fundamental para entender la estadística: vamos a simular el proceso de muestreo en R (por cierto: todo lo que programo es feo e incómodo, lo sé). La ventaja de ilustrar el concepto con simulaciones es que en estas, al contrario que en la vida real, sí podemos partir de un parámetro poblacional conocido.

En este ejemplo, he creado una “población imaginaria” con media 50 y desviación típica 10. Estos valores son arbitrarios y los he decidido yo, que es la gran ventaja de trabajar con simulaciones. Ahora vamos a extraer 20 muestras de esa población, cada una con un tamaño de 5 elementos:

trueMean <- 50      #Media poblacional
trueSD <- 10         #Desviación típica poblacional
numMuestras <- 20   #Número de muestras que queremos extraer
N <- 5              #Tamaño de cada muestra
meanSeq <- c()      #Vector que contendrá las medias obtenidas.

for (i in 1:numMuestras){
    currentData<-rnorm(N, trueMean, trueSD)        #Extrae N datos de la población
    meanSeq<-c(meanSeq, mean(currentData))   #Almacena la media de cada muestra
}

Ya sólo nos quedaría comprobar las medias que hemos obtenido en las 20 muestras, para ver cuánto se apartan del valor del parámetro conocido (la media poblacional era 50).

meanSeq
[1] 47.22 45.68 46.99 56.47 55.27 52.28 49.06 47.11 57.18 54.78 48.22 53.70 42.86 51.21 47.41 42.39 44.64 51.54 49.60 41.59

Aquí podemos ver que las medias se aproximan a 50, pero con variaciones aleatorias entre ellas: unas se pasan por mucho, otras se quedan cortas… Es el efecto del error de muestreo. Pero esto sólo lo sabemos porque es una simulación y nosotros hemos fijado los valores de los parámetros de antemano.

Entonces, si el parámetro poblacional es desconocido, y cada extracción muestral va a tener un resultado diferente por el error de muestreo, ¿estamos condenados a no poder hacer inferencias sobre la población? Claro que no, podemos hacerlas, pero siempre con un grado de incertidumbre.

Una cuestión de (Intervalos de) confianza

¡Y para trabajar con la incertidumbre es para lo que fue inventada la estadística! Vamos a repasar una herramienta básica, pero no siempre bien entendida, que nos ayuda a entender cómo de robusta es nuestra estimación a pesar del error de muestreo: los intervalos de confianza.

Un intervalo de confianza es un rango definido entre dos valores (límite inferior y límite superior), construido de forma que haya una cierta probabilidad de que contenga un valor desconocido (esa probabilidad es la confianza, generalmente fijada al 95%). En el centro del intervalo tenemos el valor de nuestro estadístico, la media muestral, que es nuestra mejor estimación para el parámetro poblacional desconocido. Los límites del intervalo se van a decidir en función de cómo de variable es la medición en la muestra (es decir, tendrán en cuenta su desviación típica, s, y su tamaño muestral, n). La idea es que, si repetimos un muestreo o un estudio muchas veces, el 95% de ellos van a contener el parámetro poblacional.

Esto significa también que el intervalo de confianza es un indicador de la precisión de nuestra muestra: si el intervalo es muy grande, significa que la medición no ha sido precisa (no nos informa mucho acerca del parámetro poblacional, ya que hay mucha variabilidad en la muestra); si el intervalo es pequeño, entonces nuestra estimación ha sido precisa.

Avancemos. ¿Qué factores pueden hacer que mis estimaciones sean más o menos precisas? Para simplificar, vamos a reducirlos a dos: el tamaño de la muestra y la dispersión.

En la siguiente figura, tenemos un ejemplo de todo lo que estoy contando. A partir de una población con media μ=50, hemos extraído 20 muestras. De arriba a abajo, los paneles difieren en el tamaño de esas muestras: pequeño (n=5), mediano (n=10), y grande (n=200). Los puntos representan la media obtenida en cada una de las muestras, con sus respectivos intervalos de confianza.

Fijaos en cómo cada muestra tiene una media ligeramente distinta, aunque en global todas oscilan en torno a la media poblacional. Las desviaciones con respecto a la media poblacional son más grandes cuanto más pequeño es el tamaño muestral. Por ejemplo, arriba podemos ver algunos valores para la media que están por encima de 60 o por debajo de 30, mientras que en el panel inferior se mueven entre los 42 y los 58 puntos, más cerca del valor real. Además de esto, mirad los intervalos de confianza: la mayoría de los intervalos contienen el valor real de la población (a la larga, serían el 95%). Ahora bien, los intervalos del panel inferior son los más pequeños, indicando mayor precisión en nuestras estimaciones. Así que ya sabéis: si queremos de verdad averiguar si a los estudiantes les gusta la tortilla con o sin cebolla, ¡necesitamos encuestar a una muestra cuanto más grande, mejor! (voy a obviar otros aspectos de un buen muestreo, como el que sea representativo, y me quedo en el plano del tamaño)

Otro factor que puede afectar a la precisión de nuestra estimación a partir de la muestra es la dispersión de la variable que estudiamos. Creo que se entenderá bien con este ejemplo. Imaginad que tengo un tanque con una solución de agua salada, y me interesa conocer la concentración de sal que hay dentro. Un procedimiento posible sería extraer una muestra pequeña del tanque con una jeringuilla, y medir la concentración de sal dentro de esa muestra. Sólo para estar seguros, repito la operación, y veo que el valor en la segunda muestra es el mismo. Una tercera vez, y obtengo el mismo valor. Apenas hay variación, ¿por qué? Una solución de agua salada suele tener una composición homogénea. Eso explica que las muestras sean muy similares entre sí, con apenas variaciones. Podemos imaginar que sus medias tienen intervalos de confianza muy pequeños, y que todas bailan muy cerca del valor real.

Pero la mayoría de los fenómenos en psicología son harina de otro costal. El equivalente, en este ejemplo, sería un tanque que no está lleno de agua salada (concentración homogénea), sino de pequeñas piedritas que se reparten de manera desigual. Esto va a crear diferencias grandes entre muestras sucesivas: unas veces la muestra pillará más piedritas, otras veces pillará menos.

El concepto que esta historia pretendía ilustrar es el de la desviación típica, la variabilidad que existe en la población (y que visualizamos como la “anchura” de la distribución poblacional), que nos dice cuánto se concentran los valores alrededor del parámetro μ. Mediante la siguiente simulación, vamos a ver cómo la desviación típica poblacional afecta a la robustez de las estimaciones muestrales, sobre todo si las muestras tienen tamaño pequeño:

De nuevo, fijaos en dos cosas: las medias muestrales se acercan al valor real (50) en ambos casos, pero están menos dispersas y son más consistentes cuando la desviación típica es pequeña (el equivalente a sacar una jeringa de un tanque de agua salada) que cuando la variabilidad es grande. En segundo lugar, ved cómo los intervalos de confianza también se hacen más pequeños en ese caso, indicando que las estimaciones serán más precisas.

Conclusiones

Hemos repasado un par de conceptos básicos: error de muestreo e intervalo de confianza. También hemos empezado a entender por qué las muestras grandes son mejores para hacer inferencias. Por otro lado, conviene recordar que el tamaño muestral no lo es todo, ya que aspectos más cualitativos del proceso de muestreo pueden ser vitales para que la muestra sea representativa. Por último, hemos visto un par de ejemplos de simulación con R que nos pueden ayudar a entender conceptos. Probad a cambiar los parámetros de la población, y ved cómo las muestras generadas van respondiendo a esos cambios.

ACTUALIZACiÓN (19/05/2019): He corregido una errata que había en el código, y he reemplazado uno de los gráficos por otro más evidente.

Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (I): Lo más elemental

Según mi experiencia, primero como alumno, y segundo como docente, no hay materia que más miedo meta en el cuerpo de los estudiantes de Psicología que la fatídica estadística. Seguro que más de uno tiene flashbacks de cuando estudiaba la carrera que son dignos de un veterano del Vietnam.

Por otro lado, la misma experiencia me dice que en gran parte este miedo nace del desconocimiento inicial, y en muchos casos se acentúa porque tanto los profesores como los manuales son muy dados a entrar de lleno en las ecuaciones, cuando aún no estamos dotados del conocimiento básico para desentrañarlas. Al final, muchos estudiantes acaban por resignarse y limitarse a repetir las mismas formulitas y operaciones sin entenderlas, como si fueran el perro de Pavlov… Al igual que los investigadores novatos nos acostumbramos a confiar en software engañosamente sencillo (SPSS, estoy pensando en ti), repitiendo clics con el ratón como un ritual y sin comprender lo que está haciendo la máquina entre bambalinas.

Por suerte, en un momento dado de mi vida conté con el apoyo y la cabezonería necesarios para, por fin, ¡empezar a ver la luz! Y la clave estaba delante de mis narices. Las ecuaciones y fórmulas están bien, sirven para realizar operaciones y establecer analogías entre conceptos, pero habíamos olvidado un paso básico, anterior: ¡la estadística hay que visualizarla para comprenderla! Nada como una buena visualización para comprender (aunque sea intuitivamente) un concepto. Después podemos ir a las ecuaciones y profundizar, pero ese paso es, al menos para mí, fundamental para entender algo.

La segunda gran herramienta para entender la estadística llegó mucho más tarde, cuando aprendí un poco de programación: las simulaciones. ¿Te surge una duda de qué ocurriría en un escenario concreto? Bien, ¡simúlalo y responde tu pregunta! Hoy en día es una de los métodos que más utilizo para aprender (y el más divertido). Y os prometo que aprendo algo nuevo casi a diario.

En esta serie de posts que inauguro ahora, intentaré ilustrar un par de conceptos básicos de estadística mediante estas dos herramientas: visualizaciones y simulaciones con el programa R. Espero que, si estás estudiando psicología u otra carrera en la que se utilice el análisis de datos, te sirva para ver que la estadística no es tan complicada. ¡Vamos al lío!

La lógica del análisis

Seguramente ya conocéis la rutina de la estadística que usamos habitualmente en psicología (frecuentista, basada en el test de significación para la hipótesis nula, NHST), pero la vamos a repasar en este post antes de avanzar hacia temas más interesantes.

El primer paso es plantearse una pregunta de investigación. Por ejemplo, ¿quién gasta más dinero en champú y cosméticos para el cabello, los jugadores de fútbol, o los fans del heavy metal? Esta pregunta se puede resolver recolectando datos. En este caso, contactaríamos con una muestra de jugadores de fútbol y de aficionados a los Judas Priest, y les preguntaríamos cuánto dinero se dejan al mes en este tipo de productos. Para cada uno de los grupos tendríamos un gasto mensual promedio. ¡Pan comido!

Ahora nos debemos plantear dos posibles escenarios: o bien no hay diferencias entre los dos grupos (Hipótesis nula, H0), o bien sí las hay (Hipótesis alternativa, H1).

post0

En nuestra muestra, seguramente las dos medias obtenidas no serán idénticas, es decir, habrá alguna diferencia entre los dos grupos. Por ejemplo, podría ser que los metaleros gastasen, de media, 3.53 euros más que los jugadores de fútbol. Esta diferencia observada en mi muestra es el tamaño del efecto observado. En este caso lo estamos expresando en las unidades de medida (euros), pero suele ser más conveniente convertirlo a una escala estandarizada. Por ejemplo, podría usar la d de Cohen, que se calcula usando las medias obtenidas, sus desviaciones típicas, y los tamaños de muestra. La ventaja de usar un tamaño del efecto estandarizado es que me permite comparar situaciones muy diversas.

post1

Ahora bien, que haya una diferencia en mi muestra no quiere decir que ésta sea extrapolable a la población. A mí no me interesa saber si en mi muestra gastan más o menos dinero unos que otros, porque eso es trivial. Lo que quiero saber es qué ocurre de manera general, ¿verdad? Tenemos que tener claro el concepto de error de muestreo. Mi muestra ha sido extraída aleatoriamente de la población, y por lo tanto los parámetros que yo mida en mi muestra no tienen por qué corresponderse con los de la población. Pensad en el siguiente ejemplo: imaginemos un bombo de la lotería, con cientos de números pares e impares. Si yo extrajera una muestra del bombo de, pongamos, 3 bolas, y comprobara que dos de ellas han salido pares… ¿quiere eso decir que el bombo contiene dos tercios de bolas pares? ¡Claro que no! La muestra está sujeta a un error aleatorio. Si repito la extracción, podría salirme un resultado completamente distinto, como por ejemplo las tres bolas impares, o las tres bolas pares… Extrapolar es siempre arriesgado, pues implica incertidumbre.

Bueno, entonces, ¿cómo damos el paso de la diferencia observada en mi muestra a la población general? Es para eso precisamente que usamos la estadística, para cuantificar esa incertidumbre y usarla para tomar decisiones. En este ejemplo, como estamos comparando dos medias, podríamos hacer una prueba t. El cálculo es sencillo, pero como decía antes, mejor visualicemos:

post2

En la figura, he dibujado las distribuciones de los dos grupos, con su característica forma de campana (distribuciones normales o Gaussianas). Las líneas verticales representan las medias de cada grupo. En esta metáfora visual, nos interesa saber cuánto se solapan las dos distribuciones. Si se solapasen en gran medida, diríamos que no hay diferencias apreciables entre los grupos. Ahora bien: hay dos parámetros que nos van a indicar el grado de solapamiento. En primer lugar, la distancia entre las dos medias, que hemos llamado antes “tamaño del efecto”. Así es, cuanto más separadas estén las medias, menos solapamiento. El segundo parámetro de interés es la “anchura” de las distribuciones (su parámetro de dispersión, como por ejemplo la desviación típica). Si las distribuciones son anchas, ocuparán más espacio y por tanto se solaparán en mayor medida que si fueran estrechas (siguiente imagen).

post3

Simplificando bastante el concepto, diré que la prueba t consiste en calcular un estadístico (la t de Student) que utiliza estos dos parámetros para saber cuánto se solapan las distribuciones: cuando hay mucho solapamiento, t tendrá un valor pequeño, mientras que cuando las distribuciones están muy separadas, t adquirirá valores altos. Si vais a la ecuación del estadístico, comprobaréis cómo efectivamente es una función de la diferencia de medias, y que las desviaciones típicas aparecen en el denominador (a más anchura, mayor solapamiento, y menor valor de t).

Este valor de t tiene otro estadístico asociado a él, que es el p-valor. ¿Qué significa? Imaginemos ahora por un momento que la hipótesis nula (H0) fuera correcta. Eso quiere decir que no hay diferencias reales (en la población) entre los dos grupos. Por lo tanto, cualquier diferencia que hubiéramos detectado en nuestra muestra se debería al azar, al error de muestreo. Pensemos ahora: ¿cómo de probable sería encontrarnos por puro azar con una diferencia como la que hemos hallado, de 3.53 euros? La lógica nos dice que una diferencia grande sería poco atribuible al azar, ¿verdad? Imaginad por un momento que la diferencia encontrada en nuestra muestra hubiera sido de 300 euros. ¡Sería muy improbable encontrar un valor tan alto por pura casualidad!

Pues bien, el p-valor es la probabilidad de encontrarnos por puro azar con una diferencia como la que hemos hallado, o mayor. Así, si el p-valor es muy pequeño, concluiremos que la diferencia encontrada es demasiado grande como para atribuirla al azar, y que probablemente habrá también diferencias en la población. Aquí es donde entra en juego el famoso umbral de significación, un valor arbitrario, escogido por convención, que nos permite tomar decisiones. Si p < 0.05, decimos que el resultado es estadísticamente significativo, y que podemos rechazar la hipótesis nula, porque la diferencia es demasiado improbable por azar. Por otro lado, si p > 0.05, el resultado no es significativo, y concluimos que las diferencias pueden explicarse por azar (provisionalmente retenemos la hipótesis nula porque no tenemos evidencia para rechazarla).

Hasta aquí hemos descrito el proceso que va desde la recogida de datos hasta la toma de decisión basada en los datos del estudio. De momento no ha habido simulaciones, pero estoy deseando enseñaros algunas en el próximo post, que espero llegue pronto (si el trabajo lo permite).

Posted in Uncategorized | Tagged | 2 Comments

Sesgo de creencias: cuando nuestro conocimiento nos ciega.

En filosofía, se llama silogismo a un tipo de argumento que tiene la siguiente forma:

  • “Todos los psicólogos están un poco mal de la cabeza.
  • Fernando es un psicólogo.
  • Por lo tanto, Fernando está mal de la cabeza.”

En esencia, se trata de tres proposiciones o afirmaciones categóricas (o son ciertas, o no). Las dos primeras se llaman premisas, y contienen la información de partida para el razonamiento. La tercera se llama conclusión y, si el argumento está bien construido, se sigue lógicamente a partir de las premisas.

Los silogismos, cuyo origen se remonta nada menos que a Aristóteles, constituyen en sí mismos todo un campo de estudio en psicología. Y es que, una vez más, las personas no somos del todo racionales o competentes cuando razonamos con ellos. Por ejemplo, están los efectos de la figura (García Madruga, 1982), o el heurístico de atmósfera (Woodworth & Sells, 1935). Pero me parece más interesante explicaros aquí cómo nos puede influir el contenido del silogismo. Por ejemplo, leed el siguiente argumento:

  • “Ningún medio de transporte es barato.
  • Algunos trenes son baratos.
  • Por lo tanto, los trenes son un medio de transporte.”

¿Diríais que este argumento es lógicamente válido? Habrá más de uno que esté tentado a responder que sí. Aunque lo cierto es que, usando las leyes de la lógica, podemos descartar esta posibilidad. Si examináis las oraciones con cuidado, veréis cómo la conclusión no se sigue de las premisas. Por otro lado, en cuanto a contenido, la conclusión parece bastante razonable. Los trenes son un medio de transporte. Quizá esto ayude a comprender el error.

Cuando uno examina un argumento, tiene que comprender muy bien que existen dos planos separados, no conectados: por un lado, tenemos el mundo de la lógica, que dicta si el argumento es válido o inválido, y atiende únicamente a la estructura. Es decir, se enfoca en aspectos como la posición de los términos en las proposiciones, las palabras que hacen de cuantificador (“modo”), etc. Por otro lado, tenemos el mundo de la ciencia, o del saber, que nos dice si una proposición es cierta o falsa, en función de si su contenido se corresponde con la realidad. Coherencia lógica y valor de verdad, por tanto, viven en mundos separados porque al evaluarlos tenemos que buscar en lugares diferentes, y cada uno vive bastante ajeno al otro. Así, podemos tener argumentos lógicamente válidos que no se corresponden con la realidad:

  • “Todos los trenes están hechos de gominola.
  • La gominola es el material de los sueños.
  • Los trenes están hechos del material de los sueños.”

…Y al contrario, argumentos lógicamente inválidos cuya conclusión es cierta, como el que mencionamos al principio.

Esto quiere decir que, si se trata de juzgar la racionalidad de un argumento, el contenido del mismo no importa. Es decir, una máquina programada para resolver razonamientos de este tipo debería ser completamente ciega al contenido del argumento, y fijarse exclusivamente en la forma y estructura. Para un ordenador de este tipo, todos los silogismos tendrían una pinta como esta, si los traducimos al “lenguaje-robot”:

  • Premisa menor: Cuantificador (Término S, Término M).
  • Premisa mayor: Cuantificador (Término P, Término M).
  • Conclusión: Cuantificador (Término S, Término P).

Es decir, aquí no hay nada más que el esqueleto lógico del argumento, ni rastro del contenido.

Sin embargo, gracias a investigaciones como las de Minna Wilkins (1928), Jonathan Evans y otros (1983), sabemos que las personas *no* actuamos como máquinas cuando evaluamos silogismos. Al contrario, parecemos bastante cegados por el contenido del mismo. Cuando sabemos que la conclusión es correcta, o al menos creíble, podemos categorizar como “válido” un argumento que es completamente incorrecto desde el punto de vista lógico. A este fenómeno se lo conoce como “sesgo de creencias” (Evans et al., 1983).

Desde su descubrimiento, este sesgo se ha investigado profusamente en psicología. Ahora sabemos que algunos tipos de contenido pueden alterar en gran medida la capacidad de los participantes para juzgar la validez de los argumentos. Por ejemplo, el contenido emocional puede amplificar o atenuar el sesgo (Goel et al., 2011), a pesar de que racionalmente debería ser irrelevante.

¿Qué tipo de proceso seguimos las personas para caer en este tipo de trampas? Algunos autores proponen que, cuando nos piden que evaluemos la lógica de un argumento, lo primero que hacemos es examinar su contenido. Es decir, ¡justo lo que no hay que hacer! Cuando el contenido encaja con nuestras creencias, lo damos por bueno, sin haber evaluado la lógica subyacente. Sin embargo, cuando estamos en desacuerdo con el contenido del argumento, entonces sí analizamos su estructura lógica, buscando cualquier problema lógico que pudiera contener. A esta teoría la llaman “escrutinio selectivo”, precisamente por eso, porque sólo entramos a juzgar la estructura del argumento cuando no estamos de acuerdo con sus conclusiones.

Ahora, volvamos a la vida real, y pensemos cada uno de nosotros en esas ocasiones en las que nos hemos encontrado una noticia en las redes sociales que nos ha emocionado, para bien o para mal. ¿No estaremos mostrando justo el sesgo que se ha descrito en este post? Si al leer el titular de la noticia ya comprobamos que encaja con nuestra ideología, generalmente la daremos por buena, la compraremos sin más análisis. Probablemente compartiremos el enlace con nuestros followers y nos quedaremos tan tranquilos. Por otro lado, si el titular de la noticia nos parece incorrecto o choca con nuestra forma de pensar, probablemente, ¡entonces sí!, leamos con cuidado la noticia y busquemos cualquier motivo para echarla abajo: “la fuente no es fiable”, “el estudio es antiguo”, “la muestra es pequeña”… Ya sabéis a qué me refiero, y a qué grado de minuciosidad podemos llegar para negar lo que no nos gusta. El caso es que quizá no nos hayamos dado cuenta, pero estaremos repitiendo el mismo tipo de error que los participantes de estos experimentos de psicología, que se vienen repitiendo desde los años ochenta.

¡Y no aprendemos!

Referencias

Posted in Uncategorized | Leave a comment

Por qué nunca te pondrás de acuerdo con tu cuñado, según la psicología experimental

Los psicólogos y psicólogas ya estamos muy acostumbrados a la idea de que las personas no somos del todo racionales en nuestras decisiones. Sí, nombres como Kahneman y Tversky, o Gigerenzer, ya han traspasado la frontera de nuestra disciplina y hasta gozan de bastante celebridad en las redes y en sitios de divulgación científica. Como han mostrado los experimentos, resulta que, cuando nos ponen delante un argumento que “parece” correcto pero no lo es, caemos como moscas. Si nos piden que tomemos una decisión de compra-venta, caemos ante la trampa más tonta. Vaya panorama, ¿eh?

Conviene, sin embargo, distinguir entre dos formas de equivocarse. Por un lado, está lo que llamamos “error aleatorio”. Como vemos en la imagen, es un error que se distribuye al azar: un disparo demasiado desviado hacia arriba se compensa con otro que se ha desviado en la dirección opuesta. Si sumáramos todos los errores (la distancia de cada disparo con respecto a la diana), se anularían entre sí, y el error medio sería cero.

post1

Pero lo divertido, e interesante, es que los humanos a menudo nos equivocamos de otra manera. De manera “predecible”, no aleatoria. Sería lo que llamamos “error sistemático”: en la diana de abajo, los disparos se desvían sistemáticamente hacia el cuadrante superior izquierdo, en vez de repartirse al azar por todo el espacio. Es un tipo de error interesante porque encierra un patrón, un orden que podemos desentrañar. En el contexto del razonamiento humano, a este tipo de error sistemático, predecible, lo llamamos “sesgo cognitivo”.

Como había avanzado antes, el tema de los sesgos cognitivos es uno de esos “super-hits” de la psicología. Hay muchísimas investigaciones que nos demuestran cómo las personas somos muy susceptibles a caer en este tipo de errores predecibles, en un motón de contextos. Por favor, leed a Dan Ariely y a Daniel Kahneman, que no os vais a arrepentir.

Una de las cuestiones que nos ha llamado la atención es la del “razonamiento motivado” (Kunda, 1990), que podría resumirse como sigue: Cuando razona, la gente tiene una alta probabilidad de llegar precisamente a las conclusiones que le dan la razón. Y esto es porque no razonamos en abstracto, neutralmente, considerando argumentos a favor y en contra… sino que tenemos la motivación extra de confirmar nuestras creencias previas y de seguir pensando que somos coherentes.

post2

Seguro que esto ya os suena: si leo el periódico, el Twitter o lo que sea, le daré credibilidad a las noticias y a los posts que coinciden con mi manera de pensar. Toda evidencia que me pongan delante y que no encaje con mi visión del mundo será probablemente desterrada por “parcial”, “interesada”, “fake news”, o como queráis llamarlo.

Este tipo de razonamiento motivado aparece sobre todo en asuntos políticos “que nos toquen la fibra”, donde tenemos opiniones muy fuertes y nos cuesta ver el lugar del otro. Pensad hasta qué punto llegamos cuando la misma acción (por ejemplo, evadir impuestos) a veces se juzga de manera completamente distinta cuando el infractor no me despierta ninguna simpatía (por ejemplo, un político que no me gusta) que cuando es alguien a quien admiro (la estrella de mi equipo de fútbol favorito).

En 2017, Kahan llevó a cabo una investigación sobre razonamiento motivado particularmente reveladora. Reunió a un grupo de participantes (estadounidenses) y les mostró una tabla con datos numéricos supuestamente extraídos de una estadística de EEUU. La tabla se parecía un poco a la que tenéis debajo: en este caso, de un total de 20 estados donde se han impuesto restricciones al uso de armas, en 18 de ellos ha bajado la tasa de criminalidad, mientras que de los 24 estados donde el uso de armas no está limitado, sólo en 4 de ellos se ha reducido dicha tasa. Haciendo los números, os vais a dar cuenta de que estos apoyan la idea de que imponer restricciones al uso de armas tiene un efecto reductor del crimen. ¡Es lo que dicen los números! Fácil, ¿eh?

post3

…Pues no. O depende, más bien. Resulta que aquellas personas que inicialmente estaban a favor de legislar contra el uso libre de armas no tuvieron problema en interpretar los datos correctamente, para apoyar su posición. Sin embargo, las personas que tenían la opinión contraria (estaban en contra de limitar el uso de armas) dijeron ser incapaces de extraer una conclusión de los datos, o bien los interpretaron de forma errónea. Y no, no es que estos participantes fueran especialmente torpes con los números, ya que, si los mismos datos se ofrecían en un contexto totalmente neutral, no tenían problema en hacer el razonamiento correcto. Es decir: esto es más bien un “sé que el resultado de esta cuenta no me va a gustar, así que me voy a hacer el loco”, una especie de anumerismo selectivo, que aparece solo cuando nos conviene.

Moviéndonos a otra literatura diferente, pero relacionada, podemos encontrar otro sesgo cognitivo que llamamos “ilusión causal”, al que hemos dedicado muchos estudios. La ilusión de causalidad consiste, simplemente, en creer que una cosa es causa de otra, cuando en realidad no están conectadas. Por ejemplo, en un experimento típico, le pedimos a los participantes que pulsen un botón para ver si se enciende una luz. Aunque la luz se apaga y se enciende al azar, muchas personas pueden acabar convencidas de que están controlándola a través del botón (Alloy y Abramson, 1979).

En nuestras investigaciones, hemos comprobado cómo este sesgo, la ilusión causal, aparece en todo tipo de personas, aunque algunos factores la pueden aumentar o reducir. Así, un día nos hicimos la siguiente pregunta: ¿Y si la ilusión causal también tuviera un componente “motivado”? Es decir, ¿y si la ilusión apareciera, o se volviera más fuerte, cuando nos da la razón, mientras que se debilitaría en aquellas situaciones en las que nos lleve la contraria?

Como era una pregunta aparentemente interesante, nos pusimos manos a la obra para estudiarla experimentalmente. Con este fin, desarrollamos una tarea online (una especie de videojuego) en el que el participante ve cómo un partido político en el gobierno (en una situación ficticia) va tomando una serie de decisiones que van luego seguidas de mejoras en los indicadores económicos del país, aunque no siempre sea así: a veces los indicadores no mejoran. Tras ver una serie de acontecimientos como el descrito, los participantes deben juzgar hasta qué punto lo hecho bien el gobierno: de 0 (rematadamente mal) a 100 (perfectamente bien).

En el fondo, la historia tenía trampa: realmente no había relación entre las acciones del gobierno y los indicadores. Si algún participante creyera que sí la había, estaría mostrando una ilusión de causalidad. Es lo mismo que sucedía en los experimentos clásicos con el botón y la luz.

Realmente, este experimento se repetía dos veces, con una diferencia: en una de las ocasiones, el partido se describía como de derechas, mientras que en la otra ocasión se describía como de izquierdas. A este tipo de manipulación la llamamos “encuadre”, y pensamos que podría afectar a los resultados: aquellos participantes con una ideología de izquierdas tenderían a ser más benévolos con el partido que coincide con ellos ideológicamente, y vice versa. Recordemos: el juego estaba programado de forma que el gobierno no tenía ninguna capacidad de mejorar los indicadores, así que la respuesta correcta era en todos los casos cero. ¿Cambiaría mucho la respuesta de los participantes en función de su afinidad ideológica con un gobierno ficticio, a pesar de estar viendo todos exactamente los mismos datos?

Primero realizamos este estudio en una muestra de 88 ciudadanos y ciudadanas españoles. Los resultados que mostramos en la figura fueron en la dirección esperada: los participantes de derechas sobrestimaron la eficacia del gobierno de derechas, pero no tanto la del gobierno de izquierdas, mientras que los participantes de izquierdas mostraron justamente el patrón contrario.

post4

De todas maneras, como nunca está de más replicar los resultados para ver si son robustos, decidimos repetir el estudio, aunque esta vez con una muestra de ciudadanos y ciudadanas de Reino Unido, donde esperaríamos encontrar el mismo resultado. Además aprovechamos para duplicar el tamaño de la muestra, que siempre viene bien.

post5

Como veis, los resultados fueron prácticamente idénticos, aunque ahora más claros gracias al mayor tamaño muestral.

¿Qué podemos concluir de este estudio? Lo primero es una confirmación más del llamado “filtro ideológico”: La misma información puede interpretarse de formas radicalmente opuestas, dependiendo de tus creencias previas. “Todo depende del color del cristal con el que se mira”, como suele decirse, aunque en este caso, corroborado experimentalmente. Por cierto: aquí no se libra nadie. Ni de derechas, ni de izquierdas. El sesgo selectivo que hemos encontrado aparece a lo largo de todo el espectro ideológico. Así que la próxima vez que nos metamos en un debate en Internet o en la cena de nochebuena, no nos ensañemos señalando el sesgo en nuestros adversarios… porque probablemente nosotros también estamos igual de sesgados, solo que en otra dirección. De hecho, nos pasa hasta a los científicos (Bastardi et al., 2011).

post6

En segundo lugar, tenemos una evidencia de que la ilusión causal, un sesgo cognitivo ampliamente estudiado, puede tener un componente “motivacional”. Es decir, que puede aparecer selectivamente: volverse más fuerte allí donde encaja con las creencias previas, y minimizarse o desaparecer allí donde las contradice. La ilusión sería una especie de “escudo” que llevamos con nosotros y que usamos para filtrar la información que nos encontramos. Y todo ello sin aparentemente darnos cuenta de nuestro propio sesgo. Habrá que investigar más.

post7

Si tenéis interés en conocer más detalles de esta investigación, podéis consultarla aquí. Está en acceso abierto, y tanto los datos como los materiales del estudio son descargables públicamente. ¡Hasta la próxima!

Referencias:

  • Alloy, L. B., and Abramson, L. Y. (1979). Judgment of contingency in depressed and nondepressed students: sadder but wiser? J. Exp. Psychol. Gen. 108, 441–485. doi: 10.1037/0096-3445.108.4.441
  • Bastardi, A., Uhlmann, E. L., and Ross, L. (2011). Wishful thinking: belief, desire, and the motivated evaluation of scientific evidence. Psychol. Sci. 22, 731–732. doi: 10.1177/0956797611406447
  • Blanco, F. (2017). Cognitive Bias. In J. Vonk, and T.K. Shackelford (Eds.), Encyclopedia of Animal Cognition and Behavior. New York: Springer.
  • Blanco, F., Gómez-Fortes, B., & Matute, H. (2018). Causal illusions in the service of political attitudes in Spain and the UKFrontiers in Psychology, 9(1033).
  • Kahan, D. M., Peters, E., Dawson, E. C., and Slovic, P. (2012). Motivated numeracy and enlightened self-government. Behav. Public Policy 1, 54–86. doi: 10.1017/bpp.2016.2
  • Kunda, Z. (1990). The case for motivated reasoning. Psychol. Bull. 108, 480–498. doi: 10.1037/0033-2909.108.3.480

  • Matute, H., Blanco, F., Yarritu, I., Diaz-Lago, M., Vadillo, M. A., & Barberia, I. (2015). Illusions of causality: How they bias our everyday thinking and how they could be reducedFrontiers in Psychology, 6, 888.
Posted in Uncategorized