Estadística visual (II): El error de muestreo y una cuestión de confianza. Enter simulations.

Continúo con mi repaso sobre estadística básica para centrarme en un aspecto que hemos tocado muy de refilón. Imaginad que leemos en las noticias que se ha publicado un estudio con una conclusión que nos llama la atención, por ejemplo: “El 90% de los estudiantes de psicología prefieren la tortilla de patata sin cebolla”.

Leemos el titular, levantamos la ceja, y caemos en la cuenta de que el estudio se realizó con una muestra muy pequeña. Intuitivamente pensamos que el tamaño de la muestra es una amenaza a la capacidad de generalizar a toda la población los resultados obtenidos en la muestra. ¿Qué habría pasado si repetimos el estudio, otra vez con una muestra muy pequeña, pero al día siguiente? Es probable que el resultado cambie radicalmente (hay esperanza para los concebollistas).

El concepto que queremos ilustrar aquí se llama error de muestreo. La población real (a la que queremos generalizar nuestros resultados) tiene una distribución guiada por unos parámetros (como la media, μ, y la desviación típica, σ, en el caso de una distribución normal). Pero estos parámetros son generalmente desconocidos. ¡Nadie sabe cuál es la media “real” en la población! Para ello, tendría que encuestar a todas y cada una de las personas que forman parte de la población de interés, sin dejarnos ni una. En vez de eso, lo que hacemos es extraer una muestra de esa población, generalmente mediante un proceso aleatorio. La muestra tiene un tamaño mucho más pequeño y manejable, y nos permite calcular estadísticos como la media muestral, x, y la desviación típica muestral s. Estos estadísticos sí son conocidos porque se calculan a partir de la muestra. La gracia del asunto es que los estadísticos muestrales son una aproximación al parámetro de la población. Si en mi muestra la media es de 80, no sé cuál será la media poblacional porque nunca puedo estar seguro, pero mi estimación informada sería de “alrededor de 80”.

Eso sí, mi generalización tendrá que tener cierto margen de error, ya que cada muestra que extraiga de la población va a ser un poco diferente, debido a ese error de muestreo que habíamos explicado. En la siguiente figura, tenemos la representación de una distribución poblacional (arriba), y algunas muestras pequeñas (cada una con n=5) extraídas de la misma. Podemos ver cómo esas distribuciones no coinciden exactamente con la población: tendrán distintas medias, desviaciones típicas, y forma.

Como decía en el post anterior, podemos pensar en el proceso de muestreo como si consistiera en extraer bolas de un bombo de lotería. La población contiene una proporción determinada de bolas con un número par (por ejemplo, el 50%), que sería el parámetro poblacional. En cada muestra (extracción de un número pequeño de bolas) tendremos una proporción de bolas pares e impares ligeramente diferente (estadístico muestral), aunque si extrajésemos miles de muestras por este procedimiento, al final acabaríamos acercándonos mucho a ese 50%, ¿verdad?

¿Cuánto podría variar el valor del estadístico en cada muestreo? Buena pregunta, y depende de una serie de factores. Para comprobarlo, nada como echar mano de una herramienta fundamental para entender la estadística: vamos a simular el proceso de muestreo en R (por cierto: todo lo que programo es feo e incómodo, lo sé). La ventaja de ilustrar el concepto con simulaciones es que en estas, al contrario que en la vida real, sí podemos partir de un parámetro poblacional conocido.

En este ejemplo, he creado una “población imaginaria” con media 50 y desviación típica 10. Estos valores son arbitrarios y los he decidido yo, que es la gran ventaja de trabajar con simulaciones. Ahora vamos a extraer 20 muestras de esa población, cada una con un tamaño de 5 elementos:

trueMean <- 50      #Media poblacional
trueSD <- 10         #Desviación típica poblacional
numMuestras <- 20   #Número de muestras que queremos extraer
N <- 5              #Tamaño de cada muestra
meanSeq <- c()      #Vector que contendrá las medias obtenidas.

for (i in 1:numMuestras){
    currentData<-rnorm(N, trueMean, trueSD)        #Extrae N datos de la población
    meanSeq<-c(meanSeq, mean(currentData))   #Almacena la media de cada muestra
}

Ya sólo nos quedaría comprobar las medias que hemos obtenido en las 20 muestras, para ver cuánto se apartan del valor del parámetro conocido (la media poblacional era 50).

meanSeq
[1] 47.22 45.68 46.99 56.47 55.27 52.28 49.06 47.11 57.18 54.78 48.22 53.70 42.86 51.21 47.41 42.39 44.64 51.54 49.60 41.59

Aquí podemos ver que las medias se aproximan a 50, pero con variaciones aleatorias entre ellas: unas se pasan por mucho, otras se quedan cortas… Es el efecto del error de muestreo. Pero esto sólo lo sabemos porque es una simulación y nosotros hemos fijado los valores de los parámetros de antemano.

Entonces, si el parámetro poblacional es desconocido, y cada extracción muestral va a tener un resultado diferente por el error de muestreo, ¿estamos condenados a no poder hacer inferencias sobre la población? Claro que no, podemos hacerlas, pero siempre con un grado de incertidumbre.

Una cuestión de (Intervalos de) confianza

¡Y para trabajar con la incertidumbre es para lo que fue inventada la estadística! Vamos a repasar una herramienta básica, pero no siempre bien entendida, que nos ayuda a entender cómo de robusta es nuestra estimación a pesar del error de muestreo: los intervalos de confianza.

Un intervalo de confianza es un rango definido entre dos valores (límite inferior y límite superior), construido de forma que haya una cierta probabilidad de que contenga un valor desconocido (esa probabilidad es la confianza, generalmente fijada al 95%). En el centro del intervalo tenemos el valor de nuestro estadístico, la media muestral, que es nuestra mejor estimación para el parámetro poblacional desconocido. Los límites del intervalo se van a decidir en función de cómo de variable es la medición en la muestra (es decir, tendrán en cuenta su desviación típica, s, y su tamaño muestral, n). La idea es que, si repetimos un muestreo o un estudio muchas veces, el 95% de ellos van a contener el parámetro poblacional.

Esto significa también que el intervalo de confianza es un indicador de la precisión de nuestra muestra: si el intervalo es muy grande, significa que la medición no ha sido precisa (no nos informa mucho acerca del parámetro poblacional, ya que hay mucha variabilidad en la muestra); si el intervalo es pequeño, entonces nuestra estimación ha sido precisa.

Avancemos. ¿Qué factores pueden hacer que mis estimaciones sean más o menos precisas? Para simplificar, vamos a reducirlos a dos: el tamaño de la muestra y la dispersión.

En la siguiente figura, tenemos un ejemplo de todo lo que estoy contando. A partir de una población con media μ=50, hemos extraído 20 muestras. De arriba a abajo, los paneles difieren en el tamaño de esas muestras: pequeño (n=5), mediano (n=10), y grande (n=200). Los puntos representan la media obtenida en cada una de las muestras, con sus respectivos intervalos de confianza.

Fijaos en cómo cada muestra tiene una media ligeramente distinta, aunque en global todas oscilan en torno a la media poblacional. Las desviaciones con respecto a la media poblacional son más grandes cuanto más pequeño es el tamaño muestral. Por ejemplo, arriba podemos ver algunos valores para la media que están por encima de 60 o por debajo de 30, mientras que en el panel inferior se mueven entre los 42 y los 58 puntos, más cerca del valor real. Además de esto, mirad los intervalos de confianza: la mayoría de los intervalos contienen el valor real de la población (a la larga, serían el 95%). Ahora bien, los intervalos del panel inferior son los más pequeños, indicando mayor precisión en nuestras estimaciones. Así que ya sabéis: si queremos de verdad averiguar si a los estudiantes les gusta la tortilla con o sin cebolla, ¡necesitamos encuestar a una muestra cuanto más grande, mejor! (voy a obviar otros aspectos de un buen muestreo, como el que sea representativo, y me quedo en el plano del tamaño)

Otro factor que puede afectar a la precisión de nuestra estimación a partir de la muestra es la dispersión de la variable que estudiamos. Creo que se entenderá bien con este ejemplo. Imaginad que tengo un tanque con una solución de agua salada, y me interesa conocer la concentración de sal que hay dentro. Un procedimiento posible sería extraer una muestra pequeña del tanque con una jeringuilla, y medir la concentración de sal dentro de esa muestra. Sólo para estar seguros, repito la operación, y veo que el valor en la segunda muestra es el mismo. Una tercera vez, y obtengo el mismo valor. Apenas hay variación, ¿por qué? Una solución de agua salada suele tener una composición homogénea. Eso explica que las muestras sean muy similares entre sí, con apenas variaciones. Podemos imaginar que sus medias tienen intervalos de confianza muy pequeños, y que todas bailan muy cerca del valor real.

Pero la mayoría de los fenómenos en psicología son harina de otro costal. El equivalente, en este ejemplo, sería un tanque que no está lleno de agua salada (concentración homogénea), sino de pequeñas piedritas que se reparten de manera desigual. Esto va a crear diferencias grandes entre muestras sucesivas: unas veces la muestra pillará más piedritas, otras veces pillará menos.

El concepto que esta historia pretendía ilustrar es el de la desviación típica, la variabilidad que existe en la población (y que visualizamos como la “anchura” de la distribución poblacional), que nos dice cuánto se concentran los valores alrededor del parámetro μ. Mediante la siguiente simulación, vamos a ver cómo la desviación típica poblacional afecta a la robustez de las estimaciones muestrales, sobre todo si las muestras tienen tamaño pequeño:

De nuevo, fijaos en dos cosas: las medias muestrales se acercan al valor real (50) en ambos casos, pero están menos dispersas y son más consistentes cuando la desviación típica es pequeña (el equivalente a sacar una jeringa de un tanque de agua salada) que cuando la variabilidad es grande. En segundo lugar, ved cómo los intervalos de confianza también se hacen más pequeños en ese caso, indicando que las estimaciones serán más precisas.

Conclusiones

Hemos repasado un par de conceptos básicos: error de muestreo e intervalo de confianza. También hemos empezado a entender por qué las muestras grandes son mejores para hacer inferencias. Por otro lado, conviene recordar que el tamaño muestral no lo es todo, ya que aspectos más cualitativos del proceso de muestreo pueden ser vitales para que la muestra sea representativa. Por último, hemos visto un par de ejemplos de simulación con R que nos pueden ayudar a entender conceptos. Probad a cambiar los parámetros de la población, y ved cómo las muestras generadas van respondiendo a esos cambios.

ACTUALIZACiÓN (19/05/2019): He corregido una errata que había en el código, y he reemplazado uno de los gráficos por otro más evidente.

Advertisements
Posted in Uncategorized | Tagged | Leave a comment

Estadística visual (I): Lo más elemental

Según mi experiencia, primero como alumno, y segundo como docente, no hay materia que más miedo meta en el cuerpo de los estudiantes de Psicología que la fatídica estadística. Seguro que más de uno tiene flashbacks de cuando estudiaba la carrera que son dignos de un veterano del Vietnam.

Por otro lado, la misma experiencia me dice que en gran parte este miedo nace del desconocimiento inicial, y en muchos casos se acentúa porque tanto los profesores como los manuales son muy dados a entrar de lleno en las ecuaciones, cuando aún no estamos dotados del conocimiento básico para desentrañarlas. Al final, muchos estudiantes acaban por resignarse y limitarse a repetir las mismas formulitas y operaciones sin entenderlas, como si fueran el perro de Pavlov… Al igual que los investigadores novatos nos acostumbramos a confiar en software engañosamente sencillo (SPSS, estoy pensando en ti), repitiendo clics con el ratón como un ritual y sin comprender lo que está haciendo la máquina entre bambalinas.

Por suerte, en un momento dado de mi vida conté con el apoyo y la cabezonería necesarios para, por fin, ¡empezar a ver la luz! Y la clave estaba delante de mis narices. Las ecuaciones y fórmulas están bien, sirven para realizar operaciones y establecer analogías entre conceptos, pero habíamos olvidado un paso básico, anterior: ¡la estadística hay que visualizarla para comprenderla! Nada como una buena visualización para comprender (aunque sea intuitivamente) un concepto. Después podemos ir a las ecuaciones y profundizar, pero ese paso es, al menos para mí, fundamental para entender algo.

La segunda gran herramienta para entender la estadística llegó mucho más tarde, cuando aprendí un poco de programación: las simulaciones. ¿Te surge una duda de qué ocurriría en un escenario concreto? Bien, ¡simúlalo y responde tu pregunta! Hoy en día es una de los métodos que más utilizo para aprender (y el más divertido). Y os prometo que aprendo algo nuevo casi a diario.

En esta serie de posts que inauguro ahora, intentaré ilustrar un par de conceptos básicos de estadística mediante estas dos herramientas: visualizaciones y simulaciones con el programa R. Espero que, si estás estudiando psicología u otra carrera en la que se utilice el análisis de datos, te sirva para ver que la estadística no es tan complicada. ¡Vamos al lío!

La lógica del análisis

Seguramente ya conocéis la rutina de la estadística que usamos habitualmente en psicología (frecuentista, basada en el test de significación para la hipótesis nula, NHST), pero la vamos a repasar en este post antes de avanzar hacia temas más interesantes.

El primer paso es plantearse una pregunta de investigación. Por ejemplo, ¿quién gasta más dinero en champú y cosméticos para el cabello, los jugadores de fútbol, o los fans del heavy metal? Esta pregunta se puede resolver recolectando datos. En este caso, contactaríamos con una muestra de jugadores de fútbol y de aficionados a los Judas Priest, y les preguntaríamos cuánto dinero se dejan al mes en este tipo de productos. Para cada uno de los grupos tendríamos un gasto mensual promedio. ¡Pan comido!

Ahora nos debemos plantear dos posibles escenarios: o bien no hay diferencias entre los dos grupos (Hipótesis nula, H0), o bien sí las hay (Hipótesis alternativa, H1).
post0En nuestra muestra, seguramente las dos medias obtenidas no serán idénticas, es decir, habrá alguna diferencia entre los dos grupos. Por ejemplo, podría ser que los metaleros gastasen, de media, 3.53 euros más que los jugadores de fútbol. Esta diferencia observada en mi muestra es el tamaño del efecto observado. En este caso lo estamos expresando en las unidades de medida (euros), pero suele ser más conveniente convertirlo a una escala estandarizada. Por ejemplo, podría usar la d de Cohen, que se calcula usando las medias obtenidas, sus desviaciones típicas, y los tamaños de muestra. La ventaja de usar un tamaño del efecto estandarizado es que me permite comparar situaciones muy diversas.post1Ahora bien, que haya una diferencia en mi muestra no quiere decir que ésta sea extrapolable a la población. A mí no me interesa saber si en mi muestra gastan más o menos dinero unos que otros, porque eso es trivial. Lo que quiero saber es qué ocurre de manera general, ¿verdad? Tenemos que tener claro el concepto de error de muestreo. Mi muestra ha sido extraída aleatoriamente de la población, y por lo tanto los parámetros que yo mida en mi muestra no tienen por qué corresponderse con los de la población. Pensad en el siguiente ejemplo: imaginemos un bombo de la lotería, con cientos de números pares e impares. Si yo extrajera una muestra del bombo de, pongamos, 3 bolas, y comprobara que dos de ellas han salido pares… ¿quiere eso decir que el bombo contiene dos tercios de bolas pares? ¡Claro que no! La muestra está sujeta a un error aleatorio. Si repito la extracción, podría salirme un resultado completamente distinto, como por ejemplo las tres bolas impares, o las tres bolas pares… Extrapolar es siempre arriesgado, pues implica incertidumbre.

Bueno, entonces, ¿cómo damos el paso de la diferencia observada en mi muestra a la población general? Es para eso precisamente que usamos la estadística, para cuantificar esa incertidumbre y usarla para tomar decisiones. En este ejemplo, como estamos comparando dos medias, podríamos hacer una prueba t. El cálculo es sencillo, pero como decía antes, mejor visualicemos:post2En la figura, he dibujado las distribuciones de los dos grupos, con su característica forma de campana (distribuciones normales o Gaussianas). Las líneas verticales representan las medias de cada grupo. En esta metáfora visual, nos interesa saber cuánto se solapan las dos distribuciones. Si se solapasen en gran medida, diríamos que no hay diferencias apreciables entre los grupos. Ahora bien: hay dos parámetros que nos van a indicar el grado de solapamiento. En primer lugar, la distancia entre las dos medias, que hemos llamado antes “tamaño del efecto”. Así es, cuanto más separadas estén las medias, menos solapamiento. El segundo parámetro de interés es la “anchura” de las distribuciones (su parámetro de dispersión, como por ejemplo la desviación típica). Si las distribuciones son anchas, ocuparán más espacio y por tanto se solaparán en mayor medida que si fueran estrechas (siguiente imagen).
post3Simplificando bastante el concepto, diré que la prueba t consiste en calcular un estadístico (la t de Student) que utiliza estos dos parámetros para saber cuánto se solapan las distribuciones: cuando hay mucho solapamiento, t tendrá un valor pequeño, mientras que cuando las distribuciones están muy separadas, t adquirirá valores altos. Si vais a la ecuación del estadístico, comprobaréis cómo efectivamente es una función de la diferencia de medias, y que las desviaciones típicas aparecen en el denominador (a más anchura, mayor solapamiento, y menor valor de t).

Este valor de t tiene otro estadístico asociado a él, que es el p-valor. ¿Qué significa? Imaginemos ahora por un momento que la hipótesis nula (H0) fuera correcta. Eso quiere decir que no hay diferencias reales (en la población) entre los dos grupos. Por lo tanto, cualquier diferencia que hubiéramos detectado en nuestra muestra se debería al azar, al error de muestreo. Pensemos ahora: ¿cómo de probable sería encontrarnos por puro azar con una diferencia como la que hemos hallado, de 3.53 euros? La lógica nos dice que una diferencia grande sería poco atribuible al azar, ¿verdad? Imaginad por un momento que la diferencia encontrada en nuestra muestra hubiera sido de 300 euros. ¡Sería muy improbable encontrar un valor tan alto por pura casualidad!

Pues bien, el p-valor es la probabilidad de encontrarnos por puro azar con una diferencia como la que hemos hallado, o mayor. Así, si el p-valor es muy pequeño, concluiremos que la diferencia encontrada es demasiado grande como para atribuirla al azar, y que probablemente habrá también diferencias en la población. Aquí es donde entra en juego el famoso umbral de significación, un valor arbitrario, escogido por convención, que nos permite tomar decisiones. Si p < 0.05, decimos que el resultado es estadísticamente significativo, y que podemos rechazar la hipótesis nula, porque la diferencia es demasiado improbable por azar. Por otro lado, si p > 0.05, el resultado no es significativo, y concluimos que las diferencias pueden explicarse por azar (provisionalmente retenemos la hipótesis nula porque no tenemos evidencia para rechazarla).

Hasta aquí hemos descrito el proceso que va desde la recogida de datos hasta la toma de decisión basada en los datos del estudio. De momento no ha habido simulaciones, pero estoy deseando enseñaros algunas en el próximo post, que espero llegue pronto (si el trabajo lo permite).

Posted in Uncategorized | Tagged | 1 Comment

Sesgo de creencias: cuando nuestro conocimiento nos ciega.

En filosofía, se llama silogismo a un tipo de argumento que tiene la siguiente forma:

  • “Todos los psicólogos están un poco mal de la cabeza.
  • Fernando es un psicólogo.
  • Por lo tanto, Fernando está mal de la cabeza.”

En esencia, se trata de tres proposiciones o afirmaciones categóricas (o son ciertas, o no). Las dos primeras se llaman premisas, y contienen la información de partida para el razonamiento. La tercera se llama conclusión y, si el argumento está bien construido, se sigue lógicamente a partir de las premisas.

Los silogismos, cuyo origen se remonta nada menos que a Aristóteles, constituyen en sí mismos todo un campo de estudio en psicología. Y es que, una vez más, las personas no somos del todo racionales o competentes cuando razonamos con ellos. Por ejemplo, están los efectos de la figura (García Madruga, 1982), o el heurístico de atmósfera (Woodworth & Sells, 1935). Pero me parece más interesante explicaros aquí cómo nos puede influir el contenido del silogismo. Por ejemplo, leed el siguiente argumento:

  • “Ningún medio de transporte es barato.
  • Algunos trenes son baratos.
  • Por lo tanto, los trenes son un medio de transporte.”

¿Diríais que este argumento es lógicamente válido? Habrá más de uno que esté tentado a responder que sí. Aunque lo cierto es que, usando las leyes de la lógica, podemos descartar esta posibilidad. Si examináis las oraciones con cuidado, veréis cómo la conclusión no se sigue de las premisas. Por otro lado, en cuanto a contenido, la conclusión parece bastante razonable. Los trenes son un medio de transporte. Quizá esto ayude a comprender el error.

Cuando uno examina un argumento, tiene que comprender muy bien que existen dos planos separados, no conectados: por un lado, tenemos el mundo de la lógica, que dicta si el argumento es válido o inválido, y atiende únicamente a la estructura. Es decir, se enfoca en aspectos como la posición de los términos en las proposiciones, las palabras que hacen de cuantificador (“modo”), etc. Por otro lado, tenemos el mundo de la ciencia, o del saber, que nos dice si una proposición es cierta o falsa, en función de si su contenido se corresponde con la realidad. Coherencia lógica y valor de verdad, por tanto, viven en mundos separados porque al evaluarlos tenemos que buscar en lugares diferentes, y cada uno vive bastante ajeno al otro. Así, podemos tener argumentos lógicamente válidos que no se corresponden con la realidad:

  • “Todos los trenes están hechos de gominola.
  • La gominola es el material de los sueños.
  • Los trenes están hechos del material de los sueños.”

…Y al contrario, argumentos lógicamente inválidos cuya conclusión es cierta, como el que mencionamos al principio.

Esto quiere decir que, si se trata de juzgar la racionalidad de un argumento, el contenido del mismo no importa. Es decir, una máquina programada para resolver razonamientos de este tipo debería ser completamente ciega al contenido del argumento, y fijarse exclusivamente en la forma y estructura. Para un ordenador de este tipo, todos los silogismos tendrían una pinta como esta, si los traducimos al “lenguaje-robot”:

  • Premisa menor: Cuantificador (Término S, Término M).
  • Premisa mayor: Cuantificador (Término P, Término M).
  • Conclusión: Cuantificador (Término S, Término P).

Es decir, aquí no hay nada más que el esqueleto lógico del argumento, ni rastro del contenido.

Sin embargo, gracias a investigaciones como las de Minna Wilkins (1928), Jonathan Evans y otros (1983), sabemos que las personas *no* actuamos como máquinas cuando evaluamos silogismos. Al contrario, parecemos bastante cegados por el contenido del mismo. Cuando sabemos que la conclusión es correcta, o al menos creíble, podemos categorizar como “válido” un argumento que es completamente incorrecto desde el punto de vista lógico. A este fenómeno se lo conoce como “sesgo de creencias” (Evans et al., 1983).

Desde su descubrimiento, este sesgo se ha investigado profusamente en psicología. Ahora sabemos que algunos tipos de contenido pueden alterar en gran medida la capacidad de los participantes para juzgar la validez de los argumentos. Por ejemplo, el contenido emocional puede amplificar o atenuar el sesgo (Goel et al., 2011), a pesar de que racionalmente debería ser irrelevante.

¿Qué tipo de proceso seguimos las personas para caer en este tipo de trampas? Algunos autores proponen que, cuando nos piden que evaluemos la lógica de un argumento, lo primero que hacemos es examinar su contenido. Es decir, ¡justo lo que no hay que hacer! Cuando el contenido encaja con nuestras creencias, lo damos por bueno, sin haber evaluado la lógica subyacente. Sin embargo, cuando estamos en desacuerdo con el contenido del argumento, entonces sí analizamos su estructura lógica, buscando cualquier problema lógico que pudiera contener. A esta teoría la llaman “escrutinio selectivo”, precisamente por eso, porque sólo entramos a juzgar la estructura del argumento cuando no estamos de acuerdo con sus conclusiones.

Ahora, volvamos a la vida real, y pensemos cada uno de nosotros en esas ocasiones en las que nos hemos encontrado una noticia en las redes sociales que nos ha emocionado, para bien o para mal. ¿No estaremos mostrando justo el sesgo que se ha descrito en este post? Si al leer el titular de la noticia ya comprobamos que encaja con nuestra ideología, generalmente la daremos por buena, la compraremos sin más análisis. Probablemente compartiremos el enlace con nuestros followers y nos quedaremos tan tranquilos. Por otro lado, si el titular de la noticia nos parece incorrecto o choca con nuestra forma de pensar, probablemente, ¡entonces sí!, leamos con cuidado la noticia y busquemos cualquier motivo para echarla abajo: “la fuente no es fiable”, “el estudio es antiguo”, “la muestra es pequeña”… Ya sabéis a qué me refiero, y a qué grado de minuciosidad podemos llegar para negar lo que no nos gusta. El caso es que quizá no nos hayamos dado cuenta, pero estaremos repitiendo el mismo tipo de error que los participantes de estos experimentos de psicología, que se vienen repitiendo desde los años ochenta.

¡Y no aprendemos!

Referencias

Posted in Uncategorized | Leave a comment

Por qué nunca te pondrás de acuerdo con tu cuñado, según la psicología experimental

Los psicólogos y psicólogas ya estamos muy acostumbrados a la idea de que las personas no somos del todo racionales en nuestras decisiones. Sí, nombres como Kahneman y Tversky, o Gigerenzer, ya han traspasado la frontera de nuestra disciplina y hasta gozan de bastante celebridad en las redes y en sitios de divulgación científica. Como han mostrado los experimentos, resulta que, cuando nos ponen delante un argumento que “parece” correcto pero no lo es, caemos como moscas. Si nos piden que tomemos una decisión de compra-venta, caemos ante la trampa más tonta. Vaya panorama, ¿eh?

Conviene, sin embargo, distinguir entre dos formas de equivocarse. Por un lado, está lo que llamamos “error aleatorio”. Como vemos en la imagen, es un error que se distribuye al azar: un disparo demasiado desviado hacia arriba se compensa con otro que se ha desviado en la dirección opuesta. Si sumáramos todos los errores (la distancia de cada disparo con respecto a la diana), se anularían entre sí, y el error medio sería cero.

post1

Pero lo divertido, e interesante, es que los humanos a menudo nos equivocamos de otra manera. De manera “predecible”, no aleatoria. Sería lo que llamamos “error sistemático”: en la diana de abajo, los disparos se desvían sistemáticamente hacia el cuadrante superior izquierdo, en vez de repartirse al azar por todo el espacio. Es un tipo de error interesante porque encierra un patrón, un orden que podemos desentrañar. En el contexto del razonamiento humano, a este tipo de error sistemático, predecible, lo llamamos “sesgo cognitivo”.

Como había avanzado antes, el tema de los sesgos cognitivos es uno de esos “super-hits” de la psicología. Hay muchísimas investigaciones que nos demuestran cómo las personas somos muy susceptibles a caer en este tipo de errores predecibles, en un motón de contextos. Por favor, leed a Dan Ariely y a Daniel Kahneman, que no os vais a arrepentir.

Una de las cuestiones que nos ha llamado la atención es la del “razonamiento motivado” (Kunda, 1990), que podría resumirse como sigue: Cuando razona, la gente tiene una alta probabilidad de llegar precisamente a las conclusiones que le dan la razón. Y esto es porque no razonamos en abstracto, neutralmente, considerando argumentos a favor y en contra… sino que tenemos la motivación extra de confirmar nuestras creencias previas y de seguir pensando que somos coherentes.

post2

Seguro que esto ya os suena: si leo el periódico, el Twitter o lo que sea, le daré credibilidad a las noticias y a los posts que coinciden con mi manera de pensar. Toda evidencia que me pongan delante y que no encaje con mi visión del mundo será probablemente desterrada por “parcial”, “interesada”, “fake news”, o como queráis llamarlo.

Este tipo de razonamiento motivado aparece sobre todo en asuntos políticos “que nos toquen la fibra”, donde tenemos opiniones muy fuertes y nos cuesta ver el lugar del otro. Pensad hasta qué punto llegamos cuando la misma acción (por ejemplo, evadir impuestos) a veces se juzga de manera completamente distinta cuando el infractor no me despierta ninguna simpatía (por ejemplo, un político que no me gusta) que cuando es alguien a quien admiro (la estrella de mi equipo de fútbol favorito).

En 2017, Kahan llevó a cabo una investigación sobre razonamiento motivado particularmente reveladora. Reunió a un grupo de participantes (estadounidenses) y les mostró una tabla con datos numéricos supuestamente extraídos de una estadística de EEUU. La tabla se parecía un poco a la que tenéis debajo: en este caso, de un total de 20 estados donde se han impuesto restricciones al uso de armas, en 18 de ellos ha bajado la tasa de criminalidad, mientras que de los 24 estados donde el uso de armas no está limitado, sólo en 4 de ellos se ha reducido dicha tasa. Haciendo los números, os vais a dar cuenta de que estos apoyan la idea de que imponer restricciones al uso de armas tiene un efecto reductor del crimen. ¡Es lo que dicen los números! Fácil, ¿eh?

post3

…Pues no. O depende, más bien. Resulta que aquellas personas que inicialmente estaban a favor de legislar contra el uso libre de armas no tuvieron problema en interpretar los datos correctamente, para apoyar su posición. Sin embargo, las personas que tenían la opinión contraria (estaban en contra de limitar el uso de armas) dijeron ser incapaces de extraer una conclusión de los datos, o bien los interpretaron de forma errónea. Y no, no es que estos participantes fueran especialmente torpes con los números, ya que, si los mismos datos se ofrecían en un contexto totalmente neutral, no tenían problema en hacer el razonamiento correcto. Es decir: esto es más bien un “sé que el resultado de esta cuenta no me va a gustar, así que me voy a hacer el loco”, una especie de anumerismo selectivo, que aparece solo cuando nos conviene.

Moviéndonos a otra literatura diferente, pero relacionada, podemos encontrar otro sesgo cognitivo que llamamos “ilusión causal”, al que hemos dedicado muchos estudios. La ilusión de causalidad consiste, simplemente, en creer que una cosa es causa de otra, cuando en realidad no están conectadas. Por ejemplo, en un experimento típico, le pedimos a los participantes que pulsen un botón para ver si se enciende una luz. Aunque la luz se apaga y se enciende al azar, muchas personas pueden acabar convencidas de que están controlándola a través del botón (Alloy y Abramson, 1979).

En nuestras investigaciones, hemos comprobado cómo este sesgo, la ilusión causal, aparece en todo tipo de personas, aunque algunos factores la pueden aumentar o reducir. Así, un día nos hicimos la siguiente pregunta: ¿Y si la ilusión causal también tuviera un componente “motivado”? Es decir, ¿y si la ilusión apareciera, o se volviera más fuerte, cuando nos da la razón, mientras que se debilitaría en aquellas situaciones en las que nos lleve la contraria?

Como era una pregunta aparentemente interesante, nos pusimos manos a la obra para estudiarla experimentalmente. Con este fin, desarrollamos una tarea online (una especie de videojuego) en el que el participante ve cómo un partido político en el gobierno (en una situación ficticia) va tomando una serie de decisiones que van luego seguidas de mejoras en los indicadores económicos del país, aunque no siempre sea así: a veces los indicadores no mejoran. Tras ver una serie de acontecimientos como el descrito, los participantes deben juzgar hasta qué punto lo hecho bien el gobierno: de 0 (rematadamente mal) a 100 (perfectamente bien).

En el fondo, la historia tenía trampa: realmente no había relación entre las acciones del gobierno y los indicadores. Si algún participante creyera que sí la había, estaría mostrando una ilusión de causalidad. Es lo mismo que sucedía en los experimentos clásicos con el botón y la luz.

Realmente, este experimento se repetía dos veces, con una diferencia: en una de las ocasiones, el partido se describía como de derechas, mientras que en la otra ocasión se describía como de izquierdas. A este tipo de manipulación la llamamos “encuadre”, y pensamos que podría afectar a los resultados: aquellos participantes con una ideología de izquierdas tenderían a ser más benévolos con el partido que coincide con ellos ideológicamente, y vice versa. Recordemos: el juego estaba programado de forma que el gobierno no tenía ninguna capacidad de mejorar los indicadores, así que la respuesta correcta era en todos los casos cero. ¿Cambiaría mucho la respuesta de los participantes en función de su afinidad ideológica con un gobierno ficticio, a pesar de estar viendo todos exactamente los mismos datos?

Primero realizamos este estudio en una muestra de 88 ciudadanos y ciudadanas españoles. Los resultados que mostramos en la figura fueron en la dirección esperada: los participantes de derechas sobrestimaron la eficacia del gobierno de derechas, pero no tanto la del gobierno de izquierdas, mientras que los participantes de izquierdas mostraron justamente el patrón contrario.

post4

De todas maneras, como nunca está de más replicar los resultados para ver si son robustos, decidimos repetir el estudio, aunque esta vez con una muestra de ciudadanos y ciudadanas de Reino Unido, donde esperaríamos encontrar el mismo resultado. Además aprovechamos para duplicar el tamaño de la muestra, que siempre viene bien.

post5

Como veis, los resultados fueron prácticamente idénticos, aunque ahora más claros gracias al mayor tamaño muestral.

¿Qué podemos concluir de este estudio? Lo primero es una confirmación más del llamado “filtro ideológico”: La misma información puede interpretarse de formas radicalmente opuestas, dependiendo de tus creencias previas. “Todo depende del color del cristal con el que se mira”, como suele decirse, aunque en este caso, corroborado experimentalmente. Por cierto: aquí no se libra nadie. Ni de derechas, ni de izquierdas. El sesgo selectivo que hemos encontrado aparece a lo largo de todo el espectro ideológico. Así que la próxima vez que nos metamos en un debate en Internet o en la cena de nochebuena, no nos ensañemos señalando el sesgo en nuestros adversarios… porque probablemente nosotros también estamos igual de sesgados, solo que en otra dirección. De hecho, nos pasa hasta a los científicos (Bastardi et al., 2011).

post6

En segundo lugar, tenemos una evidencia de que la ilusión causal, un sesgo cognitivo ampliamente estudiado, puede tener un componente “motivacional”. Es decir, que puede aparecer selectivamente: volverse más fuerte allí donde encaja con las creencias previas, y minimizarse o desaparecer allí donde las contradice. La ilusión sería una especie de “escudo” que llevamos con nosotros y que usamos para filtrar la información que nos encontramos. Y todo ello sin aparentemente darnos cuenta de nuestro propio sesgo. Habrá que investigar más.

post7

Si tenéis interés en conocer más detalles de esta investigación, podéis consultarla aquí. Está en acceso abierto, y tanto los datos como los materiales del estudio son descargables públicamente. ¡Hasta la próxima!

Referencias:

  • Alloy, L. B., and Abramson, L. Y. (1979). Judgment of contingency in depressed and nondepressed students: sadder but wiser? J. Exp. Psychol. Gen. 108, 441–485. doi: 10.1037/0096-3445.108.4.441
  • Bastardi, A., Uhlmann, E. L., and Ross, L. (2011). Wishful thinking: belief, desire, and the motivated evaluation of scientific evidence. Psychol. Sci. 22, 731–732. doi: 10.1177/0956797611406447
  • Blanco, F. (2017). Cognitive Bias. In J. Vonk, and T.K. Shackelford (Eds.), Encyclopedia of Animal Cognition and Behavior. New York: Springer.
  • Blanco, F., Gómez-Fortes, B., & Matute, H. (2018). Causal illusions in the service of political attitudes in Spain and the UKFrontiers in Psychology, 9(1033).
  • Kahan, D. M., Peters, E., Dawson, E. C., and Slovic, P. (2012). Motivated numeracy and enlightened self-government. Behav. Public Policy 1, 54–86. doi: 10.1017/bpp.2016.2
  • Kunda, Z. (1990). The case for motivated reasoning. Psychol. Bull. 108, 480–498. doi: 10.1037/0033-2909.108.3.480

  • Matute, H., Blanco, F., Yarritu, I., Diaz-Lago, M., Vadillo, M. A., & Barberia, I. (2015). Illusions of causality: How they bias our everyday thinking and how they could be reducedFrontiers in Psychology, 6, 888.
Posted in Uncategorized