La paradoja de Simpson (II)

Las frecuencias observadas en una tabla de contingencia -como la que se mostraba en el post anterior relativa a la campaña de la DGT- pueden ser modelizadas adecuadamente mediante el llamado modelo log-lineal.

Recuérdese que en el post anterior se hablaba de tres variables distintas:

  • MOMENTO: Antes o después de la campaña
  • SEXO: Hombre o mujer
  • RESULTADO: Positivo o negativo en el test de alcoholemia

El modelo log-lineal trata de explicar la frecuencia observada de cada una de las casillas de la tabla tridimensional a partir del efecto de los siguientes factores:

  • Un termino constante (c)
  • El efecto de la variable SEXO (S)
  • El efecto de la variable MOMENTO (F)
  • El efecto de la variable RESULTADO (R)
  • El efecto de interacción entre SEXO y MOMENTO (SM)
  • El efecto de interacción entre SEXO y RESULTADO (SR)
  • El efecto de interacción entre MOMENTO y RESULTADO (MR)
  • El efecto de interacción entre SEXO, MOMENTO y RESULTADO (SMR)

Es decir, el modelo que se propone es el siguiente:

Freq = c + S + M + R + SM + SR + MR +SMR

El modelo que se acaba de presentar es el llamado modelo saturado. Éste recoge todos los posibles factores y todas sus interacciones (de grado 2, 3, etcétera). Obviamente, el modelo saturado será el que mejor se ajuste a los datos pero, al mismo tiempo será el más complejo.

A la hora de ajustar un modelo log-lineal a los datos observados en el cruce de variables cualitativas debe seguirse un criterio que tome en cuenta no sólo la calidad del ajuste sino también la complejidad del modelo. El procedimiento que suele seguirse es de tipo backwards. Se comienza por el modelo saturado y se van eliminando las interacciones de orden más elevado hasta llegar a un modelo en el que la eliminación de otro efecto -lo que lo haría más simple- perjudique mucho la calidad de ajuste.

En particular, si tomamos los datos del post anterior e intentamos ajustar sobre ellos un modelo log-lineal, encontramos que el efecto de la interacción de tercer orden no es significativo (p-valor= 0,801) y que tampoco es significativa la interacción de orden 2 entre MOMENTO y RESULTADO. De este modo, el modelo log-lineal resultante es el siguiente:

Freq = c + S + M + R + SM + SR

¿Qué es lo que significa este modelo? ¿Explica la aparente contradicción en los resultados a la que se aludía en el post anterior?

Vayamos por partes. Veamos, en primer lugar, que quiere decir la significatividad de los coeficientes de las interacciones: el hecho de que el coeficiente de la interacción de SEXO y MOMENTO resulte significativo implica que las variables SEXO y MOMENTO no son condicionalmente independientes dado el RESULTADO; análogamente, el hecho de que el coeficiente de la interacción entre SEXO y RESULTADO resulte significativo quiere decir que SEXO y RESULTADO no son condicionalmente independientes dado el MOMENTO; por el contrario, el hecho de que el coeficiente de la interacción entre MOMENTO y RESULTADO no sea significativo implica que las variables MOMENTO y RESULTADO son condicionalmente independientes dado el SEXO.

En resumen, las variables MOMENTO y RESULTADO son condicionalmente independientes dado el SEXO. Eso quiere decir que podemos colapsar la tabla de contingencia tridimensional por cualquiera de las variables MOMENTO o RESULTADO y las conclusiones que obtendremos no serán equivocadas:

  • Por ejemplo, si colapsamos la tabla tridimensional por la variable MOMENTO obtendremos una tabla bidimensional que cruzará las variables SEXO y RESULTADO. Pues bien, la conclusión respecto a la relación entre SEXO y RESULTADO será la misma si consideramos la tabla global (con los resultados de antes y de después de la campaña juntos) que si consideramos por un lado la tabla SEXO x RESULTADO antes y por otro lado la tabla SEXO x RESULTADO después.
  • De modo análogo, si colapsamos la tabla tridimensional por la variable RESULTADO obtendríamos una tabla bidimensional que cruzaría SEXO con MOMENTO. En este caso, aunque con un menor interés, también encontraríamos que los resultados de la tabla colapsada y los resultados de las tablas SEXO x MOMENTO para los que han dado positivo y SEXO x MOMENTO para los que han dado negativo nos llevarían a las mismas conclusiones.

Sin embargo SEXO no es condicionalmente independiente con MOMENTO (dado el RESULTADO). En efecto, consideremos la tabla que cruza SEXO x MOMENTO para los que han dado positivo: antes de la campaña el 23,1% de los interceptados han sido hombres; después de la campaña el 89,3% de los encuestados interceptados han sido hombres. Análogamente, si consideramos la tabla que cruza SEXO x MOMENTO para los que han dado negativo veremos que el 14,9% de los interceptados antes de la campaña han sido hombres y que después de la campaña el 81,5% de los interceptados han sido hombres. En resumen, se ha tendido a parar muchos más hombres después de la campaña y muchos menos hombres antes de la campaña.

Además, SEXO tampoco es condicionalmente independiente de RESULTADO (dado el MOMENTO). En efecto, si consideramos la tabla antes de la campaña observamos que el 30% de los hombres ha dado positivo y sólo el 20% de las mujeres. En la tabla de resultados después de la campaña el 25% de los hombres ha dado positivo mientras que sólo da positivo el 15% de las mujeres. En resumen, las mujeres dan positivo en menor proporción que los hombres.

Si ahora juntamos los resultados de los dos párrafos anteriores la paradoja está servida. La mayor tendencia de los hombres a dar positivo (en comparación con las mujeres) unida a la mayor presencia de los hombres tras la campaña hace que la cifra global (resultado de colapsar la tabla tridimensional por la variable SEXO) nos lleve a conclusiones equivocadas.

En efecto, el hecho de que SEXO no sea condicionalmente independiente de RESULTADO (dado MOMENTO) ni de MOMENTO (dado RESULTADO) hace que no se pueda colapsar la tabla tridimensional por la variable SEXO. Si lo hacemos -y eso es exactamente lo que se propuso en el post anterior- podríamos llegar a conclusiones erróneas. Eso es justamente lo que ocurrió: decidimos colapsar la tabla tridimensional empleando para ello la variable menos adecuada y eso nos llevó a una paradoja: los datos para los hombres y para las mujeres tomados por separado hablaban de la eficacia de la campaña; al colapsarlos, la campaña parecía ineficaz.

¿Sería una buena política intentar ajustar un modelo log-lineal a los datos de las tablas de contingencia antes de aventurarnos a colapsarlas y arriesgarnos a llegar a conclusiones erróneas?

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: