Modelos con interacción

Muchos de los artículos con una base empírica que podemos leer en las revistas científicas incluyen modelos que pretenden explicar alguna variable cuantitativa mediante la inclusión de un conjunto de variables cuantitativas, cualitativas y sus interacciones. La forma en la que habitualmente se afronta el problema de determinar si existe un efecto de interacción entre las variables explicativas es mediante la inclusión en el modelo teórico de los productos de algunas de las variables explicativas.

Normalmente, los resultados del ajuste de estos modelos -regresiones múltiples, logits,…- suelen presentarse en forma de tablas que incluyen las estimaciones puntuales de los coeficientes de las variables del modelo, sus errores estándar y una probabilidad crítica -p valor- asociada a la prueba de hipótesis estándar que afirma que el verdadero valor del coeficiente es cero.

Esta descrpción nos resulta seguramente muy familiar. Así, nuestra tendencia natural es repasar las probabilidades críticas asociadas a cada una de las variables explicativas y sus interacciones y despreciar aquellas que resulten superiores al 5%. Pues bien, esta forma de proceder no es la más adecuada, como podemos ver en el ejemplo que se presenta a continuación y en el que se pone de manifiesto la dificultad que puede llegar a suponer interpretar el significado de los coeficientes de un modelo muy simple y, por lo tanto, la imposibilidad de obtener ninguna conclusión razonable sobre valores de coeficientes cuyo significado nos resulta oscuro.

Veámoslo con un ejemplo muy sencillo: imaginemos que deseamos explicar una variable cuantitativa como el ahorro de un conjunto de familias en función de dos variables, su renta -cuantitativa- y si tienen o no hipoteca -cualitativa-. Establecemos para ello un modelo de regresión múltiple con dos variables explicativas y su interacción, del siguiente modo:

ahorro = constante + coef.renta x renta + coef.hipoteca x hipoteca + coef.renta.hipoteca x renta x hipoteca

(se señalan en cursiva los nombres de los coeficientes)

Supongamos asimismo que el ahorro y la renta se miden en euros y la variable hipoteca puede tomar dos valores distintos: 0 si la familia no tiene que hacer frente a una hipoteca y 1 si tiene que afrontar los pagos de una hipoteca.

En esta situación: ¿qué significan los coeficientes del modelo de regresión que hemos planteado?

  • constante: es el ahorro promedio de una familia que tiene una renta nula y que no tiene que hacer frente al pago de una hipoteca. Pero ¿qué sentido tiene estudiar el ahorro de una familia con renta nula? ¿Existen en nuestro entorno familias con renta nula?
  • coef.renta: es el incremento promedio en el ahorro de las familias cuando la renta se incrementa en una unidad y las variables hipoteca y renta x hipoteca permanecen constantes. Para que el producto permanezca constante es necesario que hipoteca sea igual a cero por lo que coef.renta se puede interpretar como el incremento promedio en el ahorro de las familias que no tienen hipoteca cuando su renta se incrementa en una unidad.
  • coef.hipoteca: es el incremento promedio en el ahorro de las familias cuando la variable hipoteca se incrementa en una unidad -es decir, pasan de no tener a sí tener hipoteca- y las variables renta y renta x hipoteca permanecen constantes. Análogamente al caso anterior, para que el producto permanezca constante es necesario que la renta sea igual a cero. Así, coef.hipoteca se puede entender como el efecto que sobre el ahorro tiene tener que pagar una hipoteca entre aquellas familias con una renta nula. ¿Tiene sentido?
  • coef.renta.hipoteca: la interpretación tradicional nos dice que este coeficiente es el incremento promedio en el ahorro de las familias cuando la variable renta x hipoteca se incrementa en una unidad y las variables renta e hipoteca permanecen constantes. Esto no puede ocurrir nunca así que esta interpretación no nos sirve. Para tratar de entender este coeficiente veamos qué ocurre si la renta se incrementa en una unidad y la hipoteca permanece constante. En ese caso el incremento en el ahorro viene dado por coef.renta + coef.renta.hipoteca x hipoteca. Así, podemos entender coef.renta.hipoteca como una comparación del efecto sobre el ahorro de un incremento de la renta entre dos colectivos, aquellos que no tienen hipoteca -que experimentarán un incremento de su ahorro igual a coef.renta– y quienes sí la tienen, que experimentarán un incremento igual a coef.renta+ coef.renta.hipoteca.

Visto el significado de los coeficientes podemos ahora preguntarnos qué sentido tiene formular pruebas de hipótesis sobre sus valores. Imaginemos, por ejemplo, una prueba de hipótesis para contrastar la afirmación coef.renta.hipoteca=0. Obtener una probabilidad crítica menor a 5% en esta prueba de hipótesis significaría únicamente que es muy poco probable que exista una diferencia entre el efecto que tiene la renta sobre el ahorro de las familias que sí tienen una hipoteca y el efecto en aquéllas que no la tienen. Enrevesado, ¿no?

Una prueba de hipótesis para contrastar la afirmación coef.renta=0 nos llevaría, en caso de rechazar la hipótesis a afirmar que es muy poco probable que el efecto de un incremento en la renta sobre el ahorro sea nulo, pero sólo en el caso de las familias que no están sujetas a una hipoteca. De las demás, entre las que me incluyo, no podríamos concluir nada con este contraste de hipótesis.

¿Qué significaría una probabilidad crítica inferior al 5% como resultado del contraste de la hipótesis coef.hipoteca=0?

3 respuestas a Modelos con interacción

  1. […] con interacción (II) En un post anterior comentábamos cómo interpretar los coeficientes de los modelos de regresión en los que se […]

  2. Estimados expertos: Tengo algunas dudas en relación a la interaccion.

    Cuando se esta frente a una regresion multiple y se desean incorporar interacciones al modelo para ver su comportamiento:

    1.- ¿ se debe correr el modelo con todas las variables, tanto independientes como las variables de interaccion?
    2.- El metodo para evaluar si existe interaccion ¿Puede ser a traves del stepwise?, ¿porque si o porque no?
    3.- Si alguna de las interacciones resulta significativa, ¿como se sigue?
    ¿se corre el modelo con las variables independientes y se agregan las interacciones significativas? o solo se eligen las variables significativas agregando en caso que sea necesario las variables independientes que conforman la interaccion.
    Desde ya muy agradecido, por sus comentarios

    Les saluda cordialmente

    Jorge Rodriguez

  3. jjgibaja dice:

    Estimado Jorge:

    Si deseas incluir un efecto de interacción en tu modelo es porque consideras que la influencia de las variables explicativas sobre la dependiente varía según los valores que toma otra u otras independientes. Sólo en ese caso deberías incluir términos de interacción.

    Para evaluar si un término de interacción es significativo deberías ajustar dos modelos: uno con el términos de interacción y otro sin él. Para comparar uno y otro modelo deberías usar el test de la F. El método stepwise no entra entre mis favoritos.

    Si alguna de las interacciones resulta significativa deberías incluir en el modelo todas las variables explicativas implicadas en el término de interacción y, además, el término de interacción.

    En fechas recientes me ha tocado dar una breve charla sobre este tema. Aquí tienes la documentación que repartí en aquella sesión. Quizás te pueda interesar.

    Un saludo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: