Selección de variables explicativas en la regresión

Uno de las cuestiones más importantes a la hora de encontrar el modelo de ajuste más adecuado para explicar la variabilidad de una característica cuantitativa es la correcta especificación del llamado modelo teórico. En otras palabras, debemos seleccionar de entre todas las variables candidatas a ser explicativas de la variable dependiente un subconjunto que resulte suficientemente explicativo -lo que podemos medir, por ejemplo, mediante el coeficiente de determinación– y también no demasiado complejo -es decir, con muchas variables explicativas-.

En la práctica, no obstante, la selección del subconjunto de variables explicativas de los modelos de regresión se deja en manos de procedimientos más o menos automáticos. Los procedimientos más usuales son los siguientes:

  • Método backward: se comienza por considerar incluidas en el modelo teórico a todas las variables disponibles y se van eliminando del modelo de una en una según su capacidad explicativa. En concreto, la primera variable que se elimina es aquella que presenta un menor coeficiente de correlación parcial con la variable dependiente-o lo que es equivalente, un menor valor del estadístico t– y así sucesivamente hasta llegar a una situación en la que la eliminación de una variable más suponga un descenso demasiado acusado en el coeficiente de determinación.
  • Método forward: se comienza por un modelo que no contiene ninguna variable explicativa y se añade como primera de ellas a la que presente un mayor coeficiente de correlación -en valor absoluto- con la variable dependiente. En los pasos sucesivos se va incorporando al modelo aquella variable que presenta un mayor coeficiente de correlación parcial con la variable dependiente dadas las independientes ya incluidas en el modelo. El procedimiento se detiene cuando el incremento en el coeficiente de determinación debido a la inclusión de una nueva variable explicativa en el modelo ya no es importante.
  • Método stepwise: es uno de los más empleados y consiste en una combinación de los dos anteriores. En el primer paso se procede como en el método forward pero a diferencia de éste en el que cuando una variable entra en el modelo ya no vuelve a salir, en el procedimiento stepwise es posible que la inclusión de una nueva variable haga que otra que ya estaba en el modelo resulte redundante y sea “expulsada” de él.

El modelo de ajuste al que se llega partiendo del mismo conjunto de variables explicativas es distinto según cuál sea el método de selección de variables elegido. La consecuencia de este hecho resulta obvia: ninguno de los llamados métodos automáticos garantiza encontrar el modelo óptimo -en el sentido, por ejemplo de maximizar el coeficiente de determinación o cualquier otro criterio que nos parezca relevante-.

En efecto, consideremos los siguientes datos -lógicamente ficticios y preparados para mostrar el efecto que se desea- . Se trata de un conjunto de 40 observaciones de tres variables a las que llamaremos Y (la dependiente) y X1 y X2 (las explicativas). Si sobre estos datos aplicamos un procedimiento de tipo forward o de tipo stepwise el resultado será el siguiente:

a Variable dependiente: Y

Es decir, el modelo óptimo según los procedimientos forward o stepwise es el que no contiene ninguna variable explicativa. Esto es debido a que ninguna de las dos variables -cuando son consideradas de manera independiente- supera los criterios mínimos para ser incluida en el modelo -en concreto, que su coeficiente t lleve asociada una probabilidad crítica inferior a 0,05-. En efecto, los resultados para los modelos independientes son los siguientes:

Modelo
Coeficientes no estandarizados Coeficientes estandarizados t Sig.
B Error típ. Beta
1 (Constante) 15,504 1,337
11,596 ,000
X1 ,026 ,018 ,221 1,399 ,170
a Variable dependiente: Y
Modelo
Coeficientes no estandarizados Coeficientes estandarizados t Sig.
B Error típ. Beta
1 (Constante) 16,675 1,091
15,284 ,000
X2 ,746 1,543 ,078 ,483 ,632
a Variable dependiente: Y

Si por el contrario consideramos un procedimiento backward el resultado será el siguiente:

Modelo
Coeficientes no estandarizados Coeficientes estandarizados t Sig.
B Error típ. Beta
1 (Constante) 1,300 ,317
4,097 ,000
X2 -63,555 1,230 -6,662 -51,688 ,000
X1 ,792 ,015 6,812 52,856 ,000
a Variable dependiente: Y

El coeficiente de determinación para este modelo con dos variables explicativas es 0,987 y al coeficiente F asociado le corresponde una probabilidad crítica inferior a 0,001. Adicionalmente, a los estadísticos t asociados a cada una de las dos variables explicativas les corresponden probabilidades críticas muy reducidas. Hemos encontrado, por tanto, un buen modelo lineal para explicar el comportamiento de Y a partir del comportamiento de X1 y X2. El problema radica en que si hubieramos elegido de forma acrítica utilizar un procedimiento forward o stepwise, jamás lo habríamos encontrado.

Existen otras opciones de selección de subconjuntos de variables -como por ejemplo el llamado método fuwil o de selección de todos los posibles subconjuntos-. El inconveniente de este último es la explosión combinatoria que se produce cuando el número de variables candidatas a ser explicativas crece.

Una respuesta a Selección de variables explicativas en la regresión

  1. carolina vera dice:

    Me parece muy interesante lo que usted explica, pero extrañé una explicación mas detallada del procedimiento, usando algun programa comunmente utilizado para estos fines (sas, spss, statistica, etc.).
    Además, me parece que faltó explicar el por qué se llega con un metodo u otro, a resultados estadisticamente diferentes, y la recomendación de algún material para ser consultado.
    Me intersa mucho los criterios de utilización de los diversos métodos para realizar la modelización, en especial, que hubiese explicado la importancia de los coeficientes y de los otros valores de la regresión, para apoyar la relevancia de una buena decisión.
    Le agradecería contactarse conmigo en el caso de que tuviera usted mas información o agregarla a la pagina
    (sitios web a revisar, publicaciones o libros del tema)
    Agradecida de su importante aporte.
    Carolina Vera

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: