¿Variables absolutas en el ACP?

Llevamos un tiempo en el IVC dándole vueltas a la conveniencia o no de incluir variables absolutas en nuestros análisis de componentes principales. Todo surge de una colaboración con el IAIF de la Universidad Complutense. Los miembros de este equipo, en sus estudios sobre los sistemas regionales de innovación, tienden a incluir variables absolutas con, aparentemente, muy buenos resultados. En nuestro grupo, sin embargo, no estamos convencidos.

La situación es la siguiente: se dispone de datos sobre variables económicas relativas a las regiones de un conjunto de países. No hace falta decir que las regiones presentan grandes diferencias de tamaño. Por ejemplo, en España podemos hablar de comunidades autónomas muy diversas -desde La Rioja con 300.000 habitantes hasta Andalucía con más de 8.000.000-. Dichas variables económicas están medidas en términos absolutos: por ejemplo, el PIB está medido en euros, el empleo y el desempleo en número de trabajadores, etcétera. El equipo IAIF considera que las variables deben considerarse como tal en los análisis de componentes principales pero nosotros creemos que conviene relativizarlas eligiendo un denominador adecuado. Por ejemplo, creemos que no debe considerarse el PIB sino el PIB per cápita; no debe considerarse el empleo sino la tasa de empleo, etcétera.

El argumento que aporta el equipo IAIF es que el tamaño de la región es un factor determinante de la capacidad innovadora de la región y que al relativizar las variables se está perdiendo ese factor. En nuestra opinión el argumento es falaz. No entramos en evaluar la importancia del tamaño de la región como factor de competitividad -aspecto sobre el cual habría bastante que decir- sino que nos limitamos al aspecto puramente relativo al análisis de los datos.

Sin duda, la inclusión en un mismo conjunto de datos de variables medidas en términos absolutos y el cálculo de su matriz de correlación arrojará unos elevados coeficientes -muy próximos a +1-. Estas correlaciones, sin embargo, deben considerarse espurias. El motivo es muy sencillo, existe una variable concomitante -el tamaño de la región- que está produciendo esa correlación aparente entre, por ejemplo, el número de empleados y el PIB de la región y entre cualesquiera otras dos variables absolutas que elijamos.

Dicho de otra forma, si elegimos dos variables cualesquiera -que dependan del tamaño de la región, como el PIB, el número de niños, el número de empleados, el número de jubilados, el número de televisiones, el número de crimenes cometidos, el número de nidos de cigüeña en los campanarios de las iglesias,…- medidas en términos absolutos en un conjunto amplio de regiones de diferente tamaño existirá entre dichas variables una correlación cercana a +1. El motivo de esa correlación está en las diferencias de tamaño entre las regiones.

El estudio de una tal matriz de correlaciones mediante ACP proporcionará un primer valor propio destacadísimo que podría llevar a pensar en una cierta unidimensionalidad de los datos. Este resultado es falso. Lo que recoge ese factor es, fundamentalmente, la diferencia de tamaños entre las regiones consideradas. Es más, las regiones grandes tendrán coordenadas extremas en dicho factor y las regiones pequeñas coordenadas también extremas y de signo contrario.

La revisión de la literatura viene a reforzar este punto de vista. Son muchos los autores -especialmente en el ámbito de la zoología y la botánica- que identifican el primer componente de un ACP como un factor asociado al tamaño de los individuos mientras que la forma de los individuos queda recogida en los componentes segundo y siguientes. Surgen incluso conceptos como el de isometría y alometría relacionados con estas ideas. Sirvan como ejemplo los siguientes trabajos:

Allometry Correction in Taximetrics
Robert S. Corruccini
Systematic Zoology, Vol. 21, No. 4 (Dec., 1972), pp. 375-383

Multivariate Allometry and Removal of Size with Principal Components Analysis
Keith M. Somers
Systematic Zoology, Vol. 35, No. 3 (Sep., 1986), pp. 359-368

Allometry, Isometry and Shape in Principal Components Analysis
Keith M. Somers
Systematic Zoology, Vol. 38, No. 2 (Jun., 1989), pp. 169-173

Size- and Shape-Related Principal Component Analysis
Jorge F. C. L. Cadima, Ian T. Jolliffe
Biometrics, Vol. 52, No. 2 (Jun., 1996), pp. 710-716

Shape and Size-Constrained Principal Components Analysis
Per Sundberg
Systematic Zoology, Vol. 38, No. 2 (Jun., 1989), pp. 166-168

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: