FAQs sobre análisis factorial y análisis de componentes principales

May 24, 2008

Los exámenes se acercan y con esta proximidad arrecian las preguntas de los estudiantes. He aquí una seleccion de los greatest hits de las últimas semanas. Iré actualizando el documento a medida que surjan más preguntas interesantes.

Actualización de 26 de mayo.


La terna (X,Q,D)

May 20, 2008

A lo largo de las décadas de los 70 y 80 Yves Escoufier junto con otros estadísticos de la escuela francesa desarrolló el concepto de terna (X,Q,D) -al que dio el nombre de schéma (X,Q,D)-. Este sencillo operador -cuya descripción se recoge en este documento- incluye como casos particulares los análisis de componentes principales, análisis de correspondencias, análisis factorial múltiple, análisis discriminante, etcétera.

El equipo de la Universidad de Lyon liderado por Daniel Chessel, Anne B. Dufour y Stephane Dray, inspirándose en el trabajo de Escoufier, han desarrollado el package ade4 para el software R.

Creo que los próximos días voy a estar ocupado con todo este material, que es nuevo para mi y que puede suponer un cambio notable en la docencia de los cursos de análisis multivariante.


Apuntes sobre el ACP general

May 19, 2008

Cumplo mi «amenaza» de publicar apuntes sobre el análisis de componentes principales en el caso más general en el que a cada individuo se le dota de una masa potencialmente diferente (mi) y cada variable se reduce con un valor potencialmente diferente (rj). El documento referenciado contiene el anterior documento sobre ACP al que he añadido -a partir de la página 37- la mencionada generalización. Este caso más general tiene como casos particulares:

  • El ACP normado y sin ponderar: todos los individuos tienen igual masa y la constante de reducción es la desviación estándar de la variable.
  • El ACP normado y ponderado: a distintos individuos se les pueden asignar diferentes masas y la constante de reducción de las variables es la desviación estándar.
  • El ACP no normado y sin ponderar: iguales masas para los individuos y constante de reducción igual a 1 (es decir, se trabaja con datos centrados).
  • El ACP no normado y ponderado: masas potencialmente distintas y constante de reducción igual a 1.

Justo al terminar de escribir este documento me encontré con esta joya. Especialmente recomendable este artículo y este otro.


Proyecciones de las variables en el ACP

May 12, 2008

En relación con la representación de las variables en el análisis de componentes principales en el plano formado por los dos primeros ejes de inercia de la nube de las variables -coordenadas G_alfa(j)- me preguntan:

[…] en el grafico, cuando represento las variables, algunos vectores son mas largos que otros. ¿Por qué?

Y respondo:

El motivo de las diferentes longitudes es muy simple. Las variables Y^j están en una hiperesfera de radio 1, es decir, su módulo es 1, pero al hacerles una foto en dos dimensiones (es decir, al proyectarlas sobre el plano formado por los componentes principales) puede resultar que esa proyección tenga un módulo más pequeño. De hecho, recuerda que el cuadrado de G_alfa (j) -es decir, el cuadrado de la coordenada de la variable sobre el eje alfa- es el coseno cuadrado de la variable sobre el eje alfa. Si tomas los ejes 1 y 2, [G1(j)]^2+[G2(j)]^2 es el cuadrado del módulo de la proyección de Y^j sobre el plano 1-2 (vamos, el cuadrado de la longitud de la flecha que ves) y es también la suma de los cosenos cuadrados de la variable sobre los ejes 1 y 2 (es decir, la parte de la inercia de la variable que se recoge en los ejes 1 y 2). En resumen, la longitud de la flecha puede ir de 0 a 1 y el cuadrado de la longitud -que también ira de 0 a 1- es, precisamente, la suma de los cosenos cuadrados de la variable sobre los ejes elegidos, es decir, la parte de la inercia de la variable que se recoge en los ejes elegidos. A más corta la flecha, peor es la representación de las variable Y^j en el plano elegido.


Apuntes sobre el análisis de componentes principales

May 8, 2008

Siguiendo con la serie de apuntes -bastante exigua por ahora-, os dejo aquí un documento sobre el análisis de componentes principales (ACP). Se refieren al caso normado -en el que los datos se tipifican antes de proceder al análisis- y no ponderado -todos los individuos tienen la misma masa-.

En breve, más apuntes sobre el ACP ponderado general.

Una vez más, agradeceré vuestros comentarios bienintencionados.