FAQs sobre análisis factorial y análisis de componentes principales

Mayo 24, 2008

Los exámenes se acercan y con esta proximidad arrecian las preguntas de los estudiantes. He aquí una seleccion de los greatest hits de las últimas semanas. Iré actualizando el documento a medida que surjan más preguntas interesantes.

Actualización de 26 de mayo.


La terna (X,Q,D)

Mayo 20, 2008

A lo largo de las décadas de los 70 y 80 Yves Escoufier junto con otros estadísticos de la escuela francesa desarrolló el concepto de terna (X,Q,D) -al que dio el nombre de schéma (X,Q,D)-. Este sencillo operador -cuya descripción se recoge en este documento- incluye como casos particulares los análisis de componentes principales, análisis de correspondencias, análisis factorial múltiple, análisis discriminante, etcétera.

El equipo de la Universidad de Lyon liderado por Daniel Chessel, Anne B. Dufour y Stephane Dray, inspirándose en el trabajo de Escoufier, han desarrollado el package ade4 para el software R.

Creo que los próximos días voy a estar ocupado con todo este material, que es nuevo para mi y que puede suponer un cambio notable en la docencia de los cursos de análisis multivariante.


Apuntes sobre el ACP general

Mayo 19, 2008

Cumplo mi “amenaza” de publicar apuntes sobre el análisis de componentes principales en el caso más general en el que a cada individuo se le dota de una masa potencialmente diferente (mi) y cada variable se reduce con un valor potencialmente diferente (rj). El documento referenciado contiene el anterior documento sobre ACP al que he añadido -a partir de la página 37- la mencionada generalización. Este caso más general tiene como casos particulares:

  • El ACP normado y sin ponderar: todos los individuos tienen igual masa y la constante de reducción es la desviación estándar de la variable.
  • El ACP normado y ponderado: a distintos individuos se les pueden asignar diferentes masas y la constante de reducción de las variables es la desviación estándar.
  • El ACP no normado y sin ponderar: iguales masas para los individuos y constante de reducción igual a 1 (es decir, se trabaja con datos centrados).
  • El ACP no normado y ponderado: masas potencialmente distintas y constante de reducción igual a 1.

Justo al terminar de escribir este documento me encontré con esta joya. Especialmente recomendable este artículo y este otro.


Apuntes sobre el análisis de componentes principales

Mayo 8, 2008

Siguiendo con la serie de apuntes -bastante exigua por ahora-, os dejo aquí un documento sobre el análisis de componentes principales (ACP). Se refieren al caso normado -en el que los datos se tipifican antes de proceder al análisis- y no ponderado -todos los individuos tienen la misma masa-.

En breve, más apuntes sobre el ACP ponderado general.

Una vez más, agradeceré vuestros comentarios bienintencionados.


Apuntes de análisis factorial general

Abril 28, 2008

Después de la serie de posts acerca del análisis factorial general cabía esperar un documento con todos esos comentarios puestos en orden. Aquí está. Si alguien lo lee -gracias- y encuentra erratas -seguro- sería muy amable por su parte indicármelas. ¡Disfrutadlos!

En breve, nuevo documento sobre el análisis de componentes principales.


Contribuciones y cosenos cuadrados

Marzo 31, 2008

La matriz B en particular -o la matriz B*=BW en general- sirven para introducir dos nuevos conceptos de gran utilidad a la hora de interpretar los resultados de un análisis factorial. En concreto, mediante la obtención de la matriz de los cuadrados de B* es posible determinar:

  • la importancia de cada individuo en la explicación de la inercia a lo largo de una dirección determinada del espacio.
  • la importancia de una dirección del espacio en la explicación de la inercia de un individuo.

En efecto, como se detalla en este documento, el elemento genérico de la matriz de cuadrados de B* recoge la inercia del i-ésimo individuo en la dirección correspondiente al j-ésimo vector de la base ortonormal W.

Por su parte, la suma de los elementos de la i-ésima fila de dicha matriz es la inercia total del i-ésimo individuo mientras que la suma de los elementos de la j-ésima columna de la matriz es la inercia de la nube de individuos a lo largo del j-esimo vector de la base ortonormal W.

Con estos elementos podemos presentar los siguientes conceptos:

  • Se llama contribución de un individuo a la inercia a lo largo de una dirección al cociente entre la inercia del individuo a lo largo de la dirección y la inercia de la nube de individuos a lo largo de esa misma dirección. Para calcular las contribuciones de los individuos a la inercia de las distintas direcciones de W no hay más que obtener los cocientes entre los elementos de la matriz de cuadrados de B* y las sumas de las columnas. Naturalmente la suma de las contribuciones de todos los individuos a lo largo de un vector es igual a 1.
  • Se llama coseno cuadrado de un individuo respecto a una dirección al cociente entre la inercia del individuo a lo largo de esa dirección y la inercia total del individuo. Para calcular los cosenos cuadrados de los individuos respecto a las direcciones de W no hay más que obtener los cocientes de los elementos de la matriz de cuadrados de B* y las sumas de las filas. Naturalmente la suma de los cosenos cuadrados de un individuo respecto a todas las direcciones de la base ortonormal W es igual a 1.

Pero, ¿para qué sirven estos dos nuevos índices?

  • La contribución de un individuo a la inercia recogida a lo largo de una dirección es una medida de la importancia de dicho individuo en la inercia recogida en esa dirección del espacio. Habrá que prestar especial atención a aquellos individuos que presentan una contribución mayor que 1/n.
  • Por su parte, el coseno cuadrado de un individuo respecto a una dirección es una medida de la importancia de esa dirección para explicar la inercia del individuo. En otras palabras, si un individuo presenta un reducido coseno cuadrado respecto a una dirección del espacio eso significa que no podemos afirmar nada acerca de su verdadera posición en el espacio viendo su coordenada en dicha dirección ya que su inercia queda explicada en otras direcciones distintas de la que se está considerando.

Los conceptos de contribución y de coseno cuadrado de un individuo son de especial interés cuando la base ortonormal que se está considerando es la formada por los vectores propios unitarios de la matriz de inercia V.


Introducción al análisis factorial

Marzo 27, 2008

Este post debería haber aparecido hace un par de meses como introducción a la serie sobre análisis factorial pero como lo he escrito ahora… 

El análisis factorial surgió en las primeras décadas del siglo XX a partir de los trabajos pioneros de Pearson y Hotelling, entre otros. El análisis factorial es una técnica de interdependencia y de reducción de la dimensionalidad.

En efecto, a diferencia del modelo de regresión en el que existe una clara diferencia entre la variable cuyo valor promedio se desea predecir –la variable dependiente- y aquellas que van a contribuir a este objetivo –las variables independientes-, en el caso del análisis factorial no existe tal división de roles entre las variables: dicho más claramente, en el análisis factorial no tiene sentido la clasificación de las variables en dependiente e independientes. En esta técnica de análisis de datos todas las variables sirven para explicar cualquiera de ellas; las variables se explican unas a otras. El análisis factorial constituye un método para detectar la estructura de relación entre el conjunto de todas las variables.

El análisis factorial se clasifica dentro de los métodos descriptivos –en oposición a los métodos inferenciales-. No nos ocuparemos, por tanto, de si se dan o no las condiciones para generalizar a la población nuestros hallazgos. Es más, no nos preocuparemos siquiera de si el conjunto de datos de que disponemos constituyen una población o una muestra. El objetivo que se persigue cuando se aplica un análisis factorial a un conjunto de datos es el de obtener una representación –normalmente gráfica- de dichos individuos en relación con las variables que se han medido en ellos. Esa representación de los individuos en el espacio de las variables –o viceversa- nos llevará al concepto de “nube de individuos” –o de variables-. Estas nubes son objetos multidimensionales: en concreto, la nube de individuos es un objeto situado en un espacio vectorial de dimensión igual al número de variables. Dado que el tamaño de las tablas de datos con las que es habitual trabajar en las aplicaciones prácticas es elevado –es normal encontrarse con tablas de datos de miles de individuos y de cientos de variables- la representación gráfica de la nube de individuos puede resultar confusa –imaginemos un conjunto de miles de puntos en un espacio de cientos de dimensiones-. En esta situación es del máximo interés encontrar aquellas “fotografías” de la nube de individuos que mejor la representen. Esta es la idea que se pretende transmitir cuando se afirma que el análisis factorial es una técnica de reducción de la dimensionalidad. En efecto, el análisis factorial permitirá detectar cuáles son los mejores puntos de vista para obtener representaciones interpretables de la nube de individuos a cambio de la mínima pérdida de información.

El análisis factorial no es, en realidad, una única técnica. Es el nombre que se da a una familia de técnicas que tienen las características más arriba mencionadas: un enfoque descriptivo; el objetivo de estudiar la estructura de interrelación entre las variables y la busqueda de representaciones simplificadas del conjunto de individuos. Dependiendo de la naturaleza de los datos de partida la técnica de análisis factorial empleada será diferente. En concreto:

  • Utilizaremos el análisis de componentes principales (ACP) cuando los datos de que disponemos se refieran a variables de naturaleza cuantitativa.
  • Emplearemos el análisis de correspondencias (AC) cuando dispongamos de una tabla de contingencia con dos variables de clasificación–o tabla de doble entrada-.
  • La técnica de análisis factorial a emplear cuando nos encontremos con tablas de contingencia con más de dos variables de clasificación será el análisis de correspondencias múltiple (ACM). El ACM se puede entender como una generalización del AC –o éste como un caso particular de aquél-.
  • Cuando deseemos considerar variables de naturaleza cuantitativa clasificadas en diferentes grupos –por ejemplo en función de mediciones efectuadas en diferentes momentos del tiempo- emplearemos el análisis factorial múltiple (AFM).

A pesar de que todas estas técnicas presentan muchas particularidades, todas ellas comparten un núcleo común al que vamos a llamar análisis factorial general. El concepto básico –sobre el que se construye toda la teoría- es el de inercia.


¿Variables absolutas en el ACP?

Marzo 22, 2008

Llevamos un tiempo en el IVC dándole vueltas a la conveniencia o no de incluir variables absolutas en nuestros análisis de componentes principales. Todo surge de una colaboración con el IAIF de la Universidad Complutense. Los miembros de este equipo, en sus estudios sobre los sistemas regionales de innovación, tienden a incluir variables absolutas con, aparentemente, muy buenos resultados. En nuestro grupo, sin embargo, no estamos convencidos.

La situación es la siguiente: se dispone de datos sobre variables económicas relativas a las regiones de un conjunto de países. No hace falta decir que las regiones presentan grandes diferencias de tamaño. Por ejemplo, en España podemos hablar de comunidades autónomas muy diversas -desde La Rioja con 300.000 habitantes hasta Andalucía con más de 8.000.000-. Dichas variables económicas están medidas en términos absolutos: por ejemplo, el PIB está medido en euros, el empleo y el desempleo en número de trabajadores, etcétera. El equipo IAIF considera que las variables deben considerarse como tal en los análisis de componentes principales pero nosotros creemos que conviene relativizarlas eligiendo un denominador adecuado. Por ejemplo, creemos que no debe considerarse el PIB sino el PIB per cápita; no debe considerarse el empleo sino la tasa de empleo, etcétera.

El argumento que aporta el equipo IAIF es que el tamaño de la región es un factor determinante de la capacidad innovadora de la región y que al relativizar las variables se está perdiendo ese factor. En nuestra opinión el argumento es falaz. No entramos en evaluar la importancia del tamaño de la región como factor de competitividad -aspecto sobre el cual habría bastante que decir- sino que nos limitamos al aspecto puramente relativo al análisis de los datos.

Sin duda, la inclusión en un mismo conjunto de datos de variables medidas en términos absolutos y el cálculo de su matriz de correlación arrojará unos elevados coeficientes -muy próximos a +1-. Estas correlaciones, sin embargo, deben considerarse espurias. El motivo es muy sencillo, existe una variable concomitante -el tamaño de la región- que está produciendo esa correlación aparente entre, por ejemplo, el número de empleados y el PIB de la región y entre cualesquiera otras dos variables absolutas que elijamos.

Dicho de otra forma, si elegimos dos variables cualesquiera -que dependan del tamaño de la región, como el PIB, el número de niños, el número de empleados, el número de jubilados, el número de televisiones, el número de crimenes cometidos, el número de nidos de cigüeña en los campanarios de las iglesias,…- medidas en términos absolutos en un conjunto amplio de regiones de diferente tamaño existirá entre dichas variables una correlación cercana a +1. El motivo de esa correlación está en las diferencias de tamaño entre las regiones.

El estudio de una tal matriz de correlaciones mediante ACP proporcionará un primer valor propio destacadísimo que podría llevar a pensar en una cierta unidimensionalidad de los datos. Este resultado es falso. Lo que recoge ese factor es, fundamentalmente, la diferencia de tamaños entre las regiones consideradas. Es más, las regiones grandes tendrán coordenadas extremas en dicho factor y las regiones pequeñas coordenadas también extremas y de signo contrario.

La revisión de la literatura viene a reforzar este punto de vista. Son muchos los autores -especialmente en el ámbito de la zoología y la botánica- que identifican el primer componente de un ACP como un factor asociado al tamaño de los individuos mientras que la forma de los individuos queda recogida en los componentes segundo y siguientes. Surgen incluso conceptos como el de isometría y alometría relacionados con estas ideas. Sirvan como ejemplo los siguientes trabajos:

Allometry Correction in Taximetrics
Robert S. Corruccini
Systematic Zoology, Vol. 21, No. 4 (Dec., 1972), pp. 375-383

Multivariate Allometry and Removal of Size with Principal Components Analysis
Keith M. Somers
Systematic Zoology, Vol. 35, No. 3 (Sep., 1986), pp. 359-368

Allometry, Isometry and Shape in Principal Components Analysis
Keith M. Somers
Systematic Zoology, Vol. 38, No. 2 (Jun., 1989), pp. 169-173

Size- and Shape-Related Principal Component Analysis
Jorge F. C. L. Cadima, Ian T. Jolliffe
Biometrics, Vol. 52, No. 2 (Jun., 1996), pp. 710-716

Shape and Size-Constrained Principal Components Analysis
Per Sundberg
Systematic Zoology, Vol. 38, No. 2 (Jun., 1989), pp. 166-168


Las dos caras de una misma moneda

Marzo 10, 2008

Ha quedado claro que el procedimiento de encontrar los valores y los vectores propios de la matriz V -o de cualquier matriz semejante a ella- proporciona los ejes de inercia de la nube de individuos así como la inercia explicada a lo largo de cada uno de estos ejes.

Efectivamente, la matriz V -o cualquiera semejante a ella- recoge la inercia de los individuos y proporciona un método sencillo para determinar las direcciones básicas de la nube que conforman.

No obstante, es posible considerar otro punto de vista que, en ocasiones, puede simplificar los cálculos que hay que realizar. Para presentar este nuevo punto de vista debemos ver la matriz de datos no como un conjunto de n individuos en un espacio de k variables sino al contrario: como un conjunto de k variables situadas en el espacio generado por los individuos, esto es, Rn.

En efecto, si consideramos que la matriz B recoge las coordenadas de los individuos respecto al punto de referencia corregidas por las raíces cuadradas de sus masas, podemos definir la j-ésima variable como la j-ésima columna de la matriz B. Así, la j-ésima variable -a la que llamaremos Yj- es un vector columna cuyos componentes son los n valores que los individuos toman en la j-ésima variable -corregidos para que el origen coincida con el punto de referencia- y ajustados con la raíz cuadrada de la masa del individuo. Las k variables se encuentran situadas en el espacio Rn. Se acepta que la masa de todas las variables es unitaria.

Una vez cambiado el punto de vista -no hablamos ya de puntos-individuo en el espacio de las variables sino de puntos-variable en el espacio de los individuos; además, todos los puntos-variable tienen masa unitaria- podemos comenzar por definir conceptos análogos a los que se presentaron para la nube de individuos pero en esta ocasión para la nube de variables.

  • La inercia de una variable respecto al origen de coordenadas vendrá dada por el producto de la masa de la variable por el cuadrado de su distancia al origen. Es decir, la inercia de una variable respecto al origen será el cuadrado de su módulo. Merece la pena hacer un comentario sobre el sentido que tiene el origen de coordenadas en el espacio Rn de los individuos. Una variable que se encontrara situada en el origen -es decir, una variable nula- sería aquella para la que todos los individuos presentan un valor idéntico al valor del punto de referencia. En otras palabras, todos los individuos toman el mismo valor en la variable nula y este valor coincide con el valor que toma la variable en el punto de referencia. En el caso de que el punto de referencia fuera el centro de gravedad de la nube de indiviudos, una variable nula -y por extensión, el origen de coordenadas del espacio Rn- representan una variable que no cambia, es decir, una constante. Naturalmente la inercia del conjunto de variables respecto al origen de coordenadas es la suma de todas las inercias. Es muy fácil demostrar que la inercia total de las variables es la misma que la inercia total de los individuos. Esto pone de manifiesto que se trata de dos representaciones alternativas de la misma realidad.
  • Por otra parte, la inercia de una variable a lo largo de una dirección unitaria w de Rn vendrá dada por el cuadrado del producto escalar de la variable por el vector unitario, es decir, (w’Yj)2. Análogamente, la inercia del conjunto de variables respecto al origen de coordenadas en la dirección w vendrá dada por la suma de las inercias para todas las variables. Es muy sencillo demostrar que esta inercia del conjunto de variables a lo largo de la dirección w viene dada por w’(BB‘)w, expresión que recuerda a la obtenida para la inercia de los individuos a lo largo de la dirección u: u’(BB)u.

A la matriz V=BB la llamamos matriz de inercia pero ahora debemos concretar más. V=BB es la matriz de inercia de los individuos respecto al origen -y respecto a la base ortonormal canónica-. A la matriz BB‘ la llamaremos gamma y es la matriz de inercia de las variables respecto al origen de coordenadas del espacio Rn. Recordemos que la matriz V nos proporciona -en su diagonal principal- una descomposición de la inercia total entre las variables originales. Análogamente, la matriz gamma nos proporciona -en su diagonal principal- una descomposicón de la inercia total entre los individuos.

Como la inercia total de los individuos y las variables es la misma (y dicha inercia debe aparecer en la traza de las matrices V y gamma respectivamente) resulta obvio que las matrices V y gamma comparten traza. Pero esto no es lo único que comparten:

  • Los valores propios no nulos de las matrices V y gamma son los mismos. Concretando más: como la inercia es una forma cuadrática semidefinida positiva -y esto es de aplicación tanto para la inercia de las variables como para la de los individuos- sabemos que los valores propios de gamma y de V son no negativos. Como V es una matriz de dimensión k puede tener a lo sumo k valores propios no nulos (pongamos que tiene k1 valores propios no nulos y k2 valores propios nulos). Por su parte, gamma -de dimensión n- puede tener a lo sumo n valores propios no nulos (pongamos que tiene n1 valores propios no nulos y n2 nulos). Pues bien, k1=n1<=min(k,n) es el número de valores propios no nulos de V y de gamma y estos k1=n1 valores propios coinciden en ambas matrices.
  • Calculados los vectores propios w1,w2,…,wn1 correspondientes a los n1=k1 valores propios no nulos de la matriz gamma existe una fórmula -llamada fórmula de transición- para obtener los vectores propios u1,…,uk1 correspondientes a los k1=n1 valores propios no nulos de la matriz V. En otras palabras: aunque por el momento los vectores propios de la matriz gamma no son de nuestro interés -veremos más adelante que sí tienen cierta interpretación- son un medio para obtener los vectores u1,…,uk1, que son los ejes de inercia de la nube de individuos.

En resumen: para obtener los valores y los vectores propios de la matriz V -que son los que de verdad nos interesan- y así conocer los ejes de inercia de la nube de individuos y la inercia explicada a lo largo de cada uno de ellos existen dos procedimientos:

  • El procedimiento directo, que consiste en obtener los valores propios de V (matriz de dimensión k) y, a partir de ellos, los vectores propios correspondientes a los valores propios no nulos: u1,…,uk1 .
  • El procedimiento indirecto, que consiste en obtener los valores propios de gamma (matriz de dimensión n) y, a partir de ellos, los vectores propios correspondientes a los valores propios no nulos: w1,…,wn1. Una vez obtenidos estos vectores propios, que en principio carecen de interpretación directa, se emplean las fórmulas de transición para calcular los vectores propios de V: u1,…,uk1.

¿Cuál de los dos caminos es más recomendable? La respuesta es bien sencilla: el paso más trabajoso en el procedimiento para el cálculo de los ejes de inercia es la obtención de los valores y los vectores propios de una matriz cuadrada De hecho, it is well known that the computational complexity of matrix diagonalization scales with O(n3). Debemos, por tanto, elegir entre trabajar con la matriz V (de dimensión k) o la matriz gamma (de dimensión n). Naturalmente, si el número de individuos n del problema es mayor que el número de variables k optaremos por trabajar con la matriz de los individuos -que tiene dimensión k-; si, por el contrario, el número de variables k es mayor que el número de individuos n trabajaremos con la matriz de inercia de las variables, gamma -que tiene dimensión n-. En este último caso, el inconveniente de tener que utilizar las fórmulas de transición para calcular los vectores propios de V queda más que compensado por el hecho de tener que obtener los valores y los vectores propios de una matriz de menor dimensión, tal y como resulta evidente por la complejidad cúbica de la tarea de diagonalizar una matriz.


Una matriz de inercia diagonal

Marzo 5, 2008

Hemos visto que existe una forma sencilla de obtener la matriz de inercia respecto a una base ortonormal cualquiera cuando se conocen dos cosas: la matriz de inercia respecto a la base canónica -a la que llamamos V- y los vectores que conforman la nueva base ortonormal -W1,…,Wk-. En efecto, si disponemos los vectores de la nueva base como las columnas de una matriz -a la que llamaremos W- basta con aplicar la fórmula V*=W’VW para obtener la matriz de inercia V* respecto a la base W.

Hemos visto también que las matrices V y V* son semejantes, es decir, son en esencia la misma matriz aunque referida a distintas bases.

Pues bien, en esta ocasión vamos a encontrar otra matriz semejante tanto a V como a V* que tiene la propiedad de ser una matriz diagonal. Se entiende por matriz diagonal aquella cuyos elementos situados fuera de la diagonal principal son todos nulos.

En efecto. Consideremos la matriz de inercia V y sus vectores propios. Como la matriz V es simétrica y semidefinida positiva, los valores propios serán no negativos y si los valores propios son todos distintos entre sí, los vectores propios de V -a los que llamamos u1,…,uk- forman una base ortonormal.

Vamos a calcular la matriz de inercia referida no a la base canónica sino a la base ortonormal constituida por los vectores propios de V. Bastará con aplicar la fórmula V*=W’VW pero, en este caso, la matriz W tendrá como columnas no vectores de una base ortonormal arbitraria sino los vectores de la base ortonormal formada por los vectores propios de V.

Es muy sencillo comprobar que la matriz resultante es una matriz diagonal y que los elementos de la diagonal principal son los valores propios de la matriz V en orden descendente. En efecto, los elementos de la diagonal principal serán de la forma u’jVuj pero como uj es vector propio de V podrán escribirse como u’jljuj=lju’juj=lj. Los elementos situados fuera de la diagonal principal serán de la forma u’iVuj y como uj es vector propio de V dicha expresión será igual a u’iljuj=lju’iuj=0, ya que los vectores propios de V son ortogonales.

Hemos encontrado que si reunimos los vectores propios de la matriz V y los escribimos como las columnas de una matriz kxk, a la que llamamos U tendremos que VD=U’VU -donde el subindice D se refiere al carácter diagonal de la matriz VD-. Es decir, la existencia de la matriz U, invertible, es la que hace semejantes a las matrices V y VD.

Pero, cabe preguntarse: ¿esto que hemos demostrado para la matriz de inercia V, referida a la base canónica, se cumplirá también para una matriz de inercia referida a otra base ortonormal arbitraria W1,…,Wk? En efecto: si tenemos en cuenta que dado que la matriz W -la que recoge como columnas los vectores de la nueva base ortonormal- es una matriz ortonormal nos daremos cuenta de que el producto WW’=I. Si aprovechamos esta expresión y la introducimos convenientemente en la anterior VD=U’VU tenemos que VD=U’(WW’)V(WW’)U=(U’W)(W’VW)(W’U)=(U’W)V*(W’U). Hemos encontrado que a pesar de que la matriz de inercia de la que partamos no sea la referida a la base canónica sino la referida a una base ortonormal cualquiera W1,…,Wk cuando expresamos dicha matriz de inercia V* respecto a la base formada por sus vectores propios -recuérdese que si U es la matriz que recoge los vectores propios de V entonces W’U es la matriz que recoge los vectores propios de V*- el resultado es una matriz de inercia diagonal -de hecho, es la misma matriz de inercia diagonal-.

Las matrices V, V* y VD son semejantes entre sí. Son, en esencia, la misma matriz simétrica, la misma forma cuadrática, pero expresada respecto a distintos sistemas de referencia:

  • V está expresada respecto a la base canónica.
  • V* está expresada respecto a una base arbitraria W1,…,Wk
  • VD está expresada respecto a la base ortonormal constituida por los sucesivos ejes de inercia.

Por ser semejantes, las matrices anteriores comparten ecuación característica y, por ende, valores propios y traza. De hecho, la traza de las tres matrices anteriores es la inercia total de la nube de individuos respecto al punto de referencia pero la forma de repartir esta inercia es diferente ya que los sucesivos elementos de la diagonal principal en cualquiera de estas matrices recogen la inercia a lo largo de los sucesivos vectores que conforman la base respecto a la que están calculadas. Siendo esto así:

  • V reparte la inercia total entre los vectores de la base ortonormal canónica, es decir, los elementos de la diagonal principal de V expresan la inercia a lo largo de cada una de las variables originales.
  • V* reparte la inercia total entre los vectores de la base W1,…,Wk.
  • VD reparte la inercia total entre los vectores de la base ortonormal formada por los ejes de inercia. Es decir, los elementos de la diagonal principal de VD -que son los valores propios de V- expresan la inercia a lo largo de los sucesivos ejes de inercia.

Naturalmente, por la propia definición de eje de inercia, el reparto que VD hace de la inercia total concentra la inercia en los primeros ejes de inercia en detrimento de los últimos. Ese es, precisamente, el objetivo último del análisis factorial.

El proceso de diagonalización que se ha presentado no siempre es posible. Sólo lo es cuando la matriz de inercia V -o en general V*- es diagonalizable -es decir, semejante a una matriz diagonal-. No todas las matrices simétricas son diagonalizables. Una matriz es diagonalizable si y sólo si la suma de las dimensiones de sus espacios propios coincide con la dimensión de la matriz. Una condición suficiente aunque no necesaria para que una matriz sea diagonalizable es que sus valores propios sean todos distintos entre sí. Este requisito no siempre se cumple en el caso de las matrices de inercia aunque en las aplicaciones prácticas no suele constituir un problema.