Mayo 24, 2008
Los exámenes se acercan y con esta proximidad arrecian las preguntas de los estudiantes. He aquí una seleccion de los greatest hits de las últimas semanas. Iré actualizando el documento a medida que surjan más preguntas interesantes.
Actualización de 26 de mayo.
Sin Comentarios » |
análisis de componentes principales, análisis factorial, apuntes, estadística | Etiquetado: análisis de componentes principales, análisis factorial, factor analysis, FAQ, Principal Components Analysis |
Permalink
Publicado por jjgibaja
Mayo 20, 2008
Aunque el objeto de este blog es el análisis y comunicación de datos cuantitativos hoy me voy a permitir un pequeño off-topic.
Quienes nos dedicamos al análisis de datos tenemos normalmente una formación en el área de las Matemáticas o la Estadística. Los planes de estudio de estas disciplinas no han prestado tradicionalmente gran atención a la tarea de recogida, almacenamiento y procesamiento previo de los datos. Sin embargo, los analistas de datos nos encontramos en muchas ocasiones con la necesidad de enfrentarnos a estas tareas: montañas de datos sin un formato claro deben ser ordenadas, almacenadas adecuadamente y revisadas en busca de errores e inconsistencias internas. Al fin y al cabo, si entra basura sale basura y nadie quiere que el resultado de su trabajo sea considerado poco valioso.
Como nadie se presta a hacerlo -y por un cierto prurito profesional- los analistas de datos, dotados de herramientas poco adecuadas -limitadas muchas veces a una hoja de cálculo- y una escasa formación especifica -derivada normalmente de la experiencia y el autoaprendizaje- nos enfrentamos con más voluntad que capacidad a esa tarea previa que nos es ajena pero necesaria.
Leyendo uno de mis blogs favoritos me he encontrado con este post en el que se presenta una versión beta de un libro de Paul Murrell sobre tratamiento previo de datos de título Introduction to Data Technology.
He ojeado el documento -que está disponible en pdf- y me ha parecido que puede ser de interés para analistas de datos con un perfil estadístico-matemático y no informático. Le echaré un vistazo en los próximos días.
3 comentarios |
estadística |
Permalink
Publicado por jjgibaja
Mayo 20, 2008
A lo largo de las décadas de los 70 y 80 Yves Escoufier junto con otros estadísticos de la escuela francesa desarrolló el concepto de terna (X,Q,D) -al que dio el nombre de schéma (X,Q,D)-. Este sencillo operador -cuya descripción se recoge en este documento- incluye como casos particulares los análisis de componentes principales, análisis de correspondencias, análisis factorial múltiple, análisis discriminante, etcétera.
El equipo de la Universidad de Lyon liderado por Daniel Chessel, Anne B. Dufour y Stephane Dray, inspirándose en el trabajo de Escoufier, han desarrollado el package ade4 para el software R.
Creo que los próximos días voy a estar ocupado con todo este material, que es nuevo para mi y que puede suponer un cambio notable en la docencia de los cursos de análisis multivariante.
Sin Comentarios » |
análisis de componentes principales, análisis factorial, estadística | Etiquetado: ACP, análisis de componentes principales, PCA, Principal Components Analysis |
Permalink
Publicado por jjgibaja
Mayo 19, 2008
Cumplo mi “amenaza” de publicar apuntes sobre el análisis de componentes principales en el caso más general en el que a cada individuo se le dota de una masa potencialmente diferente (mi) y cada variable se reduce con un valor potencialmente diferente (rj). El documento referenciado contiene el anterior documento sobre ACP al que he añadido -a partir de la página 37- la mencionada generalización. Este caso más general tiene como casos particulares:
- El ACP normado y sin ponderar: todos los individuos tienen igual masa y la constante de reducción es la desviación estándar de la variable.
- El ACP normado y ponderado: a distintos individuos se les pueden asignar diferentes masas y la constante de reducción de las variables es la desviación estándar.
- El ACP no normado y sin ponderar: iguales masas para los individuos y constante de reducción igual a 1 (es decir, se trabaja con datos centrados).
- El ACP no normado y ponderado: masas potencialmente distintas y constante de reducción igual a 1.
Justo al terminar de escribir este documento me encontré con esta joya. Especialmente recomendable este artículo y este otro.
Sin Comentarios » |
análisis de componentes principales, análisis factorial, apuntes, estadística | Etiquetado: ACP, análisis de componentes principales, PCA, Principal Components Analysis |
Permalink
Publicado por jjgibaja
Mayo 12, 2008
En relación con la representación de las variables en el análisis de componentes principales en el plano formado por los dos primeros ejes de inercia de la nube de las variables -coordenadas G_alfa(j)- me preguntan:
[...] en el grafico, cuando represento las variables, algunos vectores son mas largos que otros. ¿Por qué?
Y respondo:
El motivo de las diferentes longitudes es muy simple. Las variables Y^j están en una hiperesfera de radio 1, es decir, su módulo es 1, pero al hacerles una foto en dos dimensiones (es decir, al proyectarlas sobre el plano formado por los componentes principales) puede resultar que esa proyección tenga un módulo más pequeño. De hecho, recuerda que el cuadrado de G_alfa (j) -es decir, el cuadrado de la coordenada de la variable sobre el eje alfa- es el coseno cuadrado de la variable sobre el eje alfa. Si tomas los ejes 1 y 2, [G1(j)]^2+[G2(j)]^2 es el cuadrado del módulo de la proyección de Y^j sobre el plano 1-2 (vamos, el cuadrado de la longitud de la flecha que ves) y es también la suma de los cosenos cuadrados de la variable sobre los ejes 1 y 2 (es decir, la parte de la inercia de la variable que se recoge en los ejes 1 y 2). En resumen, la longitud de la flecha puede ir de 0 a 1 y el cuadrado de la longitud -que también ira de 0 a 1- es, precisamente, la suma de los cosenos cuadrados de la variable sobre los ejes elegidos, es decir, la parte de la inercia de la variable que se recoge en los ejes elegidos. A más corta la flecha, peor es la representación de las variable Y^j en el plano elegido.
Sin Comentarios » |
análisis de componentes principales, estadística, gráficos | Etiquetado: ACP, análisis de componentes principales, PCA, Principal Components Analysis |
Permalink
Publicado por jjgibaja
Mayo 8, 2008
Siguiendo con la serie de apuntes -bastante exigua por ahora-, os dejo aquí un documento sobre el análisis de componentes principales (ACP). Se refieren al caso normado -en el que los datos se tipifican antes de proceder al análisis- y no ponderado -todos los individuos tienen la misma masa-.
En breve, más apuntes sobre el ACP ponderado general.
Una vez más, agradeceré vuestros comentarios bienintencionados.
1 comentario |
análisis de componentes principales, análisis factorial, apuntes, estadística | Etiquetado: ACP, análisis de componentes principales, análisis factorial, factor analysis, PCA, Principal Components Analysis |
Permalink
Publicado por jjgibaja
Mayo 8, 2008
Hace mucho tiempo que me seduce la idea de mandar a paseo el software estadístico de pago (SPSS, SPAD, SAS, eViews) y abrazar la alternativa gratuita (gretl, R,…). La excusa es siempre la misma: la comodidad. Resulta muy duro abandonar lo conocido para adoptar algo desconocido y, a priori, más árido; abandonar los cómodos sistemas de menú y volver a la línea de comandos.
De todas las alternativas libres la más sólida y versátil es, en mi opinión, R. Pero tanta versatilidad tiene su coste. El escalón incial que hay que superar para poder aprovechar las ventajas que este software nos proporciona me ha resultado, hasta el momento, demasiado alto. Esto no quiere decir que no haya tenido algún escarceo placentero con R pero, por ahora, no me he atrevido a divorciarme de SPSS ni de SPAD ni a desterrarlos definitivamente de mi “caja de herramientas” -ni tampoco de los cursos que imparto-.
Hoy he descubierto en el blog Apuntes de Estadística -excelente blog, dicho sea de paso- un link a la página de Quick-R, una guía de introducción al uso de R que me está haciendo replantearme mi postura frente al software estadístico. Debo confesar que sólo la he revisado muy superficialmente pero lo que he visto me ha encantado. Quizás a mi largo matrimonio con SPSS y SPAD le queden “dos telediarios”.
1 comentario |
estadística, software | Etiquetado: Quick-R, R, software |
Permalink
Publicado por jjgibaja