¡Nos mudamos!

octubre 10, 2008

A partir de ahora seguiremos viéndonos en http://www.jjgibaja.net

Espero seguir contando con vuestras visitas. ¡Hasta pronto!


El denominador de la varianza

septiembre 25, 2008

Llevo una semana impartiendo el curso de Introducción a la Estadística a los participantes en el MBA de la ESTE. El programa de este curso consiste en una presentación de la Estadística Descriptiva univariante con una breve incursión en la Estadística Bivariante de la mano de las tablas de contingencia y del análisis de correlación y de regresión.

Hoy le ha tocado el turno a la Estadística Descriptiva para una variable cuantitativa. En concreto, me tocaba presentar el concepto de varianza y después de media hora de teoría se me ha ocurrido que sería una buena cosa utilizar el ordenador para hacer unos cuantos números.

Como ya he comentado en algún post anterior he decidido utilizar R para explicar Estadística. La cosa no parecía demasiado complicada: “Necesitáis tener los datos referidos a vuestra variable en un vector numérico y ahora, debéis emplear la función var() para obtener la varianza.” les he dicho.

Entonces un alumno me dice: “Oye…este resultado no coincide con el que nos ha dado cuando hemos hecho los calculos a mano”. “¿Cómo que no?”, le he dicho, “eso es imposible.”… Y de repente me he acordado del dichoso denominador de la varianza.

En efecto, la varianza, que se define como el momento de segundo orden de una variable aleatoria respecto a su valor esperado, tiene como denominador el número de observaciones de la variable. Por tanto, si disponemos de un vector numérico en R de nombre dist -que recoge las distancias de frenado de 50 vehículos-, los siguientes comandos de R deberían ser equivalentes:

> sum((dist-mean(dist))^2)/(length(dist))

> var(dist)

Los resultados, sin embargo, son distintos:

> sum((dist-mean(dist))^2)/(length(dist))
[1] 650.7796
> var(dist)
[1] 664.0608

¿Por qué?

La razón es muy simple: la función var() de R -al igual que la función VAR() de Excel- considera que el colectivo que se está analizando es una muestra, y lo que es más importante, que lo que se desea es utilizar el valor del estadístico muestral para estimar el parámetro varianza poblacional. Como resulta que la varianza muestral -empleando como denominador el número de observaciones- no es un estimador insesgado de la varianza poblacional pero la cuasivarianza muestral -empleando como denominador el número de observaciones menos uno, es decir, los grados de libertad- sí lo es, estos paquetes estadísticos optan por emplear como denominador de la varianza el valor n-1 sin avisarnos de ello de manera explícita. Así, los dos siguientes comandos sí que son equivalentes:

> sum((dist-mean(dist))^2)/(length(dist)-1)
> var(dist)

Pero cuidado, lo que nos proporcionan no es la varianza del conjunto de datos sino la cuasivarianza muestral que deberá ser empleada en una situación de inferencia para estimar -de manera insesgada- la varianza poblacional.

En resumen:

  • Si lo que deseamos es calcular la varianza de un conjunto de observaciones -sea este conjunto una población, una muestra o cualquier otra cosa- sin ningún ánimo inferencial debemos emplear como denominador el número de observaciones.
  • Si, por el contrario, contamos con una muestra aleatoria seleccionada de una población y deseamos estimar de manera insesgada el verdadero valor de la varianza poblacional a partir de la información de la muestra entonces debemos emplear la cuasivarianza muestral, es decir, debemos utilizar el denominador n-1 en el cálculo de este famoso índice de dispersión.

La Estadística es cosa de locos

septiembre 19, 2008

Hoy he asistido a una defensa de tesis doctoral en mi facultad. El doctorando -ahora ya doctor- es un alto cargo de una entidad financiera y todos los miembros del tribunal han alabado -en mi opinión muy merecidamente- su capacidad para conciliar sus elevadas responsabilidades laborales con sus actividades de investigación.

Lo que me ha gustado mucho menos ha sido el comentario de dos de los miembros del tribunal al señalar como muy loable el esfuerzo que le debía de haber supuesto al doctorando dejar de lado los modos y maneras propios de la empresa y zambullirse en las costumbres propias de los investigadores y, en particular, en esas complicadas técnicas estadísticas tan alejadas de la práctica habitual de la alta dirección de las entidades financieras.

En mi opinión -y estoy seguro de que es el caso del nuevo doctor- los altos directivos de las empresas -en general- y de las entidades financieras -en particular- deberían ser personas dotadas de elevadas habilidades y competencias en el análisis de datos. Me parece además muy grave que estas opiniones sean vertidas en un tribunal de tesis doctoral por académicos que deberían estar de acuerdo con esta postura. Quizás todo esto sea tan solo un paso más en el arrinconamiento y desprecio que los métodos cuantitativos vienen sufriendo en los últimos años -y si no, a los nuevos planes de estudio de LADE ADE me remito-.


¡Cuidado!

septiembre 18, 2008

Cuando mi hija -hoy de tres años- tenía dos se lanzaba como loca a por cualquier cuchillo que encontrara encima de la mesa. Cuando eso ocurría alguien le decía “ez duzu labana hartu behar oso arriskutsua da eta” y poco a poco hemos ido consiguiendo que abandone esa peligrosa costumbre. Ahora, cuando se sienta a la mesa se dedica a recoger los cuchillos de todo el mundo y dejarlos a un lado diciendo que son muy peligrosos -tendremos que ver cómo recuperamos esta situación-.

El párrafo anterior puede resultar chocante en un blog dedicado al análisis de datos cuantitativos pero es fácil anticipar por dónde van los tiros: no cabe duda de que el acceso a los paquetes de análisis de datos es muy deseable ya que pone al alcance de cualquiera la posibilidad de analizar datos y obtener de ellos información sobre la que tomar decisiones. Operaciones que hace diez años eran impensables se hacen hoy en día de forma rutinaria y esto, sin duda, es muy bueno. Sin embargo, all that glitters is not gold, y esta democratización del software tiene también un efecto perverso: semejante potencia de cálculo en manos inexpertas es como un arma en manos de un niño: ¡peligro!.

Esto es lo que ocurrió la semana pasada: un compañero de facultad me pidió que echara un vistazo a ciertos resultados que le había enviado por correo un doctorando cuya tesis dirige. El doctorando había elaborado un cuestionario y lo había administrado a un conjunto de 188 encuestados. Su interés radicaba en evaluar si el cuestionario era fiable y válido.

Es bien conocido que uno de los índices más comúnmente empleados para evaluar la fiabilidad -mejor dicho, la consistencia interna- de un instrumento diseñado para medir un concepto es el alfa de Cronbach. Este índice se calcula de manera muy simple y muchos paquetes estadísticos -por ejemplo, SPSS- lo incluyen entre sus opciones.

Pues bien, el doctorando, empeñado en evaluar la fiabilidad de su cuestionario y orgulloso poseedor de una licencia de SPSS seleccionó Analizar / Fiabilidad / Alpha de Cronbach en su flamante SPSS v16 y realizó un análisis de fiabilidad de todo el cuestionario. El error es de dimensiones galácticas:

  • En primer lugar, un análisis de consistencia interna debe realizarse de modo individual para cada uno de los diferentes conceptos o constructos que se trata de medir con el cuestionario. No tiene sentido un análisis global de la fiabilidad cuando se miden conceptos tan distintos como notoriedad de una marca de vehículos, actitud hacia la publicidad o valoración de ciertos atributos del vehículo.
  • En segundo lugar, y aún mucho más grave, es el hecho de incluir entre las variables sujetas al análisis de fiabilidad algunas de naturaleza cualitativa tales como el sexo del encuestado, su nivel de estudios o la marca de vehículo adquirida. Resultaba muy curioso ver en los resultados como ¡la marca de vehículo promedio era 13,27 con una desviación estándar de 3,18!

¡Si es que hay que tener cuidado con el SPSS, que lo carga el diablo!


La objetividad de la Estadística

septiembre 18, 2008

Muy curioso me resultó el intercambio que mantuve el otro día con un colega del IAIF de la Universidad Complutense durante el 11º Congreso de EUNIP que se celebró en el campus donostiarra de la Universidad de Deusto -organizado por la ESTE y por el Instituto Vasco de Competitividad-.

En pocas palabras, mi colega confería -y defendía a capa y espada- un carácter cuasi-angélico a las técnicas de análisis de datos cuantitativos. En su opinión -en pocas palabras- cualquier resultado de aplicar un procedimiento estadístico a un conjunto de datos es científicamente incontestable ya que en ese procedimiento no ha intervenido el “contaminante” pensamiento humano. Como la conferencia se celebró en inglés -en ese international english que todos más o menos entendemos- mi colega decía “we did not make any choices. Our results are not biased since these are the factors that resulted from a factor analysis“.

En mi opinión nada más lejos de la realidad. Al aplicar un análisis factorial “we have to make lots of choices and we’d better make the right ones“:

  • Deben elegirse las variables que se van a analizar y esta elección va a afectar de forma radical al resultado y la interpretación de dicho resultado. Nuestro colega del IAIF argumentaba que el hecho de que 10 de las 40 variables regionales que habían elegido para su análisis estuvieran medidas en valores absolutos -y, por tanto, indujeran una correlación espuria entre ellas debida al factor tamaño de la región- no tenía ninguna importancia ya que finalmente todas esas variables se resumían en un único factor. Lo que se le olvidó comentar es que ese factor “accounted for 30% of global variance“. Tampoco se mostró dispuesto a mostrar los resultados de un análisis cluster efectuado sobre estos datos en el que la C.A. de Andalucía se situaba en el ranking de innovación por encima de la C.F. de Navarra -¡sencillamente increíble para cualquiera que conozca la realidad!-. Era una buena ocasión para recordar que cuando los resultados de un análisis de datos son contrarios a la intuición o al conocimiento experto sobre el fenómeno analizado lo más probable es que se haya cometido algún error -bien en los datos, bien en la técnica-.
  • Debe elegirse la técnica concreta de análisis factorial que resulta más conveniente: componentes principales, correspondencias, factorial múltiple… Aplicar siempre la técnica que se conoce en vez de la más apropiada lleva a errores. Por cierto, ¿por qué todo el mundo aplica una rotación varimax a los resultados de un análisis factorial?
  • Hay que escoger entre hacer un análisis ponderado o no ponderado. ¿Tiene sentido conferir el mismo peso a La Rioja que a Cataluña? Yo creo que no. Sin embargo todo el mundo sigue realizando análisis no ponderados. ¿Por qué?
  • La decisión quizás más subjetiva de todas es la interpretación del significado de los factores resultantes. Al tratarse de una técnica descriptiva hay que interpretar los resultados y esto es, necesariamente, subjetivo.

En resumen, las técnicas de análisis de datos cuantitativos son una gran ayuda para la obtención de información y para la reducción de la incertidumbre pero sólo funcionan bien cuando se toman decisiones y, sobre todo, cuando estas decisiones no están excesivamente erradas.


Sesión de introducción a R

julio 7, 2008

La mañana de hoy la he dedicado a presentar a los investigadores del Instituto Vasco de Competitividad el entorno de programación R. Dejo aquí una copia de la presentación (PowerPoint de 5,1 Mb) y de la práctica que hemos realizado.


FAQs sobre análisis factorial y análisis de componentes principales

mayo 24, 2008

Los exámenes se acercan y con esta proximidad arrecian las preguntas de los estudiantes. He aquí una seleccion de los greatest hits de las últimas semanas. Iré actualizando el documento a medida que surjan más preguntas interesantes.

Actualización de 26 de mayo.


Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.