A partir de ahora seguiremos viéndonos en http://www.jjgibaja.net
Espero seguir contando con vuestras visitas. ¡Hasta pronto!
A partir de ahora seguiremos viéndonos en http://www.jjgibaja.net
Espero seguir contando con vuestras visitas. ¡Hasta pronto!
Llevo una semana impartiendo el curso de Introducción a la Estadística a los participantes en el MBA de la ESTE. El programa de este curso consiste en una presentación de la Estadística Descriptiva univariante con una breve incursión en la Estadística Bivariante de la mano de las tablas de contingencia y del análisis de correlación y de regresión.
Hoy le ha tocado el turno a la Estadística Descriptiva para una variable cuantitativa. En concreto, me tocaba presentar el concepto de varianza y después de media hora de teoría se me ha ocurrido que sería una buena cosa utilizar el ordenador para hacer unos cuantos números.
Como ya he comentado en algún post anterior he decidido utilizar R para explicar Estadística. La cosa no parecía demasiado complicada: “Necesitáis tener los datos referidos a vuestra variable en un vector numérico y ahora, debéis emplear la función var() para obtener la varianza.” les he dicho.
Entonces un alumno me dice: “Oye…este resultado no coincide con el que nos ha dado cuando hemos hecho los calculos a mano”. “¿Cómo que no?”, le he dicho, “eso es imposible.”… Y de repente me he acordado del dichoso denominador de la varianza.
En efecto, la varianza, que se define como el momento de segundo orden de una variable aleatoria respecto a su valor esperado, tiene como denominador el número de observaciones de la variable. Por tanto, si disponemos de un vector numérico en R de nombre dist -que recoge las distancias de frenado de 50 vehículos-, los siguientes comandos de R deberían ser equivalentes:
> sum((dist-mean(dist))^2)/(length(dist))
> var(dist)
Los resultados, sin embargo, son distintos:
> sum((dist-mean(dist))^2)/(length(dist))
[1] 650.7796
> var(dist)
[1] 664.0608
¿Por qué?
La razón es muy simple: la función var() de R -al igual que la función VAR() de Excel- considera que el colectivo que se está analizando es una muestra, y lo que es más importante, que lo que se desea es utilizar el valor del estadístico muestral para estimar el parámetro varianza poblacional. Como resulta que la varianza muestral -empleando como denominador el número de observaciones- no es un estimador insesgado de la varianza poblacional pero la cuasivarianza muestral -empleando como denominador el número de observaciones menos uno, es decir, los grados de libertad- sí lo es, estos paquetes estadísticos optan por emplear como denominador de la varianza el valor n-1 sin avisarnos de ello de manera explícita. Así, los dos siguientes comandos sí que son equivalentes:
> sum((dist-mean(dist))^2)/(length(dist)-1)
> var(dist)
Pero cuidado, lo que nos proporcionan no es la varianza del conjunto de datos sino la cuasivarianza muestral que deberá ser empleada en una situación de inferencia para estimar -de manera insesgada- la varianza poblacional.
En resumen:
Hoy he asistido a una defensa de tesis doctoral en mi facultad. El doctorando -ahora ya doctor- es un alto cargo de una entidad financiera y todos los miembros del tribunal han alabado -en mi opinión muy merecidamente- su capacidad para conciliar sus elevadas responsabilidades laborales con sus actividades de investigación.
Lo que me ha gustado mucho menos ha sido el comentario de dos de los miembros del tribunal al señalar como muy loable el esfuerzo que le debía de haber supuesto al doctorando dejar de lado los modos y maneras propios de la empresa y zambullirse en las costumbres propias de los investigadores y, en particular, en esas complicadas técnicas estadísticas tan alejadas de la práctica habitual de la alta dirección de las entidades financieras.
En mi opinión -y estoy seguro de que es el caso del nuevo doctor- los altos directivos de las empresas -en general- y de las entidades financieras -en particular- deberían ser personas dotadas de elevadas habilidades y competencias en el análisis de datos. Me parece además muy grave que estas opiniones sean vertidas en un tribunal de tesis doctoral por académicos que deberían estar de acuerdo con esta postura. Quizás todo esto sea tan solo un paso más en el arrinconamiento y desprecio que los métodos cuantitativos vienen sufriendo en los últimos años -y si no, a los nuevos planes de estudio de LADE ADE me remito-.
Cuando mi hija -hoy de tres años- tenía dos se lanzaba como loca a por cualquier cuchillo que encontrara encima de la mesa. Cuando eso ocurría alguien le decía “ez duzu labana hartu behar oso arriskutsua da eta” y poco a poco hemos ido consiguiendo que abandone esa peligrosa costumbre. Ahora, cuando se sienta a la mesa se dedica a recoger los cuchillos de todo el mundo y dejarlos a un lado diciendo que son muy peligrosos -tendremos que ver cómo recuperamos esta situación-.
El párrafo anterior puede resultar chocante en un blog dedicado al análisis de datos cuantitativos pero es fácil anticipar por dónde van los tiros: no cabe duda de que el acceso a los paquetes de análisis de datos es muy deseable ya que pone al alcance de cualquiera la posibilidad de analizar datos y obtener de ellos información sobre la que tomar decisiones. Operaciones que hace diez años eran impensables se hacen hoy en día de forma rutinaria y esto, sin duda, es muy bueno. Sin embargo, all that glitters is not gold, y esta democratización del software tiene también un efecto perverso: semejante potencia de cálculo en manos inexpertas es como un arma en manos de un niño: ¡peligro!.
Esto es lo que ocurrió la semana pasada: un compañero de facultad me pidió que echara un vistazo a ciertos resultados que le había enviado por correo un doctorando cuya tesis dirige. El doctorando había elaborado un cuestionario y lo había administrado a un conjunto de 188 encuestados. Su interés radicaba en evaluar si el cuestionario era fiable y válido.
Es bien conocido que uno de los índices más comúnmente empleados para evaluar la fiabilidad -mejor dicho, la consistencia interna- de un instrumento diseñado para medir un concepto es el alfa de Cronbach. Este índice se calcula de manera muy simple y muchos paquetes estadísticos -por ejemplo, SPSS- lo incluyen entre sus opciones.
Pues bien, el doctorando, empeñado en evaluar la fiabilidad de su cuestionario y orgulloso poseedor de una licencia de SPSS seleccionó Analizar / Fiabilidad / Alpha de Cronbach en su flamante SPSS v16 y realizó un análisis de fiabilidad de todo el cuestionario. El error es de dimensiones galácticas:
¡Si es que hay que tener cuidado con el SPSS, que lo carga el diablo!
Muy curioso me resultó el intercambio que mantuve el otro día con un colega del IAIF de la Universidad Complutense durante el 11º Congreso de EUNIP que se celebró en el campus donostiarra de la Universidad de Deusto -organizado por la ESTE y por el Instituto Vasco de Competitividad-.
En pocas palabras, mi colega confería -y defendía a capa y espada- un carácter cuasi-angélico a las técnicas de análisis de datos cuantitativos. En su opinión -en pocas palabras- cualquier resultado de aplicar un procedimiento estadístico a un conjunto de datos es científicamente incontestable ya que en ese procedimiento no ha intervenido el “contaminante” pensamiento humano. Como la conferencia se celebró en inglés -en ese international english que todos más o menos entendemos- mi colega decía “we did not make any choices. Our results are not biased since these are the factors that resulted from a factor analysis“.
En mi opinión nada más lejos de la realidad. Al aplicar un análisis factorial “we have to make lots of choices and we’d better make the right ones“:
En resumen, las técnicas de análisis de datos cuantitativos son una gran ayuda para la obtención de información y para la reducción de la incertidumbre pero sólo funcionan bien cuando se toman decisiones y, sobre todo, cuando estas decisiones no están excesivamente erradas.
La mañana de hoy la he dedicado a presentar a los investigadores del Instituto Vasco de Competitividad el entorno de programación R. Dejo aquí una copia de la presentación (PowerPoint de 5,1 Mb) y de la práctica que hemos realizado.
Los exámenes se acercan y con esta proximidad arrecian las preguntas de los estudiantes. He aquí una seleccion de los greatest hits de las últimas semanas. Iré actualizando el documento a medida que surjan más preguntas interesantes.
Actualización de 26 de mayo.