El denominador de la varianza

Llevo una semana impartiendo el curso de Introducción a la Estadística a los participantes en el MBA de la ESTE. El programa de este curso consiste en una presentación de la Estadística Descriptiva univariante con una breve incursión en la Estadística Bivariante de la mano de las tablas de contingencia y del análisis de correlación y de regresión.

Hoy le ha tocado el turno a la Estadística Descriptiva para una variable cuantitativa. En concreto, me tocaba presentar el concepto de varianza y después de media hora de teoría se me ha ocurrido que sería una buena cosa utilizar el ordenador para hacer unos cuantos números.

Como ya he comentado en algún post anterior he decidido utilizar R para explicar Estadística. La cosa no parecía demasiado complicada: “Necesitáis tener los datos referidos a vuestra variable en un vector numérico y ahora, debéis emplear la función var() para obtener la varianza.” les he dicho.

Entonces un alumno me dice: “Oye…este resultado no coincide con el que nos ha dado cuando hemos hecho los calculos a mano”. “¿Cómo que no?”, le he dicho, “eso es imposible.”… Y de repente me he acordado del dichoso denominador de la varianza.

En efecto, la varianza, que se define como el momento de segundo orden de una variable aleatoria respecto a su valor esperado, tiene como denominador el número de observaciones de la variable. Por tanto, si disponemos de un vector numérico en R de nombre dist -que recoge las distancias de frenado de 50 vehículos-, los siguientes comandos de R deberían ser equivalentes:

> sum((dist-mean(dist))^2)/(length(dist))

> var(dist)

Los resultados, sin embargo, son distintos:

> sum((dist-mean(dist))^2)/(length(dist))
[1] 650.7796
> var(dist)
[1] 664.0608

¿Por qué?

La razón es muy simple: la función var() de R -al igual que la función VAR() de Excel- considera que el colectivo que se está analizando es una muestra, y lo que es más importante, que lo que se desea es utilizar el valor del estadístico muestral para estimar el parámetro varianza poblacional. Como resulta que la varianza muestral -empleando como denominador el número de observaciones- no es un estimador insesgado de la varianza poblacional pero la cuasivarianza muestral -empleando como denominador el número de observaciones menos uno, es decir, los grados de libertad- sí lo es, estos paquetes estadísticos optan por emplear como denominador de la varianza el valor n-1 sin avisarnos de ello de manera explícita. Así, los dos siguientes comandos sí que son equivalentes:

> sum((dist-mean(dist))^2)/(length(dist)-1)
> var(dist)

Pero cuidado, lo que nos proporcionan no es la varianza del conjunto de datos sino la cuasivarianza muestral que deberá ser empleada en una situación de inferencia para estimar -de manera insesgada- la varianza poblacional.

En resumen:

  • Si lo que deseamos es calcular la varianza de un conjunto de observaciones -sea este conjunto una población, una muestra o cualquier otra cosa- sin ningún ánimo inferencial debemos emplear como denominador el número de observaciones.
  • Si, por el contrario, contamos con una muestra aleatoria seleccionada de una población y deseamos estimar de manera insesgada el verdadero valor de la varianza poblacional a partir de la información de la muestra entonces debemos emplear la cuasivarianza muestral, es decir, debemos utilizar el denominador n-1 en el cálculo de este famoso índice de dispersión.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: