martes, 4 de agosto de 2009

Box plots

Un boxplot es un gráfico robusto que permite describir la distribución de una muestra de valores numéricos y compararla con otras (en las mismas unidades).
La robustez se debe a la utilización de estadísticos de orden. En este sentido y como medida de centralidad se utiliza la mediana, en lugar de la media.

En cuanto a la caja, conviene aclarar que no son los cuartiles los que la definen sino las bisagras (hinges), inferior y superior. La bisagra inferior es la mediana de los valores situados por debajo de la mediana de la muestra. La bisagra superior es la mediana de los valores situados por encima de la mediana de la muestra. Para muestras grandes, la bisagra inferior prácticamente coincidirá con el primer cuartil y la bisagra superior con el tercer cuartil, pero no son iguales.
En el boxplot se utilizan las bisagras por definición. Los cuartiles (y otros percentiles) se calculan de forma muy diversa y no son adecuados para fijar una definición única.
Como es natural la función boxplot() de R tiene en cuenta estos detalles y es absolutamente rigurosa con la definición de Tukey.

Otro detalle es la longitud de los bigotes (whiskers). Éstos se extienden fuera de la caja hasta el valor muestral más lejano que no supere una proporción del rango intercuartílico (calculado con las bisagras). Esa proporción se controla con el parámetro range. Su valor por defecto es 1.5, fijado así para que el número de outliers en una población normal sea relativamente pequeño. En otros programas de software estadístico como SPSS, incomprensiblemente, este valor es 2.

Por último, decir que hay otro parámetro varwidth que permite controlar el ancho de las cajas. Si lo pasamos a TRUE, el ancho de las cajas en un boxplot múltiple será proporcional a la raíz cuadrada de los tamaños muestrales de cada población. Interesante.

No hay comentarios:

Publicar un comentario