jueves, 10 de marzo de 2011

El gráfico beanplot



Ciertamente, cuando se desea representar gráficamente unos datos cuantitativos univariantes existen varias posibilidades con diversas propiedades. Podemos hacer un histograma, un diagrama de tallo y hojas (stem-and-leaf), un diagrama de caja (boxplot), una densidad estimada y muchos más. Pero cuando se trata de comparar los valores de una variable cuantitativa para varias poblaciones o tratamientos, la mayoría no sirve. Por ejemplo, comparar un conjunto de histogramas o de gráficos de tallo y hojas es muy difícil, básicamente por el espacio que requieren. Así, para comparar datos univariantes en diferentes poblaciones casi siempre se utiliza el boxplot de Tukey o un gráfico de puntos unidimensional tipo stripchart cuando hay pocos datos.
Aunque hay algunas variaciones del boxplot clásico, como incrementar la anchura de la caja en función del número de observaciones con el parámetro varwidth=T, este gráfico se basa esencialmente en los estadísticos de posición como la mediana y las bisagras.
Otra posibilidad es el gráfico de violín descrito por Hintze and Nelson (1998) en el que una densidad se combina con los cuartiles del boxplot. En este gráfico no se muestran los valores atípicos (outliers).
Algunas críticas que se pueden hacer al boxplot se deben precisamente a la utilización de los cuartiles como elementos de difícil explicación (?) para los no matemáticos y la definición arbitraria del concepto de outlier. En un gráfico de violín la distribución subyacente es más visible, pero los datos concretos no se ven y no se conoce el número de observaciones del grupo.
El beanplot es una combinación de un gráfico de densidad (doble) con las marcas de todos los datos. Dichas marcas cambian de color si se salen del interior de la doble densidad y se alargan si coinciden algunos datos con el mismo valor.
Para poder comparar los grupos, se señalan las medias de cada grupo y la media general.
Por otra parte, si en la población general hay un factor con dos niveles, como el sexo, de puede considerar un beanplot asimétrico con dos densidades distintas en función del factor.
Sin embargo, aunque la vistosidad del beanplot parece aventajar al boxplot, no debemos olvidar que el boxplot se creó con la intención de tener un gráfico sencillo y sobre todo robusto, es decir, basado en estadísticos de orden.

Como es gratis, con cualquier conjunto de datos podemos hacer los dos gráficos, incluso no es difícil añadir al boxplot los datos concretos en otro color, y representaremos el que mejor explique nuestro experimento o los dos, si lo creemos conveniente.

4 comentarios:

  1. Buenas noches, soy Antonio,
    gracias por la entrada, me parece interesante, sobre todo para entender mejor las diferencias entre tratamientos, poblaciones, etc., aunque también estoy totalmente de acuerdo en que la utilidad de los gráficos ha de ser la de entender rápidamente (simplificar) las posibles diferencias.

    Por otro lado, me gustaría saber si beanplot viene en alguna libreria específica o en el paquete base de R.

    Un saludo.

    ResponderEliminar
  2. beanplot es un paquete que contiene la función beanplot.

    ResponderEliminar
  3. Hola, me gustaría usar el "beanplot" descargue R version 3 y cargue el paquete de "Beanplot" pero no se como se usa, es decir es en la misma pantalla principal de R? O debería abrir otra consola como sucede con Rcommander? Ojala puedas ayudarme muchas
    gracias

    ResponderEliminar
  4. Esencialmente después de cargar el paquete, en una consola debes utilizar la función beanplot() con una densidad.
    El documento con ejemplos es:

    http://www.jstatsoft.org/v28/c01/paper

    ResponderEliminar