sábado, 7 de noviembre de 2009

Test de Levene para la igualdad de varianzas

El test de Levene (1960) se usa para contrastar si k muestras tienen la misma varianza, es decir, la homogeneidad de varianzas. Otros contrastes, como por ejemplo el análisis de la varianza, suponen que las varianzas son iguales para todos los grupos. De ahí la importancia de verificar con el test de Levene esa hipótesis.

Este test es una alternativa al test de Bartlett. El test de Levene es menos sensible a la falta de normalidad que el de Bartlett. Sin embargo, si estamos seguros de que los datos provienen de una distribución normal, entonces el test de Bartlett es el mejor.

El test de Levene se resuelve con un ANOVA de los valores absolutos de las desviaciones de los valores muestrales respecto a un estadístico de centralidad (media, mediana o media truncada) para cada grupo. La elección del estadístico de centralidad de los grupos detemina la robustez y la potencia del test. Por robustez se entiende la habilidad del test para no detectar erróneamente varianzas distintas, cuando la distribución no es normal y las varianzas son realmente iguales. La potencia significa la habilidad del test para señalar varianzas distintas, cuando efectivamente lo son.

El artículo original de Levene proponía la media como estadístico de centralidad. Brown y Forsythe (1974) extendieron este test al utilizar la mediana e incluso la media truncada al 10%. Sus estudios de Monte Carlo mostraron que la utilización de la media truncada mejoraba el test cuando los datos seguían una distribución de Cauchy (colas grandes) y la mediana conseguía mejorarlo cuando los datos seguían una Chi-Square(4) (distribución asimétrica). Con la media se consigue el mejor test para distribuciones simétricas y con colas moderadas.

Así pues, aunque la elección óptima depende de la distribución de los datos, la definición del test basada en la mediana es la recomendación general ya que proporciona una buena robustez para la mayoría de distribuciones no normales y, al mismo tiempo, una aceptable potencia. Si conocemos la distribución de los datos, podemos optar por alguna otra de las opciones.

El paquete car Companion to Applied Regression de J. Fox trae una función levene.test con la mediana como medida de centralidad de los grupos. El mismo test está incorporado al paquete Rcmdr.

Aplicar el test de Levene a unos datos con la opción de la media truncada como medida de centralidad es un ejercicio sencillo:

datos <- c(rcauchy(50,0,10),rcauchy(50,0,20),rcauchy(50,0,30))

grupo <- gl(3,50)

boxplot(datos~grupo)

func <- function(x) mean(x,trim=0.1)
medias_trunc <- tapply(datos,grupo,func)
desv <- abs(datos-medias_trunc[grupo])
summary(aov(desv~grupo))


Referencias

Brown, M. B. and Forsythe, A. B. (1974), Journal of the American Statistical Association, 69, 364-367.

Fox, J. (2002), An R and S-PLUS Companion to Applied Regression, Sage.

Levene, H. (1960). In Contributions to Probability and Statistics: Essays in Honor of Harold Hotelling, I. Olkin et al. eds., Stanford University Press, pp. 278-292.

5 comentarios:

  1. Actualmente la función levene.test() del paquete car es obsoleta.
    Se recomienda utilizar leveneTest() del mismo paquete.

    ResponderEliminar
  2. Gracias, casi no se encuentra buena información de este tema.

    ResponderEliminar
  3. Cordial saludo.

    De casualidad tendrian informacion sobre los modelos lineales generalizados GAM.
    Les agradezco cualquier guia.

    Saludos


    ResponderEliminar