sábado, 12 de febrero de 2011

La velocidad de la luz (3)

En primer lugar vamos a calcular los estadísticos más comunes con la ayuda del paquete fBasics y su función basicStats:
library(fBasics)
basicStats(tiempo)
##                  tiempo
## nobs          66.000000
## NAs            0.000000
## Minimum      -44.000000
## Maximum       40.000000
## 1. Quartile   24.000000
## 3. Quartile   30.750000
## Mean          26.212121
## Median        27.000000
## Sum         1730.000000
## SE Mean        1.322658
## LCL Mean      23.570591
## UCL Mean      28.853652
## Variance     115.462005
## Stdev         10.745325
## Skewness      -4.391574
## Kurtosis      25.518829

A primera vista podemos ver que hay mucha diferencia entre la media y la mediana, el recorrido es muy ancho y la asimetría elevada.

Podemos calcular los límites para que un valor sea considerado como atípico (outlier) con las bisagras (según Tukey).

LowerHinge - 1.5*(UH-LH), UpperHinge + 1.5*(UH-LH)
lh <- fivenum(tiempo)[2]
uh <- fivenum(tiempo)[4]
iqr <- uh - lh
c(lh,uh) + c(-1,1)*1.5*iqr
## [1] 13.5 41.5

o con los cuartiles:

Q1 - 1.5*IQR, Q3 + 1.5*IQR
q1 <- as.numeric(quantile(tiempo,0.25))
q3 <- as.numeric(quantile(tiempo,0.75))
c(q1,q3) + c(-1,1)*1.5*IQR(tiempo)
## [1] 13.875 40.875

En cualquier caso resulta evidente que los valores –44 y –2 son atípicos. El tratamiento de los outliers es otro de los asuntos que requieren un poco de sentido común. Algunas veces los valores atípicos tienen un especial interés como evidencia de un suceso extraordinario. Un valor atípico en la distribución del brillo observado por un satélite de vigilancia puede representar el lanzamiento de un misil. Un valor atípico en la distribución de las alturas puede mostrar a un jugador de baloncesto. En estos casos la distribución general muestra la rutina o la normalidad, mientras que los sucesos extraordinarios caen fuera. Pero Newcomb esperaba una distribución bien formada, con un claro centro y, en cambio, dos valores atípicos molestaban.

Cuando los valores atípicos son sorprendentes o inesperados, en primer lugar, hemos de buscar la causa o explicación, tal como un error del equipo de medida o un error de escritura del dato. Casi todos los grandes conjuntos de datos contienen errores, con frecuencia por erratas al entrar los datos en el archivo informático. Los valores atípicos sirven para detectar estos errores y corregirlos al repasar los datos originales. Si el equipo de medida falla o alguna otra condición anormal ha provocado el valor atípico, entonces debemos borrar el dato sin ningún problema. También el valor atípico puede evidenciar una extraordinaria incidencia o una inesperada variabilidad de los datos.

Newcomb, finalmente, despreció el más pequeño de los valores (–44) y retuvo los otros. El basó su estimación de la velocidad de la luz en el término medio (la media) de sus observaciones. La media de las 66 observaciones es 26.21; la media de las 65 retenidas es 27.29. El fuerte efecto de un único valor –44 sobre la media es un motivo para descartarlo, cuando nuestro interés es el centro de la distribución como un todo.

Para estos datos, la media recortada al 5% es 27.4.

mean(tiempo)
## [1] 26.21212
mean(tiempo[-6])
## [1] 27.29231
mean(tiempo, trim=0.05)
## [1] 27.4

La mediana es directamente 27 o puede subir a 27.5 si suprimimos los dos valores negativos.

median(tiempo[-c(6,10)])
## [1] 27.5

Todavía podemos contemplar los datos de Newcomb con otro gráfico. Cuando los datos representan observaciones similares tomadas a lo largo del tiempo, es bastante sensato dibujarlas con el tiempo o el orden temporal en que las observaciones fueron hechas.

La figura dibuja los lapsos de tiempo de Newcomb con su orden de recogida. El gráfico contiene una cierta sugerencia en el sentido de que la variabilidad (la anchura vertical del gráfico) disminuye con el tiempo. En particular, las dos observaciones atípicas fueron hechas muy pronto. Puede que él ganara experiencia y se hizo más hábil en la utilización de su aparato. Los efectos del aprendizaje, como en este caso, son bastante comunes. Si dejamos a Newcomb 20 observaciones para aprender, la media de los 46 restantes es 28.15.

mean(tiempo[-(1:20)])
## [1] 28.15217

Las medidas más modernas sugieren que el "verdadero valor" del lapso de tiempo medido por el experimento de Newcomb es 33.02. Eliminar los valores atípicos o permitir un período de aprendizaje no mueven el término medio más cerca del valor cierto. En todo caso, los ajustes basados sólo en criterios subjetivos son sospechosos. Si es posible, siempre es necesario hallar la razón de un valor atípico.

2 comentarios:

  1. Interesante! sin embargo algo pasa con valores tiempo negativos, ¿no? que la luz tarde tiempos negativos significaría que llega al destino antes de haber salido del origen, salvo que sea algún tipo de error en la introducción de los datos, o alguna elaboración de la variable que se me escapa...

    ResponderEliminar
  2. Hola Rafa,

    Este es el tercer artículo de la serie "La velocidad de la luz". En el primero se explica cómo se obtienen los valores.

    ResponderEliminar