martes, 31 de diciembre de 2013

R en la Universidad de la Luz


Estaba buscando referencias en internet sobre el test de esfericidad de Bartlett y el índice KMO con R cuando me encontré con unos tutoriales muy interesantes relacionados con la Estadística aplicada con R, pero especialmente con "Data mining".
El autor es el profesor Ricco Rakotomalala del Departamento de informática y estadística de la Facultad de Economía de  la Université Lumière Lyon 2. Podéis visitar la página web de sus cursos donde se ofrece material entre otras cosas de Programación R, Data mining, Regresión logística y Econometría. Además nos ofrece una gran variedad de enlaces a recursos como scripts, archivos PDF y datos de diversas fuentes. Todo muy bien organizado.
En particular podemos acceder a TANAGRA, un entorno integrado de métodos de Data mining para Windows. Este proyecto es el sucesor del proyecto SIPINA orientado a implementar varios algoritmos de aprendizaje supervisado.
Últimamente yo no utilizo mucho Windows, pero me ha resultado muy interesante todo el material didáctico que ofrece el proyecto Tanagra en su blog. Aquí podéis hallar Análisis discriminante lineal, Análisis de las componentes principales, Regresión PLS, Análisis de correspondencias, etc.
Sobre el test de esfericidad de Bartlett y el índice KMO hablaremos otro día.

miércoles, 25 de diciembre de 2013

Análisis de la Covarianza con R

ancova_blog.utf8

El Análisis de la Covarianza es una síntesis del Análisis de la Varianza y los métodos de Regresión. Combina por lo tanto, unas variables cualitativas con unas variables cuantitativas. Se trata estudiar las diferencias entre los niveles de un factor o contrastar la significación de algunos factores sobre una variable cuantitativa observable, cuando alguna o algunas variables regresoras, llamadas concomitantes, influyen también en la respuesta.

Desde el punto de vista de la Regresión, se trata de considerar, junto a las variables regresoras cuantitativas, variables predictoras cualitativas, como por ejemplo el sexo, que se califican de categóricas o, más técnicamente, como factores.

El Análisis de la Covarianza tiene las siguientes características (ver Cuadras 1):

  • Tiene en cuenta la influencia de las variables concomitantes sobre la variable observable o respuesta.
  • La variable concomitante es siempre cuantitativa. Cada réplica debe tener asociado un valor de la variable concomitante.
  • Las variables concomitantes no se utilizan como variables de referencia para contrastar hipótesis. Lo que se pretende es eliminar su influencia sobre la variable observable.
  • La varianza del diseño queda reducida al introducir una variable concomitante. Una consecuencia es el aumento de la precisión en las conclusiones.
  • En general se logra simplificar el diseño, reduciendo el número de factores, lo que redundará en un número menor de réplicas.
  • La interpretación del diseño es más fácil cuando los factores sólo influyen en la variable respuesta y no en las variables concomitantes.

En este documento se resuelven algunos ejemplos sencillos con el programa estadístico R.

Para profundizar en la teoría del Análisis de la Covarianza se puede consultar, entre otros, el libro clásico de Snedecor y Cochran 3. Para estudiar modelos lineales avanzados con R se puede leer el libro de J.J. Faraway 2.

Bibliografía

  1. C.M. Cuadras, Problemas de Probabilidades y Estadística. Vol.2:Inferencia Estadística. EUB, 2000.

  2. J.J. Faraway, Linear Models with R, Chapman & Hall/CRC, 2004.

  3. G.W. Snedecor y W.G. Cochran, Statistical Methods, Iowa State University Press, 1989.