$\chi^2$ para analizar el ajuste a una distribución

La función que proporciona R para la aplicación de los test basados en la $\chi^2$ es chisq.test(). Aplicada a un vector de datos sin más argumentos, evalua el ajuste de los mismos a una función de distribución uniforme.
Por ejemplo, consideremos que en el centro escolar cuyos resultados estamos analizando el alumnado procede de cuatro barrios diferentes. En el Cuadro [*] se indican el número de alumnos/as que escolariza de cada barrio así como el número de alumnos/as con problemas educativos que aporta cada uno de los barrios.

Tabla: Alumnado total y con problemas educativos
  A B C D
Número de alumnos/as 195 90 28 23
Alumnos/as con dificultades 84 54 11 11
         


Supongamos que estamos interesados en saber si la procedencia del alumnado por barrios es unidorme con un nivel de significación del 1%. Para ello podríamos introducir la siguiente instrucción
chisq.test(c(195,90,28,23))
cuyo resultado es
Chi-squared test for given probabilities
data: c(195, 90, 28, 23)
X-squared = 228.7381, df = 3, p-value = < 2.2e-16
Como la probabilidad asociada al parámetro $\chi^2$ p-value = < 2.2e-16 es inferior al nivel de significación (0.01), se rechaza la hipótesis de uniformidad en la procedencia del alumnado (tal y como podíamos prever a la luz de los datos proporcionados).

Pasemos ahora al análisis del ajuste a una distribución de probabilidad no uniforme. En el ejemplo que estamos considerando, podríamos estudiar si el alumnado con dificultades educativas se distribuye entre los barrios de procedencia en concordancia con el número total de alumnos/as que viene de cada barrio. En este caso tendremos que evaluar la $\chi^2$ incorporando como frecuencias teóricas la probabilidad de procedencia que le corresponde a cada barrio, que es el cociente entre el alumnado del barrio y el alumnado total. Podríamos actuar del siguiente modo
alumnado<-c(195,90,28,23)
prob.alumnado<-alumnado/sum(alumnado)
alum.dificultades<-c(84,54,11,11)
chisq.test(alum.dificultades,p=prob.alumnado)
en la primera sentencia se asigna los datos de procedencia de los diferentes sectores a alumnado. En la segunda se calcula la probabilidad asociada a cada barrio dividiendo el número de alumnos/as de cada barrio entre el total (sum(alumnado)). En la tercera se asigna a alum.dificultades el número de alumnos con dificultades educativas procedentes de cada barrio en el orden adecuado. En la cuarta se aplica el test de $\chi^2$ al alumnado con dificultades tomando como probabilidades teóricas las incluidas en el vector prob.alumnado. Hay que notar que la asignación de un nuevo vector de probabilidades se hace con el argumento p. El resultado
Chi-squared test for given probabilities
data: al.problemas
X-squared = 4.1505, df = 3, p-value = 0.2457
nos muestra que la distribución por barrios del alumnado con dificultades no se desvía significativamente de la teórica pues la probabilidad de que los valores observados se ajusten a los teóricos, 0.2457, es muy superior al 0.05 o 0.01 que suelen tomarse como niveles de significación para rechazar la hipótesis nula.

2007-02-12