El gráfico boxplot

Este es uno de los clásicos del análisis exploratorio. Permite hacernos una idea de la distribución de la variable a partir de los cuartiles y los valores extremos. Existen muchas posibilidades para personalizar y mejrar el resultado que genera la función boxplot() sin opciones, pero serán tratadas más en profundidad en el capítulo dedicado a los procedimientos gráficos. De momento veremos sólo su uso básico. Para obtener el boxplot de la variable dist del data.frame cars habría que teclear simplemente
boxplot(cars$dist)
obteniéndose la Figura [*].
Figura: Diagrama de caja con la función boxplot()
Image boxplot1
También se puede representar más de una variable en el mismo gráfico. Para ello no hay más que introducirlas como argumentos de la función. A continuación vemos cómo obtener los boxplot de las variables IN,SF,B,NT,SB del data.frame resultados
boxplot(resultados$IN,resultados$SF,resultados$B,resultados$NT,

resultados$SB)
(recordar que podríamos evitarnos teclear continuamente la referencia a resultados si previamente hemos hecho attach(resultados) )
en la pantalla gráfica aparecerá la Figura [*].

Figura: Varios diagramas de caja con la función boxplot()
Image boxplot2
En ella pueden observarse todos los elementos típicos de los diagramas de caja, como los valores extremos y los valores atípicos. También queda patente que la figura merece un retoque profundo, pero eso aprenderemos a hacerlo posteriormente.

Puede ser muy interesante que, en el boxplot, la anchura de las cajas sea variable en función del número de casos representado en cada categoría. Para ello hay que utilizar el parámetro width, que permite introducir un vector de anchuras. En nuestro caso la anchura dependerá del número de IN,SF,B,NT y SB presentes en el data.frame. Para conseguir la Figura [*] hemos hecho lo siguiente
a<-c(sum(IN,na.rm=T),sum(SF,na.rm=T),sum(B,na.rm=T),

sum(NT,na.rm=T),sum(SB,na.rm=T))
boxplot(IN,SF,B,NT,IN,width=a)

Con la primera instrucción creamos el vector de anchuras, que es resulta de sumar el número de IN,SF,B ...descontando los valores perdidos. En la segunda introducimos ese vector en el argumento width de la función.

Figura: Diagramas de caja de anchura variable con el argumento width
Image boxplotvariable
2007-02-12