Selección de casos

Al igual que hemos seleccionado variables para aplicarles procedimientos estadísticos, también podemos seleccionar casos para aplicarles funciones. Por lo general, esta selección se basará en el cumplimiento de determinadas condiciones. Los operadores habituales en las expresiones condicionales son
  1. ==, igual a
  2. >=, mayor o igual a
  3. <=, menor o igual a
  4. !=, diferente a
  5. &, y
  6. |, o
En nuestro data.frame sobre resultados académicos se almacenan datos correspondientes a varios cursos escolares. En alguna ocasión, seguro que querremos conocer estadísticas relativas a un año en concreto. Si quisiéramos conocer la mediana del número de insuficientes en el año 1999, podríamos introducir la siguiente orden
median(IN[Año==1999])
la condición de selección se indica entre corchetes. En este caso se dice: coge los registros correspondientes a 1999, fíjate en la variable IN y calcula su mediana4.1.

Las condiciones de selección se pueden anidar. Por ejemplo, si queremos analizar sólo la evaluación final, escribiríamos
median(IN[Año==1999&Evaluación=="F"])
En muchas ocasiones nos interesará (o, incluso, será preciso) eliminar los valores perdidos para efectuar un análisis. Por ejemplo, la función median() no funciona si existen NA's en la variable. En muchas ocasiones podemos remediar el problema introduciendo la opción na.rm=T en la función como vemos a continuación.
median(IN)
[1] NA
median(IN,na.rm=T)
[1] 2
En el primer caso la función no actúa correctamente; en el segundo, sí.

2007-02-12