Hoy en día, prácticamente todo lo que hacemos queda registrado en algún lugar, dejando atrás ingentes cantidades de datos para quien quiera rebuscar en ellos y sacar información valiosa. Este es el objetivo de lo que se denomina minería de datos, que haciendo uso de técnicas estadísticas y de análisis, consiguen extraer patrones interesantes para el campo del marketing, los juegos o incluso el terrorismo… Entre las herramientas utilizadas, hay una que está de moda por su potencia y por ser software libre al alcance de todos, se trata del lenguaje de programación R y el interfaz gráfico RStudio, que vamos a ver cómo instalar y usar en un ejemplo sencillo.
El lenguaje R es un proyecto que nació en 1993 en la Universidad de Auckland a partir de otros lenguajes (S y Scheme). Hoy en día se ha ganado su propio hueco en el campo de la investigación estadística y tiene muchos colaboradores que programan bibliotecas o paquetes con nuevas funcionalidades gráficas o de cálculo, que se pueden añadir fácilmente.
Para usar el lenguaje R podemos ir a la página oficial del proyecto http://www.r-project.org/ e ir a la sección de descarga, aunque también se puede hacer desde la página de RStudio https://cran.rstudio.com/. Si elegimos esta segunda opción (es la que yo usé y por eso es la que explicaré), pulsamos en «Download R for Windows«, después en el enlace «Install R for the first time» y por último en el enlace «Download R for Windows«, con eso empezará la descarga. Cuando termine, ejecutamos y vamos respondiendo a las típicas preguntas de instalación. Estas son las posibles decisiones que tendremos que tomar:
- ¿Archivos de 32-bits o de 64-bits? depende de tu ordenador
- ¿Ejecutar opciones de configuración? mejor decir que no y dejarlo todo por defecto
- ¿Guardar número de versión en el registro? Mmm, sí, ¿por qué no?
- ¿Asociar extensiones de archivos? Vale
Nota: si ya lo tenías instalado y lo que querías era actualizar la versión, te darás cuenta que se intentará instalar en una carpeta distinta (el nombre de la carpeta se basa en la versión). Cuando acabes la instalación tendrás que desinstalar la versión anterior y, seguramente, también tendrás que ir a la carpeta y borrar las librerías que no se hayan eliminado al desisntalar. Además, esto te obligará a tener que descargarlas de nuevo, claro.
Una vez instalado, aunque se puede trabajar directamente con él, es aconsejable usar una interfaz gráfica que nos facilite su uso, y de las varias que podríamos encontrar, la elegida para nosotros es RStudio. RStudio tiene una versión open source y otra comercial, por supuesto usaremos la primera. Vamos a instalarla.
En la web de RStudio http://www.rstudio.com, en el menú superior, seleccionamos Products > RStudio. Ahí vemos las dos versiones que he mencionado, «Open source edition» y «Commercial license«. Pulsa en el botón «Download RStudio Desktop» en el apartado de la version Open Source. Seleccionamos el installer que nos guste (probablemente el primero), descargamos e instalamos. La instalación no tienen ninguna complejidad más allá de tener que elegir la carpeta de instalación.
Si todo ha ido bien, podremos ejecutar RStudio y ver por fin qué nos ofrece. Hay muchísimo que comentar de este programa y sobre lo que es capaz de hacer, pero el objetivo de este post es conseguir hacer algo muy sencillo que nos anime a seguir aprendiendo, así que no voy a ser muy exhaustivo en esta primera toma de contacto. Empezaremos con una ligera descripción de lo que tienes delante ahora mismo en la pantalla.

Vista general de RStudio
Tenemos 4 secciones. Arriba a la izquierda tenemos un área donde podemos ir creando un archivo que contendrá las instrucciones que queremos ejecutar, junto con explicaciones de texto sobre lo que estamos haciendo y los gráficos con los resultados. Pero no vamos a usarlo por ahora, porque vamos a utilizar la sección que hay justo debajo. Esta parte de abajo a la izquierda es la consola, y aquí podemos ejecutar órdenes directamente. Como nuestro ejemplo va a ser muy sencillo, iremos escribiendo las instrucciones aquí.
En el lado derecho tenemos otras dos secciones, la de arriba a la derecha muestra información sobre los datos que están cargados y el historial de acciones, no le haremos mucho caso tampoco. Y por último, abajo a la derecha tenemos la última sección donde podemos ver distintas cosas, pero para simplificar por ahora, hazte a la idea de que sirve para ver los gráficos que generemos.
Vamos a hacer alguna cosita ya. Ve a la consola (abajo-izquierda), escribe «5+8» y pulsa enter. ¿Sorprendido? Ya, parece mucho lio para tener una calculadora, pero bueno, es un comienzo.
> 5+8 [1] 13
El [1] de delante significa que tenemos 1 dato, y el 13 es el propio dato. Los datos también pueden combinarse (en forma de vectores) y para crear una combinación tenemos que usar la función «c()» (sí, la c es de combine). Vamos a crear un vector:
> c(2,5,7) [1] 2 5 7
La función c() devuelve la combinación de valores, [1] un dato que consiste en tres valores 2, 5 y 7. Ahora vamos a guardar este vector en una variable:
> mivector <- c(2,5,7) > mivector [1] 2 5 7
La primera línea no produce ninguna salida, pero si escribimos «mivector» sí recibiremos la misma respuesta que en el ejemplo anterior.
Nota: Vamos a aprovechar este momento para dar a cada cosa su nombre antes de que sea demasiado tarde y empecemos a llamar las cosas de forma errónea. Dentro de RStudio, «mivector» sería un dataset (cualquier conjunto de datos), pero podría ser un único número, una combinación o una tabla… Si tuviesemos una tabla, cada fila o registro se denomina «observation» (observación) y cada columna es una variable. Es cuestión de irse acostumbrando.
Unimos lo que sabemos, sumas y vectores:
> a <- c(1,2,3) > b <- c(2,4,6) > a+b [1] 3 6 9
El resto de operaciones matemáticas funcionan igual. Pero vamos a usar alguna cosilla más «compleja», por ejemplo, la media aritmética, y para eso tenemos «mean()«. Cuando queramos saber cómo usar alguna función en RStudio, podemos escribir una interrogación seguida del nombre de la función y la ayuda aparecerá en el panel de abajo a la derecha.
?mean
Para hacer una media aritmética, necesitaremos un conjunto de datos, así que vamos a probar esto:
> mean(c(1,1,2,3,5,8,13,21,33)) [1] 9.666667
Verás que hay montones de funciones que podemos usar, pero por ahora ya va siendo hora de ir acabando este post, así que vamos a terminar dibujando un gráfico para ver lo fácil que puede ser.
Para hacer el gráfico necesitamos un conjunto de datos más grande, lo meteremos como combinación en un dataset al que llamaremos «datos«. El tipo de gráfico que dibujaremos será un histograma, que es una forma de representar una sóla variable de manera que la altura de cada barra indique el número de veces que aparece cada valor.
> datos <- c(1,3,1,7,5,9,3,5,7,7,5,5,3,3,5) > hist(datos)
Si todo ha ido bien, tendrás un gráfico en la zona de abajo a la derecha. Es posible que te parezca un poco feo, pero te aseguro que se pueden hacer cosas muy interesantes y bonitas (incluso con colores). Como ejemplo, dejo aquí una representación gráfica del número de amigos en Facebook en función de la edad de los usuarios:

Número de amigos vs Edad usuario
Nota: Es divertido ver que hay mucha gente que miente diciendo que su edad es de 69 años, y que curiosamente el patrón de número de amigos de esa edad, es muy semejante al de los menores de 30 años. Parece que no puedes engañar a las estadísticas.
Bueno, pues por ahora esto es todo, sé que es poco, pero bueno, espero haberte despertado el interés por este programa, y sin duda seguiré escribiendo sobre este tema.