
Durante mis años de universidad tuve la suerte de ver crecer una herramienta
GPL que en principio me parecía fea y difícil de usar, y con el tiempo me ha convencido que no hace falta un interfaz bonito y pagar grandes cantidades de dinero para hacer buenos análisis; esta herramienta se llama
R.
Con el tiempo este proyecto me ha ido
convenciendo que es una de las mejores
herramientas que existen en la actualidad. Fue creada a principios de los 90 cómo una replica gratuita de
S+, unos de los mejores entornos de análisis de datos que ha habido nunca, el cual ha venido a menos por culpa de su hermano libre. Hay que reconocer que los principios no fueron nada fáciles, muchísimos
bugs, grandes problemas de
compatibilidad, rendimiento
computacional muy limitado... pero sus creadores no se rindieron, y durante estos 20 años de
desarroyo se ha conseguido hacer una herramienta de una potencialidad
increible, ¿por qué digo esto? pues es muy sencillo, R es un lenguaje de
programación con grandes capacidades para representar información de forma gráfica amén de tener infinidad de funciones y algoritmos orientados al análisis de datos y, lo que es más importante, unas API's bien definidas que permiten que cualquier usuario con
conocimientos de C pueda crear sus propios paquetes.
Esta capacidad de expandirse de manera sencilla y abierta por todo el publico ha sido uno de los grandes aciertos de los
desarrolladores, ha permitido que el número de paquetes de R haya crecido
exponencialmente hasta más de 1700 que existen actualmente, ¿y que podemos encontrar en estos paquetes? de todo, creo que hay muy pocos campos del
analisis de datos que no estén tratados por un paquete de R, desde la conexión a base de datos, cual tipo de análisis imaginable, generación de informes automáticos, todo tipo de gráficos, ... incluso se han creado diferentes
agregaciones de paquetes que tratan diferentes campos en concreto, os dejó
aquí la página donde podéis ver todos los grupos, eso sí, os comento los que considero más importantes para hacer minería de datos; estos son
Machine Learning,
análisis multivariante,
optimización,
computación de alto rendimiento y paralela,
análisis de grupos,
gráficos y como no
análisis de datos espaciales. Que quede constancia que le lanzo un guante a mi compañero Jesús para que realice algún
test sobre las capacidades espaciales del programa y nos lo cuente comparando capacidades con otras
herramientas, hay queda.
Teniendo en cuenta como está la situación actual, donde la competencia es aférrima, tener una capacidad de hacer análisis de manera rápida y fiable es
imprescindible y que todas las entidades tienen reducción de costes considero una opción más que valida R, recordemos que hace
relativamente poco hablamos sobre que
se ha ganado la KDD Cup trabajando sobre R, es decir que potencialidad para el modelización no le falta; imaginaros el
departamento de expertos que se podría formar sólo con el coste de la
implantación de alguna de las
herramientas de minería privativas.
Imaginad como está situando la industria a R como competencia que han empezado ha enlazarlo con sus propios lenguajes,
aquí podemos observar como
SPSS permite desde su herramienta llamar a R para hacer análisis, por otro lado en esta
notícia nos comenta que
SAS también incorporará esta capacidad, algo se tiene que estar moviendo para que los grandes permitan utilizar este software libre desde susherramientas; aquí podríamos aplicar eso de "Si no puedes con el enemigo
únete a él".
Y la verdad es que no me extraña este movimiento
generalizado de toda la industria, cada vez veo más noticias que grandes empresas han utilizado R para sus trabajos analíticos, os dejo aquí un
video donde se nos explica como
Facebook y Google, entre otras, utilizan R para sus análisis.
Otra noticia que me sorprendió es que se les hizo una
entrevista a los creadores del programa en el
New York Times, esto puede parecer que no es importante, pero que en un medio que no es
expecializado ni académico se haga eco de una herramienta
GPL y nos hable bien de ella es muy importante, aunque sólo sea para dar algo de publicidad.
Sinceramente, desde mi punto de vista, se abre una oportunidad
impresionante aquí en España, creo que la primera empresa que apueste por esta herramienta, que haga alianzas con los creadores y otras empresas
extrangeras, que de un servicio de
hot line, de consultoría de negocio y de sistemas, que de formación en el tema, vamos básicamente que escoja un modelo de negocio basado en software
GPL se va a posicionar dentro del
BI analítico de una manera muy firme, y una vez situada va a ser muy difícil sacarle.
Bueno pues esta ha sido mi
presentación de R, ya iremos hablado y expandiendo
conocimientos sobre esta herramienta y de otra muchas también.