Curso recomendado

domingo, 5 de julio de 2009

Data Mining - R


Durante mis años de universidad tuve la suerte de ver crecer una herramienta GPL que en principio me parecía fea y difícil de usar, y con el tiempo me ha convencido que no hace falta un interfaz bonito y pagar grandes cantidades de dinero para hacer buenos análisis; esta herramienta se llama R.

Con el tiempo este proyecto me ha ido convenciendo que es una de las mejores herramientas que existen en la actualidad. Fue creada a principios de los 90 cómo una replica gratuita de S+, unos de los mejores entornos de análisis de datos que ha habido nunca, el cual ha venido a menos por culpa de su hermano libre. Hay que reconocer que los principios no fueron nada fáciles, muchísimos bugs, grandes problemas de compatibilidad, rendimiento computacional muy limitado... pero sus creadores no se rindieron, y durante estos 20 años de desarroyo se ha conseguido hacer una herramienta de una potencialidad increible, ¿por qué digo esto? pues es muy sencillo, R es un lenguaje de programación con grandes capacidades para representar información de forma gráfica amén de tener infinidad de funciones y algoritmos orientados al análisis de datos y, lo que es más importante, unas API's bien definidas que permiten que cualquier usuario con conocimientos de C pueda crear sus propios paquetes.

Esta capacidad de expandirse de manera sencilla y abierta por todo el publico ha sido uno de los grandes aciertos de los desarrolladores, ha permitido que el número de paquetes de R haya crecido exponencialmente hasta más de 1700 que existen actualmente, ¿y que podemos encontrar en estos paquetes? de todo, creo que hay muy pocos campos del analisis de datos que no estén tratados por un paquete de R, desde la conexión a base de datos, cual tipo de análisis imaginable, generación de informes automáticos, todo tipo de gráficos, ... incluso se han creado diferentes agregaciones de paquetes que tratan diferentes campos en concreto, os dejó aquí la página donde podéis ver todos los grupos, eso sí, os comento los que considero más importantes para hacer minería de datos; estos son Machine Learning, análisis multivariante, optimización, computación de alto rendimiento y paralela, análisis de grupos, gráficos y como no análisis de datos espaciales. Que quede constancia que le lanzo un guante a mi compañero Jesús para que realice algún test sobre las capacidades espaciales del programa y nos lo cuente comparando capacidades con otras herramientas, hay queda.

Teniendo en cuenta como está la situación actual, donde la competencia es aférrima, tener una capacidad de hacer análisis de manera rápida y fiable es imprescindible y que todas las entidades tienen reducción de costes considero una opción más que valida R, recordemos que hace relativamente poco hablamos sobre que se ha ganado la KDD Cup trabajando sobre R, es decir que potencialidad para el modelización no le falta; imaginaros el departamento de expertos que se podría formar sólo con el coste de la implantación de alguna de las herramientas de minería privativas.

Imaginad como está situando la industria a R como competencia que han empezado ha enlazarlo con sus propios lenguajes, aquí podemos observar como SPSS permite desde su herramienta llamar a R para hacer análisis, por otro lado en esta notícia nos comenta que SAS también incorporará esta capacidad, algo se tiene que estar moviendo para que los grandes permitan utilizar este software libre desde susherramientas; aquí podríamos aplicar eso de "Si no puedes con el enemigo únete a él".

Y la verdad es que no me extraña este movimiento generalizado de toda la industria, cada vez veo más noticias que grandes empresas han utilizado R para sus trabajos analíticos, os dejo aquí un video donde se nos explica como Facebook y Google, entre otras, utilizan R para sus análisis.

Otra noticia que me sorprendió es que se les hizo una entrevista a los creadores del programa en el New York Times, esto puede parecer que no es importante, pero que en un medio que no es expecializado ni académico se haga eco de una herramienta GPL y nos hable bien de ella es muy importante, aunque sólo sea para dar algo de publicidad.

Sinceramente
, desde mi punto de vista, se abre una oportunidad impresionante aquí en España, creo que la primera empresa que apueste por esta herramienta, que haga alianzas con los creadores y otras empresas extrangeras, que de un servicio de hot line, de consultoría de negocio y de sistemas, que de formación en el tema, vamos básicamente que escoja un modelo de negocio basado en software GPL se va a posicionar dentro del BI analítico de una manera muy firme, y una vez situada va a ser muy difícil sacarle.

Bueno pues esta ha sido mi presentación de R, ya iremos hablado y expandiendo conocimientos sobre esta herramienta y de otra muchas también.

7 comentarios:

Jesús Lagos dijo...

Acepto la propuesta. Intentaré echarle un vistazo y ver como puedo hacer cosas con variables espaciales.

Ya os comento.

Anónimo dijo...

Os recomiendo un árticulo de O'Reilly Shot Cut series que ilustra como con R se puede muy facilmente recuperar información a través de la web y representarla en forma de mapas con información geoestadística:
http://blog.revolution-computing.com/2009/06/data-mashups-in-r.html
http://oreilly.com/catalog/9780596804770/

Anónimo dijo...

Lo del New York Times podría explicarse porque su depertamento gráfico usa R
http://blog.revolution-computing.com/2009/06/nyt-charts-michael-jacksons-pop-hits.html

Francisco Ortega dijo...

Gracias por los comentarios, anónimo, tienes razón en el blog de Revolution hace ya tiempo se hicieron eco de la funcionalidad de R para análisis basados en datos espaciales, y creo recordar que hay un libro sobre el tema también, a ver si hago tiempo investigo un poco para ver si puedo colgar algo que pueda ser interesante...

Por cierto ¿quien eres? no conozco mucha gente que se interese por la minería de datos con software libre y menos que conozca la única empresa que da soporte a una modificación de R... tengo que reconocer que me tienes intrigado.

Ron Fredericks dijo...

Gracias por vincular a mi vídeo R - Yo también pensaba que el Facebook y Google Analytics con R fue un gran recordatorio de cuán poderosa herramienta que puede ser de análisis web.

Unknown dijo...

Hola soy el anónimo y me llamo Sergio Jiménez. Soy doctor en físicas y dedique el inicio de mi carrera a la investigación en física. Los últimos tres años he trabajado en una empresa cerca de donde tu trabajas que se dedica al desarrollo de software especializado y a la consultoría análitica desarrollando soluciones basadas en inteligencia artificial, simulacion, data mining, redes sociales etc. Ahora estamos desarrollando un nuevo proyecto con algunos ex-compañeros y uno de los sectores que nos gustaría trabajar es el geomarketing. Sigo atentamente vuestro blog y me parece muy interesante. Saludos

Francisco Ortega dijo...

No gracias a ti Ron, yo sólo soy un usuario de la herramienta, es gente como tú que divulga la que la hace crecer y que cada vez sea mejor.

Hola Sergio, pinta muy interesante a lo que te dedicas, si miras en el blog he estado presentando a empresas que se dedican al analítico dentro de España (Strands, Neo-metrics por ahora) y más en concreto las que hacen I+D ¿nos harías una presentación para colgarla en el blog de quien eres y de tú empresa explicando a que os dedicais? la verdad es que considero que puede ser muy interesante y sería una manera de que todos os conociéramos; si te animas contáctame al email:
PacoOrtegamorales@gmail.com