Curso recomendado

miércoles, 1 de diciembre de 2010

Data Mining - Cosas que tienes que conocer en el 2011 segun Forbes, R.

Hola a todos;

hoy os adjunto un interesante articulo de la revista Forbes de algo que hemos estado intentado avisar a la comunidad de analístas de datos, que R será, o mejor dicho es, una técnología disruptiva la cual cambiará el equilibrio que hay entre las diferentes herramientas de análisis de datos.

Toca puntos que ya hemos comentado, como por ejemplo que Facebook utiliza R para sus análisis o
que R está sustituyendo al software propietario en las empresas y que por lo tanto se está creando una masa de técnicos que ya lo conocerán por defecto, entre otros puntos.

Un punto que no trata y que creo que es muy importante para la estandarización de la herramienta, y que hace que no sólo sea utilizada por Nerds, es la facilidad de uso. Todos sabemos que por muy pontente que sea algo si no es fácil utilizarlo se encontrará con grandes reticencias en su implantación, y es en este campo donde R está dando pasos increibles, con Red-R o sus intefaces con Knime o Rapid Miner.

Señores el futuro llama a nuestra puerta, ¿seremos capaces de seguirle el paso?

4 comentarios:

Jesús Lagos dijo...

Yo ya estoy un poco harto, así que ya he empezado a descargar knime y voy a trabajar este tema por mi cuenta. Data mining ven a mi.

gracias Paco por este interesantísimo post.

Francisco Ortega dijo...

Bueno ya hemos evangelizado a uno... La verdad es que hay muchas herramientas libres que permiten hacer de todo, ahora estoy intentando aprender kettle, como ya sabes una herramienta de ETL, y la verdad muy contento, ayuda muchísimo cuando quieres trastear con datos, echale un vistazo y mirate los manuales que venden en amazon, no será tiempo perdido.

Piotr Nabobda dijo...

Creo que tienes bastante razón, pero a R aún le falta:

--Empresas punteras que lo apoyen (y no me refiero a empresas cuyo negocio esté en INternet) como Telefónica, Vodafone, Endesa, etc.

--Una masa crítica de consultoras que puedan implantarlo.

--Solucionar de una vez el trabajo con grandes masas de datos.

--Un interfaz robusto y amigable (aquí se ven cosas prometedoras)

Francisco Ortega dijo...

Ante todo darte la bien venida al blog, espero verte por aquí con asiduidad contestando un poco a tus inquietudes.

En españa nadie arriesga con el software, eso si, tengo noticias que telefónica, dentro de un departamento de I+D+i, y algunos bancos ya trabajan con R; en lo que respecta a consultoras everis ya lo hace entre otras, también puedes pasarte por datanalytics y veras como trabaja Carlos.

En lo del interface yo sólo me quejo de lo complicado que es depurar código C que enlazas con R; ten en cuenta que su mayor virtud es que es un lenguaje de programación... si simplicamos esto lo dejaremos cojo, aunque hay soluciones como Red-R que ayudan mucho al usuario básico.

En lo que si te doy la razón es en el tema del problema de la memoria para tratar grandes volumenes de datos; pero bueno, nada que no se pueda solucionar tratando con una muestra representativa y hay que recordar que R se enlaza bien con cualquier BBDD. En relación con esto también tenemos que recordar que hay herramientas increibles dentro del ETL como Kettle, y también hay que tener en cuenta que Knime no tiene límite de ficheros a la hora de trabajar y se puede enlazar con R.