Curso recomendado

jueves, 29 de octubre de 2009

Data Mining - Revolution Computing

Últimamente el mundo del software analítico está movidito , hace nada nos enterábamos que SPSS era comprada por IBM, también vimos un cambio muy importante en la estrategia de los proveedores de software permitiendo enlazar sus programas con software libre, en concreto R y Python. Por otro lado vemos que van apareciendo nuevas opciones en este entorno así como en la minería de datos; ya os hemos hablado de K-nime, de Clairo, R y más que con el tiempo iremos comentando. Pues hoy os traigo una nueva empresa centrada en la creación de una nueva herramienta en torno a R, esta se llama REvolution Computing.

Esta empresa nace con la intención de dar soporte a R desde un punto de vista de negocio, uno de los principales problemas que hay a la hora de adoptar una herramienta libre es a quien voy a reclamar si esta herramienta falla, no tiene una funcionalidad que necesito o necesito un curso de formación; pues esto es lo que hace REvolution, coge las distribuciones de R las optimiza y lanza una distribución propia del producto, para que os hagáis una idea, la distribución de REvolution ya permite la instalación en Windows Vista, es decir, soporta en Windows distribuciones de 64 Bits.

También se han centrado mucho en hacer R más eficiente, trabajando en la capacidad de funcionar el clusters y procesadores multinucleos; supliendo así la falta de rendimiento que tiene R en ciertos procesos iterativos. También están preparando un IDE más amigable que el original de R, para que os hagáis una idea de que pinta tiene os pego un pantallazo aquí;




Por otro lado es de agradecer la versión de libre descarga que tienen, es cierto que no tiene todas las funcionalidades, como el nuevo IDE o la posivilidad de instalar en sistemas windows de 64 Bits,pero de esta manera podemos hacernos una idea de que tal es el producto, y para continuar con la línea del software libre dentro de poco pondrán una distribución que funcinonará con Ubuntu.

En lo que respecta a la comunidad de R, no olvidemos que el código fuente de R es el núcleo de su producto, REvolution es esponsor de casi todas las conferencias sobre este software, como pro ejemplo UseR! o la DSC, aunque también está girando también al campo de la minería de datos, estando presente como esponsor en 2009 Silicon Valley Data Mining Camp.

Hasta aquí una empresa más que intenta hacerse un hueco en este mundillo, pero hace poco hubo movimiento y grandes, la empresa paso una nueva ronda de financiación donde consiguió 9 millones más de dolares y ha cambiado de CEO, ahora es Norman H. Nie, este personaje fué el creador de SPSS, y CEO de la campañía durante muchos años.

Parece que cada vez más la oferta de esta compañía está siendo tenida más en cuenta por el mercado, y un movimiento como este, que un peso pesado se una a sus filas creo que dará sus frutos más pronto que tarde, estaremos atentos.

viernes, 16 de octubre de 2009

Data Mining - Primera conferencia hispana de R



Después de mucho tiempo predicando sobre las capacidades para análisis del software libre voy viendo que no ha sido en vano, incluso mi compañero de penurias blogueras, Jesús, ha sucumbido a las capacidades de R, ver para creer.

Hoy os traigo la gran noticia de que está a punto de celebrarse la "I Conferencia Hispana R-Project", un hito que desembocará en la creación de un grupo de usuarios de R en castellano, a demás de la potenciación de la traducción del programa así como la creación de grupos de trabajo hispano hablantes.

Este envento se desarroyará en la Universidad de Murcia, facultad de informatica, entre los días 26 y 27 de noviembre, os dejo el enlace aquí.

Se que casi nadie que no sea del mundo académico se desplazará para asistir pero trasteando por su web he podido ver que también transmitiran por streaming la conferencia, a ver si hay suerte y la podemos ver desde nuestra casita, o mejor, cuelgan los vídeos para descarga.

También he encontrado en su página 2 vídeos con una introducción sobre R, vídeo 1 y vídeo 2.

jueves, 15 de octubre de 2009

Data Mining - Elements of stadistical learning

Hoy, de casualidad, me he enterado que el libro "Elements of stadistical learning (Data Mining, Inference and Prediction)" esta para descargárselo gratuitamente.

Este libro es de obligada lectura para cualquier minero, es bastante duro, ya que trata los algoritmos y técnicas desde el punto de vista matemático, pero una vez has hecho el esfuerzo de entenderlo no habrá técnica que te sea opaca.

También comentar que es uno de los típicos libros que está como bibliografía en gran cantidad de masters y cursos, a demás los autores Trevor Hastie, Robert Tibshirani y Jerome Friedman son de los "grandes" en este campo; por ejemplo Fiedman descubrió al mismo tiempo que Ross Quilan los modelos en árboles, ahí es nada.

Otro punto a tener en cuenta es que en Amazon cuesta 69,56$... sin contar portes desde EEUU, así que no hay escusa para no echarle un vistazo, aunque sólo sea porque es gratis.

Ya me diréis que os parece.

martes, 13 de octubre de 2009

Geomarketing y Data Minning

Un tema muy interesante, y que nos une a los profesionales del GIS y del Data Minning, es la posibilidad de integrar plataformas de ambas tecnologías.

Francisco Ortega nos ha ido presentando diferentes alternativas, como K-Mine o R, ambas de software libre, con una potencialidad muy elevada, lo que ha hecho que diferentes empresas se empiecen a plantear la posibilidad de usar estas herramientas en detrimento de las comerciales como Clementine.

Pues hoy leyendo el foro de Gabriel Ortiz, del cual soy asiduo lector, me he encontrado con un nuevo grupo, GIS&Chips, con un interés común: el desarrollo de y con software libre en el ámbito de las tecnologías de la información geográfica.

He estado leyendo su web, y tienen posts muy buenos relacionados con:
  • Análisis de Redes: Uno de los inconvenientes más importantes que se tienen a la hora de afrontar el análisis de redes no es la tecnología, si no más bien, las propias redes. Estamos habituados a trabajar con NavTeq o TeleAtlas, pero ellos han conseguido trabajar con OpenStreetMap. Muy, pero que muy interesante, más que nada porque OSM sigue creciendo de manera exponencial.
  • Integración de R con PostGres: Su propio nombre lo indica, y no hay que olvidar que PostGres tiene una extensión PostGIS, por lo que podemos enlazar muy comodamente los modelos de R con nuestras aplicaciones de Geomarketing.
Mi más sincera enhorabuena a la gente de GIS&Chips

Geomarketing - Feria de la Franquicia en Valencia



Esta semana, del 15 al 17 de octubre, se celebra en Valencia el Salón Internacional de las Franquicias (SIF&CO) .

El día 15 de octubre, a las 12:15h., dentro del Aula de la Franquicia habrá una charla sobre el Geomarketing y la franquicia, a cargo de D. Enrique Barrera, llamada "Analizando el mercado de apertura. Informes Geoestadísticos para nuevos franquiciados".

Yo estaré los días 16 y 17 en Valencia conjuntamente con Mundofranquicia Consulting dando apoyo a los visitantes para ver la potencialidad del geomarketing para las franquicias, franquiciadores y franquiciados y realizando demos in situ.

Saludos

Data Mining - IBM compra SPSS, ya no hay vuelta atrás

Bueno como ya comentamos en un post anterior, IBM se preparaba para comprar a SPSS y de esta manera incluir a un lider en el análisis de datos dentro de su oferta de Business Inteligent, pues ya es totalmente en firme, os dejo aquí el enlace que me ha llegado desde soporte de SPSS.

Tendremos que estar atentos en como afectará este hecho a nuestra querida herramienta Clementine, ya iremos informando.

jueves, 1 de octubre de 2009

Data Mining - Knime

Bueno por fin estoy de nuevo por aquí, hoy os presentaré una nueva aplicación de software libre que promete convertirse con el tiempo en una de opciones más interesantes a la hora de hacer nuestros proyectos, esta se llama KNIME.

Esta herramienta utiliza una interficie muy parecida a Clementine y no sólo para ayudarnos a la hora de hacer análisis con los datos, sino que también nos permite tratar datos, es decir, podemos crear procesos de ETL dentro del mismo entorno en el cual hacemos análisis; esto hace que, desde mi punto de vista, esta herramienta sea la más accesible para el neófito dentro del mundo GPL.

Otro punto muy interesante es que está programada en JAVA, osea que es independiente de plataforma, es decir, que corre igual en Windows, Linux o Mac.

Bueno pero dejemos la teoría y veamos que pinta tiene un proceso de esta herramienta, justo debajo de estas líneas tenéis uno de los procesos más clásicos de cualquier herramienta de minería de datos, el entreno de un árbol de decisión así como su explotación.

Sinceramente a mi me recuerda a una mezcla entre Weka y Clementiene... Si queréis ver la herramienta en funcionamiento tenéis un par de vídeos aquí.

Pero lo mejor de todo es que esta herramienta a partir de ampliaciones permite ejecutar script's de R, incluidos gráficos, y también permite ejecutar gran cantidad de algoritmos importados de Weka, a demás de permitir crear tu propios nodos, siempre y cuando te veas con corazón de desarrollarlos. Esta capacidad de tener unas API's generalistas que permiten a los usuarios diseñar sus propios procesos es una capacidad muy a tener en cuenta, ya que hará que la herramienta crezca con el soporte de los usuarios, incluso ya hay empresas que desarrollan sus propios nodos.

La capacidad de agrupar otras herramientas GPL que no tienen buenas capacidades de "movimiento de datos" (recordamos que R tiene problemas para tratar grandes volúmenes de datos y a Weka le pasa exactamente igual) dentro de un entorno gráfico amigable, capaz de hacer procesos ETL de manera eficiente y llamar a herramientas de modelización justo en el punto que se necesita es un grandísimo acierto. Otro punto donde han dado en el clavo es que tiene capacidad de guardar los modelos en PMML, por lo tanto podemos crear nuestros modelos Knime y explotarlos con cualquier herramienta que sea capaz de importar PMML, o al reves, podemos crear nuestros modelos con otra herramienta y explotarlos en KNIME.

Por último decir que el software es gratuito, aunque hace unos meses pusieron a la venta un servicio de soporte por unos 2000€ anuales para un único usuario, irrisorio si lo comparamos con cualquier mantenimiento de otra herramienta privativa.

Sicéramente intuyo que esta herramienta va a dar mucha guerra en un futuro a medio plazo, el modelo de negocio de permitir que cualquiera desarrolle sobre su plataforma pero que el soporte se pague a parte es un clásico dentro del mundo GPL, y ya hay muchas empresas que han conseguido su nicho de mercado como Red Had o Suse con este tipo de modelo y no me extrañaría nada que Knime consiguiera introducirse en el mercado totalmente dualizado entre SAS y SPSS haciendo que las cosas cambien.