jueves 26 de noviembre de 2009

Data Mining - Canal Data Mining Youtube

De vez en cuando la red deja encontrar una pela, pues hoy ha sido uno de esos días; trasteando he encontrado un canal en youtube que trata sobre la minería de datos. Me los he estado mirando y hay un curso entero de minería impartido en el Google Campus del 2007, se llama Staditical Aspets of Data Mining (Stats 202) tiene 13 vídeos de poco menos de una hora, son los 13 primeros que podéis encontrar en el visor.

Os dejo debajo de estas líneas el reproductor con todos los vídeos. Echad les un vistazo que no tienen desperdicio.




lunes 23 de noviembre de 2009

Data Mining - Libro "Los numerati"


Hace tiempo ya que la manera de hacer negocios esta cambiando de manera radical, las empresas se están dando cuenta que no pueden tratar de manera adecuada a sus clientes sin tener un modelo basado en la experiencia previa, de esta prioridad deriva la necesidad de tener técnicos capaces de estudiar a nuestros clientes, construir modelos de contacto, preveer los cambios de los clientes,...

Esta nueva profesión es la que viene a presentarnos el libro "Los numerati", en un mundo donde la información que se tiene de las personas cada vez es más extensa y crece de manera exponencial los técnicos que sean capaz de analizarla, y utilizarla de manera útil serán cada vez más necesarios.

Esta capacidades permiten a la empresa o institución focalizar sus esfuerzos de una manera más productiva y eficiente. Por otro lado el consumidor lo tendrá más fácil y se sentirá más tenido en cuenta, pero, también está la otra cara de la moneda ¿utilizarán estas técnicas los gobiernos para ejecer control sobre nosotros? tenemos que ser conscientes que de aquí poco tiempo, si no ya, toda nuestra vida estará registrada, qué compramos, cuándo, dónde, qué nos gusta, qué miramos por internet....

El libro de Stephen Baker nos habla de una manera sencilla sobre la figura del analísta de datos, de como ha trabajado hasta ahora y que le depara un futuro centrado en el mundo de la red, tratando también temas de privacidad del consumidor y ética.

No me lo he podido leer todavía pero creo que es una léctura muy recomendable para cualquiera que se quiera acercar a este mundo.

jueves 19 de noviembre de 2009

Data Mining - Conferencia de mototres de recomendación

Hace unas semanas se realizó la "3rd ACM Conference on Recomender Systems", ya hemos hablado alguna vez sobre los sistemas de recomendación, y siempre es interesante que surjan simposios donde se discutan las nuevas tendencias, para que de esta manera se estandarice la tecnología.

Hasta aquí lo normal de una conferencia, pero lo que es remarcable es el hecho que Francisco Martín, CEO de Mystrands, diera una charla sobre su carrera, su empresa actual y diera unos consejos para la implantación de sistemas de recomendación, os dejo aquí un resumen sobre el tema:

  1. ¿Realmente lo necesitas? hay que tener claro que invertir en un motor de recomendación es un proyecto costos y necesitas de tener un tráfico en la web importante para que sea rentable.
  2. Las recomendaciones deben tener una visión estratégica del cliente, es decir, no siempre la recomendación con más portabilidad de compra es la mejor a largo plazo.
  3. Elige bien la herramienta y el proveedor del servicio, incluso si dispones de suficiente presupuesto plantéate el hacer una herramienta especifica para tus necesidades.
  4. No tener miedo al comienzo frío, hay que ser creativo a la hora de comenzar y no tener miedo de hacer prouestas inicial, en el peor de los casos el algoritmo irá mejorando las recomendaciones con el tiempo.
  5. Hay que tener en cuenta que el 70% del éxito está en la calidad de los datos y el 30% en el algoritmo. (esto es aplicable a cualquier modelo predictivo)
  6. La atención del cliente es nuestro bien más preciado, si que es complicado saber qué y cuando, pero no servirá si no tenemos una página que capte su atención.
  7. No intentes hacer perfiles de clientes, utiliza la información que tienes a tu disposición en la red (Facebook, Twitter,..)
  8. Escala cuanto antes mejor tu negocio.
  9. Elige tu sistema de puntuación con detenimiento, si lo modificas ten en cuenta que tus usuarios no repuntuarán todo lo hecho hasta el momento.
  10. Y como no, MIDELO TODO, que sea la respuesta de tus usuarios la que guíen durante el desarrollo.
A ver si entre todos conseguimos que más empresas sean punteras en temas de analítico a nivel internacional.

miércoles 18 de noviembre de 2009

Data Mining - No al tijeretazo

Sin más, me uno a esta iniciativa que surgió del blog "La aldea irreductible"

miércoles 11 de noviembre de 2009

Geomarketing - Los Globos de Enfinity

Hoy iba de camino a la oficina, en Alcorcón, para más señas, y sabía que hoy se iba a respirar un ambiente diferente, por aquello de la eliminación de la copa, pero lo que he respirado ha sido una sorpresa mayúscula, por lo menos para mí.

Hoy estaba inundada la zona anexa a las oficinas de globos con una marca "Enfinity" y los retrovisores de los coches con un colgante de la misma marca. Evidentemente lo primero que me he preguntado ha sido ¿quiénes son estos? Pues son una empresa de inversiones en energias renovables entre otras cosas.

Como siempre, la idea original. Me ha impactado ver un parque infantil lleno de globos, ahora bien, mi pregunta de siempre, valga la redundancia, ¿era ese el mejor lugar para tal propósito? Según su propia web esta empresa ofrece:

  • EXPERIENCIA: Enfinity es una multinacional belga, que desde su fundación en 2005 ha desarrollado una amplia experiencia internacional, teniendo más de 100 MW en proyectos en instalación.
  • GARANTÍA: Enfinity es garantía de instalaciones fotovoltaicas de calidad, estableciendo acuerdos sólo con fabricantes áltamente reconocidos a nivel mundial.
  • PROFESIONALIDAD: Proporcionamos todo lo necesario para la instalación “llave en mano” desde su diseño, hasta el montaje, puesta en marcha y mantenimiento. Nos adecuamos a las necesidades de cada cliente y combinamos la máxima productividad con una impecable calidad estética.
 Sin querer adentrarme en el mundo de la publicidad, me gustaria que alguien me descifrara cuales pueden ser los objetivos de una campaña de este tipo en una zona como esta porque como decía un feligrés de un bar valenciano "mi no entender".

Por cierto, tengo fotos, ahora solo falta que consiga bajarlas del móvil.

Saludos

Data Mining - Estudio BI Open y R

Me hago eco de la noticia que ha publicado un gran blog de BI, TodoBi.

En la entrada comentan un estudio de BI Open Source realizado por Mark Madesn. En la página de TodoBi tenéis el pdf completo el cual podéis descargar, no tiene desperdicio; pero yo sólo quería hacer mención al siguiente gráfico:


Se puede observar que la parte donde más crecimiento hay en Open Source es en la división de analítico; esto puede ser por inercia, me encontrado con más de un consultor de riesgo que se le ponen los pelos de punta cuando dices de hacer un score sin SAS, falta de técnicos cualificados, miedo al cambio entre otros; pero la conclusión que tengo en mente al ver el gráfico es que no es nada descabellado que en medio plazo más del 30% de las empresas tengan sus departamentos de analítico funcionando en software libre, que es lo que hay actualmente en sistemas de BBDD Open.

Pero lo más interesante ha sido que hace unos días leí en el blog de REvolution una entrada sobre la opinión de R de Steve Miller, nos comenta que a SAS le están creciendo los enanos, la existencia de REvolution, productos que copian la sintaxis de SAS (WPS, Carolina), pero lo que cree que le va ha hacer más daño a medio plazo es que ahora en las universidades ya se enseña R y no SAS; no puedo estar más deacuerdo en el punto donde nos explica que de aquí a unos 5 años R será la herramienta preferida para los nuevos estadísticos en el mundo empresarial.

LLevamos tiempo con vientos de cambio en todo lo relacionado con el software, y parece que ahora ya le toca al mundo analítico, y lo más interesante es que ahora es cuando ya no se discute en las organizaciones si es necesario hacer análisis, sino como se hacen y que nos cuesta hacerlos; en una situación como la actual, con una crisis acuciante, el open source no es visto como un un medio de apredizaje relegado a las universidades, sino como una opción más que valida para las organizaciones.

jueves 5 de noviembre de 2009

Geomarketing - Se busca consultor de geomarketing

Hola a todos,

En la parte derecha del blog tengo un RSS de Infojobs para puestos de trabajo en Geomarketing. Bueno, pues esta semana hay una oferta nueva en la empresa en la que trabajo. Se está buscando un consultor para el área de Geomarketing para las oficinas de Barcelona. El puesto es global, desde parte técnica hasta habilidades con clientes, gestión de proyectos, etc.

Si alguien se anima le dejo en link de la oferta para que se apunte:

http://www.infojobs.net/barcelona/consultor-geomarketing/of-i108210425328704705102504814323

saludos.

PD: Estoy un poco inactivo esta semana, pero es que estoy dando cursos de formación a todos nuestros clientes en Barcelona, y entre esto y los cierres de proyectos, no doy para más. Eso si, estoy preparando un post sobre un cierre de un supermercado como el de Gama pero de la cadena Carrefour que salió publicado en varios medios:

http://www.publico.es/dinero/266104/carrefour/cierra/tres/centros/bajos/niveles/ventas

Saludos

jueves 29 de octubre de 2009

Data Mining - Revolution Computing

Últimamente el mundo del software analítico está movidito , hace nada nos enterábamos que SPSS era comprada por IBM, también vimos un cambio muy importante en la estrategia de los proveedores de software permitiendo enlazar sus programas con software libre, en concreto R y Python. Por otro lado vemos que van apareciendo nuevas opciones en este entorno así como en la minería de datos; ya os hemos hablado de K-nime, de Clairo, R y más que con el tiempo iremos comentando. Pues hoy os traigo una nueva empresa centrada en la creación de una nueva herramienta en torno a R, esta se llama REvolution Computing.

Esta empresa nace con la intención de dar soporte a R desde un punto de vista de negocio, uno de los principales problemas que hay a la hora de adoptar una herramienta libre es a quien voy a reclamar si esta herramienta falla, no tiene una funcionalidad que necesito o necesito un curso de formación; pues esto es lo que hace REvolution, coge las distribuciones de R las optimiza y lanza una distribución propia del producto, para que os hagáis una idea, la distribución de REvolution ya permite la instalación en Windows Vista, es decir, soporta en Windows distribuciones de 64 Bits.

También se han centrado mucho en hacer R más eficiente, trabajando en la capacidad de funcionar el clusters y procesadores multinucleos; supliendo así la falta de rendimiento que tiene R en ciertos procesos iterativos. También están preparando un IDE más amigable que el original de R, para que os hagáis una idea de que pinta tiene os pego un pantallazo aquí;




Por otro lado es de agradecer la versión de libre descarga que tienen, es cierto que no tiene todas las funcionalidades, como el nuevo IDE o la posivilidad de instalar en sistemas windows de 64 Bits,pero de esta manera podemos hacernos una idea de que tal es el producto, y para continuar con la línea del software libre dentro de poco pondrán una distribución que funcinonará con Ubuntu.

En lo que respecta a la comunidad de R, no olvidemos que el código fuente de R es el núcleo de su producto, REvolution es esponsor de casi todas las conferencias sobre este software, como pro ejemplo UseR! o la DSC, aunque también está girando también al campo de la minería de datos, estando presente como esponsor en 2009 Silicon Valley Data Mining Camp.

Hasta aquí una empresa más que intenta hacerse un hueco en este mundillo, pero hace poco hubo movimiento y grandes, la empresa paso una nueva ronda de financiación donde consiguió 9 millones más de dolares y ha cambiado de CEO, ahora es Norman H. Nie, este personaje fué el creador de SPSS, y CEO de la campañía durante muchos años.

Parece que cada vez más la oferta de esta compañía está siendo tenida más en cuenta por el mercado, y un movimiento como este, que un peso pesado se una a sus filas creo que dará sus frutos más pronto que tarde, estaremos atentos.

viernes 16 de octubre de 2009

Data Mining - Primera conferencia hispana de R



Después de mucho tiempo predicando sobre las capacidades para análisis del software libre voy viendo que no ha sido en vano, incluso mi compañero de penurias blogueras, Jesús, ha sucumbido a las capacidades de R, ver para creer.

Hoy os traigo la gran noticia de que está a punto de celebrarse la "I Conferencia Hispana R-Project", un hito que desembocará en la creación de un grupo de usuarios de R en castellano, a demás de la potenciación de la traducción del programa así como la creación de grupos de trabajo hispano hablantes.

Este envento se desarroyará en la Universidad de Murcia, facultad de informatica, entre los días 26 y 27 de noviembre, os dejo el enlace aquí.

Se que casi nadie que no sea del mundo académico se desplazará para asistir pero trasteando por su web he podido ver que también transmitiran por streaming la conferencia, a ver si hay suerte y la podemos ver desde nuestra casita, o mejor, cuelgan los vídeos para descarga.

También he encontrado en su página 2 vídeos con una introducción sobre R, vídeo 1 y vídeo 2.

jueves 15 de octubre de 2009

Data Mining - Elements of stadistical learning

Hoy, de casualidad, me he enterado que el libro "Elements of stadistical learning (Data Mining, Inference and Prediction)" esta para descargárselo gratuitamente.

Este libro es de obligada lectura para cualquier minero, es bastante duro, ya que trata los algoritmos y técnicas desde el punto de vista matemático, pero una vez has hecho el esfuerzo de entenderlo no habrá técnica que te sea opaca.

También comentar que es uno de los típicos libros que está como bibliografía en gran cantidad de masters y cursos, a demás los autores Trevor Hastie, Robert Tibshirani y Jerome Friedman son de los "grandes" en este campo; por ejemplo Fiedman descubrió al mismo tiempo que Ross Quilan los modelos en árboles, ahí es nada.

Otro punto a tener en cuenta es que en Amazon cuesta 69,56$... sin contar portes desde EEUU, así que no hay escusa para no echarle un vistazo, aunque sólo sea porque es gratis.

Ya me diréis que os parece.

martes 13 de octubre de 2009

Geomarketing y Data Minning

Un tema muy interesante, y que nos une a los profesionales del GIS y del Data Minning, es la posibilidad de integrar plataformas de ambas tecnologías.

Francisco Ortega nos ha ido presentando diferentes alternativas, como K-Mine o R, ambas de software libre, con una potencialidad muy elevada, lo que ha hecho que diferentes empresas se empiecen a plantear la posibilidad de usar estas herramientas en detrimento de las comerciales como Clementine.

Pues hoy leyendo el foro de Gabriel Ortiz, del cual soy asiduo lector, me he encontrado con un nuevo grupo, GIS&Chips, con un interés común: el desarrollo de y con software libre en el ámbito de las tecnologías de la información geográfica.

He estado leyendo su web, y tienen posts muy buenos relacionados con:
  • Análisis de Redes: Uno de los inconvenientes más importantes que se tienen a la hora de afrontar el análisis de redes no es la tecnología, si no más bien, las propias redes. Estamos habituados a trabajar con NavTeq o TeleAtlas, pero ellos han conseguido trabajar con OpenStreetMap. Muy, pero que muy interesante, más que nada porque OSM sigue creciendo de manera exponencial.
  • Integración de R con PostGres: Su propio nombre lo indica, y no hay que olvidar que PostGres tiene una extensión PostGIS, por lo que podemos enlazar muy comodamente los modelos de R con nuestras aplicaciones de Geomarketing.
Mi más sincera enhorabuena a la gente de GIS&Chips

Geomarketing - Feria de la Franquicia en Valencia



Esta semana, del 15 al 17 de octubre, se celebra en Valencia el Salón Internacional de las Franquicias (SIF&CO) .

El día 15 de octubre, a las 12:15h., dentro del Aula de la Franquicia habrá una charla sobre el Geomarketing y la franquicia, a cargo de D. Enrique Barrera, llamada "Analizando el mercado de apertura. Informes Geoestadísticos para nuevos franquiciados".

Yo estaré los días 16 y 17 en Valencia conjuntamente con Mundofranquicia Consulting dando apoyo a los visitantes para ver la potencialidad del geomarketing para las franquicias, franquiciadores y franquiciados y realizando demos in situ.

Saludos

Data Mining - IBM compra SPSS, ya no hay vuelta atrás

Bueno como ya comentamos en un post anterior, IBM se preparaba para comprar a SPSS y de esta manera incluir a un lider en el análisis de datos dentro de su oferta de Business Inteligent, pues ya es totalmente en firme, os dejo aquí el enlace que me ha llegado desde soporte de SPSS.

Tendremos que estar atentos en como afectará este hecho a nuestra querida herramienta Clementine, ya iremos informando.

jueves 1 de octubre de 2009

Data Mining - Knime

Bueno por fin estoy de nuevo por aquí, hoy os presentaré una nueva aplicación de software libre que promete convertirse con el tiempo en una de opciones más interesantes a la hora de hacer nuestros proyectos, esta se llama KNIME.

Esta herramienta utiliza una interficie muy parecida a Clementine y no sólo para ayudarnos a la hora de hacer análisis con los datos, sino que también nos permite tratar datos, es decir, podemos crear procesos de ETL dentro del mismo entorno en el cual hacemos análisis; esto hace que, desde mi punto de vista, esta herramienta sea la más accesible para el neófito dentro del mundo GPL.

Otro punto muy interesante es que está programada en JAVA, osea que es independiente de plataforma, es decir, que corre igual en Windows, Linux o Mac.

Bueno pero dejemos la teoría y veamos que pinta tiene un proceso de esta herramienta, justo debajo de estas líneas tenéis uno de los procesos más clásicos de cualquier herramienta de minería de datos, el entreno de un árbol de decisión así como su explotación.

Sinceramente a mi me recuerda a una mezcla entre Weka y Clementiene... Si queréis ver la herramienta en funcionamiento tenéis un par de vídeos aquí.

Pero lo mejor de todo es que esta herramienta a partir de ampliaciones permite ejecutar script's de R, incluidos gráficos, y también permite ejecutar gran cantidad de algoritmos importados de Weka, a demás de permitir crear tu propios nodos, siempre y cuando te veas con corazón de desarrollarlos. Esta capacidad de tener unas API's generalistas que permiten a los usuarios diseñar sus propios procesos es una capacidad muy a tener en cuenta, ya que hará que la herramienta crezca con el soporte de los usuarios, incluso ya hay empresas que desarrollan sus propios nodos.

La capacidad de agrupar otras herramientas GPL que no tienen buenas capacidades de "movimiento de datos" (recordamos que R tiene problemas para tratar grandes volúmenes de datos y a Weka le pasa exactamente igual) dentro de un entorno gráfico amigable, capaz de hacer procesos ETL de manera eficiente y llamar a herramientas de modelización justo en el punto que se necesita es un grandísimo acierto. Otro punto donde han dado en el clavo es que tiene capacidad de guardar los modelos en PMML, por lo tanto podemos crear nuestros modelos Knime y explotarlos con cualquier herramienta que sea capaz de importar PMML, o al reves, podemos crear nuestros modelos con otra herramienta y explotarlos en KNIME.

Por último decir que el software es gratuito, aunque hace unos meses pusieron a la venta un servicio de soporte por unos 2000€ anuales para un único usuario, irrisorio si lo comparamos con cualquier mantenimiento de otra herramienta privativa.

Sicéramente intuyo que esta herramienta va a dar mucha guerra en un futuro a medio plazo, el modelo de negocio de permitir que cualquiera desarrolle sobre su plataforma pero que el soporte se pague a parte es un clásico dentro del mundo GPL, y ya hay muchas empresas que han conseguido su nicho de mercado como Red Had o Suse con este tipo de modelo y no me extrañaría nada que Knime consiguiera introducirse en el mercado totalmente dualizado entre SAS y SPSS haciendo que las cosas cambien.

martes 22 de septiembre de 2009

Geomarketing - Otro blog de geomarketing interesante


Dicen que si no apareces en la red es que como si no existieras, y algo parecido ocurre con las ciencias. Sobre Geomarketing se publica muy poco, y cuando algo aparece es muy importante darlo a conocer.

Pues hoy he encontrado otro blog que habla exclusivamente de Geomarketing, y es más que importante, porque habla claramente del auge y empuje que tiene el Geomarketing. El blog es de Fernando Pérez-Vigo, lector de este blog, y director de consultoria de la empresa DatacomCRM. El blog en concreto se llama PRISMAP y recibe el nombre de una aplicación desarrollada por el autor para estudios de geomarketing, centrado en publicidad exterior, y lo que me parece más importante, en GvSIG!!!!

En este post comenta la nueva aplicación PRISMAP. Os pongo una imagen linkada desde su blog

Enhorabuena por este gran blog, y ánimos, cuanto más seamos mejor!!!!