Curso recomendado

sábado, 27 de junio de 2009

Data Mining - Ve la luz PMML 4


PMML es el standart de la industria de la minería de datos para poder trasladar modelos de una herramienta a la otra, es decir, este leguaje, que no deja de ser un XML, permite crear un modelo con SAS y luego explotarlo con Clementien por ejemplo.

Esto también permite que existan herramientas que no están pensadas para la minería de datos puedan explotar los modelos, por ejemplo, muchas de las bases de datos comerciales, como Oracle o Teradata, pueden crear modelos de minería, estaréis de acuerdo conmigo que no son las mejores herramientas para esto, ya que no tienen un interface amigable para ello a demás de sufrir una falta de capacidades para la visualización de la información, pero por otro lado tienen la capacidad de cargar modelos en PMML y de explotarlos.

Si se hace así se desvincula la explotación de los modelos con respecto a la herramienta de modelización, todos sabemos que las herramientas de minería no son especialmente baratas, y si sumamos que los motores de la bases de datos son mucho más rápidos a la hora de explotar que los de las herramientas de modelización tendremos una solución muy válida.

Hay que tener en cuenta que este lenguaje sólo permite migrar los modelos, no se puede migrar de esta manera todo el tratamiento de datos anterior a la modelización, cosa que tenemos que tener en cuenta a la hora de poner el modelo en explotación.

Con el tiempo este estandart ha ido ganando relevancia y cada vez más empresas le dan soporte, entre ellas SAS, Clementine, IBM, Salford Systems, Microstrategy... y dentro del movimiento GPL que yo conozca lo soportan R y Kmine.

A demás de mejoras generales en la v4 las novedades más importantes de esta versión son:

  • Mejoras en las capacidades de preproceso
  • Inclusión de modelos de series temporales
  • Inclusión de información sobre la construcción del modelo (Curva de ROC, estadísticas...)
  • Capacidad de definir modelos múltiples

Os dejo aquí el enlace a la sociedad que mantiene y diseña el PMML.

miércoles, 24 de junio de 2009

Geomarketing - Tipologías comportamentales para el geomarketing

¿qué son las tipologías?

No son más que la clasificación por diferentes variables tanto de personas, hogares , portales o áreas.

Como ya hemos dicho muchas veces, hablar de geomarketing implica hablar de análisis, y por tanto de variables geográficas a analizar. Por ejemplo, analizar nuestros clientes y su distribución, y si dicha distribución responde a patrones establecidos, lo que finalmente nos permitirá tomar medidas o modelizar futuras acciones.

Pero, ¿cómo puede ayudarnos la ubicación de nuestros clientes para buscar futuros? La ubicación de un cliente nos permite conocer a través de tipologías comportamentales el perfil del mismo, lo que cruzando con nuestra información de negocio nos puede permitir conocer sus necesidades, y por tanto tener una política pro-activa hacía los mismos (como le encanta a los departamentos de marketing esta palabra por Dios).

¿qué es importante saber de unas tipologías?
  1. El nivel de desagregación: ¿a nivel de sección censal?¿tramo de calle?¿a portal?Si optamos por la sección censal estaremos dando a más del 70% de los municipios una única tipología, mientras que si optamos por tipologías a nivel de tramo estaremos obviando los diferentes edificios que existen dentro de un tramo. Evidentemente el error cometido a nivel de portal (de 1 a 50 hogares) es mucho menor que en una sección censal con unos 400 hogares aprox. Es importante saber hasta donde queremos llegar para escoger los niveles que más nos interesan.
  2. Calidad de la asignación. Las tipologías se asignan según el nivel geográfico disponible (punto anterior) por lo que es necesario contar con normalizadores que permitan llegar a asignar a un registro la sección censal, el tramo o el portal en su defecto.

¿para qué pueden servir?
  • Conocer tu cartera de clientes y ver si hay patrones comunes en ellos, como el entorno donde viven, su capacidad económica, etc...
  • Clonación de clientes en listas de potenciales o frias, si sabemos que nuestros clientes corresponden a una serie de tipologías podemos buscar potenciales con las mismas tipologías.
  • Mejorar los procesos analíticos, como la creación de clusters para los modelos a partir de las tipologías.
  • Potenciar las técnicas de geomarketing para el análisis
  • Optimizar acciones, por ejemplo hacer buzoneos en aquellas zonas que correspondan a ciertas tipologías.
  • etc.
¿qué tipologías existen en el mercado?
Pues hay muchas, pero me quedo con estas cuatro. Evidentemente la primera es con la que habitualmente trabajo, pero os dejo otras tres opciones para que podáis elegir. Si me permitís un pequeño guiño hacía las que uso decir que son, creo que son, las únicas que asignar tipologías a nivel de portal.
¿existe algún otro tipo de tipología?

Sí, hemos hablado por encima de las tipologías comportamentales, pero también se puede asignar un "comportamiento" a las zonas, es decir, saber como actua una zona, un área, o una sección censal en términos turísticos, de comunicación, ocio, etc... Pero esto para otro post.

Y ahora me vuelvo a ver la segunda parte del partido, que pertenezco a la tipologia "me gusta el fútbol con una cerveza".

lunes, 22 de junio de 2009

Data Mining - Novedades de Clementine 13

En esta nueva versión de clementine nos encontramos que se ha incluido un algoritmo que echaba mucho en falta, K-Nearest Neighbor, algoritmo clásico y bastante sencillo que muchas veces se utiliza para rellenar valores nulos durante el preproceso; pero, sin lugar a dudas, lo más importante de esta versión es la capacidad de poner notas en los streams.

Esta pequeña funcionalidad es una reivindicación que muchas personas me han comentado que echaban a faltar, por qué no nos engañemos, Clementine no es una de la herramientas más utilizadas en Minería de Datos por sus algoritmos, velocidad o precisión sino por haber acercado el análisis de datos a un público más global y mejorado la productividad debido a su amigable interface y al poder realizar en un mismo entorno el análisis de datos, el proceso ETL y la modelización, podríamos decir que ha sido el Windows de la Minería de datos.

Con esta funcionalidad será mucho más sencillo documentar procesos, os dejo aquí un enlace con un video de esta funcionalidad en uso y aquí página con la lista completa de mejoras de esta versión.

Por último comentar que ha habido un cambio global en la nomenclatura de los productos de SPSS, a partir de ahora Clementine se llamará PASW Modeler… con lo bonito que era Clementine…

martes, 16 de junio de 2009

Data Mining - R gana la KDD Cup

La KDD Cup es la competición abierta de minería de datos más famosa y reconocida de todo el mundo; hace una convocatoria anual desde el 1997, y cada año plantea un problema a resolver diferente, algunos de los tratados son motores de recomendación, reconocimiento de cáncer en imágenes, minería de redes…

El reto de este año se centra en los clásicos problemas de CRM de cualquier empresa, modelizar la fuga, el up-selling y el cross-selling, ya sea con un modelo o una agrupación de ellos, donde los datos han sido cedidos por una empresa de telefonía.

Hay 2 dataset’s para trabajar, uno “pequeño” de 230 variables y uno grande de 15000 variables, contienen 50000 registros cada uno.

Este año hay 2 desafíos, uno rápido que en 5 días tienes que dar modelos para el dataset de 15000 variables y uno lento en el cual te puedes presentar tratando el dataset pequeño o el grande y en el que tienes un mes de tiempo. Se puede utilizar cualquier tipo de software ya sea libre o privativo, genérico o desarrollado en concreto para el desafío…

Hasta aquí lo normal de cada año, pero este ha sido diferente, han ganado el desafío lento tratando el dataset grande utilizando R, un programa de software libre de análisis estadístico del que estoy enamorado desde mis tiempos de universidad y del cual ya os iré hablando.

Para mí es una gran noticia, ya que viene a demostrar algo de lo cual ya estaba convencido desde hace tiempo, que con R y buenos técnicos puedes realizar cualquier análisis con un resultado igual que con SAS Enterprise Miner, SPSS Clementine o cualquier otro software privativo, y en según que casos incluso mejores.

Os dejo aquí el enlace del grupo que ha ganado el desafío.

La lastima de esta competición es que los códigos de los modelos presentados no son publicados, sería muy interesante ver como han conseguido este hito.

¿Álguien se anima a presentarse con nosotros el año que viene?

lunes, 15 de junio de 2009

Geomarketing - Noticia sobre Bernardo Hernández

El pasado día 5 de junio apareció en el diario CincoDias una noticia interesantísima. El Director Mundia de Geomarketing de Google, Bernardo Hernández, ha sido nombrado Director Mundial de Marketing de Producto.

Desde el blog de GeomarketingSpain darle la enhorabuena y que no pare!

domingo, 14 de junio de 2009

Geomarketing - noticias Interesantes sobre software y libros

Hola, voy a comentar varios temas en un único post, que el tiempo apremia...

Software
Ha salido un nuevo software por parte de Eptisa y ESRI. Se llama CensalView 2008 y que como ellos mismos definen en "producto de información geográfica-estadística". Básicamente son las secciones censales de toda España ajustadas con cartografía navteq con la información asociada del padrón 2008. Se distribuye con un mxd y una geodatabase, y es posible bajar una demo para la versión ArcGIS 9.3.1 (hemos probado con la 9.3 y no funcionaba)

Libro
En el grupo de LinkedIn "The world of geomarketing - Spain" (me gusta el nombre no sé por qué) que lleva Néstor Sastre Alvárez, se ha dado la noticia de la próxima aparación de un libro de Geomarketing de Antonio Moreno. Néstor Sastre ha podido echarle un primer vistazo y estas son sus primeras impresiones:

"Retomando el capítulo del libro os comentaré que básicamente se trata de un libro metodológico pero interesante desde el punto de vista aplicativo. Contiene una serie de capítulos sobre analisis exploratorios y espaciales enfocados al sector educativo pero que bien pueden aplicarse a otro tipo de sectores con componente espacial similar, estoy pensando en sector retail para negocios, u otro tipo de equipamientos públicos basados en localizaciones puntuales, radio de acción y población como objetivo. Los ejemplos mostrados pertenecen a Argentina (colaboración hispano-argentina) pero que bien puede aplicarse a otro país. Debo resaltar el último capítulo que creo que es el que más merece la atención como novedad aplicativa. La utilización de flowmap a partir de datos SHP. Un software que posee varios algoritmos (relocalización, expansión, reducción..) y modelos espaciales (cobertura, minimax, P-mediano..) útiles como alternativa de estudio a otros programas. Merece la pena leer como importan, exportan y analizan datos con este programas y las conclusiones que derivan. Os dejo el índice del libro indice: 1.- Los servicios colectivos y el desarollo territorial:una consideración conceptual y metodológica actual. 2.- Análisis exploratorio de datos espaciales educativos: aplicación a la ciudad de Luján. 3.- Análisis socioespacial de las regiones educativas en la provincia de Buenos Aires 4. Metodología para la determinación del ámbito espacial de ubicación de establecimientos educativos: Partido de Lujan 5.- Ranking de escuelas a partir del uso de indicadores de planificación: Escuelas de EGB en la ciudad de Luján. 6.- Modelos de localización-asignación aplicados a servicios públicos urbanos. Análisis espacial de escuelas EGB en la ciudad de Luján. 7.- Resolución de problemas de localización óptima de equipamientos con Flowmap"

Respecto al tema de libros en próximas fechas os comentaré una buena noticia.


Alianza Blom-Schober (nota de prensa)

Mediante esta nueva colaboración, Schober ofrecerá a sus clientes un servicio de gran valor añadido con imágenes reales que permitirá, entre otros, guiar al usuario con indicaciones reales: gire izq, gire dcha, etc; dar información con mediciones sobre la foto: uso de herramientas de medición; envío de MMS al usuario con plano real de ubicación. Para ello, y bajo unos niveles de garantía muy elevados, Blom suministrará imágenes urbanas a través de BlomURBEX, plataforma diseñada para proporcionar contenido y servicios únicos vía web, basados en imágenes reales de alta resolución, incluyendo perspectivas oblicuas.

Asimismo, algunas de las ventajas que BlomURBEX aporta son la accesibilidad desde cualquier tipo de dispositivo; la posibilidad de activación/desactivación de las capas; posibilidad de consulta de toda la información asociada al POI; visualizable sobre todos los modelos de datos Urbex.

Además, la base de datos de POIs de Schober así como la información de valor añadido, se incluirá también en BlomURBEX, por lo que Blom podrá ofrecer esta capa de servicio al resto de sus clientes.

Las imágenes de BlomURBEX han sido tomadas por una flota de aviones y helicópteros que incorporan láseres de alta tecnología, scanners multiespectro y cámaras para captar ortofotos e imágenes oblicuas. Gracias a ello, se han conseguido imágenes altamente detalladas de miles de zonas españolas y europeas, urbanas y rurales.




lunes, 8 de junio de 2009

Geomarketing - Nueva Incorporación Data Minning

Hola a todos,

Ya he vuelto de mis vacaciones y vuelvo con una noticia muy interesante para todos los lectores y en especial para aquellos que me planteaban dudas y cuestiones relativas al análisis de datos geográficos.

Siempre he defendido que el geomarketing tiene que llevar asociado el análisis de las variables para poder modelizar y predecir, lo que nos lleva directamente al data minning. Por desgracia mis conocimientos de data minning están en progreso pero son en muchos casos insuficientes para poder contestar algunas de vuestras dudas. Por ello me planteé la posibilidad de incorporar a un experto en la materia en el blog, para que posteara temas de actualidad y resolviera las dudas planteadas.

Aunque el blog continue siendo de temática de geomarketing en general, se abre una nueva vía al data minning, para que en un futuro sea, como creo que lo es para el geomarketing, un pequeño referente en la materia.

La persona que se hará cargo en este sentido es Francisco Ortega Morales, antiguo compañero de trabajo en Arvato, y hoy en Caixa Penedés, con más de 5 años de experiencia en el tema.

Os dejo sus primeras palabras:

Hola a todos;
ante todo darle las gracias a mi compañero bloguero Jesús por darme la oportunidad de participar en este pequeño gran proyecto, aportando mi humilde opinión sobre el análisis de datos, estadística y data mining.

El porqué me he decidido a bloguear es por la necesidad de compartir conocimiento y experiencias con todas las personas interesadas en el tema, tengo que reconocer que el análisis de datos ha sido durante estos últimos años mi pasión, desde que en la universidad descubrí las redes neuronales hasta la actualidad que soy Analista Sr en data mining no he parado de investigar, aprender y, por suerte, dedicarme profesionalmente a ello.

Otra cuestión que me empuja a hacerlo es el no encontrar ningún sitio en España donde se puedan intercambiar opiniones sobre el análisis de datos, espero que entre mi compañero, yo y todos vosotros crear lo y disfrutar con ello.

Por último me presento, soy Francisco Ortega, Minero convencido con 5 años de experiencia en el campo y espero dar mucha guerra a partir de ahora; estaremos en contacto.