La KDD Cup es la competición abierta de minería de datos más famosa y reconocida de todo el mundo; hace una convocatoria anual desde el 1997, y cada año plantea un problema a resolver diferente, algunos de los tratados son motores de recomendación, reconocimiento de cáncer en imágenes, minería de redes…
El reto de este año se centra en los clásicos problemas de CRM de cualquier empresa, modelizar la fuga, el up-selling y el cross-selling, ya sea con un modelo o una agrupación de ellos, donde los datos han sido cedidos por una empresa de telefonía.
Hay 2 dataset’s para trabajar, uno “pequeño” de 230 variables y uno grande de 15000 variables, contienen 50000 registros cada uno.
Este año hay 2 desafíos, uno rápido que en 5 días tienes que dar modelos para el dataset de 15000 variables y uno lento en el cual te puedes presentar tratando el dataset pequeño o el grande y en el que tienes un mes de tiempo. Se puede utilizar cualquier tipo de software ya sea libre o privativo, genérico o desarrollado en concreto para el desafío…
Hasta aquí lo normal de cada año, pero este ha sido diferente, han ganado el desafío lento tratando el dataset grande utilizando R, un programa de software libre de análisis estadístico del que estoy enamorado desde mis tiempos de universidad y del cual ya os iré hablando.
Para mí es una gran noticia, ya que viene a demostrar algo de lo cual ya estaba convencido desde hace tiempo, que con R y buenos técnicos puedes realizar cualquier análisis con un resultado igual que con SAS Enterprise Miner, SPSS Clementine o cualquier otro software privativo, y en según que casos incluso mejores.
Os dejo aquí el enlace del grupo que ha ganado el desafío.
La lastima de esta competición es que los códigos de los modelos presentados no son publicados, sería muy interesante ver como han conseguido este hito.
¿Álguien se anima a presentarse con nosotros el año que viene?
martes, 16 de junio de 2009
Suscribirse a:
Enviar comentarios (Atom)
1 comentario:
Hola Paco,
Soy Jesús, enhorabuena por tu primer post, espero que sea el primero de muchos, y anime a otros a postear cosas referentes sobre Geomarketeing y data minning.
Publicar un comentario