Curso recomendado

lunes, 3 de agosto de 2009

Data Mining - Minería en la nube, Clairo analytics

Estamos en tiempos de cambios, y más si nos fijamos en la evolución de la red, lo último es ahora todo lo relacionado con la Nube, es decir, tener la capacidad de poder trabajar desde cualquier terminal y, por medio de internet, que se ejecute nuestras instrucciones en un servidor y que este tenga capacidad de concurrencia; resumiendo, como si fuera trabajo cliente servidor pero haciendo de red internet y que más de un usuarios pueda abrir el mismo fichero.


Como no la minería de datos ya se ha subido a este carro, y no es de extrañar, ya que muchas de las herramientas con las que se trabaja ya tienen arquitectura cliente servidor. Otro punto por el este tipo de negocio se ajusta bastante la Nube es debido a la necesidades de hardware, poco a poco van surgiendo servicios que nos ofrecen guardar nuestros datos en la red o nos venden capacidad de computo, y por otro lado si sumamos el precio astronómico que hay que pagar por cada licencia de software con la que trabajan los analistas no es de extrañar que tener soluciones donde todo el mundo se pueda conectar y trabajar sin pagar más licencias sólo por lo que necesitas es muy tentador.


La primera solución de software de minería de datos que ha surgido siguiendo esta filosofía es Clario, es un una herramienta pensada para y por la nube, es decir, se puede trabajar desde cualquier sitio y varias personas a la vez sobre el mismo proyecto, desde un terminal que se conecta a un servidor en el cual está en la red.


Si a esta cualidad de estar en la nube le sumamos que el precio es realmente ajustado, por 300$ mes 100 Gb de transferencia con 50 Gb de almacenamiento con 720 horas de tratamiento en un entorno servidor pensado para sacar la máxima eficiencia al programa no está nada mal. Si tenemos en cuenta que un mes tiene unos 22 días laborables y que nuestro técnico trabaja 8 horas con el programa tendremos que utiliza 176 Horas, cierto que puede ser que deje cosas funcionando en bach pero creo que 2 o incluso 3 técnicos pueden trabajar con esas capacidades sin ningún tipo de problema; es decir que con 2 o 3 portátiles y 300$/mes tenemos la infraestructura necesaria para hacer proyecto de minería de datos, totalmente irrisorio si lo comparamos con las soluciones clásicas.


Hay que reconocer que la herramienta está todavía germinando, no es que no funcione, pero aún le quedan muchas funcionalidades por añadir, eso si, crece a buen ritmo, está previsto que dentro de unos 9 meses desarrollen algoritmos basados en árboles (CART, CHAID, MARS) y de clustering (K-means, EM), también tienen previsto mejoras en el interficie y la usabilidad.


En cuanto a la usabilidad hay que decir que se parece mucho a Clementine, quien esté interesado en probarlo hay un periodo de prueba de 30 días así como varios tutoriales sobre la herramienta que podéis encontrar aquí, también tienen un canal en youtube que tiene vídeos del funcionamiento de la herramienta, a ver si os animéis la probáis y nos contéis que os parece.


En un mundo donde cada vez es más difícil ver nuevas y buenas ideas siempre es de agradecer que te sorprendan, y a mi Clario lo ha hecho, si que falta cosas por pulir, como por ejemplo que está muy bien que se pueda trabajar en la nube mientras se diseña el modelo pero cuando se tiene que poner en explotación es mucho más cómodo hacerlo en tu propio servidor, sin tener que subir los datos al servidor de Clario y después bajando el resultado... pero demos les tiempo, seguro que los chicos de Clario desarrollarán algo interesante para cubrir esta necesidad.

No hay comentarios: