PMML es el standart de la industria de la minería de datos para poder trasladar modelos de una herramienta a la otra, es decir, este leguaje, que no deja de ser un XML, permite crear un modelo con SAS y luego explotarlo con Clementien por ejemplo.
Esto también permite que existan herramientas que no están pensadas para la minería de datos puedan explotar los modelos, por ejemplo, muchas de las bases de datos comerciales, como Oracle o Teradata, pueden crear modelos de minería, estaréis de acuerdo conmigo que no son las mejores herramientas para esto, ya que no tienen un interface amigable para ello a demás de sufrir una falta de capacidades para la visualización de la información, pero por otro lado tienen la capacidad de cargar modelos en PMML y de explotarlos.
Si se hace así se desvincula la explotación de los modelos con respecto a la herramienta de modelización, todos sabemos que las herramientas de minería no son especialmente baratas, y si sumamos que los motores de la bases de datos son mucho más rápidos a la hora de explotar que los de las herramientas de modelización tendremos una solución muy válida.
Hay que tener en cuenta que este lenguaje sólo permite migrar los modelos, no se puede migrar de esta manera todo el tratamiento de datos anterior a la modelización, cosa que tenemos que tener en cuenta a la hora de poner el modelo en explotación.
Con el tiempo este estandart ha ido ganando relevancia y cada vez más empresas le dan soporte, entre ellas SAS, Clementine, IBM, Salford Systems, Microstrategy... y dentro del movimiento GPL que yo conozca lo soportan R y Kmine.
A demás de mejoras generales en la v4 las novedades más importantes de esta versión son:
- Mejoras en las capacidades de preproceso
- Inclusión de modelos de series temporales
- Inclusión de información sobre la construcción del modelo (Curva de ROC, estadísticas...)
- Capacidad de definir modelos múltiples
Os dejo aquí el enlace a la sociedad que mantiene y diseña el PMML.
No hay comentarios:
Publicar un comentario