Curso recomendado

lunes, 10 de mayo de 2010

Data Mining - ¿R será lo mejor que le ha pasado al análisis de datos en mucho tiempo?

Hace ya un par de semanas llegó una opinión sobre que es R de una señora, intentaré no dar mí opinión, creo que todos la conocéis, y centrarme en la reacción de la web.

Para centrar un poco el tema os explicaré que a nuestra invitada de hoy, Annmaria, en el foro internacional de SAS le preguntaron sobre R, a lo cual respondió que R será un "Fracaso épico"; explica que no cree debido a su complejidad a la hora de aprenderlo y de documentarlo, argumenta que las personas están acostumbradas a hacer click's sobre botones y que R falla en la representación gráfica así como en el tratamiento masivo de datos, sobre todo no estructurados.

Hasta aquí una opinión, pero hay que tener en cuenta que esta persona tiene muchos años de experiencia estadística, ha dejado el mundo empresarial para dar clases de post grado... y si miramos su blog nos cuelga un supuesto código de R, no voy a comentarlo aquí, me quito el sombrero ante el post Carlos J. Gil Bellosta que por lo que he visto tuvo respuesta de la susodicha, que ya se lo comenta nuestro compañero, que esto de copiar y pegar de Internet código es muy peligroso.

Simplemente decir que R es un leguanje de Turing Completo y por lo tanto la capacidad analítica sólo está limitada por la imaginación del analista. Si que es cierto que es complicado de aprender pero una vez hecho puedes hacer cualquier cosa. Esto no lo cumplen ni Spss ni SAS, tienen lenguajes más orientados al script y no diseñados para  la creación de nuevos análisis.

Lo único en que estoy algo de acuerdo es en la incapacidad de R para tratar datos masivos, pero por mi experiencia nada que no se pueda solventar con muestras y que se soluciona bastante con las nuevas máquinas de 64 bits.

Sinceramente no es sorprendente que surjan opiniones como esta, lo interesante es la reacción de la comunidad, creo que a partir de este momento nos hemos dado cuenta de lo cohesionados que estamos, podéis observar respuestas en:


5 comentarios:

Fernando dijo...

Estoy de acuerdo con el comentario de Ann, en el hecho de que las personas están tan acostumbradas a hacer click sobre botones -incluyo estadísticos con los que me veo cada dia- que han perdido completamente la capacidad de razonar, pensar, crear o analizar.

Para un buttonhead da lo mismo 8 que 80 y lo que no tenga un botón no existe, o --como tengo que oír cada dos por tres-- "es imposible". Me sonrío porque imposibles hay pocas cosas, pero me preocupa la absoluta esterilidad creativa que noto se va extendiendo como la gripe.

Con respecto a R, sin ser un usuario muy experimentado, es una herramienta excelente. Enhorabuena por difundir su uso y apoyar este tipo de iniciativas.

Francisco Ortega dijo...

El problema es que, y estoy generalizando cosa que no me gusta, a la gente le pones un botón y le dices que con este conseguirá el mejor público objetivo de la historia y depende de quién lo diga se lo cree.

Se que la estadística es una disciplina ardua para muchas personas, pero creo que en depende para que puestos es inprescindible, ya no tendría que servir un simple gráfico de sectores y algún histograma, se tendría que tender a representaciones más compleja pero mucho más ricas...

Resumiendo, somos muy poco críticos y estamos en una sociedad muy anumérica, el problema es que, cada vez más, es necesario tener altos conocimientos técnicos para poder acometer los nuevos retos.

Está girando el poder de venta entre el antiguo comercial acia el analista de grandes bases de datos, sobre todo en la web, y la verdad es que hay mucha gente que no quiere verlo.

Un saludo Fernando y gracias por el comentario.

rvaquerizo dijo...

Acertado planteamiento.

La persona que trabaja con SAS, JMP, SPSS,... siempre ha de esperar a que un procedimiento esté implementado en ese lenguaje, sin embargo si trabaja con R:

1. Puede hacérselo él mismo

2. Es muy probable que alguien lo haya hecho antes

Otro tema es trabajar a bajo nivel, manejando datos.

Francisco Ortega dijo...

Totalmente deacuerdo, a ver si nos unimos todos y tratamos de reunir recursos para el el tratamiento masivo de datos, el tema de hapdoop me interesa mucho, pero creo que me queda un poco grande... pero en fin, saber utilizar R en paralelo, como afecta trabjar en 64 bits con R, qeu puedes hacer con x ram... la verdad es que hay tantas cosas...

También hay que seguirle los pasos a Revolution, si consigue hacer que R trabje de forma fluida con grandes volumenes de datos la cosa se puede poner muy pero que muy divertida dentro del software de análisis, tiempo al tiempo a ver que pasa.

cjgb dijo...

Gracias por la referencia en la entrada. Veo que estáis migrando a otra plataforma. Yo también estoy en ésas. ¡Suerte!