Buscar este blog

martes, 18 de mayo de 2010

Ingeniería de Datos

¿No os habéis encontrado nunca con una migración de datos, parseo de datos, o elaboración de informes con una cantidad ingente de datos?

¿Esos datos os vienen de las fuentes más diversas? ¿CSV, excel, Oracle, MySql...?

En esta ocasión, he tenido que realizar una serie de scripts SQL de inserción, desde unos registros en base de datos de Oracle.

Estoy seguro de que se os ocurren muchas formas de hacer esto, pero yo recuerdo a un ex-compañero (saludos rubio!) de trabajo que se divertía mucho con el Pentaho.

Pentaho, es una herramienta Open Source para la minería de datos. Aunque es Open Source, hay una empresa detrás que quiere sacar tajada.

Uno de los componentes de esta herramienta, es Kettle. Implementa la parte de integración de datos (data-integration).

Con esta herramienta podemos hacer precisamente esto.
  • Obtener datos desde diferentes fuentes de datos (BBDD, CSV, excel...)
  • Cruzar los datos para obtener unos registros más ricos.
  • Filtrar los datos.
  • Operar los datos, creando columnas resultantes.
  • Concatenar los datos, reemplazar cadenas.
  • Obtener salidas a diferentes fuentes de datos (ficheros sql, tabla de BBDD...)
La documentación de esta herramienta no es la más rica en contenidos precisamente, pero no hay que dedicarle demasiado tiempo antes de empezar a obtener resultados.

Por desgracia, el desconocimiento de la herramienta, como su falta de documentación, me han requerido apoyarme en scripts de Linux para finalizar el trabajo solicitado. Pero el resultado es satisfactorio.

La web oficial de Kettle http://kettle.pentaho.org/
Descarga... y gratis!!! http://sourceforge.net/projects/pentaho/files/

Una captura un poco obsoleta, para que veáis la pinta de la herramienta.

No hay comentarios:

Publicar un comentario