Dentro de la serie de post acerca Hadoop y todo su ecosistemas de librerías surgidas alrededor de él, hoy vamos a ver Apache Oozie. Apache Oozie es una librería que nos permite definir una secuencia de ejecución de jobs Hadoop. Con Oozie se va a definir en un fichero de configuración un flujo de trabajo que definirá esta secuencia, en la cual se irán ejecutando las tareas Hadoop que indiquemos. Además podremos definir que hacer en caso de que las tareas se ejecuten de manera exitosa o no. Este fichero de configuración será un fichero XML.
Archivos Mensuales: septiembre 2013
Apache Flume y Apache Sqoop
En el siguiente post vamos a hablar de dos librerías relacionadas con el manejo de grandes volumenes de datos , Apache Flume y Apache Sqoop . Aunque estas dos librerías tienen dos enfoques bastante distintos, la idea final de ambas es la misma. La funcionalidad de las dos es servir como mecanismo de ingestión de datos durante la fase inicial de adquisición de datos como ya se indicó en el post anterior Fases en Big Data y su relación con librerías Hadoop.
En primer lugar vamos a ver Flume, después Sqoop y terminaremos con una breve comparativa entre ambas.