RSS

Archivo de la categoría: Hadoop

Introducción a Apache Oozie


oozie-logoDentro de la serie de post acerca Hadoop y todo su ecosistemas de librerías surgidas alrededor de él, hoy vamos a ver Apache OozieApache Oozie es una librería que nos permite definir una secuencia de ejecución de jobs Hadoop. Con Oozie se va a definir en un fichero de configuración un flujo de trabajo que definirá esta secuencia, en la cual se irán ejecutando las tareas Hadoop que indiquemos. Además podremos definir que hacer en caso de que las tareas se ejecuten de manera exitosa o no. Este fichero de configuración será un fichero XML.

Read the rest of this entry »

 
Deja un comentario

Publicado por en 13 septiembre, 2013 en Big Data, Hadoop

 

Etiquetas: , ,

Apache Flume y Apache Sqoop


flume-logosqoop-logo

En el siguiente post vamos a hablar de dos librerías relacionadas con el manejo de grandes volumenes de datos , Apache Flume y Apache Sqoop . Aunque estas dos librerías tienen dos enfoques bastante distintos, la idea final de ambas es la misma. La funcionalidad de las dos es servir  como mecanismo de ingestión de datos durante la fase inicial de adquisición de datos como ya se indicó en el post anterior Fases en Big Data y su relación con librerías Hadoop.

En primer lugar vamos a ver Flume, después Sqoop y terminaremos con una breve comparativa entre ambas.

Read the rest of this entry »

 
Deja un comentario

Publicado por en 1 septiembre, 2013 en Hadoop

 

Etiquetas: , , , ,

Introducción a Hive


hive_logo_mediumLa primera librería relacionada con Hadoop de la que vamos a hablar en este blog va a ser Apache Hive. De la web oficial del proyecto Apache Hive:

Hive es un sistema de almacén de datos que facilita el manejo sencillo de datos, consultas ad-hoc, y el análisis de grandes conjuntos de datos almacenados en sistemas de ficheros compatibles con Hadoop. Hive provee un mecanismo para dotar de estructura en los datos y realizar consultas sobre los mismos con el lenguaje tipo SQL llamado HiveQL. Al mismo tiempo este lenguaje también permite a los programadores de Map/Reduce incluir sus propios mappers y reducers cuando no sea conveniente o eficiente expresar esta lógica con HiveQL.

Se puede leer estas mismas entradas en mi otro blog java4developers.com

Read the rest of this entry »

 
Deja un comentario

Publicado por en 29 agosto, 2013 en Big Data, Hadoop

 

Etiquetas: , ,

 
A %d blogueros les gusta esto: