RSS

Archivo de la etiqueta: Big Data

Introducción a Apache Oozie

Dentro de la serie de post acerca Hadoop y todo su ecosistemas de librerías surgidas alrededor de él, hoy vamos a ver Apache Oozie. Apache Oozie es una librería que nos permite definir una secuencia de ejecución de jobs Hadoop. Con Oozie se va a definir en un fichero de configuración un flujo de trabajo que definirá esta secuencia, en la cual se irán ejecutando las tareas Hadoop que indiquemos. Además podremos definir que hacer en caso de que las tareas se ejecuten de manera exitosa o no. Este fichero de configuración será un fichero XML.

Read the rest of this entry »

Deja un comentario

Publicado por hop2croft en 13 septiembre, 2013 en Big Data, Hadoop

Etiquetas: Big Data, Hadoop, Oozie

Introducción a Hive

29 Ago

La primera librería relacionada con Hadoop de la que vamos a hablar en este blog va a ser Apache Hive. De la web oficial del proyecto Apache Hive:

Hive es un sistema de almacén de datos que facilita el manejo sencillo de datos, consultas ad-hoc, y el análisis de grandes conjuntos de datos almacenados en sistemas de ficheros compatibles con Hadoop. Hive provee un mecanismo para dotar de estructura en los datos y realizar consultas sobre los mismos con el lenguaje tipo SQL llamado HiveQL. Al mismo tiempo este lenguaje también permite a los programadores de Map/Reduce incluir sus propios mappers y reducers cuando no sea conveniente o eficiente expresar esta lógica con HiveQL.

Se puede leer estas mismas entradas en mi otro blog java4developers.com

Read the rest of this entry »

Deja un comentario

Publicado por hop2croft en 29 agosto, 2013 en Big Data, Hadoop

Etiquetas: Big Data, Hadoop, Hive

Fases en Big Data y librerías Hadoop

28 Ago

En los anteriores post hemos visto una breve introducción sobre Big Data y una librería como es Hadoop que permite manejar grandes volúmenes de datos. Además hemos hablado sobre las bases de Hadoop, en especial sobre MapReduce y el sistema de ficheros distribuidos HDFS. Si quieres puedes echarle un vistazo pinchando en cualquiera de los siguientes enlaces:

Recuerdo que se puede leer estas mismas entradas en mi otro blog java4developers.com

El motivo principal de este post es la relación entre las fases que existen en Big Data a la hora de procesar los datos y los frameworks y/o librerías que se han ido desarrollando bajo el ecosistema de Hadoop que se ejecutan durante esas mismas fases. En este post me quiero centrar más en la parte de Big Data y quizá dedicarle más adelante algún post más extenso a algunas de las librerías más utilizadas que han surgido bajo el paraguas Hadoop.

Read the rest of this entry »

2 comentarios

Publicado por hop2croft en 28 agosto, 2013 en Big Data

Etiquetas: Big Data, Data Mining, Hadoop, HDFS, MapReduce

Introducción a HDFS

24 Ago

HDFS (Hadoop Distributed File System) es el sistema de ficheros distribuido utilizado por Hadoop. Por lo tanto está especialmente diseñado para cumplir con las necesidades propias de Hadoop. Las dos ideas principales de HDFS es por un lado que sea un sistema de ficheros que permita ser utililzado en commodity hardware, es decir que facilite una alta escalabilidad tolerante a fallos. Por otro lado Hadoop necesita para demostrar todo su potencial que los problemas que se estén intentando solucionar involucren un gran número de datos. HDFS debe garantizar un alto throughput de datos para que Hadoop sea capaz de procesar este gran volumen de información utilizando MapReduce.

Read the rest of this entry »

3 comentarios

Publicado por hop2croft en 24 agosto, 2013 en Big Data

Etiquetas: Big Data, Hadoop, HDFS, MapReduce

Introducción a MapReduce

21 Ago

Como ya habíamos visto en el anterior post de Introducción a Big Data y Hadoop, Hadoop se basa en dos conceptos fundamentalmente, el modelo de computación MapReduce y el sistema de ficheros distribuidos HDFS. En este post vamos a profundizar un poco más en el modelo MapReduce.

MapReduce es un modelo de computación que permite paralelizar el cómputo de problemas donde contamos con grandes volúmenes de datos. Una de las ventajas de MapReduce es que podemos resolver este tipo de problemas utilizando para ello lo que se conoce como commodity hardware, es decir, computadores de gama básica. Esto permite no tener que invertir en grandes equipos como antiguamente para solucionar problemas tipo Big Data.

Si quieres seguir leyendo esta post en mi otro blog java4developers.com pulsa sobre este enlace. Si lo quieres leer en este mismo blog continua leyendo más abajo.

Read the rest of this entry »

3 comentarios

Publicado por hop2croft en 21 agosto, 2013 en Big Data

Etiquetas: Big Data, Hadoop, HDFS, MapReduce

Amazon Web Services Android Big Data Charlas Cloud Computing General GIT grails GWT Hadoop Hibernate J2EE Java JEE JPA Libros Maven Mobile RIA SCM Selenium SEO Spring Spring MVC Spring Web Flow Testing UI Design Uncategorized Vaadin web
Entradas recientes
Entradas y Páginas Populares
Mejor calificado
Ajax Amazon EC2 Amazon Elastic Compute Cloud Amazon Web Services Android ant AWS backbone.js balsamiq balsamiq mockups Big Data Cloud cloud computing cloud foundry Continuous Integration control de versiones Criteria CSS3 Dao Derby Eclipse EntityManager Facebook git GitHub Google Web Toolkit Grails groovy GWT Hadoop HDFS heroku Hibernate hibernate tools HootSuite HTML5 J2EE Java Javascript JEE jenkins JPA jquery JQuery Mobile JSF Junit Liferay MapReduce Maven media queries Mobile mobile development NamedQuery node.js paas Redis REST RestTemplate RIA Rich Internet Application scm Selenium SEO Spring Spring Android Spring Mobile Spring MVC Spring Web Flow STS Testing Twitter UI Vaadin vmware web
Archivos
- enero 2016 (1)
- septiembre 2013 (2)
- agosto 2013 (5)
- febrero 2013 (1)
- enero 2013 (2)
- noviembre 2012 (2)
- agosto 2012 (1)
- julio 2012 (2)
- May 2012 (2)
- abril 2012 (4)
- marzo 2012 (4)
- febrero 2012 (1)
- enero 2012 (2)
- diciembre 2011 (3)
- noviembre 2011 (2)
- octubre 2011 (5)
- septiembre 2011 (5)
- agosto 2011 (9)
- julio 2011 (7)
- junio 2011 (3)
- May 2011 (11)
- abril 2011 (9)
- marzo 2011 (3)
- febrero 2011 (5)
- febrero 2010 (1)
Calendario
May 2024

L M X J V S D

1 2 3 4 5

6 7 8 9 10 11 12

13 14 15 16 17 18 19

20 21 22 23 24 25 26

27 28 29 30 31

« Ene
Subscription

Escribe tu dirección de correo electrónico para suscribirte a este blog, y recibir notificaciones de nuevos mensajes por correo.

Dirección de correo electrónico:

Únete a otros 97 suscriptores
Twitter
Tuits de ivanfdezperea
Mapa de visitas
Estadísticas blog
- 580.946 visitas

hop2croft's software development Blog

Archivo de la etiqueta: Big Data

Introducción a Apache Oozie

Comparte esto:

Introducción a Hive

Comparte esto:

Fases en Big Data y librerías Hadoop

Comparte esto:

Introducción a HDFS

Comparte esto:

Introducción a MapReduce

Comparte esto:

Entradas recientes

Entradas y Páginas Populares

Mejor calificado

Archivos

Calendario

Subscription

Twitter

Mapa de visitas

Estadísticas blog