RSS

Archivo de la etiqueta: HDFS

Fases en Big Data y librerías Hadoop


hadoop logoEn los anteriores post hemos visto una breve introducción sobre Big Data y una librería como es Hadoop que permite manejar grandes volúmenes de datos. Además hemos hablado sobre las bases de Hadoop, en especial sobre MapReduce y el sistema de ficheros distribuidos HDFS.  Si quieres puedes echarle un vistazo pinchando en cualquiera de los siguientes enlaces:

Recuerdo que se puede leer estas mismas entradas en mi otro blog java4developers.com

El motivo principal de este post es la relación entre las fases que existen en Big Data a la hora de procesar los datos y los frameworks y/o librerías que se han ido desarrollando bajo el ecosistema de Hadoop que se ejecutan durante esas mismas fases. En este post me quiero centrar más en la parte de Big Data y quizá dedicarle más adelante algún post más extenso a algunas de las librerías más utilizadas que han surgido bajo el paraguas Hadoop.

Read the rest of this entry »

Anuncios
 
2 comentarios

Publicado por en 28 agosto, 2013 en Big Data

 

Etiquetas: , , , ,

Introducción a HDFS


 hadoop logoHDFS (Hadoop Distributed File System) es el sistema de ficheros distribuido utilizado por Hadoop. Por lo tanto está especialmente diseñado para cumplir con las necesidades propias de Hadoop. Las dos ideas principales de HDFS es por un lado que sea un sistema de ficheros que permita ser utililzado en commodity hardware, es decir que facilite una alta escalabilidad tolerante a fallos. Por otro lado Hadoop necesita para demostrar todo su potencial que los problemas que se estén intentando solucionar involucren un gran número de datos. HDFS debe garantizar un alto throughput de datos para que Hadoop sea capaz de procesar este gran volumen de información utilizando MapReduce.

Read the rest of this entry »

 
3 comentarios

Publicado por en 24 agosto, 2013 en Big Data

 

Etiquetas: , , ,

Introducción a MapReduce


hadoop-logoComo ya habíamos visto en el anterior post de Introducción a Big Data y HadoopHadoop se basa en dos conceptos fundamentalmente, el modelo de computación MapReduce y el sistema de ficheros distribuidos HDFS. En este post vamos a profundizar un poco más en el modelo MapReduce.

MapReduce es un modelo de computación que permite paralelizar el cómputo de problemas donde contamos con grandes volúmenes de datos. Una de las ventajas de MapReduce es que podemos resolver este tipo de problemas utilizando para ello lo que se conoce como commodity hardware, es decir, computadores de gama básica. Esto permite no tener que invertir en grandes equipos como antiguamente para solucionar problemas tipo Big Data.

Si quieres seguir leyendo esta post en mi otro blog java4developers.com pulsa sobre este enlace. Si lo quieres leer en este mismo blog continua leyendo más abajo.

Read the rest of this entry »

 
3 comentarios

Publicado por en 21 agosto, 2013 en Big Data

 

Etiquetas: , , ,

 
A %d blogueros les gusta esto: