• Header1
  • Header2

Hadoop es una iniciativa de software libre bajo el paragua de Apache que permite el procesamiento de datos de manera distribuida.

Se procesa una gran cantidad de datos a la vez, lo que le hace especialmente interesante para el Big Data. Yahoo lo utiliza para procesar los datos de sus búsquedas. También lo utilizan las redes sociales como Tuenti, Twitter Linkedin y Facebook.

La idea principal de Hadoop, como dice su fundador, Doug Cutting, es que los datos no 'viajen' a la unidad de procesamiento sino al revés: el procesamiento de los datos viaje a las unidades de almacenamiento.

Funciona de la siguiente manera:

 Hadopp2

Los datos se dividen en bloques replicados que se reparten en un conjunto de unidades de almacenamiento. En cada unidad de almacenamiento se ejecuta una tarea sencilla de análisis de los datos (por ejemplo, contar la aparición de una secuencia - mapeo). Estos datos se consolidan en un almacenamiento intermedio (en nuestro ejemplo, suma de las apariciones iguales - reducción); lo que produce un resultado explotable en una Base de Datos convencional.

Hadoop es la herramienta que permite gestionar el estructura distribuida de los datos y su procesamiento.