Por que você deve usar o Hadoop para dados importantes? - dummies

Vídeo: 3 SUPER TÉCNICAS DE DATA SCIENCE 2024

Os inovadores do mecanismo de pesquisa, como o Yahoo! e o Google enfrentou um problema de dados turbulentos. Eles precisavam encontrar uma maneira de entender as enormes quantidades de dados que seus motores estavam coletando. Essas empresas precisavam compreender as informações que estavam reunindo e como poderiam monetizar esses dados para suportar seu modelo comercial.

O Hadoop foi desenvolvido porque representava a maneira mais pragmática de permitir que as empresas gerenciassem enormes volumes de dados com facilidade. Hadoop permitiu que grandes problemas fossem divididos em elementos menores para que a análise pudesse ser feita de forma rápida e econômica.

Ao quebrar o grande problema de dados em pequenos pedaços que poderiam ser processados em paralelo, você pode processar as informações e reagrupar as peças pequenas para apresentar os resultados.

Hadoop foi originalmente criado por um Yahoo! engenheiro chamado Doug Cutting e agora é um projeto de código aberto gerenciado pela Apache Software Foundation. Está disponível sob a Licença de Apache v2. 0.

O Hadoop é um elemento fundamental no nosso desejo de capturar e processar grandes dados. O Hadoop foi projetado para paralelizar o processamento de dados em nós de computação para acelerar os cálculos e ocultar a latência. No seu núcleo, o Hadoop possui dois componentes principais:

Sistema de arquivos distribuídos Hadoop: Um cluster confiável, de alta largura de banda, de armazenamento de dados que facilita o gerenciamento de arquivos relacionados em máquinas.
MapReduce engine: Uma implementação de alto desempenho de processamento de dados paralelo / distribuído do algoritmo MapReduce.

O Hadoop foi projetado para processar enormes quantidades de dados estruturados e não estruturados (terabytes para petabytes) e é implementado em racks de servidores de commodities como um cluster Hadoop. Os servidores podem ser adicionados ou removidos do cluster dinamicamente porque o Hadoop foi projetado para ser "auto-curativo". "Em outras palavras, o Hadoop é capaz de detectar mudanças, incluindo falhas, e ajustar a essas mudanças e continuar a operar sem interrupção.