Vídeo: O que é Hadoop? (Parte 1) 2024
O Hadoop é uma ferramenta de processamento de dados de código aberto que foi desenvolvida pela Apache Software Foundation. O Hadoop atualmente é o programa go-to para lidar com enormes volumes e variedades de dados porque foi projetado para tornar a computação em grande escala mais acessível e flexível. Com a chegada do Hadoop, o processamento de dados em massa foi introduzido para significativamente mais pessoas e mais organizações.
O Hadoop pode oferecer uma ótima solução para processar, processar e agrupar fluxos de massa de dados estruturados, semi-estruturados e não estruturados. Ao configurar e implementar o Hadoop, você obtém uma maneira relativamente acessível de começar a usar e desenhar informações de todos os dados da sua organização, em vez de continuar a depender exclusivamente desse conjunto de dados transacional que você tenha sentado em um antigo data warehouse em algum lugar.
O Hadoop é um dos programas mais populares disponíveis para requisitos de computação em larga escala. O Hadoop fornece uma camada de mapa e redução que é capaz de lidar com os requisitos de processamento de dados da maioria dos grandes projetos de dados.
Às vezes, o dado é muito grande e rápido para Hadoop mesmo. Nesses casos, as organizações estão se voltando para implementações MapReduce alternativas e personalizadas.
Hadoop usa clusters de hardware de mercadorias para armazenar dados. O hardware em cada cluster está conectado e esse hardware é composto por commodity servidores - servidores genéricos de baixo custo e de baixo desempenho que oferecem poderosos recursos de computação quando executados em paralelo em um cluster compartilhado. Esses servidores de commodities também são chamados nós . A computação comoditizada diminui drasticamente os custos envolvidos no manuseio e armazenamento de grandes dados.
O Hadoop é composto pelos dois componentes a seguir:
-
Uma estrutura de processamento distribuído: O Hadoop usa o Hadoop MapReduce como estrutura de processamento distribuído. Mais uma vez, uma estrutura de processamento distribuída é uma estrutura poderosa onde as tarefas de processamento são distribuídas em clusters de nós para que grandes volumes de dados possam ser processados muito rapidamente em todo o sistema como um todo.
-
Um sistema de arquivos distribuídos: O Hadoop usa o sistema de arquivos distribuídos Hadoop (HDFS) como seu sistema de arquivos distribuídos.
As cargas de trabalho dos aplicativos que são executados no Hadoop estão divididas entre os nós do cluster Hadoop e, em seguida, a saída é armazenada no HDFS. O cluster Hadoop pode ser composto por milhares de nós. Para reduzir os custos dos processos de entrada / saída (E / S), os trabalhos do Hadoop MapReduce são realizados o mais próximo possível dos dados.
Isso significa que os processadores de tarefas de redução são posicionados o mais próximo possível dos dados da tarefa de mapa de saída que precisam ser processados. Este design facilita o compartilhamento de requisitos computacionais no grande processamento de dados.
Hadoop também suporta organização hierárquica. Alguns dos seus nós são classificados como nós mestres, e outros são classificados como escravos. O serviço mestre, conhecido como JobTracker , foi projetado para controlar vários serviços escravos. Os serviços escravos (também chamados TaskTrackers ) são distribuídos um para cada nó. O JobTracker controla TaskTrackers e atribui-lhes as tarefas Hadoop MapReduce.
Em uma versão mais recente do Hadoop, conhecida como Hadoop 2, um gerente de recursos chamado Hadoop YARN foi adicionado. Com relação ao MapReduce no Hadoop, o YARN atua como um sistema integrado que realiza funções de gerenciamento de recursos e agendamento.
Hadoop processa dados em lote. Conseqüentemente, se você estiver trabalhando com dados em tempo real, você não poderá usar o Hadoop para lidar com seus grandes problemas de dados. Dito isto, é muito útil para resolver muitos outros tipos de grandes problemas de dados.