Vídeo: Ecossistema Hadoop 2024
O Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): também é uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e em grande escala processamento de dados. A maioria (mas não todos) desses projetos são hospedados pela Apache Software Foundation. A tabela lista alguns desses projetos.
Nome do projeto | Descrição |
---|---|
Ambari | Um conjunto integrado de ferramentas de administração Hadoop para
instalação, monitoramento e manutenção de um cluster Hadoop. Também estão incluídas ferramentas para adicionar ou remover nós escravos. |
Avro | Uma estrutura para a serialização eficiente (um tipo de
transformação) de dados em um formato binário compacto |
Flume | Um serviço de fluxo de dados para o movimento de grandes volumes de registro > dados em Hadoop
HBase |
Um banco de dados colunas distribuídas que usa o HDFS para o armazenamento subjacente | . Com o HBase, você pode armazenar dados em extremamente
tabelas grandes com estruturas de colunas variáveis. HCatalog |
Um serviço para fornecer uma visão relacional de dados armazenados em | Hadoop, incluindo uma abordagem padrão para dados tabulares
Colmada |
Um armazém de dados distribuído para dados armazenados em HDFS; | também fornece uma linguagem de consulta baseada em
(HiveQL) Matiz |
Uma interface de administração Hadoop com ferramentas GUI acessíveis para | arquivos de navegação, emissão de dúvidas de raiz e porco e desenvolvimento de Oozie < fluxos de trabalho
Mahout Uma biblioteca de algoritmos estatísticos de aprendizagem de máquinas que estavam |
implementadas no MapReduce e pode executar nativamente na Hadoop | Oozie
Uma ferramenta de gerenciamento de fluxo de trabalho que pode lidar com o agendamento e > encadeamento de aplicativos Hadoop |
Porco | Uma plataforma para a análise de conjuntos de dados muito grandes que executa
em HDFS e com uma camada de infra-estrutura consistindo de um compilador |
que produz seqüências de programas MapReduce e um camada de idioma | consistindo no idioma de consulta chamado Pig Latin
Sqoop Uma ferramenta para mover de forma eficiente grandes quantidades de dados entre bancos de dados relacionais e HDFS |
ZooKeeper | Uma interface simples para o centralizado coordenação de serviços
(como nomeação, configuração e sincronização) nós ed |
aplicativos distribuídos |
O ecossistema Hadoop e suas distribuições comerciais continuam a evoluir, com novas e melhores tecnologias e ferramentas emergentes o tempo todo. A figura mostra os vários projetos do ecossistema Hadoop e como eles se relacionam um com o outro: |