Índice:
Vídeo: Introduction to Amazon Web Services by Leo Zhadanovsky 2024
Os nós de borda são a interface entre o cluster Hadoop e a rede externa. Por esse motivo, eles às vezes são chamados de gateway nós. Mais comumente, os nós de borda são usados para executar aplicativos de cliente e ferramentas de administração de cluster.
Eles também são freqüentemente usados como áreas de teste para dados que são transferidos para o cluster Hadoop. Como tal, Oozie, Pig, Sqoop e ferramentas de gerenciamento, como Hue e Ambari correm bem lá. A figura mostra os processos que você pode executar nos nós Edge.
Os nós de borda são muitas vezes ignorados nas discussões de arquitetura de hardware do Hadoop. Esta situação é infeliz porque os nós de borda atendem a um propósito importante em um cluster Hadoop e possuem requisitos de hardware diferentes dos nós mestres e nós escravos.
Em geral, é uma boa idéia minimizar as implantações de ferramentas de administração em nós mestres e nós escravos para garantir que os serviços críticos do Hadoop, como o NomeNodo, tenham tão pouca concorrência quanto possível.
Você deve evitar colocar um utilitário de transferência de dados como Sqoop em qualquer coisa, exceto um nó de borda, pois os altos volumes de transferência de dados podem arriscar a capacidade dos serviços Hadoop no mesmo nó de se comunicar. As mensagens de intercâmbio de serviços Hadoop são sua força vital, portanto, alta latência significa que todo o nó poderia ser cortado do cluster.
A figura mostra dois nós de borda, mas para muitos clusters de Hadoop seria suficiente um único nó de borda. Os nós de borda adicionais são mais comumente necessários quando o volume de dados que estão sendo transferidos dentro ou fora do cluster é demais para um único servidor.
Armazenamento recomendado
Para nós de borda em um cluster Hadoop, use armazenamento de classe corporativa. Para nós de ponta focados em ferramentas de administração e aplicações de aplicativos em execução, use quatro unidades SAS de 900GB, juntamente com um controlador RAID HDD configurado para RAID 1 + 0.
Os nós de borda orientados para ingerir dados, obviamente, precisam de muito mais espaço de armazenamento, para que você possa adicionar unidades ao nó de borda. Neste caso, use unidades LFF SAS porque há capacidades muito maiores disponíveis, em comparação com unidades SAS de tipo fator menor.
Processadores recomendados
Um nó de borda de propósito geral seria bem servido por uma configuração de processador semelhante a usada para nós escravos - especificamente, um servidor de dupla soquete com processadores Ivy Bridge com clock entre 2 e 2. 5GHz.
Memória recomendada
Para a maioria das cargas de trabalho nos nós de borda, são suficientes 48 GB de RAM.
Rede recomendada
Para habilitar a comunicação entre a rede externa e o cluster Hadoop, os nós de borda precisam ser multi-homed na sub-rede privada do cluster Hadoop, bem como na rede corporativa.
Um computador multi-homed é aquele que possui conexões dedicadas a várias redes. Esta é uma ilustração prática de por que os nós de borda são perfeitamente adequados para a interação com o mundo fora do cluster Hadoop. Manter seu cluster Hadoop em sua própria sub-rede privada é uma excelente prática, portanto, esses nós de borda servem como uma janela controlada dentro do cluster.
Para nós de borda que servem para a execução de aplicativos de cliente ou ferramentas de administração, recomenda-se dois pares de conexões de rede 1GbE ligadas: um par para se conectar ao cluster Hadoop e outro par para a rede externa.
Os nós de borda orientados para o tratamento de taxas de transferência de dados de entrada e de saída elevadas precisarão de dois (ou mais) pares de conectores de rede 10GbE ligados: um par para se conectar ao cluster Hadoop e outro par para a rede externa ou fontes específicas de ingestão de dados.