Lar Finanças Pessoais Mantenha o controle dos blocos de dados com NameNode em HDFS - dummies

Mantenha o controle dos blocos de dados com NameNode em HDFS - dummies

Índice:

Vídeo: hadoop yarn architecture 2024

Vídeo: hadoop yarn architecture 2024
Anonim

O NomeNode atua como o catálogo de endereços do Sistema de arquivos distribuídos Hadoop (HDFS) porque não sabe apenas quais blocos compõem arquivos individuais, mas também onde cada um desses blocos e suas réplicas são armazenados. Quando um usuário armazena um arquivo no HDFS, o arquivo é dividido em blocos de dados e três cópias desses blocos de dados são armazenadas em nós escravos no cluster Hadoop.

Esse é um monte de blocos de dados para acompanhar. Como você pode esperar, saber onde os corpos estão enterrados faz do NameNode um componente criticamente importante em um cluster Hadoop. Se o NameNode não estiver disponível, os aplicativos não podem acessar qualquer dado armazenado no HDFS.

Se você observar a figura a seguir, você pode ver o daemon NameNode executado em um servidor de nó mestre. Todas as informações de mapeamento que tratam dos blocos de dados e seus arquivos correspondentes são armazenadas em um arquivo chamado.

HDFS é um sistema de arquivo de registro no diário, o que significa que todas as alterações de dados são registradas em um jornal de edição que rastreia eventos desde o último ponto de verificação - a última vez que o log de edição foi mesclado. No HDFS, o diário de edição é mantido em um arquivo chamado armazenado no NameNode.

Inicialização e operação de NameNode

Para entender como o NomeNode funciona, é útil dar uma olhada em como ele é iniciado. Como a finalidade do NomeNode é informar as aplicações de quantos blocos de dados eles precisam processar e acompanhar a localização exata onde eles estão armazenados, ele precisa de todos os locais de bloco e mapeamentos de bloco a arquivo que estão disponíveis em RAM.

Estas são as etapas que o NameNode leva. Para carregar todas as informações que o NomeNode precisa após a sua inicialização, ocorre o seguinte:

  1. O NameNode carrega o arquivo na memória.

  2. O NameNode carrega o arquivo e re-reproduz as alterações no diário para atualizar os metadados do bloco que já estão na memória.

  3. Os daemons DataNode enviam os relatórios de bloco NameNode.

    Para cada nó escravo, há um relatório de bloco que lista todos os blocos de dados armazenados lá e descreve a saúde de cada um.

Depois que o processo de inicialização for concluído, o NameNode possui uma imagem completa de todos os dados armazenados no HDFS e está pronto para receber solicitações de aplicativos dos clientes Hadoop.

À medida que os arquivos de dados são adicionados e removidos com base nos pedidos do cliente, as alterações são gravadas nos volumes do disco do nó escravo, as atualizações do diário são feitas no arquivo e as alterações são refletidas nas localizações dos blocos e metadados armazenados na memória do NomeNode.

Ao longo da vida do cluster, os daemons DataNode enviam os batimentos cardíacos NameNode (um sinal rápido) a cada três segundos, indicando que eles estão ativos.(Esse valor padrão é configurável.) Todas as seis horas (novamente, um padrão configurável), os DataNodes enviam o ReportNode um relatório de bloco descrevendo quais blocos de arquivos estão em seus nós. Desta forma, o NameNode sempre possui uma visão atual dos recursos disponíveis no cluster.

Escrevendo dados

Para criar novos arquivos no HDFS, o seguinte processo deveria ter lugar:

  1. O cliente envia uma solicitação para o NomeNome para criar um novo arquivo.

    O NomeNode determina quantos blocos são necessários e o cliente recebe uma locação para criar esses novos blocos de arquivos no cluster. Como parte desta locação, o cliente tem um limite de tempo para completar a tarefa de criação. (Este limite de tempo garante que o espaço de armazenamento não seja ocupado por aplicativos cliente com falha.)

  2. O cliente então grava as primeiras cópias dos blocos de arquivos nos nós escravos usando a locação atribuída pelo NomeNodo.

    O NameNode lida com solicitações de gravação e determina onde os blocos de arquivos e suas réplicas precisam ser escritos, equilibrando disponibilidade e desempenho. A primeira cópia de um bloco de arquivo está escrita em um rack e as segunda e terceira cópias são escritas em um rack diferente da primeira, mas em diferentes nós escravos no mesmo rack. Esse arranjo minimiza o tráfego de rede, assegurando que nenhum bloco de dados esteja no mesmo ponto de falha.

  3. Como cada bloco é escrito em HDFS, um processo especial grava as restantes réplicas para os outros nós escravos identificados pelo NomeNodo.

  4. Depois que os daemons DataNode reconhecerem que as réplicas do bloco de arquivos foram criadas, o aplicativo cliente fecha o arquivo e notifica o NameNode, que então fecha o contrato aberto.

Dados de leitura

Para ler arquivos do HDFS, o seguinte processo deveria ter lugar:

  1. O cliente envia uma solicitação ao NomeNome para um arquivo.

    O NomeNode determina quais blocos estão envolvidos e escolhem, com base na proximidade geral dos blocos um ao outro e ao cliente, o caminho de acesso mais eficiente.

  2. O cliente então acessa os blocos usando os endereços fornecidos pelo NomeNodo.

Balançando dados no cluster Hadoop

Ao longo do tempo, com combinações de padrões de ingestão de dados desiguais (onde alguns nós de escravos podem ter mais dados escritos para eles) ou falhas de nós, os dados provavelmente se distribuirão de forma desigual entre os racks e nós escravos no seu cluster Hadoop.

Esta distribuição desigual pode ter um impacto prejudicial no desempenho porque a demanda em nós de escravos individuais ficará desequilibrada; os nós com poucos dados não serão totalmente utilizados; e os nós com muitos blocos serão usados ​​em excesso. ( Nota: O uso excessivo e o subutilizado são baseados na atividade do disco, não na CPU ou na RAM.)

O HDFS inclui um utilitário balanceador para redistribuir blocos de nós escravos em excesso para subutilizados, mantendo a política de colocar blocos em diferentes nós escravos e racks. Os administradores Hadoop devem verificar regularmente a saúde HDFS, e se os dados se distribuem de forma desigual, eles devem invocar o utilitário balanceador.

Design do servidor principal NameNode

Devido à sua natureza de missão crítica, o servidor mestre executando o daemon NameNode precisa de requisitos de hardware marcadamente diferentes do que os de um nó escravo. Mais significativamente, os componentes de nível empresarial precisam ser usados ​​para minimizar a probabilidade de uma interrupção. Além disso, você precisará de RAM suficiente para carregar na memória todos os dados de metadados e localização sobre todos os blocos de dados armazenados no HDFS.

Mantenha o controle dos blocos de dados com NameNode em HDFS - dummies

Escolha dos editores

ASVAB Paragraph Comprehension Practice - dummies

ASVAB Paragraph Comprehension Practice - dummies

Um dos subtestes que você verá no ASVAB é o teste de compreensão de parágrafos. Esta parte do ASVAB está voltada para ver se você entende o que você lê. Exemplo de perguntas Parágrafo Tempo de compreensão: 13 minutos para 15 perguntas Instruções: A compreensão de parágrafo é o quarto subtesto no ASVAB. As perguntas são projetadas para ...

ASVAB Preparação: Números positivos e negativos - manequins

ASVAB Preparação: Números positivos e negativos - manequins

Certifique-se de que esteja familiarizado com o trabalho positivo e negativo números para o ASVAB. Os números podem ser positivos ou negativos. Um número positivo é qualquer número maior que zero. Então, 4; 3. 2; 793; 3/4; 1/2; e 430, 932, 843, 784 são todos números positivos. Números inferiores a zero são números negativos. Cada número positivo tem um negativo ...

ASVAB Dicas de compreensão de leitura - manequins

ASVAB Dicas de compreensão de leitura - manequins

As abordagens de compreensão de parágrafo no ASVAB geralmente são bastante curtas. Essas dicas podem ajudá-lo a compreender melhor as passagens de leitura ASVAB e as perguntas que as seguem: Compreenda o que a questão quer de você. Solicita o ponto principal, informações específicas ou uma conclusão baseada na informação apresentada? Releia o parágrafo ...

Escolha dos editores

A diferença entre análises analógicas e digitais - manequins

A diferença entre análises analógicas e digitais - manequins

Toda a eletrônica pode ser dividida em duas grandes categorias: analógico e digital. Um dos exemplos mais comuns da diferença entre dispositivos analógicos e digitais é um relógio. No relógio analógico, o tempo é representado por mãos que giram ao redor de um disco e apontam para uma localização no mostrador que representa ...

O papel dos átomos na eletrônica - dummies

O papel dos átomos na eletrônica - dummies

Os átomos são os blocos de construção básicos de tudo no universo, seja natural ou manmade. Eles são tão pequenos que você encontraria milhões deles em uma única partícula de poeira. A corrente elétrica, às vezes conhecida como eletricidade, é o movimento na mesma direção de partículas microscópicamente pequenas e eletricamente carregadas, chamadas elétrons. Cada átomo contém o ...

Roles de prótons e elétrons - dummies

Roles de prótons e elétrons - dummies

É Uma propriedade de certas partículas, como elétrons, prótons , e quarks (sim, quarks) que descreve como eles interagem uns com os outros. Existem dois tipos diferentes de carga elétrica, um pouco arbitrariamente chamada positiva e negativa (bem como as quatro direções cardinais são chamadas norte, sul, leste e oeste). Em geral, partículas que carregam ...

Escolha dos editores

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Trabalhando no Access 2007 é mais fácil uma vez que você entenda executar a janela do Access 2007 e usar ferramentas para ajudar a gerenciar seus dados e responder suas perguntas.

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Antes de enviar uma mensagem de e-mail no Lotus Notes 6, você pode definir Opções de entrega, Opções de segurança e Selos de humor. Use essas dicas de notas para informar o destinatário sobre o quão quente é sua mensagem ou qual é o seu humor; ou solicitar confirmação de entrega, definir o tempo de entrega e muito mais. Depois de terminar de compor o corpo ...

10 Ofícios de teclado do Office 2016 - dummies

10 Ofícios de teclado do Office 2016 - dummies

Um tema comum do Office 2016 é que todos os programas se parecem e funcionam. Depois de aprender a usar o Word, você achará que não é muito mais difícil aprender o Excel ou o PowerPoint porque as guias do Ribbon funcionam de maneiras semelhantes. Ainda melhor, os mesmos comandos de teclas funcionam de forma semelhante em todos os programas do Office 2016. Por ...