Lar Finanças Pessoais Blocos de dados no sistema de arquivos distribuídos Hadoop (HDFS) - manequins

Blocos de dados no sistema de arquivos distribuídos Hadoop (HDFS) - manequins

Vídeo: HDFS - Intro to Hadoop and MapReduce 2024

Vídeo: HDFS - Intro to Hadoop and MapReduce 2024
Anonim

Quando você armazena um arquivo no HDFS, o sistema o destrói em um conjunto de blocos individuais e armazena esses blocos em vários nós escravos no cluster Hadoop. Esta é uma coisa completamente normal, já que todos os sistemas de arquivos quebram arquivos em blocos antes de armazená-los no disco.

O HDFS não tem ideia (e não se importa) do que está armazenado no arquivo, de modo que os arquivos em bruto não são divididos de acordo com as regras que os humanos entenderiam. Os seres humanos, por exemplo, queriam limites de registro - as linhas que mostram onde um registro começa e termina - para ser respeitado.

O HDFS é muitas vezes felizmente inconsciente de que o registro final em um bloco pode ser apenas um registro parcial, com o resto do seu conteúdo desviado para o seguinte bloco. O HDFS só quer garantir que os arquivos sejam divididos em blocos de tamanho uniforme que correspondam ao tamanho de bloco predefinido para a instância do Hadoop (a menos que um valor personalizado tenha sido inserido para o arquivo que está sendo armazenado). Na figura anterior, esse tamanho de bloco é de 128 MB.

Nem todos os arquivos que você precisa armazenar são um múltiplo exato do tamanho do bloco do seu sistema, de modo que o bloco de dados final para um arquivo usa apenas o espaço necessário. No caso da figura anterior, o bloco final de dados é de 1 MB.

O conceito de armazenar um arquivo como uma coleção de blocos é inteiramente consistente com a forma como os sistemas de arquivos normalmente funcionam. Mas o que é diferente sobre HDFS é a escala. Um tamanho de bloco típico que você veria em um sistema de arquivos no Linux é 4KB, enquanto que um tamanho de bloco típico no Hadoop é 128MB. Esse valor é configurável e pode ser personalizado, como um novo padrão do sistema e um valor personalizado para arquivos individuais.

O Hadoop foi projetado para armazenar dados na escala petabyte, onde as possíveis limitações à redução de escala são minimizadas. O alto tamanho do bloco é uma conseqüência direta dessa necessidade de armazenar dados em grande escala.

Em primeiro lugar, todo bloco de dados armazenado em HDFS possui seus próprios metadados e precisa ser rastreado por um servidor central para que os aplicativos que precisam acessar um arquivo específico possam ser direcionados para onde todos os blocos do arquivo estão armazenados. Se o tamanho do bloco estivesse no intervalo de kilobytes, mesmo os volumes de dados modestos na escala do terabyte iriam sobrecarregar o servidor de metadados com muitos blocos para rastrear.

Em segundo lugar, o HDFS foi projetado para permitir um alto débito para que o processamento paralelo desses grandes conjuntos de dados ocorra o mais rápido possível. A chave para a escalabilidade do Hadoop no lado do processamento de dados é, e sempre será paralelismo - a capacidade de processar os blocos individuais desses grandes arquivos em paralelo.

Para permitir o processamento eficiente, um balanço precisa ser atingido. Por um lado, o tamanho do bloco precisa ser grande o suficiente para garantir os recursos dedicados a uma unidade individual de processamento de dados (por exemplo, um mapa ou uma tarefa de redução). Por outro lado, o tamanho do bloco não pode ser tão grande que o sistema aguarda muito tempo para uma última unidade de processamento de dados terminar seu trabalho.

Essas duas considerações, obviamente, dependem dos tipos de trabalho que está sendo feito nos blocos de dados.

Blocos de dados no sistema de arquivos distribuídos Hadoop (HDFS) - manequins

Escolha dos editores

ASVAB Paragraph Comprehension Practice - dummies

ASVAB Paragraph Comprehension Practice - dummies

Um dos subtestes que você verá no ASVAB é o teste de compreensão de parágrafos. Esta parte do ASVAB está voltada para ver se você entende o que você lê. Exemplo de perguntas Parágrafo Tempo de compreensão: 13 minutos para 15 perguntas Instruções: A compreensão de parágrafo é o quarto subtesto no ASVAB. As perguntas são projetadas para ...

ASVAB Preparação: Números positivos e negativos - manequins

ASVAB Preparação: Números positivos e negativos - manequins

Certifique-se de que esteja familiarizado com o trabalho positivo e negativo números para o ASVAB. Os números podem ser positivos ou negativos. Um número positivo é qualquer número maior que zero. Então, 4; 3. 2; 793; 3/4; 1/2; e 430, 932, 843, 784 são todos números positivos. Números inferiores a zero são números negativos. Cada número positivo tem um negativo ...

ASVAB Dicas de compreensão de leitura - manequins

ASVAB Dicas de compreensão de leitura - manequins

As abordagens de compreensão de parágrafo no ASVAB geralmente são bastante curtas. Essas dicas podem ajudá-lo a compreender melhor as passagens de leitura ASVAB e as perguntas que as seguem: Compreenda o que a questão quer de você. Solicita o ponto principal, informações específicas ou uma conclusão baseada na informação apresentada? Releia o parágrafo ...

Escolha dos editores

A diferença entre análises analógicas e digitais - manequins

A diferença entre análises analógicas e digitais - manequins

Toda a eletrônica pode ser dividida em duas grandes categorias: analógico e digital. Um dos exemplos mais comuns da diferença entre dispositivos analógicos e digitais é um relógio. No relógio analógico, o tempo é representado por mãos que giram ao redor de um disco e apontam para uma localização no mostrador que representa ...

O papel dos átomos na eletrônica - dummies

O papel dos átomos na eletrônica - dummies

Os átomos são os blocos de construção básicos de tudo no universo, seja natural ou manmade. Eles são tão pequenos que você encontraria milhões deles em uma única partícula de poeira. A corrente elétrica, às vezes conhecida como eletricidade, é o movimento na mesma direção de partículas microscópicamente pequenas e eletricamente carregadas, chamadas elétrons. Cada átomo contém o ...

Roles de prótons e elétrons - dummies

Roles de prótons e elétrons - dummies

É Uma propriedade de certas partículas, como elétrons, prótons , e quarks (sim, quarks) que descreve como eles interagem uns com os outros. Existem dois tipos diferentes de carga elétrica, um pouco arbitrariamente chamada positiva e negativa (bem como as quatro direções cardinais são chamadas norte, sul, leste e oeste). Em geral, partículas que carregam ...

Escolha dos editores

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Trabalhando no Access 2007 é mais fácil uma vez que você entenda executar a janela do Access 2007 e usar ferramentas para ajudar a gerenciar seus dados e responder suas perguntas.

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Antes de enviar uma mensagem de e-mail no Lotus Notes 6, você pode definir Opções de entrega, Opções de segurança e Selos de humor. Use essas dicas de notas para informar o destinatário sobre o quão quente é sua mensagem ou qual é o seu humor; ou solicitar confirmação de entrega, definir o tempo de entrega e muito mais. Depois de terminar de compor o corpo ...

10 Ofícios de teclado do Office 2016 - dummies

10 Ofícios de teclado do Office 2016 - dummies

Um tema comum do Office 2016 é que todos os programas se parecem e funcionam. Depois de aprender a usar o Word, você achará que não é muito mais difícil aprender o Excel ou o PowerPoint porque as guias do Ribbon funcionam de maneiras semelhantes. Ainda melhor, os mesmos comandos de teclas funcionam de forma semelhante em todos os programas do Office 2016. Por ...