Lar Finanças Pessoais Da Fase do mapa do MapReduce Application Flow do Hadoop - dummies

Da Fase do mapa do MapReduce Application Flow do Hadoop - dummies

Vídeo: 14 MAPREDUCE PARTITION EXAMPLE 2024

Vídeo: 14 MAPREDUCE PARTITION EXAMPLE 2024
Anonim

Um aplicativo MapReduce processa os dados em divisões de entrada em uma base record-by-record e que cada registro é entendido por MapReduce como uma chave / valor par. Depois que as divisões de entrada foram calculadas, as tarefas do mapeador podem começar a processá-las - ou seja, logo após a instalação de agendamento do Gerenciador de Recursos atribuir-lhes os recursos de processamento. (No Hadoop 1, o JobTracker atribui tarefas de mapeador a slots de processamento específicos.)

A própria tarefa do mapeador processa sua entrada dividir um registro por vez - na figura, esse registro solitário é representado pelo par de chaves / valores. No caso de nossos dados de voo, quando as divisões de entrada são calculadas (usando o método de processamento de arquivo padrão para arquivos de texto), a suposição é que cada linha no arquivo de texto é um registro único.

Para cada registro, o texto da própria linha representa o valor e o deslocamento de bytes de cada linha desde o início da divisão é considerado a chave.

Você pode estar se perguntando por que o número da linha não é usado em vez do deslocamento do byte. Quando você considera que um arquivo de texto muito grande é dividido em muitos blocos de dados individuais e é processado como muitas divisões, o número da linha é um conceito de risco.

O número de linhas em cada divisão varia, portanto, seria impossível calcular o número de linhas anteriores ao processado. No entanto, com o deslocamento de bytes, você pode ser preciso, porque cada bloco possui um número fixo de bytes.

Como uma tarefa de mapeador processa cada registro, gera um novo par de chave / valor: a chave e o valor aqui podem ser completamente diferentes do par de entrada. A saída da tarefa do mapeador é a coleção completa de todos esses pares chave / valor.

Antes de escrever o arquivo de saída final para cada tarefa do mapeador, a saída é particionada com base na chave e ordenada. Esse particionamento significa que todos os valores para cada chave são agrupados.

No caso do aplicativo de amostra bastante básico, existe apenas um único redutor, de modo que toda a saída da tarefa do mapeador é gravada em um único arquivo. Mas em casos com redutores múltiplos, cada tarefa de mapeador também pode gerar vários arquivos de saída.

A repartição desses arquivos de saída é baseada na chave de particionamento. Por exemplo, se houver apenas três chaves de particionamento distintas para as tarefas do mapeador e você configurou três redutores para o trabalho, haverá três arquivos de saída do mapeador. Neste exemplo, se uma tarefa de mapeador particular processa uma divisão de entrada e gera saída com duas das três chaves, haverá apenas dois arquivos de saída.

Comprime sempre os arquivos de saída de suas tarefas de mapeador. O maior benefício aqui é em ganhos de desempenho, porque escrever arquivos de saída menores minimiza o custo inevitável de transferir a saída do mapeador para os nós onde os redutores estão em execução.

O particionador padrão é mais do que adequado na maioria das situações, mas às vezes você pode querer personalizar a forma como os dados são particionados antes de serem processados ​​pelos redutores. Por exemplo, você pode querer que os dados em seus conjuntos de resultados sejam classificados pela chave e seus valores - conhecidos como secundário ordenados.

Para fazer isso, você pode substituir o particionador padrão e implementar o seu próprio. Este processo requer algum cuidado, no entanto, porque você quer garantir que o número de registros em cada partição seja uniforme. (Se um redutor tiver que processar muito mais dados do que os outros redutores, você aguardará que seu trabalho MapReduce termine enquanto o redutor único sobrecarregado é slogging através de seu conjunto de dados desproporcionalmente grande.)

Usando arquivos intermediários de tamanho uniforme, você pode aproveitar melhor o paralelismo disponível no processamento MapReduce.

Da Fase do mapa do MapReduce Application Flow do Hadoop - dummies

Escolha dos editores

ASVAB Paragraph Comprehension Practice - dummies

ASVAB Paragraph Comprehension Practice - dummies

Um dos subtestes que você verá no ASVAB é o teste de compreensão de parágrafos. Esta parte do ASVAB está voltada para ver se você entende o que você lê. Exemplo de perguntas Parágrafo Tempo de compreensão: 13 minutos para 15 perguntas Instruções: A compreensão de parágrafo é o quarto subtesto no ASVAB. As perguntas são projetadas para ...

ASVAB Preparação: Números positivos e negativos - manequins

ASVAB Preparação: Números positivos e negativos - manequins

Certifique-se de que esteja familiarizado com o trabalho positivo e negativo números para o ASVAB. Os números podem ser positivos ou negativos. Um número positivo é qualquer número maior que zero. Então, 4; 3. 2; 793; 3/4; 1/2; e 430, 932, 843, 784 são todos números positivos. Números inferiores a zero são números negativos. Cada número positivo tem um negativo ...

ASVAB Dicas de compreensão de leitura - manequins

ASVAB Dicas de compreensão de leitura - manequins

As abordagens de compreensão de parágrafo no ASVAB geralmente são bastante curtas. Essas dicas podem ajudá-lo a compreender melhor as passagens de leitura ASVAB e as perguntas que as seguem: Compreenda o que a questão quer de você. Solicita o ponto principal, informações específicas ou uma conclusão baseada na informação apresentada? Releia o parágrafo ...

Escolha dos editores

A diferença entre análises analógicas e digitais - manequins

A diferença entre análises analógicas e digitais - manequins

Toda a eletrônica pode ser dividida em duas grandes categorias: analógico e digital. Um dos exemplos mais comuns da diferença entre dispositivos analógicos e digitais é um relógio. No relógio analógico, o tempo é representado por mãos que giram ao redor de um disco e apontam para uma localização no mostrador que representa ...

O papel dos átomos na eletrônica - dummies

O papel dos átomos na eletrônica - dummies

Os átomos são os blocos de construção básicos de tudo no universo, seja natural ou manmade. Eles são tão pequenos que você encontraria milhões deles em uma única partícula de poeira. A corrente elétrica, às vezes conhecida como eletricidade, é o movimento na mesma direção de partículas microscópicamente pequenas e eletricamente carregadas, chamadas elétrons. Cada átomo contém o ...

Roles de prótons e elétrons - dummies

Roles de prótons e elétrons - dummies

É Uma propriedade de certas partículas, como elétrons, prótons , e quarks (sim, quarks) que descreve como eles interagem uns com os outros. Existem dois tipos diferentes de carga elétrica, um pouco arbitrariamente chamada positiva e negativa (bem como as quatro direções cardinais são chamadas norte, sul, leste e oeste). Em geral, partículas que carregam ...

Escolha dos editores

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Trabalhando no Access 2007 é mais fácil uma vez que você entenda executar a janela do Access 2007 e usar ferramentas para ajudar a gerenciar seus dados e responder suas perguntas.

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Antes de enviar uma mensagem de e-mail no Lotus Notes 6, você pode definir Opções de entrega, Opções de segurança e Selos de humor. Use essas dicas de notas para informar o destinatário sobre o quão quente é sua mensagem ou qual é o seu humor; ou solicitar confirmação de entrega, definir o tempo de entrega e muito mais. Depois de terminar de compor o corpo ...

10 Ofícios de teclado do Office 2016 - dummies

10 Ofícios de teclado do Office 2016 - dummies

Um tema comum do Office 2016 é que todos os programas se parecem e funcionam. Depois de aprender a usar o Word, você achará que não é muito mais difícil aprender o Excel ou o PowerPoint porque as guias do Ribbon funcionam de maneiras semelhantes. Ainda melhor, os mesmos comandos de teclas funcionam de forma semelhante em todos os programas do Office 2016. Por ...