Lar Finanças Pessoais Da Fase do mapa do MapReduce Application Flow do Hadoop - dummies

Da Fase do mapa do MapReduce Application Flow do Hadoop - dummies

Vídeo: 14 MAPREDUCE PARTITION EXAMPLE 2025

Vídeo: 14 MAPREDUCE PARTITION EXAMPLE 2025
Anonim

Um aplicativo MapReduce processa os dados em divisões de entrada em uma base record-by-record e que cada registro é entendido por MapReduce como uma chave / valor par. Depois que as divisões de entrada foram calculadas, as tarefas do mapeador podem começar a processá-las - ou seja, logo após a instalação de agendamento do Gerenciador de Recursos atribuir-lhes os recursos de processamento. (No Hadoop 1, o JobTracker atribui tarefas de mapeador a slots de processamento específicos.)

A própria tarefa do mapeador processa sua entrada dividir um registro por vez - na figura, esse registro solitário é representado pelo par de chaves / valores. No caso de nossos dados de voo, quando as divisões de entrada são calculadas (usando o método de processamento de arquivo padrão para arquivos de texto), a suposição é que cada linha no arquivo de texto é um registro único.

Para cada registro, o texto da própria linha representa o valor e o deslocamento de bytes de cada linha desde o início da divisão é considerado a chave.

Você pode estar se perguntando por que o número da linha não é usado em vez do deslocamento do byte. Quando você considera que um arquivo de texto muito grande é dividido em muitos blocos de dados individuais e é processado como muitas divisões, o número da linha é um conceito de risco.

O número de linhas em cada divisão varia, portanto, seria impossível calcular o número de linhas anteriores ao processado. No entanto, com o deslocamento de bytes, você pode ser preciso, porque cada bloco possui um número fixo de bytes.

Como uma tarefa de mapeador processa cada registro, gera um novo par de chave / valor: a chave e o valor aqui podem ser completamente diferentes do par de entrada. A saída da tarefa do mapeador é a coleção completa de todos esses pares chave / valor.

Antes de escrever o arquivo de saída final para cada tarefa do mapeador, a saída é particionada com base na chave e ordenada. Esse particionamento significa que todos os valores para cada chave são agrupados.

No caso do aplicativo de amostra bastante básico, existe apenas um único redutor, de modo que toda a saída da tarefa do mapeador é gravada em um único arquivo. Mas em casos com redutores múltiplos, cada tarefa de mapeador também pode gerar vários arquivos de saída.

A repartição desses arquivos de saída é baseada na chave de particionamento. Por exemplo, se houver apenas três chaves de particionamento distintas para as tarefas do mapeador e você configurou três redutores para o trabalho, haverá três arquivos de saída do mapeador. Neste exemplo, se uma tarefa de mapeador particular processa uma divisão de entrada e gera saída com duas das três chaves, haverá apenas dois arquivos de saída.

Comprime sempre os arquivos de saída de suas tarefas de mapeador. O maior benefício aqui é em ganhos de desempenho, porque escrever arquivos de saída menores minimiza o custo inevitável de transferir a saída do mapeador para os nós onde os redutores estão em execução.

O particionador padrão é mais do que adequado na maioria das situações, mas às vezes você pode querer personalizar a forma como os dados são particionados antes de serem processados ​​pelos redutores. Por exemplo, você pode querer que os dados em seus conjuntos de resultados sejam classificados pela chave e seus valores - conhecidos como secundário ordenados.

Para fazer isso, você pode substituir o particionador padrão e implementar o seu próprio. Este processo requer algum cuidado, no entanto, porque você quer garantir que o número de registros em cada partição seja uniforme. (Se um redutor tiver que processar muito mais dados do que os outros redutores, você aguardará que seu trabalho MapReduce termine enquanto o redutor único sobrecarregado é slogging através de seu conjunto de dados desproporcionalmente grande.)

Usando arquivos intermediários de tamanho uniforme, você pode aproveitar melhor o paralelismo disponível no processamento MapReduce.

Da Fase do mapa do MapReduce Application Flow do Hadoop - dummies

Escolha dos editores

Noções básicas do arquivo de dados Flashback da Oracle 12c - dummies

Noções básicas do arquivo de dados Flashback da Oracle 12c - dummies

O Flashback Data Archive do oracle 12c é um mecanismo de banco de dados que permite que você para armazenar periodicamente ou indefinidamente todas as versões de linha em uma tabela ao longo da sua vida útil. Você pode então escolher uma hora para ver os dados como existia em um ponto específico. Esteja ciente de que o Flashback Data Archive é um recurso licenciado. ...

Noções básicas de clusters de aplicativos reais do Oracle 12c - manequins

Noções básicas de clusters de aplicativos reais do Oracle 12c - manequins

Se você visitou os sites da Oracle nos últimos 12 anos , você viu o byline de marketing: "Inquebrável. "Essa linha de tag refere-se ao recurso Real Application Clusters (RAC). Claro, muitos elementos estão envolvidos, mas o RAC tem o destaque. O RAC é a solução de clustering de banco de dados Oracle. Em certo sentido, funciona na teoria de que ...

Noções básicas de Redo Log Files no Oracle 12c - dummies

Noções básicas de Redo Log Files no Oracle 12c - dummies

Redo os arquivos de log armazenam as informações do buffer de log no banco de dados Oracle 12c. Eles são escritos pelo Log Writer (LGWR). Mais uma vez, você não pode ler esses arquivos binários sem a ajuda do software de banco de dados. Normalmente, os arquivos de reto de log são nomeados com a extensão. LOG ou. RDO. Pode ser qualquer coisa que você queira, ...

Escolha dos editores

São orgasmos ok durante a gravidez? - Dummies

São orgasmos ok durante a gravidez? - Dummies

As mulheres grávidas não só têm permissão para fazer sexo, mas muitas vezes o desejam. Mas é bom aproveitar a relação sexual com o ponto do orgasmo? Afinal, os orgasmos são nada mais do que contrações - e as pessoas sugeriram que isso poderia desencadear mão-de-obra. Isso é apenas um mito. De fato, grávida ...

Alimentando a Multidão em uma Reunião Familiar - manequins

Alimentando a Multidão em uma Reunião Familiar - manequins

Cozinhando uma refeição para um grande grupo (reunião familiar ou de outra forma ) requer planejamento e resistência. Aqui está um guia útil para quantidades de alimentos e segurança alimentar, e conselhos sobre a organização de uma festa de potluck. Planejando para potlucks A forma mais comum de comestibles de grupo é uma festa de potluck - qual é a maneira mais barata e fácil de ...

Anatomia do Penis humano - dummies

Anatomia do Penis humano - dummies

Sabendo como as funções de um pénis podem fornecer uma visão útil do sexo e do corpo humano - se você quer entender o pénis e a anatomia masculina melhor ou aprender sobre isso pela primeira vez. Basicamente, um pênis é composto de três estruturas, que são feitas de um material esponjoso que pode preencher com sangue: ...

Escolha dos editores

Como lidar com outliers causados ​​por Forças externas - manequins

Como lidar com outliers causados ​​por Forças externas - manequins

Certifique-se de verificar atentamente os outliers antes eles influenciam sua análise preditiva. Os outliers podem distorcer a análise de dados e dados. Por exemplo, qualquer análise estatística feita com dados que deixa outliers no lugar acaba por desviar os meios e variâncias. Os outliers não controlados ou mal interpretados podem levar a conclusões falsas. Diga os seus dados que ...

Como criar um modelo de análise preditiva com regressão R - manequins

Como criar um modelo de análise preditiva com regressão R - manequins

Você deseja criar um preditivo modelo de análise que você pode avaliar usando resultados conhecidos. Para fazer isso, vamos dividir nosso conjunto de dados em dois conjuntos: um para treinar o modelo e outro para testar o modelo. Uma divisão 70/30 entre treinamento e testes de conjuntos de dados será suficiente. As próximas duas linhas de código ...

Como definir objetivos de negócios para um modelo de análise preditiva - dummies

Como definir objetivos de negócios para um modelo de análise preditiva - dummies

Um modelo de análise preditiva visa resolvendo um problema comercial ou realizando um resultado comercial desejado. Esses objetivos comerciais se tornam os objetivos do modelo. Conhecer aqueles garante o valor comercial do modelo que você constrói - o que não deve ser confundido com a precisão do modelo. Hipotéticamente, você pode construir um modelo preciso para ...