Lar Finanças Pessoais MapReduce Programming Paradigm - dummies

MapReduce Programming Paradigm - dummies

Vídeo: 1.7 the Mapreduce Paradigm 14:14 2024

Vídeo: 1.7 the Mapreduce Paradigm 14:14 2024
Anonim

MapReduce é um paradigma de programação que foi projetado para permitir o processamento distribuído em paralelo de grandes conjuntos de dados, convertendo-os em conjuntos de tuplas e, em seguida, combinando e reduzindo essas tuplas em conjuntos menores de tuplas. Em termos leigos, o MapReduce foi projetado para tirar dados importantes e usar computação distribuída paralela para transformar grandes dados em dados de tamanho pequeno ou regular.

O processamento distribuído paralelo refere-se a uma estrutura poderosa onde volumes de dados em massa são processados ​​de forma muito rápida distribuindo tarefas de processamento em clusters de servidores de commodities. Com relação ao MapReduce, tuplas referem-se a pares de valores-chave pelos quais os dados são agrupados, classificados e processados.

Os trabalhos MapReduce funcionam através do mapa e reduzem as seqüências de operação do processo em um conjunto distribuído de servidores. Na tarefa de mapa , você delega seus dados para pares de valores-chave, transforma-o e filtra-o. Em seguida, você atribui os dados aos nós para processamento.

Na redução da tarefa , você agrega esses dados a conjuntos de dados de tamanho menor. Os dados da etapa de redução são transformados em um formato de valor-chave padrão - onde a chave atua como o identificador de registro eo valor é o valor que está sendo identificado pela chave. Os nós de computação dos clusters processam o mapa e reduzem as tarefas que são definidas pelo usuário. Este trabalho é feito de acordo com as duas etapas a seguir:

  1. Mapear os dados.

    Os dados recebidos devem primeiro ser delegados em pares de valores-chave e divididos em fragmentos, que são atribuídos às tarefas de mapa. Cada cluster de computação - um grupo de nós conectados uns aos outros e executando uma tarefa de computação compartilhada - recebe uma série de tarefas de mapa, que posteriormente são distribuídas entre seus nós.

    Ao processar os pares chave-valor, são gerados pares intermediários de valores-chave. Os pares de valores-chave intermediários são classificados por seus valores-chave e esta lista é dividida em um novo conjunto de fragmentos. Qualquer conta que você tenha para esses novos fragmentos, será o mesmo que a contagem das tarefas de redução.

  2. Reduza os dados.

    Toda tarefa de redução tem um fragmento atribuído a ele. A tarefa de redução simplesmente processa o fragmento e produz uma saída, que também é um par de valores-chave. As tarefas de redução também são distribuídas entre os diferentes nós do cluster. Após a conclusão da tarefa, o resultado final é escrito em um sistema de arquivos.

Em suma, você pode rapidamente e eficientemente reduzir e começar a dar sentido a um enorme volume, velocidade e variedade de dados usando o mapa e reduzir tarefas para marcar seus dados por pares (chave, valor) e, em seguida, reduzir esses pares em conjuntos menores de dados através de operações de agregação - operações que combinam vários valores de um conjunto de dados em um único valor.Um diagrama da arquitetura MapReduce pode ser encontrado aqui.

Se seus dados não se prestam a serem marcados e processados ​​por meio de chaves, valores e agregação, então, mapeie e reduza geralmente não é um ajuste adequado às suas necessidades.

Se você estiver usando o MapReduce como parte de uma solução Hadoop, a saída final será gravada no sistema de arquivos distribuídos Hadoop (HDFS). HDFS é um sistema de arquivos que inclui clusters de servidores de commodities que são usados ​​para armazenar grandes dados. O HDFS torna o gerenciamento e o armazenamento de dados extremamente viáveis ​​financeiramente via -distribuindo tarefas de armazenamento em clusters de servidores de commodities baratos.

MapReduce Programming Paradigm - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...