Lar Finanças Pessoais O que é Hadoop? - dummies

O que é Hadoop? - dummies

Vídeo: O que é Hadoop? (Parte 1) 2024

Vídeo: O que é Hadoop? (Parte 1) 2024
Anonim

O Hadoop é uma ferramenta de processamento de dados de código aberto que foi desenvolvida pela Apache Software Foundation. O Hadoop atualmente é o programa go-to para lidar com enormes volumes e variedades de dados porque foi projetado para tornar a computação em grande escala mais acessível e flexível. Com a chegada do Hadoop, o processamento de dados em massa foi introduzido para significativamente mais pessoas e mais organizações.

O Hadoop pode oferecer uma ótima solução para processar, processar e agrupar fluxos de massa de dados estruturados, semi-estruturados e não estruturados. Ao configurar e implementar o Hadoop, você obtém uma maneira relativamente acessível de começar a usar e desenhar informações de todos os dados da sua organização, em vez de continuar a depender exclusivamente desse conjunto de dados transacional que você tenha sentado em um antigo data warehouse em algum lugar.

O Hadoop é um dos programas mais populares disponíveis para requisitos de computação em larga escala. O Hadoop fornece uma camada de mapa e redução que é capaz de lidar com os requisitos de processamento de dados da maioria dos grandes projetos de dados.

Às vezes, o dado é muito grande e rápido para Hadoop mesmo. Nesses casos, as organizações estão se voltando para implementações MapReduce alternativas e personalizadas.

Hadoop usa clusters de hardware de mercadorias para armazenar dados. O hardware em cada cluster está conectado e esse hardware é composto por commodity servidores - servidores genéricos de baixo custo e de baixo desempenho que oferecem poderosos recursos de computação quando executados em paralelo em um cluster compartilhado. Esses servidores de commodities também são chamados nós . A computação comoditizada diminui drasticamente os custos envolvidos no manuseio e armazenamento de grandes dados.

O Hadoop é composto pelos dois componentes a seguir:

  • Uma estrutura de processamento distribuído: O Hadoop usa o Hadoop MapReduce como estrutura de processamento distribuído. Mais uma vez, uma estrutura de processamento distribuída é uma estrutura poderosa onde as tarefas de processamento são distribuídas em clusters de nós para que grandes volumes de dados possam ser processados ​​muito rapidamente em todo o sistema como um todo.

  • Um sistema de arquivos distribuídos: O Hadoop usa o sistema de arquivos distribuídos Hadoop (HDFS) como seu sistema de arquivos distribuídos.

As cargas de trabalho dos aplicativos que são executados no Hadoop estão divididas entre os nós do cluster Hadoop e, em seguida, a saída é armazenada no HDFS. O cluster Hadoop pode ser composto por milhares de nós. Para reduzir os custos dos processos de entrada / saída (E / S), os trabalhos do Hadoop MapReduce são realizados o mais próximo possível dos dados.

Isso significa que os processadores de tarefas de redução são posicionados o mais próximo possível dos dados da tarefa de mapa de saída que precisam ser processados. Este design facilita o compartilhamento de requisitos computacionais no grande processamento de dados.

Hadoop também suporta organização hierárquica. Alguns dos seus nós são classificados como nós mestres, e outros são classificados como escravos. O serviço mestre, conhecido como JobTracker , foi projetado para controlar vários serviços escravos. Os serviços escravos (também chamados TaskTrackers ) são distribuídos um para cada nó. O JobTracker controla TaskTrackers e atribui-lhes as tarefas Hadoop MapReduce.

Em uma versão mais recente do Hadoop, conhecida como Hadoop 2, um gerente de recursos chamado Hadoop YARN foi adicionado. Com relação ao MapReduce no Hadoop, o YARN atua como um sistema integrado que realiza funções de gerenciamento de recursos e agendamento.

Hadoop processa dados em lote. Conseqüentemente, se você estiver trabalhando com dados em tempo real, você não poderá usar o Hadoop para lidar com seus grandes problemas de dados. Dito isto, é muito útil para resolver muitos outros tipos de grandes problemas de dados.

O que é Hadoop? - dummies

Escolha dos editores

Marcas e Diretrizes de direitos autorais para Pay per Click Marketing - manequins

Marcas e Diretrizes de direitos autorais para Pay per Click Marketing - manequins

Você pode estar considerando uma marca registrada ou direitos autorais para sua campanha de marketing on-line. Antes de considerar estes, como um comerciante da web, você deve saber a diferença entre os dois para saber o que se aplica ao seu anúncio. Marcas registradas: uma marca registrada pode ser uma palavra, logotipo, frase ou imagem que pessoas ou empresas possuem para se representar ou ...

Tipos de imagens para usar em suas mensagens de marketing de e-mail - manequins

Tipos de imagens para usar em suas mensagens de marketing de e-mail - manequins

> As imagens devem reforçar o texto em seus e-mails de marketing ou contar a história dos seus e-mails por si só. Algumas pessoas digitalizam seu e-mail apenas para ver as imagens. Você precisa obter permissão para usar a arte de outra pessoa ou as pessoas em fotografias que você tira. Você pode evitar o problema de permissões por ...

Escolha dos editores

O que é o Centro dos Dados? - dummies

O que é o Centro dos Dados? - dummies

Você identifica o centro de um conjunto de dados com várias medidas de resumo diferentes. Estes incluem os três grandes: média, mediana e modo. Você calcula a média de um conjunto de dados, somando os valores de todos os elementos e dividindo pelo número total de elementos. Por exemplo, suponha que um pequeno conjunto de dados consiste no número ...

Ferramentas de visualização baseadas na web - manequins

Ferramentas de visualização baseadas na web - manequins

Essas duas ferramentas de visualização de dados valem o seu tempo para conferir. Essas ferramentas são um pouco mais sofisticadas do que muitas das outras disponíveis, mas com essa sofisticação vem mais saídas personalizáveis ​​e adaptáveis. Obtendo um pouco de tecer a sua manga Análise de análise baseada na web e ambiente de visualização, ou Weave, é criada pelo Dr. Georges ...

O que é Hadoop? - dummies

O que é Hadoop? - dummies

O hadoop é uma ferramenta de processamento de dados de código aberto que foi desenvolvida pela Apache Software Foundation. O Hadoop atualmente é o programa go-to para lidar com enormes volumes e variedades de dados porque foi projetado para tornar a computação em grande escala mais acessível e flexível. Com a chegada do Hadoop, o processamento de dados em massa foi introduzido significativamente mais ...

Escolha dos editores

Melhores formatos de imagem para iPhone e iPad - dummies

Melhores formatos de imagem para iPhone e iPad - dummies

Quando você cria sites para iPhone e iPad , você precisa escolher os melhores formatos de imagem para qualquer foto, linha artística, logotipos, desenhos animados e outras imagens que você deseja exibir. Se você trabalha com fotos ou outras imagens com milhões de cores, o formato JPEG é a melhor escolha para o celular ...

Criando uma tela de materiais para o Blender Internal - dummies

Criando uma tela de materiais para o Blender Internal - dummies

Ao trabalhar com materiais no Blender (especialmente quando renderização com o Blender Internal), você descobriu muito rapidamente que você geralmente deve rolar o editor de propriedades ou freqüentemente você deve alternar entre diferentes seções do editor de propriedades. Esse fato é ainda mais evidente quando você começa a trabalhar com texturas no BI. O que é ...

Pintura Texturas em Blender - dummies

Pintura Texturas em Blender - dummies

Você pode pintar sua textura em um programa de edição de imagem como o Krita ou o Photoshop , mas você pode usar o Blender em vez disso. Você pode adicionar muitos detalhes no Blender usando uma combinação do modo UV / Image Editor e Texture Paint no modo 3D View. Comece pelo layout da tela de edição UV. Imagem de pintura ...