Lar Finanças Pessoais Hadoop como um mecanismo de pré-processamento de dados - manequins

Hadoop como um mecanismo de pré-processamento de dados - manequins

Vídeo: hadoop yarn architecture 2024

Vídeo: hadoop yarn architecture 2024
Anonim

Um dos primeiros casos de uso do Hadoop na empresa foi como um mecanismo de transformação programática usado para processar dados para um data warehouse. Essencialmente, esse caso de uso alavanca o poder do ecossistema Hadoop para manipular e aplicar transformações aos dados antes de ser carregado em um data warehouse.

Embora o mecanismo de transformação atual seja novo (é o Hadoop, então as transformações e os fluxos de dados são codificados em Pig ou MapReduce, entre outros idiomas), a própria abordagem já foi usada por algum tempo com os processos Extract, Transform, Load (ETL).

Pense na evolução dos bancos de dados OLTP e ROLAP. Muitas organizações com bancos de dados operacionais também implantaram data warehouses. Então, como os departamentos de TI obtêm dados de seus bancos de dados operacionais em seus data warehouses? (Lembre-se de que os dados operacionais normalmente não estão em uma forma que se presta à análise.)

A resposta aqui é ETL e, como armazéns de dados aumentados em uso e importância, as etapas no processo se tornaram bem compreendidas e as melhores práticas foram desenvolvido. Além disso, várias empresas de software começaram a oferecer soluções ETL interessantes para que os departamentos de TI pudessem minimizar seu próprio desenvolvimento de código personalizado.

O processo ETL básico é bastante direto: você E dados xtract de um banco de dados operacional, T redigi-lo na forma que você precisa para sua análise e ferramentas de relatório e, em seguida, você L deve esses dados em seu data warehouse.

Uma variação comum para ETL é ELT - Extract, Load e Transform. No processo ELT, você executa transformações (em contraste com ETL) após carregar os dados no repositório de destino. Essa abordagem é freqüentemente usada quando a transformação se beneficia muito com um mecanismo de processamento de SQL muito rápido em dados estruturados. (Os bancos de dados relacionais podem não se destacar no processamento de dados não estruturados, mas eles realizam um processamento muito rápido - adivinhe o que? - dados estruturados.)

Se os dados que você está transformando estiverem destinados a um data warehouse, e muitas dessas transformações podem ser feitas em SQL, você pode optar por executar as transformações no data warehouse propriamente dito. O ELT é especialmente atraente se a maior parte do seu conjunto de habilidades reside na ferramenta baseada em SQL.

Com o Hadoop agora capaz de processar consultas SQL, as cargas de trabalho ETL e ELT podem ser hospedadas no Hadoop. A figura mostra os serviços ETL adicionados à arquitetura de referência.

Se você implantou uma zona de aterragem baseada em Hadoop, você tem quase tudo o que você precisa no lugar para usar o Hadoop como um mecanismo de transformação.Você já está enviando dados de seus sistemas operacionais para o Hadoop usando o Sqoop, que cobre o passo de extração. Neste ponto, você precisará implementar sua lógica de transformação em aplicativos MapReduce ou Pig. Depois que os dados são transformados, você pode carregar os dados no data warehouse usando o Sqoop.

Usar o Hadoop como mecanismo de transformação de dados também oferece possibilidades. Se seu data warehouse não modificar seus dados (é apenas para relatórios), você pode simplesmente manter os dados que você gera com o processo de transformação. Neste modelo, os dados só flutuam da esquerda para a direita na figura, onde os dados são extraídos dos bancos de dados operacionais, transformados na zona de pouso e depois carregados no data warehouse.

Com todos os dados transformados já na zona de pouso, não há necessidade de copiá-lo de volta para Hadoop - a menos que, obviamente, os dados sejam modificados no armazém.

Hadoop como um mecanismo de pré-processamento de dados - manequins

Escolha dos editores

ASVAB Paragraph Comprehension Practice - dummies

ASVAB Paragraph Comprehension Practice - dummies

Um dos subtestes que você verá no ASVAB é o teste de compreensão de parágrafos. Esta parte do ASVAB está voltada para ver se você entende o que você lê. Exemplo de perguntas Parágrafo Tempo de compreensão: 13 minutos para 15 perguntas Instruções: A compreensão de parágrafo é o quarto subtesto no ASVAB. As perguntas são projetadas para ...

ASVAB Preparação: Números positivos e negativos - manequins

ASVAB Preparação: Números positivos e negativos - manequins

Certifique-se de que esteja familiarizado com o trabalho positivo e negativo números para o ASVAB. Os números podem ser positivos ou negativos. Um número positivo é qualquer número maior que zero. Então, 4; 3. 2; 793; 3/4; 1/2; e 430, 932, 843, 784 são todos números positivos. Números inferiores a zero são números negativos. Cada número positivo tem um negativo ...

ASVAB Dicas de compreensão de leitura - manequins

ASVAB Dicas de compreensão de leitura - manequins

As abordagens de compreensão de parágrafo no ASVAB geralmente são bastante curtas. Essas dicas podem ajudá-lo a compreender melhor as passagens de leitura ASVAB e as perguntas que as seguem: Compreenda o que a questão quer de você. Solicita o ponto principal, informações específicas ou uma conclusão baseada na informação apresentada? Releia o parágrafo ...

Escolha dos editores

A diferença entre análises analógicas e digitais - manequins

A diferença entre análises analógicas e digitais - manequins

Toda a eletrônica pode ser dividida em duas grandes categorias: analógico e digital. Um dos exemplos mais comuns da diferença entre dispositivos analógicos e digitais é um relógio. No relógio analógico, o tempo é representado por mãos que giram ao redor de um disco e apontam para uma localização no mostrador que representa ...

O papel dos átomos na eletrônica - dummies

O papel dos átomos na eletrônica - dummies

Os átomos são os blocos de construção básicos de tudo no universo, seja natural ou manmade. Eles são tão pequenos que você encontraria milhões deles em uma única partícula de poeira. A corrente elétrica, às vezes conhecida como eletricidade, é o movimento na mesma direção de partículas microscópicamente pequenas e eletricamente carregadas, chamadas elétrons. Cada átomo contém o ...

Roles de prótons e elétrons - dummies

Roles de prótons e elétrons - dummies

É Uma propriedade de certas partículas, como elétrons, prótons , e quarks (sim, quarks) que descreve como eles interagem uns com os outros. Existem dois tipos diferentes de carga elétrica, um pouco arbitrariamente chamada positiva e negativa (bem como as quatro direções cardinais são chamadas norte, sul, leste e oeste). Em geral, partículas que carregam ...

Escolha dos editores

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Trabalhando no Access 2007 é mais fácil uma vez que você entenda executar a janela do Access 2007 e usar ferramentas para ajudar a gerenciar seus dados e responder suas perguntas.

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Antes de enviar uma mensagem de e-mail no Lotus Notes 6, você pode definir Opções de entrega, Opções de segurança e Selos de humor. Use essas dicas de notas para informar o destinatário sobre o quão quente é sua mensagem ou qual é o seu humor; ou solicitar confirmação de entrega, definir o tempo de entrega e muito mais. Depois de terminar de compor o corpo ...

10 Ofícios de teclado do Office 2016 - dummies

10 Ofícios de teclado do Office 2016 - dummies

Um tema comum do Office 2016 é que todos os programas se parecem e funcionam. Depois de aprender a usar o Word, você achará que não é muito mais difícil aprender o Excel ou o PowerPoint porque as guias do Ribbon funcionam de maneiras semelhantes. Ainda melhor, os mesmos comandos de teclas funcionam de forma semelhante em todos os programas do Office 2016. Por ...