Lar Finanças Pessoais Hadoop como Destino de Dados de Arquivamento - dummies

Hadoop como Destino de Dados de Arquivamento - dummies

Vídeo: HDFS Demo 2024

Vídeo: HDFS Demo 2024
Anonim

O custo de armazenamento barato para o Hadoop mais a capacidade de consultar os dados do Hadoop com o SQL faz do Hadoop o principal destino para os dados arquivísticos. Este caso de uso tem um impacto baixo na sua organização porque você pode começar a criar sua habilidade Hadoop definida em dados que não estão armazenados em sistemas críticos de desempenho.

Além disso, você não precisa trabalhar duro para obter os dados. (Uma vez que os dados arquivados normalmente são armazenados em sistemas que têm baixo uso, é mais fácil de obter do que os dados que estão no "centro das atenções" em sistemas de missão crítica, como data warehouses.) Se você já está usando Hadoop como um desembarque zona, você tem as bases para o seu arquivo! Você simplesmente mantém o que deseja arquivar e deletar o que você não faz.

Se você pensa sobre a zona de pouso do Hadoop, o arquivo pesquisável, mostrado na figura, amplia o valor do Hadoop e começa a integrar peças que provavelmente já existem em sua empresa. É um ótimo exemplo de encontrar economias de escala e oportunidades de take-out de custos usando o Hadoop.

Aqui, o componente de arquivo conecta a zona de aterragem e o data warehouse. Os dados arquivados são originados no armazém e são armazenados no cluster Hadoop, que também está provisionando a zona de aterragem. Em suma, você pode usar o mesmo cluster Hadoop para arquivar dados e atuar como sua zona de pouso.

A tecnologia Hadoop chave que você usaria para executar o arquivamento é o Sqoop, que pode mover os dados a serem arquivados do data warehouse para o Hadoop. Você precisará considerar o formulário que deseja que os dados sejam incluídos no seu cluster Hadoop. Em geral, os arquivos de colmeia compactados são uma boa escolha.

Você pode, obviamente, transformar os dados das estruturas do depósito em alguma outra forma (por exemplo, uma forma normalizada para reduzir a redundância), mas geralmente não é uma boa idéia. Manter os dados na mesma estrutura que o que está no armazém tornará muito mais fácil a realização de uma consulta de conjunto de dados completo entre os dados arquivados no Hadoop e os dados ativos que estão no armazém.

O conceito de consultar os conjuntos de dados ativos e arquivados traz outra consideração: quantos dados você deve arquivar? Existem realmente duas escolhas comuns: arquivar tudo à medida que os dados são adicionados e alterados no data warehouse, ou apenas arquivam os dados que você considera estar frio.

Arquivar tudo tem o benefício de permitir que você emita facilmente consultas de uma única interface em todo o conjunto de dados - sem um arquivo completo, você precisará descobrir uma solução de consulta federada na qual você teria que unir os resultados de o arquivo e o data warehouse ativo.

Mas a desvantagem aqui é que as atualizações regulares dos dados quentes do seu data warehouse causariam dores de cabeça para o arquivo baseado em Hadoop. Isso ocorre porque qualquer alteração nos dados em linhas e colunas individuais exigiria a exclusão por atacado e a re-catalogação de conjuntos de dados existentes.

Agora que os dados de arquivamento são armazenados em sua zona de pouso baseada em Hadoop (assumindo que você está usando uma opção como os arquivos de raposa compactados mencionados anteriormente), você pode consultá-lo. É aqui que as soluções SQL on Hadoop podem se tornar interessantes.

Um excelente exemplo do que é possível é para as ferramentas de análise (à direita na figura) para executar diretamente relatórios ou análises nos dados arquivados armazenados no Hadoop. Isso não é para substituir o data warehouse - afinal, o Hadoop não poderia combinar as características de desempenho do armazém para suportar centenas ou mais usuários simultâneos fazendo perguntas complexas.

O ponto aqui é que você pode usar ferramentas de relatório contra o Hadoop para experimentar e surgir novas perguntas para responder em um armazém dedicado ou mart.

Quando você inicia seu primeiro projeto baseado em Hadoop para arquivar dados de armazém, não quebre os processos atuais até que você os tenha testado completamente na sua nova solução Hadoop. Em outras palavras, se sua estratégia de armazenagem atual for arquivar em fita, mantenha esse processo no lugar e archive os dados em Hadoop e fita até que você tenha testado completamente o cenário (o que normalmente inclui a restauração dos dados do depósito no caso de uma falha no armazém).

Embora você esteja mantendo (a curto prazo) dois repositórios de arquivos, você terá uma infraestrutura robusta instalada e testada antes de desativar um processo tentado e verdadeiro. Este processo pode garantir que você permaneça empregado - com seu empregador atual.

Este caso de uso é simples porque não há alterações no armazém existente. O objetivo comercial ainda é o mesmo: custos mais baixos de armazenamento e licenciamento ao migrar dados raramente usados ​​para um arquivo. A diferença neste caso é que a tecnologia por trás do arquivo é Hadoop em vez de armazenamento off-line, como a fita.

Além disso, vários fornecedores de arquivos começaram a incorporar o Hadoop em suas soluções (por exemplo, permitindo que seus arquivos de arquivo proprietários residissem no HDFS), então espere que as capacidades nesta área se expandam em breve.

À medida que você desenvolve habilidades Hadoop (como trocar dados entre Hadoop e bancos de dados relacionais e consultar dados em HDFS), você pode usá-los para enfrentar problemas maiores, como projetos de análise, o que poderia fornecer um valor adicional para o investimento Hadoop da sua organização.

Hadoop como Destino de Dados de Arquivamento - dummies

Escolha dos editores

ASVAB Paragraph Comprehension Practice - dummies

ASVAB Paragraph Comprehension Practice - dummies

Um dos subtestes que você verá no ASVAB é o teste de compreensão de parágrafos. Esta parte do ASVAB está voltada para ver se você entende o que você lê. Exemplo de perguntas Parágrafo Tempo de compreensão: 13 minutos para 15 perguntas Instruções: A compreensão de parágrafo é o quarto subtesto no ASVAB. As perguntas são projetadas para ...

ASVAB Preparação: Números positivos e negativos - manequins

ASVAB Preparação: Números positivos e negativos - manequins

Certifique-se de que esteja familiarizado com o trabalho positivo e negativo números para o ASVAB. Os números podem ser positivos ou negativos. Um número positivo é qualquer número maior que zero. Então, 4; 3. 2; 793; 3/4; 1/2; e 430, 932, 843, 784 são todos números positivos. Números inferiores a zero são números negativos. Cada número positivo tem um negativo ...

ASVAB Dicas de compreensão de leitura - manequins

ASVAB Dicas de compreensão de leitura - manequins

As abordagens de compreensão de parágrafo no ASVAB geralmente são bastante curtas. Essas dicas podem ajudá-lo a compreender melhor as passagens de leitura ASVAB e as perguntas que as seguem: Compreenda o que a questão quer de você. Solicita o ponto principal, informações específicas ou uma conclusão baseada na informação apresentada? Releia o parágrafo ...

Escolha dos editores

A diferença entre análises analógicas e digitais - manequins

A diferença entre análises analógicas e digitais - manequins

Toda a eletrônica pode ser dividida em duas grandes categorias: analógico e digital. Um dos exemplos mais comuns da diferença entre dispositivos analógicos e digitais é um relógio. No relógio analógico, o tempo é representado por mãos que giram ao redor de um disco e apontam para uma localização no mostrador que representa ...

O papel dos átomos na eletrônica - dummies

O papel dos átomos na eletrônica - dummies

Os átomos são os blocos de construção básicos de tudo no universo, seja natural ou manmade. Eles são tão pequenos que você encontraria milhões deles em uma única partícula de poeira. A corrente elétrica, às vezes conhecida como eletricidade, é o movimento na mesma direção de partículas microscópicamente pequenas e eletricamente carregadas, chamadas elétrons. Cada átomo contém o ...

Roles de prótons e elétrons - dummies

Roles de prótons e elétrons - dummies

É Uma propriedade de certas partículas, como elétrons, prótons , e quarks (sim, quarks) que descreve como eles interagem uns com os outros. Existem dois tipos diferentes de carga elétrica, um pouco arbitrariamente chamada positiva e negativa (bem como as quatro direções cardinais são chamadas norte, sul, leste e oeste). Em geral, partículas que carregam ...

Escolha dos editores

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Trabalhando no Access 2007 é mais fácil uma vez que você entenda executar a janela do Access 2007 e usar ferramentas para ajudar a gerenciar seus dados e responder suas perguntas.

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Antes de enviar uma mensagem de e-mail no Lotus Notes 6, você pode definir Opções de entrega, Opções de segurança e Selos de humor. Use essas dicas de notas para informar o destinatário sobre o quão quente é sua mensagem ou qual é o seu humor; ou solicitar confirmação de entrega, definir o tempo de entrega e muito mais. Depois de terminar de compor o corpo ...

10 Ofícios de teclado do Office 2016 - dummies

10 Ofícios de teclado do Office 2016 - dummies

Um tema comum do Office 2016 é que todos os programas se parecem e funcionam. Depois de aprender a usar o Word, você achará que não é muito mais difícil aprender o Excel ou o PowerPoint porque as guias do Ribbon funcionam de maneiras semelhantes. Ainda melhor, os mesmos comandos de teclas funcionam de forma semelhante em todos os programas do Office 2016. Por ...