Hadoop como Destino de Dados de Arquivamento - dummies

O custo de armazenamento barato para o Hadoop mais a capacidade de consultar os dados do Hadoop com o SQL faz do Hadoop o principal destino para os dados arquivísticos. Este caso de uso tem um impacto baixo na sua organização porque você pode começar a criar sua habilidade Hadoop definida em dados que não estão armazenados em sistemas críticos de desempenho.

Além disso, você não precisa trabalhar duro para obter os dados. (Uma vez que os dados arquivados normalmente são armazenados em sistemas que têm baixo uso, é mais fácil de obter do que os dados que estão no "centro das atenções" em sistemas de missão crítica, como data warehouses.) Se você já está usando Hadoop como um desembarque zona, você tem as bases para o seu arquivo! Você simplesmente mantém o que deseja arquivar e deletar o que você não faz.

Se você pensa sobre a zona de pouso do Hadoop, o arquivo pesquisável, mostrado na figura, amplia o valor do Hadoop e começa a integrar peças que provavelmente já existem em sua empresa. É um ótimo exemplo de encontrar economias de escala e oportunidades de take-out de custos usando o Hadoop.

Aqui, o componente de arquivo conecta a zona de aterragem e o data warehouse. Os dados arquivados são originados no armazém e são armazenados no cluster Hadoop, que também está provisionando a zona de aterragem. Em suma, você pode usar o mesmo cluster Hadoop para arquivar dados e atuar como sua zona de pouso.

A tecnologia Hadoop chave que você usaria para executar o arquivamento é o Sqoop, que pode mover os dados a serem arquivados do data warehouse para o Hadoop. Você precisará considerar o formulário que deseja que os dados sejam incluídos no seu cluster Hadoop. Em geral, os arquivos de colmeia compactados são uma boa escolha.

Você pode, obviamente, transformar os dados das estruturas do depósito em alguma outra forma (por exemplo, uma forma normalizada para reduzir a redundância), mas geralmente não é uma boa idéia. Manter os dados na mesma estrutura que o que está no armazém tornará muito mais fácil a realização de uma consulta de conjunto de dados completo entre os dados arquivados no Hadoop e os dados ativos que estão no armazém.

O conceito de consultar os conjuntos de dados ativos e arquivados traz outra consideração: quantos dados você deve arquivar? Existem realmente duas escolhas comuns: arquivar tudo à medida que os dados são adicionados e alterados no data warehouse, ou apenas arquivam os dados que você considera estar frio.

Arquivar tudo tem o benefício de permitir que você emita facilmente consultas de uma única interface em todo o conjunto de dados - sem um arquivo completo, você precisará descobrir uma solução de consulta federada na qual você teria que unir os resultados de o arquivo e o data warehouse ativo.

Mas a desvantagem aqui é que as atualizações regulares dos dados quentes do seu data warehouse causariam dores de cabeça para o arquivo baseado em Hadoop. Isso ocorre porque qualquer alteração nos dados em linhas e colunas individuais exigiria a exclusão por atacado e a re-catalogação de conjuntos de dados existentes.

Agora que os dados de arquivamento são armazenados em sua zona de pouso baseada em Hadoop (assumindo que você está usando uma opção como os arquivos de raposa compactados mencionados anteriormente), você pode consultá-lo. É aqui que as soluções SQL on Hadoop podem se tornar interessantes.

Um excelente exemplo do que é possível é para as ferramentas de análise (à direita na figura) para executar diretamente relatórios ou análises nos dados arquivados armazenados no Hadoop. Isso não é para substituir o data warehouse - afinal, o Hadoop não poderia combinar as características de desempenho do armazém para suportar centenas ou mais usuários simultâneos fazendo perguntas complexas.

O ponto aqui é que você pode usar ferramentas de relatório contra o Hadoop para experimentar e surgir novas perguntas para responder em um armazém dedicado ou mart.

Quando você inicia seu primeiro projeto baseado em Hadoop para arquivar dados de armazém, não quebre os processos atuais até que você os tenha testado completamente na sua nova solução Hadoop. Em outras palavras, se sua estratégia de armazenagem atual for arquivar em fita, mantenha esse processo no lugar e archive os dados em Hadoop e fita até que você tenha testado completamente o cenário (o que normalmente inclui a restauração dos dados do depósito no caso de uma falha no armazém).

Embora você esteja mantendo (a curto prazo) dois repositórios de arquivos, você terá uma infraestrutura robusta instalada e testada antes de desativar um processo tentado e verdadeiro. Este processo pode garantir que você permaneça empregado - com seu empregador atual.

Este caso de uso é simples porque não há alterações no armazém existente. O objetivo comercial ainda é o mesmo: custos mais baixos de armazenamento e licenciamento ao migrar dados raramente usados para um arquivo. A diferença neste caso é que a tecnologia por trás do arquivo é Hadoop em vez de armazenamento off-line, como a fita.

Além disso, vários fornecedores de arquivos começaram a incorporar o Hadoop em suas soluções (por exemplo, permitindo que seus arquivos de arquivo proprietários residissem no HDFS), então espere que as capacidades nesta área se expandam em breve.

À medida que você desenvolve habilidades Hadoop (como trocar dados entre Hadoop e bancos de dados relacionais e consultar dados em HDFS), você pode usá-los para enfrentar problemas maiores, como projetos de análise, o que poderia fornecer um valor adicional para o investimento Hadoop da sua organização.