Lar Finanças Pessoais Hadoop como Destino de Dados de Arquivamento - dummies

Hadoop como Destino de Dados de Arquivamento - dummies

Vídeo: HDFS Demo 2025

Vídeo: HDFS Demo 2025
Anonim

O custo de armazenamento barato para o Hadoop mais a capacidade de consultar os dados do Hadoop com o SQL faz do Hadoop o principal destino para os dados arquivísticos. Este caso de uso tem um impacto baixo na sua organização porque você pode começar a criar sua habilidade Hadoop definida em dados que não estão armazenados em sistemas críticos de desempenho.

Além disso, você não precisa trabalhar duro para obter os dados. (Uma vez que os dados arquivados normalmente são armazenados em sistemas que têm baixo uso, é mais fácil de obter do que os dados que estão no "centro das atenções" em sistemas de missão crítica, como data warehouses.) Se você já está usando Hadoop como um desembarque zona, você tem as bases para o seu arquivo! Você simplesmente mantém o que deseja arquivar e deletar o que você não faz.

Se você pensa sobre a zona de pouso do Hadoop, o arquivo pesquisável, mostrado na figura, amplia o valor do Hadoop e começa a integrar peças que provavelmente já existem em sua empresa. É um ótimo exemplo de encontrar economias de escala e oportunidades de take-out de custos usando o Hadoop.

Aqui, o componente de arquivo conecta a zona de aterragem e o data warehouse. Os dados arquivados são originados no armazém e são armazenados no cluster Hadoop, que também está provisionando a zona de aterragem. Em suma, você pode usar o mesmo cluster Hadoop para arquivar dados e atuar como sua zona de pouso.

A tecnologia Hadoop chave que você usaria para executar o arquivamento é o Sqoop, que pode mover os dados a serem arquivados do data warehouse para o Hadoop. Você precisará considerar o formulário que deseja que os dados sejam incluídos no seu cluster Hadoop. Em geral, os arquivos de colmeia compactados são uma boa escolha.

Você pode, obviamente, transformar os dados das estruturas do depósito em alguma outra forma (por exemplo, uma forma normalizada para reduzir a redundância), mas geralmente não é uma boa idéia. Manter os dados na mesma estrutura que o que está no armazém tornará muito mais fácil a realização de uma consulta de conjunto de dados completo entre os dados arquivados no Hadoop e os dados ativos que estão no armazém.

O conceito de consultar os conjuntos de dados ativos e arquivados traz outra consideração: quantos dados você deve arquivar? Existem realmente duas escolhas comuns: arquivar tudo à medida que os dados são adicionados e alterados no data warehouse, ou apenas arquivam os dados que você considera estar frio.

Arquivar tudo tem o benefício de permitir que você emita facilmente consultas de uma única interface em todo o conjunto de dados - sem um arquivo completo, você precisará descobrir uma solução de consulta federada na qual você teria que unir os resultados de o arquivo e o data warehouse ativo.

Mas a desvantagem aqui é que as atualizações regulares dos dados quentes do seu data warehouse causariam dores de cabeça para o arquivo baseado em Hadoop. Isso ocorre porque qualquer alteração nos dados em linhas e colunas individuais exigiria a exclusão por atacado e a re-catalogação de conjuntos de dados existentes.

Agora que os dados de arquivamento são armazenados em sua zona de pouso baseada em Hadoop (assumindo que você está usando uma opção como os arquivos de raposa compactados mencionados anteriormente), você pode consultá-lo. É aqui que as soluções SQL on Hadoop podem se tornar interessantes.

Um excelente exemplo do que é possível é para as ferramentas de análise (à direita na figura) para executar diretamente relatórios ou análises nos dados arquivados armazenados no Hadoop. Isso não é para substituir o data warehouse - afinal, o Hadoop não poderia combinar as características de desempenho do armazém para suportar centenas ou mais usuários simultâneos fazendo perguntas complexas.

O ponto aqui é que você pode usar ferramentas de relatório contra o Hadoop para experimentar e surgir novas perguntas para responder em um armazém dedicado ou mart.

Quando você inicia seu primeiro projeto baseado em Hadoop para arquivar dados de armazém, não quebre os processos atuais até que você os tenha testado completamente na sua nova solução Hadoop. Em outras palavras, se sua estratégia de armazenagem atual for arquivar em fita, mantenha esse processo no lugar e archive os dados em Hadoop e fita até que você tenha testado completamente o cenário (o que normalmente inclui a restauração dos dados do depósito no caso de uma falha no armazém).

Embora você esteja mantendo (a curto prazo) dois repositórios de arquivos, você terá uma infraestrutura robusta instalada e testada antes de desativar um processo tentado e verdadeiro. Este processo pode garantir que você permaneça empregado - com seu empregador atual.

Este caso de uso é simples porque não há alterações no armazém existente. O objetivo comercial ainda é o mesmo: custos mais baixos de armazenamento e licenciamento ao migrar dados raramente usados ​​para um arquivo. A diferença neste caso é que a tecnologia por trás do arquivo é Hadoop em vez de armazenamento off-line, como a fita.

Além disso, vários fornecedores de arquivos começaram a incorporar o Hadoop em suas soluções (por exemplo, permitindo que seus arquivos de arquivo proprietários residissem no HDFS), então espere que as capacidades nesta área se expandam em breve.

À medida que você desenvolve habilidades Hadoop (como trocar dados entre Hadoop e bancos de dados relacionais e consultar dados em HDFS), você pode usá-los para enfrentar problemas maiores, como projetos de análise, o que poderia fornecer um valor adicional para o investimento Hadoop da sua organização.

Hadoop como Destino de Dados de Arquivamento - dummies

Escolha dos editores

Como executar o teste beta para uma aplicação iOS - manequins

Como executar o teste beta para uma aplicação iOS - manequins

Depois de executar o seu aplicativo em alguns dispositivos e está confiante de que está funcionando da maneira que é suposto, considere levá-lo às mãos de alguns testadores beta. O teste beta permite que você receba comentários de usuários reais e repare todos os erros antes que o público em geral os veja. Você pode se surpreender ...

Como publicar no Amazon Appstore para Android - dummies

Como publicar no Amazon Appstore para Android - dummies

Publicação para o Amazon Appstore para Android é semelhante à publicação na Google Play Store: você cria uma conta e, em seguida, talvez seja necessário pagar uma taxa de desenvolvedor. Ao contrário do Google Play Store, os aplicativos devem ser revistos no Amazon Appstore para Android, portanto, planeje alguns dias entre o dia em que você enviar ...

Como preparar ativos gráficos em seu aplicativo Android para publicar na Play Store - Dummies

Como preparar ativos gráficos em seu aplicativo Android para publicar na Play Store - Dummies

Quando você publica um aplicativo Android na Play Store, você interage com o Console do desenvolvedor do Google Play. O passo essencial nesta interação é o passo em que você carrega o arquivo APK do seu aplicativo. É o passo essencial, mas não é o único passo. Você também deve usar a Consola do desenvolvedor da Play Store ...

Escolha dos editores

As Leis de Minecraft Redstone - dummies

As Leis de Minecraft Redstone - dummies

Cada mecanismo Redstone da Minecraft possui um conjunto diferente de propriedades que determinam como ele atua. Você deve entender as relações entre suas propriedades. Depois de trabalhar com Redstone por um tempo, a forma e a função das suas ferramentas podem se tornar bastante intuitivas. Até então, você pode usar essas informações para descobrir quais opções são ...

Minecraft Pocket Edition Guia de Sobrevivência - dummies

Minecraft Pocket Edition Guia de Sobrevivência - dummies

Ao contrário da versão bastante complicada para PC do Minecraft, Pocket Edition (PE) de A Minecraft tem uma série de etapas mais direta para alcançar seu ponto final, o Nether Spire. Para sobreviver ao PE Minecraft, um jogador precisa seguir a série de passos descritos abaixo. Punch madeira e construir um abrigo. Todo o Minecraft ...

Minecraft Para Dummies Cheat Sheet - dummies

Minecraft Para Dummies Cheat Sheet - dummies

Minecraft requer um jogador para reunir recursos para sobreviver, construir, criar, e avance no jogo. Devido aos diferentes ambientes encontrados no Minecraft, um jogador precisa usar diferentes estratégias para reunir recursos eficientemente nas três principais áreas do jogo - Overland, the Mines e the Nether. Uma vez que estes ...

Escolha dos editores

Como criar mensagens de e-mail de impressão em série no Word 2013 - dummies

Como criar mensagens de e-mail de impressão em série no Word 2013 - dummies

Palavra 2013 permite que você expire mensagens de e-mail personalizadas usando a opção E-Mail para mala direta. Esta opção funciona apenas quando você configura o programa Microsoft Outlook no seu computador. Depois disso, você inicia o documento principal para sua fusão de e-mail obedecendo a estas etapas:

Como criar múltiplas colunas em um documento do Word 2007 - dummies

Como criar múltiplas colunas em um documento do Word 2007 - dummies

Para converter seu padrão single- (ou não-) coluna do documento do Word 2007 em um com várias colunas, basta escolher o formato da coluna que deseja no menu Colunas. Instantaneamente, seu documento é transformado em uma maravilha multicolora!

Como criar tabelas rápidas nas tabelas do Word 2008 para Mac - dummies

Como criar tabelas rápidas nas tabelas do Word 2008 para Mac - dummies

Ajudam você a organizar idéias ou dados que seriam aborrecedores e difíceis de compreender em forma de parágrafo regular. Com o Word 2008 para Mac, você pode facilmente criar tabelas - às vezes chamadas de grades - em qualquer lugar em seus documentos. A maneira mais fácil de criar tabelas é com um dos melhores recursos novos ...