Lar Finanças Pessoais Hadoop como Destino de Dados de Arquivamento - dummies

Hadoop como Destino de Dados de Arquivamento - dummies

Vídeo: HDFS Demo 2025

Vídeo: HDFS Demo 2025
Anonim

O custo de armazenamento barato para o Hadoop mais a capacidade de consultar os dados do Hadoop com o SQL faz do Hadoop o principal destino para os dados arquivísticos. Este caso de uso tem um impacto baixo na sua organização porque você pode começar a criar sua habilidade Hadoop definida em dados que não estão armazenados em sistemas críticos de desempenho.

Além disso, você não precisa trabalhar duro para obter os dados. (Uma vez que os dados arquivados normalmente são armazenados em sistemas que têm baixo uso, é mais fácil de obter do que os dados que estão no "centro das atenções" em sistemas de missão crítica, como data warehouses.) Se você já está usando Hadoop como um desembarque zona, você tem as bases para o seu arquivo! Você simplesmente mantém o que deseja arquivar e deletar o que você não faz.

Se você pensa sobre a zona de pouso do Hadoop, o arquivo pesquisável, mostrado na figura, amplia o valor do Hadoop e começa a integrar peças que provavelmente já existem em sua empresa. É um ótimo exemplo de encontrar economias de escala e oportunidades de take-out de custos usando o Hadoop.

Aqui, o componente de arquivo conecta a zona de aterragem e o data warehouse. Os dados arquivados são originados no armazém e são armazenados no cluster Hadoop, que também está provisionando a zona de aterragem. Em suma, você pode usar o mesmo cluster Hadoop para arquivar dados e atuar como sua zona de pouso.

A tecnologia Hadoop chave que você usaria para executar o arquivamento é o Sqoop, que pode mover os dados a serem arquivados do data warehouse para o Hadoop. Você precisará considerar o formulário que deseja que os dados sejam incluídos no seu cluster Hadoop. Em geral, os arquivos de colmeia compactados são uma boa escolha.

Você pode, obviamente, transformar os dados das estruturas do depósito em alguma outra forma (por exemplo, uma forma normalizada para reduzir a redundância), mas geralmente não é uma boa idéia. Manter os dados na mesma estrutura que o que está no armazém tornará muito mais fácil a realização de uma consulta de conjunto de dados completo entre os dados arquivados no Hadoop e os dados ativos que estão no armazém.

O conceito de consultar os conjuntos de dados ativos e arquivados traz outra consideração: quantos dados você deve arquivar? Existem realmente duas escolhas comuns: arquivar tudo à medida que os dados são adicionados e alterados no data warehouse, ou apenas arquivam os dados que você considera estar frio.

Arquivar tudo tem o benefício de permitir que você emita facilmente consultas de uma única interface em todo o conjunto de dados - sem um arquivo completo, você precisará descobrir uma solução de consulta federada na qual você teria que unir os resultados de o arquivo e o data warehouse ativo.

Mas a desvantagem aqui é que as atualizações regulares dos dados quentes do seu data warehouse causariam dores de cabeça para o arquivo baseado em Hadoop. Isso ocorre porque qualquer alteração nos dados em linhas e colunas individuais exigiria a exclusão por atacado e a re-catalogação de conjuntos de dados existentes.

Agora que os dados de arquivamento são armazenados em sua zona de pouso baseada em Hadoop (assumindo que você está usando uma opção como os arquivos de raposa compactados mencionados anteriormente), você pode consultá-lo. É aqui que as soluções SQL on Hadoop podem se tornar interessantes.

Um excelente exemplo do que é possível é para as ferramentas de análise (à direita na figura) para executar diretamente relatórios ou análises nos dados arquivados armazenados no Hadoop. Isso não é para substituir o data warehouse - afinal, o Hadoop não poderia combinar as características de desempenho do armazém para suportar centenas ou mais usuários simultâneos fazendo perguntas complexas.

O ponto aqui é que você pode usar ferramentas de relatório contra o Hadoop para experimentar e surgir novas perguntas para responder em um armazém dedicado ou mart.

Quando você inicia seu primeiro projeto baseado em Hadoop para arquivar dados de armazém, não quebre os processos atuais até que você os tenha testado completamente na sua nova solução Hadoop. Em outras palavras, se sua estratégia de armazenagem atual for arquivar em fita, mantenha esse processo no lugar e archive os dados em Hadoop e fita até que você tenha testado completamente o cenário (o que normalmente inclui a restauração dos dados do depósito no caso de uma falha no armazém).

Embora você esteja mantendo (a curto prazo) dois repositórios de arquivos, você terá uma infraestrutura robusta instalada e testada antes de desativar um processo tentado e verdadeiro. Este processo pode garantir que você permaneça empregado - com seu empregador atual.

Este caso de uso é simples porque não há alterações no armazém existente. O objetivo comercial ainda é o mesmo: custos mais baixos de armazenamento e licenciamento ao migrar dados raramente usados ​​para um arquivo. A diferença neste caso é que a tecnologia por trás do arquivo é Hadoop em vez de armazenamento off-line, como a fita.

Além disso, vários fornecedores de arquivos começaram a incorporar o Hadoop em suas soluções (por exemplo, permitindo que seus arquivos de arquivo proprietários residissem no HDFS), então espere que as capacidades nesta área se expandam em breve.

À medida que você desenvolve habilidades Hadoop (como trocar dados entre Hadoop e bancos de dados relacionais e consultar dados em HDFS), você pode usá-los para enfrentar problemas maiores, como projetos de análise, o que poderia fornecer um valor adicional para o investimento Hadoop da sua organização.

Hadoop como Destino de Dados de Arquivamento - dummies

Escolha dos editores

Noções básicas do arquivo de dados Flashback da Oracle 12c - dummies

Noções básicas do arquivo de dados Flashback da Oracle 12c - dummies

O Flashback Data Archive do oracle 12c é um mecanismo de banco de dados que permite que você para armazenar periodicamente ou indefinidamente todas as versões de linha em uma tabela ao longo da sua vida útil. Você pode então escolher uma hora para ver os dados como existia em um ponto específico. Esteja ciente de que o Flashback Data Archive é um recurso licenciado. ...

Noções básicas de clusters de aplicativos reais do Oracle 12c - manequins

Noções básicas de clusters de aplicativos reais do Oracle 12c - manequins

Se você visitou os sites da Oracle nos últimos 12 anos , você viu o byline de marketing: "Inquebrável. "Essa linha de tag refere-se ao recurso Real Application Clusters (RAC). Claro, muitos elementos estão envolvidos, mas o RAC tem o destaque. O RAC é a solução de clustering de banco de dados Oracle. Em certo sentido, funciona na teoria de que ...

Noções básicas de Redo Log Files no Oracle 12c - dummies

Noções básicas de Redo Log Files no Oracle 12c - dummies

Redo os arquivos de log armazenam as informações do buffer de log no banco de dados Oracle 12c. Eles são escritos pelo Log Writer (LGWR). Mais uma vez, você não pode ler esses arquivos binários sem a ajuda do software de banco de dados. Normalmente, os arquivos de reto de log são nomeados com a extensão. LOG ou. RDO. Pode ser qualquer coisa que você queira, ...

Escolha dos editores

São orgasmos ok durante a gravidez? - Dummies

São orgasmos ok durante a gravidez? - Dummies

As mulheres grávidas não só têm permissão para fazer sexo, mas muitas vezes o desejam. Mas é bom aproveitar a relação sexual com o ponto do orgasmo? Afinal, os orgasmos são nada mais do que contrações - e as pessoas sugeriram que isso poderia desencadear mão-de-obra. Isso é apenas um mito. De fato, grávida ...

Alimentando a Multidão em uma Reunião Familiar - manequins

Alimentando a Multidão em uma Reunião Familiar - manequins

Cozinhando uma refeição para um grande grupo (reunião familiar ou de outra forma ) requer planejamento e resistência. Aqui está um guia útil para quantidades de alimentos e segurança alimentar, e conselhos sobre a organização de uma festa de potluck. Planejando para potlucks A forma mais comum de comestibles de grupo é uma festa de potluck - qual é a maneira mais barata e fácil de ...

Anatomia do Penis humano - dummies

Anatomia do Penis humano - dummies

Sabendo como as funções de um pénis podem fornecer uma visão útil do sexo e do corpo humano - se você quer entender o pénis e a anatomia masculina melhor ou aprender sobre isso pela primeira vez. Basicamente, um pênis é composto de três estruturas, que são feitas de um material esponjoso que pode preencher com sangue: ...

Escolha dos editores

Como lidar com outliers causados ​​por Forças externas - manequins

Como lidar com outliers causados ​​por Forças externas - manequins

Certifique-se de verificar atentamente os outliers antes eles influenciam sua análise preditiva. Os outliers podem distorcer a análise de dados e dados. Por exemplo, qualquer análise estatística feita com dados que deixa outliers no lugar acaba por desviar os meios e variâncias. Os outliers não controlados ou mal interpretados podem levar a conclusões falsas. Diga os seus dados que ...

Como criar um modelo de análise preditiva com regressão R - manequins

Como criar um modelo de análise preditiva com regressão R - manequins

Você deseja criar um preditivo modelo de análise que você pode avaliar usando resultados conhecidos. Para fazer isso, vamos dividir nosso conjunto de dados em dois conjuntos: um para treinar o modelo e outro para testar o modelo. Uma divisão 70/30 entre treinamento e testes de conjuntos de dados será suficiente. As próximas duas linhas de código ...

Como definir objetivos de negócios para um modelo de análise preditiva - dummies

Como definir objetivos de negócios para um modelo de análise preditiva - dummies

Um modelo de análise preditiva visa resolvendo um problema comercial ou realizando um resultado comercial desejado. Esses objetivos comerciais se tornam os objetivos do modelo. Conhecer aqueles garante o valor comercial do modelo que você constrói - o que não deve ser confundido com a precisão do modelo. Hipotéticamente, você pode construir um modelo preciso para ...