Lar Finanças Pessoais O papel do ETL tradicional em Big Data - dummies

O papel do ETL tradicional em Big Data - dummies

Vídeo: GOVERNANÇA DE DADOS PARA BI EM TEMPO DE SELF-SERVICE BI - PARTE 1 2024

Vídeo: GOVERNANÇA DE DADOS PARA BI EM TEMPO DE SELF-SERVICE BI - PARTE 1 2024
Anonim

As ferramentas ETL combinam três funções importantes (extrair, transformar, carregar) necessárias para obter dados de um grande ambiente de dados e colocá-lo em outro ambiente de dados. Tradicionalmente, o ETL tem sido usado com o processamento em lote em ambientes de data warehouse. Os data warehouses fornecem aos usuários empresariais uma maneira de consolidar informações para analisar e informar os dados relevantes para o foco comercial. As ferramentas ETL são usadas para transformar dados no formato exigido pelos data warehouses.

A transformação é efetivamente feita em um local intermediário antes que os dados sejam carregados no data warehouse. Muitos fornecedores de software, incluindo IBM, Informatica, Pervasive, Talend e Pentaho, fornecem ferramentas de software ETL.

ETL fornece a infra-estrutura subjacente para a integração executando três funções importantes:

  • Extrair: Leia os dados do banco de dados de origem.

  • Transformar: Converta o formato dos dados extraídos para que ele esteja em conformidade com os requisitos do banco de dados de destino. A transformação é feita usando regras ou mesclando dados com outros dados.

  • Carregar: Gravar dados no banco de dados de destino.

No entanto, a ETL está evoluindo para suportar a integração em muito mais do que os data warehouses tradicionais. A ETL pode suportar a integração em sistemas transacionais, armazenamentos de dados operacionais, plataformas de BI, hubs MDM, nuvem e plataformas Hadoop. Os fornecedores de software ETL estão ampliando suas soluções para fornecer grande extração, transformação e carregamento de dados entre o Hadoop e plataformas tradicionais de gerenciamento de dados.

ETL e ferramentas de software para outros processos de integração de dados, como limpeza de dados, perfis e auditoria, todos os trabalhos em diferentes aspectos dos dados para garantir que os dados serão considerados confiáveis. As ferramentas ETL integram ferramentas de qualidade de dados e muitas incorporam ferramentas para limpeza de dados, mapeamento de dados e identificação de linhagem de dados. Com ETL, você apenas extrai os dados que você precisará para a integração.

Ferramentas ETL são necessárias para o carregamento e conversão de dados estruturados e não estruturados em Hadoop. As ferramentas ETL avançadas podem ler e escrever vários arquivos em paralelo a partir de Hadoop e para simplificar a incorporação de dados em um processo de transformação comum. Algumas soluções incorporam bibliotecas de transformações ETL pré-construídas tanto para a transação quanto para os dados de interação que são executados no Hadoop ou em uma infraestrutura de rede tradicional.

A transformação de dados é o processo de alteração do formato dos dados para que ele possa ser usado por diferentes aplicativos.Isso pode significar uma alteração do formato em que os dados são armazenados no formato necessário para o aplicativo que usará os dados. Este processo também inclui mapeamento instruções para que os aplicativos sejam informados sobre como obter os dados que precisam processar.

O processo de transformação de dados é feito muito mais complexo devido ao crescimento surpreendente da quantidade de dados não estruturados. Um aplicativo de negócios, como um gerenciamento de relacionamento com o cliente, possui requisitos específicos sobre como os dados devem ser armazenados. É provável que os dados sejam estruturados nas linhas e colunas organizadas de um banco de dados relacional. Os dados são semi-estruturados ou não estruturados se não obedecerem a requisitos rígidos de formato.

As informações contidas em uma mensagem de e-mail são consideradas desestruturadas, por exemplo. Algumas das informações mais importantes da empresa são formas não estruturadas e semi-estruturadas, como documentos, mensagens de e-mail, formatos de mensagens complexas, interações de suporte ao cliente, transações e informações provenientes de aplicativos compactados como ERP e CRM.

As ferramentas de transformação de dados não foram projetadas para funcionar bem com dados não estruturados. Como resultado, as empresas que precisam incorporar informações não estruturadas em suas decisões de processo de negócios enfrentaram uma quantidade significativa de codificação manual para realizar a integração de dados necessária.

Dado o crescimento e a importância dos dados não estruturados para a tomada de decisões, as soluções ETL dos principais fornecedores estão começando a oferecer abordagens padronizadas para a transformação de dados não estruturados para que ele possa ser mais facilmente integrado com dados estruturados operacionais.

O papel do ETL tradicional em Big Data - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...