Vídeo: GOVERNANÇA DE DADOS PARA BI EM TEMPO DE SELF-SERVICE BI - PARTE 1 2024
As ferramentas ETL combinam três funções importantes (extrair, transformar, carregar) necessárias para obter dados de um grande ambiente de dados e colocá-lo em outro ambiente de dados. Tradicionalmente, o ETL tem sido usado com o processamento em lote em ambientes de data warehouse. Os data warehouses fornecem aos usuários empresariais uma maneira de consolidar informações para analisar e informar os dados relevantes para o foco comercial. As ferramentas ETL são usadas para transformar dados no formato exigido pelos data warehouses.
A transformação é efetivamente feita em um local intermediário antes que os dados sejam carregados no data warehouse. Muitos fornecedores de software, incluindo IBM, Informatica, Pervasive, Talend e Pentaho, fornecem ferramentas de software ETL.
ETL fornece a infra-estrutura subjacente para a integração executando três funções importantes:
-
Extrair: Leia os dados do banco de dados de origem.
-
Transformar: Converta o formato dos dados extraídos para que ele esteja em conformidade com os requisitos do banco de dados de destino. A transformação é feita usando regras ou mesclando dados com outros dados.
-
Carregar: Gravar dados no banco de dados de destino.
No entanto, a ETL está evoluindo para suportar a integração em muito mais do que os data warehouses tradicionais. A ETL pode suportar a integração em sistemas transacionais, armazenamentos de dados operacionais, plataformas de BI, hubs MDM, nuvem e plataformas Hadoop. Os fornecedores de software ETL estão ampliando suas soluções para fornecer grande extração, transformação e carregamento de dados entre o Hadoop e plataformas tradicionais de gerenciamento de dados.
ETL e ferramentas de software para outros processos de integração de dados, como limpeza de dados, perfis e auditoria, todos os trabalhos em diferentes aspectos dos dados para garantir que os dados serão considerados confiáveis. As ferramentas ETL integram ferramentas de qualidade de dados e muitas incorporam ferramentas para limpeza de dados, mapeamento de dados e identificação de linhagem de dados. Com ETL, você apenas extrai os dados que você precisará para a integração.
Ferramentas ETL são necessárias para o carregamento e conversão de dados estruturados e não estruturados em Hadoop. As ferramentas ETL avançadas podem ler e escrever vários arquivos em paralelo a partir de Hadoop e para simplificar a incorporação de dados em um processo de transformação comum. Algumas soluções incorporam bibliotecas de transformações ETL pré-construídas tanto para a transação quanto para os dados de interação que são executados no Hadoop ou em uma infraestrutura de rede tradicional.
A transformação de dados é o processo de alteração do formato dos dados para que ele possa ser usado por diferentes aplicativos.Isso pode significar uma alteração do formato em que os dados são armazenados no formato necessário para o aplicativo que usará os dados. Este processo também inclui mapeamento instruções para que os aplicativos sejam informados sobre como obter os dados que precisam processar.
O processo de transformação de dados é feito muito mais complexo devido ao crescimento surpreendente da quantidade de dados não estruturados. Um aplicativo de negócios, como um gerenciamento de relacionamento com o cliente, possui requisitos específicos sobre como os dados devem ser armazenados. É provável que os dados sejam estruturados nas linhas e colunas organizadas de um banco de dados relacional. Os dados são semi-estruturados ou não estruturados se não obedecerem a requisitos rígidos de formato.
As informações contidas em uma mensagem de e-mail são consideradas desestruturadas, por exemplo. Algumas das informações mais importantes da empresa são formas não estruturadas e semi-estruturadas, como documentos, mensagens de e-mail, formatos de mensagens complexas, interações de suporte ao cliente, transações e informações provenientes de aplicativos compactados como ERP e CRM.
As ferramentas de transformação de dados não foram projetadas para funcionar bem com dados não estruturados. Como resultado, as empresas que precisam incorporar informações não estruturadas em suas decisões de processo de negócios enfrentaram uma quantidade significativa de codificação manual para realizar a integração de dados necessária.
Dado o crescimento e a importância dos dados não estruturados para a tomada de decisões, as soluções ETL dos principais fornecedores estão começando a oferecer abordagens padronizadas para a transformação de dados não estruturados para que ele possa ser mais facilmente integrado com dados estruturados operacionais.