Vídeo: Engenharia de dados na prática - Elton Almeida 2024
A idéia de motores ETL inspirados em Hadoop ganhou muita força nos últimos anos. Afinal, o Hadoop é uma plataforma flexível de armazenamento e processamento de dados que pode suportar enormes quantidades de dados e operações nesses dados. Ao mesmo tempo, é tolerante a falhas, e oferece a oportunidade de redução de custos de capital e software.
Apesar da popularidade de Hadoop como motor ETL, no entanto, muitas pessoas (incluindo uma famosa empresa de analistas) não recomendam o Hadoop como a única peça de tecnologia para sua estratégia ETL. Isso é em grande parte porque o desenvolvimento de fluxos ETL requer uma grande experiência em sistemas de banco de dados existentes da organização, a natureza dos dados em si e os relatórios e aplicativos dependentes dele.
Você precisa codificar elementos como depuração paralela, serviços de gerenciamento de aplicativos (como seleção de apontar e erro e gerenciamento de eventos). Além disso, considere os requisitos da empresa, como a glossarização e a exibição da linhagem de seus dados.
Mesmo para sistemas de banco de dados relacionais, o ETL é suficientemente complexo para que existam produtos especializados populares que fornecem interfaces para gerenciar e desenvolver fluxos ETL. Alguns desses produtos agora ajudam no ETL baseado em Hadoop e outros desenvolvimentos baseados em Hadoop. No entanto, dependendo de seus requisitos, talvez seja necessário escrever alguns dos seus próprios códigos para suportar sua lógica de transformação.