Vídeo: Developer Keynote: Get to the Fun Part (Cloud Next '19) 2024
Além de ter que armazenar volumes maiores de dados frios, uma pressão que você vê em armazenamentos de dados tradicionais é que quantidades crescentes de recursos de processamento estão sendo usadas para carga de trabalho de transformação (ELT).
A idéia por trás de usar o Hadoop como um mecanismo de pré-processamento para lidar com a transformação de dados significa que os ciclos de processamento preciosos são liberados, permitindo que o data warehouse adira ao seu propósito original: Responda questões comerciais repetidas para suportar aplicativos analíticos. Mais uma vez, você está vendo como o Hadoop pode complementar implantações de data warehouse tradicionais e aumentar sua produtividade.
Talvez uma pequena lâmpada imaginária tenha iluminado sua cabeça e você está pensando: "Ei, talvez sejam algumas tarefas de transformação perfeitamente adequadas para a capacidade de processamento de dados da Hadoop, mas eu sei que também há um grande trabalho de transformação em tarefas algébricas e passo a passo, onde executar SQL em um mecanismo de banco de dados relacional seria a melhor escolha. Não seria legal se eu pudesse executar o SQL no Hadoop? "
O SQL no Hadoop já está aqui. Com a capacidade de emitir consultas SQL contra dados no Hadoop, você não está preso apenas com uma abordagem ETL para seus fluxos de dados - você também pode implantar aplicativos semelhantes a ELT.
Outra abordagem híbrida a considerar é onde executar sua lógica de transformação: no Hadoop ou no data warehouse? Embora algumas organizações estejam preocupadas com a execução de qualquer coisa, exceto a análise em seus armazéns, o fato é que os bancos de dados relacionais são excelentes na execução de SQL e podem ser um lugar mais prático para executar uma transformação do que o Hadoop.