Vídeo: Building A Petabyte Scale Warehouse in BigQuery (Cloud Next '18) 2024
Para a maioria das pessoas, o termo Dremel traz à mente uma ferramenta acessível de alta velocidade e baixo torque que funciona bem para uma variedade de empregos em toda a casa. Mas você sabia que o Google criou um Dremel? Ao invés de produzir outra ferramenta mecânica de mão , o Google escolheu uma ferramenta de software rápida destinada a análise interativa de dados importantes.
Tal como acontece com outras tecnologias do Google que inspiraram partes do ecossistema Hadoop, como MapReduce, Sistema de arquivos do Google (HDFS) e BigTable (veja a HBase), o Google desenvolveu a Dremel para uso interno e, em seguida, publicou um documento descrevendo o propósito e o design da tecnologia. (Em outras palavras, Dremel não é algo que você pode baixar e usar em seu cluster Hadoop.)
O Google usa a Dremel para uma variedade de trabalhos, incluindo a análise de documentos rastreados na web, a detecção de spam de e-mail, o uso de relatórios de falhas de aplicativos e muito mais. O serviço BigQuery do Google realmente usa o Dremel.
A tecnologia MapReduce projetada pela Google para processamento em lote em conjuntos maciços de dados. À medida que suas necessidades evoluíram, a tecnologia também o fez, e o Google decidiu criar o Dremel para melhorar o desempenho das consultas interativas contra grandes conjuntos de dados.
A abordagem MapReduce fornece escalabilidade e tolerância a falhas de consulta, mas é basicamente um sistema baseado em lote, de modo que os tempos de resposta para consultas menores (consultas que envolvem apenas uma pequena parte de um conjunto de dados inteiro, por exemplo) muitas vezes não são o que os usuários esperam.
Então o Google desenvolveu uma tecnologia de execução de consulta projetada para consultas interativas, que é executada em servidores intermediários em cima do Sistema de arquivos do Google (GFS). (Lembre-se, o GFS foi a inspiração para o Apache HDFS, que é o sistema de arquivos do Hadoop.)
Similar à Hive, a Dremel usa uma linguagem semelhante a SQL (familiar para a maioria dos programadores) e emprega um layout de dados em coluna. O Dremel fornece uma resposta de consulta rápida e interativa, preservando a escalabilidade e a tolerância a falhas encontradas no Apache Hive. No documento técnico da Dremel, o Google explica como ele pode executar consultas de agregação dentro de segundos sobre tabelas com um trilhão de linhas - não é ruim.
Então, o Google tem sua tecnologia Dremel, que usa internamente, mas há todas as tecnologias "inspiradas por" Dremel (tipo de todos esses perfumes "inspirados em" Drakkar Noir ").