Vídeo: Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Hadoop | Simplilearn 2024
A colmada Apache é indiscutivelmente a interface de consulta de dados mais difundida na comunidade Hadoop. Originalmente, as metas de design para o Hive não eram para compatibilidade SQL completa e alto desempenho, mas forneceram uma interface fácil e bastante familiar para desenvolvedores que precisassem fazer consultas em lote contra o Hadoop.
Esta abordagem bastante fragmentada não funciona mais, então a demanda cresce para suporte SQL real e bom desempenho. A Hortonworks respondeu a essa demanda criando o projeto Stinger, onde investiu seus recursos de desenvolvedor na melhoria da Hive para ser mais rápido, escalar em um nível petabyte e ser mais compatível com os padrões SQL. Este trabalho deve ser entregue em três fases.
Nas Fases 1 e 2, você viu uma série de otimizações sobre como as consultas foram processadas, além de suporte adicional para tipos de dados SQL tradicionais; a adição do formato ORCFile para um processamento e armazenamento mais eficientes; e integração com YARN para melhor desempenho.
Na fase 3, ocorrem as evoluções verdadeiramente significativas, que desacoplam a colméia da MapReduce. Especificamente, envolve o lançamento do Apache Tez, que é um modelo de processamento alternativo para o Hadoop, projetado para cargas de trabalho interativas.
Além do projeto Stinger, a Hortonworks está liderando uma ambiciosa iniciativa para habilitar a Hive para suportar a edição de dados no nível da linha com total conformidade com as propriedades ACID para sistemas de banco de dados: Atômica, Consistência, níveis de isolamento, e Durabilidade.