Vídeo: Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Hadoop | Simplilearn 2024
Para fazer uma longa história curta, a Hive fornece Hadoop com uma ponte para o mundo RDBMS e fornece um dialecto SQL conhecido como Hive Query Language (HiveQL), que pode ser usado para executar tarefas semelhantes a SQL. Essa é a grande notícia, mas há mais para a Hive do que atende aos olhos, como eles dizem, ou mais aplicações desta nova tecnologia do que você pode apresentar em um passo de elevador padrão.
Por exemplo, a Hive também possibilita o conceito conhecido como aumento do armazenamento de dados corporativos (EDW), um caso de uso líder para o Apache Hadoop, onde os data warehouses são configurados como RDBMSs construídos especificamente para análise de dados e relatórios.
Agora, alguns especialistas argumentarão que o Hadoop (com Hive, HBase, Sqoop e seus amigos variados) pode substituir o EDW. No entanto, o Apache Hadoop é um ótimo aditamento para a empresa e que pode aumentar e complementar EDWs existentes. Hive, HBase e Sqoop permitem o aumento de EDW.
Estreitamente associado à tecnologia RDBMS / EDW é tecnologia de extração, transformação e carga (ETL). Para entender o que a ETL faz, ajuda a saber que, em muitos casos de uso, os dados não podem ser carregados imediatamente no banco de dados relacional - primeiro deve ser extraído de sua fonte nativa, transformado em um formato apropriado e depois carregado no RDBMS ou EDW.
Por exemplo, uma empresa ou uma organização pode extrair dados de texto não estruturados de um fórum da Internet, transformar os dados em um formato estruturado que é valioso e útil e, em seguida, carregar os dados estruturados em sua EDW.
Você pode ver que a Hive é uma poderosa ferramenta ETL por direito próprio, juntamente com o jogador principal neste domínio: Apache Pig. Mais uma vez, os usuários podem tentar configurar o Hive and Pig como as novas ferramentas ETL para o data center. (Deixe-os tentar.)
Tal como acontece com o debate sobre a EDW contra o Apache Hadoop, estas tecnologias Apache Hadoop não são substituição s para ferramentas ETL existentes, mas, em vez disso, são poderosas novas ferramentas ETL para serem usado quando apropriado.
Por último, mas não menos importante, o Apache Hive oferece ferramentas analíticas poderosas, tudo dentro da estrutura do HiveQL. Essas ferramentas devem parecer e se sentir bastante familiar para os profissionais de TI que entendem como usar o SQL.