Cloudera Impala e Hadoop - dummies - Finanças Pessoais 2024

Vídeo: Introduction to Impala | Impala Hadoop Tutorial | Cloudera Impala | Hive vs Impala | Intellipaat 2024

Cloudera é um dos principais provedores de software e serviços Apache Hadoop no grande mercado de dados. Como o Apache Drill, a tecnologia Impala da Cloudera procura melhorar o tempo de resposta interativa das consultas para usuários Hadoop. O Apache Hive forneceu um mecanismo de consulta familiar e poderoso para os usuários do Hadoop, mas os tempos de resposta das consultas geralmente são inaceitáveis devido à dependência da Hive no MapReduce. A resposta de Cloudera a este problema é o Impala.

Cloudera desenvolveu um mecanismo de consulta MPP, escrito em C ++, para substituir a camada MapReduce alavancada pelo Apache Hive. Ao contrário de Dremel e Drill, Cloudera decidiu que um motor MPP C ++ nativo - em vez de um mecanismo Java - era a resposta para consultas Hadoop rápidas e interativas.

Observe que o Impala usa o HiveQL como uma interface de programação, e os Quad Exec Engines da Impala são co-localizados com nós de dados HDFS, de acordo com a abordagem Hadoop de co-localização de dados com tarefas de processamento. Impala também pode usar o HBase como um armazenamento de dados. Neste sentido, o Impala é uma extensão do Apache Hadoop, fornecendo uma alternativa de alto desempenho ao modelo Hive-on-top-of-MapReduce.

Cloudera e Twitter lideraram o desenvolvimento do novo formato de arquivo Hadoop, que pode ser usado com Impala e está disponível como fonte aberta no GitHub. O formato do arquivo Parquet fornece um meio colunar robusto para armazenar dados no Hadoop. Ele suporta compressão e codificação altamente eficiente, e é eficaz para armazenar estruturas de dados aninhadas.

Você pode encontrar a tecnologia Impala da Cloudera, que também foi inspirada na invenção Dremel da Google.