Vídeo: Hadoop Processing Frameworks 2024
"Simples" muitas vezes significa "elegante" quando se trata desses desenhos arquitetônicos para isso nova mansão de Silicon Valley que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois (compõem-os, dois) componentes:
-
O próprio idioma: Como prova de que os programadores têm senso de humor, a linguagem de programação para Pig é conhecida como Pig Latin, um alto nível idioma que permite escrever programas de processamento e análise de dados.
-
O compilador Pig Latin: O compilador Pig Latin converte o código Pig Latin em código executável. O código executável está na forma de tarefas MapReduce ou pode gerar um processo onde uma instância virtual Hadoop é criada para executar o código Pig em um único nó.
A seqüência dos programas MapReduce permite que os programas Pig façam o processamento e análise de dados em paralelo, alavancando Hadoop MapReduce e HDFS. A execução do trabalho Pig na instância virtual do Hadoop é uma estratégia útil para testar seus scripts Pig.
A figura mostra como o porco se relaciona com o ecossistema Hadoop.
Os programas porcos podem ser executados no MapReduce v1 ou no MapReduce v2 sem alterações de código, independentemente do modo em que seu cluster está sendo executado. No entanto, os scripts Pig também podem ser executados usando a API Tez em vez disso. O Apache Tez fornece uma estrutura de execução mais eficiente do que o MapReduce. O YARN permite que frameworks de aplicativos diferentes do MapReduce (como Tez) sejam executados no Hadoop. A colmeia também pode ser executada contra o framework Tez.