Modos distribuídos e distribuídos de scripts de porco correntes em Hadoop - dummies

Vídeo: Words at War: Faith of Our Fighters: The Bid Was Four Hearts / The Rainbow / Can Do 2025

Antes de poder executar o seu primeiro script Pig em Hadoop, você precisa ter um controle sobre como os programas Pig podem ser empacotados com o servidor Pig.

Pig tem dois modos para executar scripts:

Modo local: Todos os scripts são executados em uma única máquina, sem requerer Hadoop MapReduce e HDFS. Isso pode ser útil para desenvolver e testar a lógica Pig. Se você estiver usando um pequeno conjunto de dados para o desenvolvedor ou testar seu código, o modo local poderá ser mais rápido do que passar pela infra-estrutura MapReduce.

O modo local não requer Hadoop. Quando você roda no modo Local, o programa Pig é executado no contexto de uma Máquina Virtual Java local e o acesso a dados é através do sistema de arquivos local de uma única máquina. O modo local é realmente uma simulação local do MapReduce na classe LocalJobRunner do Hadoop.
Modo MapReduce (também conhecido como modo Hadoop): Porco é executado no cluster Hadoop. Nesse caso, o Pig Script é convertido em uma série de trabalhos MapReduce que são executados no cluster Hadoop.

Se você tem um terabyte de dados em que deseja executar operações e deseja desenvolver um programa de forma interativa, você poderá encontrar as coisas abrandando consideravelmente e você pode começar a aumentar seu armazenamento. O modo local permite que você trabalhe com um subconjunto de seus dados de forma mais interativa para que você possa descobrir a lógica (e resolver os erros) do seu programa Pig.

Depois de ter as coisas configuradas conforme você deseja e suas operações funcionam sem problemas, você pode então executar o script em relação ao conjunto de dados completo usando o modo MapReduce.