Vídeo: Apache Pig - Write and Execute Pig latin script 2024
O Hadoop é um ecossistema rico e em rápida evolução com um conjunto crescente de novas aplicações. Ao invés de tentar manter-se com todos os requisitos para novas capacidades, o Pig foi projetado para ser extensível através de funções definidas pelo usuário , também conhecidas como UDFs.
UDFs podem ser escritos em uma série de linguagens de programação, incluindo Java, Python e JavaScript. Os desenvolvedores também estão publicando e compartilhando uma crescente coleção de UDFs online. (Consulte Piggy Bank e DataFu, para citar apenas dois exemplos dessas coleções online). Alguns dos UDFs de porco que fazem parte desses repositórios são funções LOAD / STORE (XML, por exemplo), funções de data, texto, matemática, e funções de estatísticas.
O porco também pode ser incorporado em idiomas de host, como Java, Python e JavaScript, o que permite integrar Pig com suas aplicações existentes. Também ajuda a superar as limitações na língua do Porco. Uma das limitações mais comumente referenciadas é que o Pig não suporta instruções de fluxo de controle: se / else, while loop, for loop e statement statements.
O porco nativamente suporta o fluxo de dados, mas precisa ser incorporado em outro idioma para fornecer fluxo de controle. Há compromissos, no entanto, de incorporar Pig em uma linguagem de fluxo de controle. Por exemplo, se uma instrução Pig for incorporada em um loop, sempre que o loop itera e executa a declaração Pig, isso faz com que um trabalho MapReduce separado seja executado.