Vídeo: 18 Hadoop Ecosystem Major Components 2024
O Apache Oozie está incluído em todas as principais distribuições da Hadoop, incluindo o Apache Bigtop. No seu cluster Hadoop, instale o servidor Oozie em um nó de borda, onde você também executará outras aplicações cliente contra os dados do cluster, como mostrado.
Os nós de borda são projetados para ser um gateway para a rede externa para o cluster Hadoop. Isso os torna ideais para tecnologias de transferência de dados (Flume, por exemplo), mas também aplicativos de clientes e outras infraestruturas de aplicativos, como Oozie. A Oozie não precisa de um servidor dedicado e pode coexistir facilmente com outros serviços que são ideais para nós de borda, como Pig e Hive.
Depois que o Oozie é implantado, você está pronto para iniciar o servidor Oozie. A infraestrutura da Oozie está instalada no diretório $ OOZIE_HOME. A partir daí, execute o oozie-start. comando sh para iniciar o servidor. (Como você pode esperar, parar o servidor envolve digitar oozie-stop. Sh.) Você pode testar o status de sua instância do Oozie executando o comando
oozie admin -status
Depois de ter o servidor Oozie implantado e iniciado, você pode catalogar e executar seus vários trabalhos de fluxo de trabalho, coordenador ou bundle. Ao trabalhar com seus trabalhos, a Oozie armazena as definições do catálogo - os dados que descrevem todos os objetos Oozie (workflow, coordenador e bundle jobs) - bem como seus estados em um banco de dados dedicado.
Por padrão, o Oozie está configurado para usar o banco de dados Derby embutido, mas você pode usar o MySQL, o Oracle ou o PostgreSQL, se você precisar.
Você tem quatro opções para interagir com o servidor Oozie:
-
A API Java: Esta opção é útil em situações em que você possui seu próprio código de agendamento em aplicativos Java e você precisa controlar a execução de seu Fluxos de trabalho, coordenadores ou pacotes da Oozie dentro de sua aplicação.
-
A API REST: Novamente, esta opção funciona bem nos casos em que você deseja usar seu próprio código de agendamento como base de seus fluxos de trabalho, coordenadores ou pacotes Oozie, ou se você quer construir sua própria interface ou estender uma existente para administrar o servidor Oozie.
-
Interface de linha de comando (CLI): É a interface de linha de comando Linux tradicional para Oozie.
-
O Oozie Web Console: Ok, talvez você não possa fazer muita interação aqui, mas o Oozie Web Console oferece uma visão (somente de leitura) do estado do servidor Oozie, que é útil para monitorar seus trabalhos de Oozie.
Hue, uma interface de administração Hadoop, fornece outra ferramenta para trabalhar com Oozie.Os fluxos de trabalho, coordenadores e pacotes do Oozie são todos definidos usando XML, o que pode ser tedioso de editar, especialmente para situações complexas. Hue fornece uma ferramenta de designer GUI para criar graficamente fluxos de trabalho e outros objetos Oozie.
Debaixo das capas, o Oozie inclui um servidor web Tomcat incorporado, que lida com sua entrada e saída.