Índice:
- Etapa 1: Carregando uma VM
- Etapa 2: Fazendo o download do Bigtop
- Passo 3: Instalando o Bigtop
- Etapa 4: Iniciando o Hadoop
- Etapa 5: Baixar o conjunto de dados de amostra
- Etapa 6: Copiando o conjunto de dados de amostra no HDFS
Vídeo: 03 - Hadoop - Baixando e configurando a máquina Cloudera 2024
Se você estiver confortável trabalhando com máquinas virtuais e Linux, sinta-se livre para instalar o Bigtop em uma VM diferente da recomendada. Se você é realmente ousado e possui o hardware, vá em frente e tente instalar o Bigtop em um conjunto de máquinas no modo totalmente distribuído!
Etapa 1: Carregando uma VM
O Hadoop é executado em todas as distribuições Linux populares, então você precisa de uma VM Linux. Existe uma imagem livre disponível (e legal!) CentOS 6 disponível.
Você precisará de um sistema operacional de 64 bits em seu laptop para executar esta VM. O Hadoop precisa de um ambiente de 64 bits.
Depois de baixar a VM, extraia-a do arquivo Zip baixado para o diretório de destino. Certifique-se de ter cerca de 50 GB de espaço disponível como Hadoop e seus dados de amostra precisarão disso.
Se você ainda não possui um reprodutor de VM, pode baixar um gratuitamente.
Depois de configurar o seu VM player, abra o player, vá para Arquivo → Abrir, então vá para o diretório onde você extraiu sua VM Linux. Procure um arquivo chamado e selecione-o. Você verá informações sobre quantos processadores e a quantidade de memória que ele usará. Descubra a quantidade de memória que seu computador possui e aloca metade da VM para usar. Hadoop precisa de muita memória.
Quando estiver pronto, clique no botão Reproduzir e sua instância Linux será iniciada. Você verá muitas mensagens voarem, pois o Linux está inicializando e você virá para uma tela de login. O nome de usuário já está configurado para "Tom. "Especifique a senha como" tomtom "e faça o login.
Etapa 2: Fazendo o download do Bigtop
Na sua VM Linux, clique com o botão direito do mouse na tela e selecione Abrir no Terminal no menu contextual que aparece. Isso abre um terminal Linux, onde você pode executar comandos. Clique dentro do terminal para que você possa ver o cursor piscar e digitar o seguinte comando: su -
Você será solicitado a sua senha, então digite "tomtom" como fez anteriormente. Este comando altera o usuário para a raiz, que é a conta mestre de um computador Linux - você precisará disso para instalar o Hadoop.
Com seu acesso root (não deixe o poder chegar à sua cabeça), execute o seguinte comando:
wget -O / etc / yum. repos. d / bigtop. repo// www. apache. org / dist / bigtop / bigtop-
0. 7. 0 / repos / centos6 / bigtop. repo
O comando é essencialmente uma solicitação na web, que solicita um arquivo específico no URL que você pode ver e escreve para um caminho específico - neste caso, isso é /.
Passo 3: Instalando o Bigtop
Os gênios por trás do Linux tornaram a vida bastante fácil para as pessoas que precisam instalar grandes pacotes de software como o Hadoop.O que você baixou na última etapa não era o pacote Bigtop inteiro e todas as suas dependências. Era apenas um arquivo repositório (com a extensão), que informa ao programa instalador quais pacotes de software são necessários para a instalação do Bigtop.
Como qualquer grande produto de software, o Hadoop possui muitos pré-requisitos, mas você não precisa se preocupar. Um arquivo bem projetado irá apontar para qualquer dependência e o instalador é inteligente o suficiente para ver se eles estão perdidos em seu computador e depois baixá-los e instalá-los.
O instalador que você está usando aqui é chamado de yum, que você vê em ação agora:
yum install hadoop * mahout * oozie * hbase * hive * matiz * porco * zookeeper *
Observe que você está escolhendo e escolhendo os componentes do Hadoop para instalar. Há uma série de outros componentes disponíveis no Bigtop, mas estes são os únicos que você usará aqui. Uma vez que a VM é uma nova instalação do Linux, você precisará de muitas dependências, então você precisará esperar um pouco.
O instalador do yum é bastante detalhado, para que você possa assistir exatamente o que está sendo baixado e instalado para passar o tempo. Quando o processo de instalação estiver pronto, você deve ver uma mensagem que diz "Complete! "
Etapa 4: Iniciando o Hadoop
Antes de começar a executar aplicativos no Hadoop, há algumas configurações básicas e as coisas de configuração que você precisa fazer. Aqui eles estão em ordem:
-
Baixe e instale o Java:
yum install java-1. 7. 0-openjdk-devel. x86_64
-
Formate o nomeNode:
sudo / etc / init. d / hadoop-hdfs-namenode init
-
Inicie os serviços Hadoop para seu cluster pseudodistribuído:
para i no hadoop-hdfs-namenode hadoop-hdfs-datanode; sudo service $ i start; feito
-
Crie uma estrutura de subdiretório em HDFS:
sudo / usr / lib / hadoop / libexec / init-hdfs. sh
-
Comece os daemons YARN:
sudo service hadoop-fio-resourcemanager startsudo serviço hadoop-fio-nodemanager começo
E com isso, você terminou. Parabéns! Você instalou uma implantação Hadoop em funcionamento!
Etapa 5: Baixar o conjunto de dados de amostra
Para baixar o conjunto de dados de amostra, abra o navegador Firefox da VM e vá para a página dataexpo.
Você não precisará de todo o conjunto de dados, então comece com um único ano, 1987. Quando você está prestes a baixar, selecione a opção Abrir com Gerenciador de Arquivos.
Depois que seu arquivo foi baixado, extraia o arquivo para o diretório inicial onde você poderá facilmente encontrá-lo. Clique no botão Extrair e, em seguida, selecione o diretório do Desktop.
Etapa 6: Copiando o conjunto de dados de amostra no HDFS
Lembre-se de que seus programas Hadoop só podem funcionar com dados depois de armazenados no HDFS. Então o que você vai fazer agora é copiar o arquivo de dados de vôo para 1987 em HDFS. Digite o seguinte comando:
hdfs dfs -copyFromLocal 1987. csv / user / root