Estes passos foram testados no Linux Ubuntu (parece que a versão não importa)

(1)

Instalando o Hadoop

Instalação da rede

Todas as máquinas do cluster devem estar na mesma rede e serem mutuamente acessíveis. 1 – Escolha uma máquina como master

2 – Na máquina master defina o nome do host como master. Para fazer isto, execute: nano /etc/hostname

e modifique o nome que estiver lá para master.

3 – Defina o nome de host de cada slave como slaveX. Por exemplo, na máquina slave 1, execute o mesmo comando do passo 2 e modifique o nome para slave1, faça o mesmo para

slave 2 e modifique o nome para slave2, e assim por diante.

4 – Supondo uma rede com prefixo 169.254.43.X, modifique o arquivo /etc/hosts (com usuário root) da seguinte forma para cada máquina:

169.254.43.1 master 127.0.0.1 master.localdomain localhost ::1 localhost6.localdomain6 localhost6 169.254.43.2 slave2 169.254.43.3 slave3 ...

Na configuração acima a primeira linha sinaliza ao controlador da rede que a máquina local possui endereço IP 169.254.43.1, e que seu nome é master. As próximas 2 linhas resolvem dependências para localhost.

Como cada máquina deve conhecer todas as outras, as linhas seguintes são os endereços IP e nomes de cada uma das máquinas da rede (isso será resolvido com um servidor DNS, porém, ainda não foi testado).

A mesma configuração acima deve ser feita para cada máquina no cluster. Por exemplo, a máquina slave2 seria configurada da seguinte forma:

169.254.43.2 slave2 127.0.0.1 slave2.localdomain localhost ::1 localhost6.localdomain6 localhost6 169.254.43.1 master 169.254.43.3 slave3 ...

(2)

Desabilitando IPv6

É necessário desabilitar o IPv6 para que o Hadoop funcione corretamente no Ubuntu. Para desabilitá-lo, executar como usuário root:

1 – nano /etc/sysctl.conf

2 – Adicionar ao final do arquivo #disable IPv6 net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1 3 – Reiniciar a máquina 4 – cat /proc/sys/net/ipv6/conf/all/disable_ipv6

5 – Se o resultado do comando 4) for 1, o IPv6 terá sido desabilitado com sucesso.

Criando usuário e configurando acessos

Aqui vamos criar o usuário que irá executar o Hadoop bem como configurar o acesso SSH. Para executar os passos abaixo é necessário ter um servidor SSH instalado (ex. apt-get install openssh-server para instalar um destes servidores).

Como usuário root, executar:

1 – addgroup hadoop (cria grupo hadoop)

2 – adduser –ingroup hadoop hadoop (cria usuário hadoop dentro do grupo hadoop) 3 – su hadoop (trocar para usuário hadoop)

4 – shh-keygen –t rsa –P “” (cria chave RSA para acesso via SSH)

5 – cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys (insere a chave SSH criada na lista de chaves autorizadas para este host)

6 – ssh localhost (para realizar o primeiro acesso SSH à máquina local)

Instalando o Hadoop

Antes de instalar o Hadoop, é preciso instalar a JDK. O padrão sugerido é realizar a instalação dentro de /usr/local com o nome da pasta sendo jdk (o que vai gerar a pasta /usr/local/jdk).

Instalação de um novo slave no cluster atual:

1 – acessar algum dos slaves já instalados

2 – cd /usr/local (acessar a pasta onde a instalação do Hadoop deve estar localizada)

3 – scp –r hadoop root@slaveX:/usr/local (copia instalação do Hadoop para /usr/local do novo slave sendo instalado)

4 – acessar o novo slave 5 – cd /usr/local

6 – su (modificar o usuário atual para superusuário)

7 – chown –R hadoop:hadoop hadoop (usuário hadoop do novo slave deve ser o dono da instalação)

8 – rm –r hadoop/tmp/* (apaga conteúdo temporário da nova instalação)

9 – ssh-copy-id –i $HOME/.ssh/id_rsa.pub hadoop@master (copia chave para o master) 10 – entrar no master

(3)

11 – ssh-copy-id –i $HOME/.ssh/id_rsa.pub hadoop@slaveX (copia chave RSI do master para novo slave, para permitir acesso SSH)

Instalação de um novo slave

1 – descompactar o arquivo de instalação dentro de /usr/local (ex. tar –xzf hadoop.***.tar.gz) 2 – mv hadoop-***** hadoop (renomeia diretório de instalação para hadoop apenas)

3 – chown –R hadoop:hadoop hadoop (usuário hadoop deve ser o dono da instalação) 4 – nano hadoop/conf/hadoop-env.sh

5 – descomentar #export JAVA_HOME=... 6 – fazer JAVA_HOME=/usr/local/jdk 7 – cd hadoop

8 – mkdir tmp (cria diretório onde dados temporários são armazenados) 9 - mkdir logs (cria diretório onde logs serão gravados)

10 – nano conf/core-site.xml (edita arquivo de configuração) 11 – Acrescentar

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

<description>A base for other temporary directories.</description> </property>

<name>fs.default.name</name>

<value>hdfs://master:54310</value>

<description>The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri's authority is used to determine the host, port, etc. for a filesystem.</description>

</property> 12 – nano conf/mapred-site.xml 13 – Acrescentar  <property> <name>mapred.job.tracker</name> <value>master:54311</value>

<description>The host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map

and reduce task. </description> </property>

(4)

14 – nano conf/hdfs-site.xml 15 – Acrescentar  <property> <name>dfs.replication</name> <value>1</value>

<description>Default block replication.

The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.

</description> </property>

16 – nano conf/master

17 – Retirar o que estiver escrito e colocar master

Instalação do master

O procedimento para instalação do master é idêntico ao procedimento de instalação de slaves, com dois passos extras:

1 – nano conf/slaves

2 – Acrescentar o nome de cada um dos slaves

3 – executar /usr/local/hadoop/bin/hadoop namenode –format (formata o namenode que conhece onde está cada bloco de dados)

Iniciando o cluster, rodando um programa de teste e desligando o cluster

Para inicializar o cluster, testá-lo e finalizá-lo, faça o seguinte:

1 - $HADOOP_HOME/bin/start-dfs.sh (inicializa sistema de arquivos distribuído HDFS) 2 - $HADOOP_HOME /bin/start-mapred.sh (inicializa os daemos MapReduce)

*pode-se executar $HADOOP_HOME /bin/start-all.sh para inicializar tudo de uma vez 3 - $HADOOP_HOME/bin/hadoop dfs –mkdir /usr/input (cria um diretório chamado input no HDFS)

(5)

4 - $HADOOP_HOME/bin/hadoop dfs –copyFromLocal $HADOOP_HOME/docs/*.html /usr/input (copia o conteúdo HTML do diretório $HADOOP_HOME/docs para o diretório /usr/input no HDFS)

5 - $HADOOP_HOME/bin/hadoop jar hadoop***-examples.jar wordcount /usr/input /usr/output (executa o programa contador de palavras dentro do conteúdo do diretório /usr/input e coloca resultado em /usr/output)

6 - $HADOOP_HOME/bin/hadoop dfs –ls /usr/output (verifica se o diretório está lá

7 - $HADOOP_HOME/bin/hadoop dfs –cat /usr/output/NOME_ARQUIVO (visualiza conteúdo do arquivo)

8 - $HADOOP_HOME/bin/stop-all.sh (para o cluster. Alternativamente pode-se parar separadamente o HDFS e os daemons MapReduce)

Detalhes

1 – O diretório de destino dos Jobs MapReduce não podem existir antes da execução do job. O Hadoop faz isso para evitar que resultados anteriores sejam sobrescritos.

2 – Se o Linux reportar o erro “Agent admitted failure to sign using the key”, executa-se: ssh-add $HOME/.ssh/id_rsa