Hadoop的分布模式安装

 

1.确定集群的结构

IP(主机名) 角色
192.168.1.220(hadoop0) NameNode、JobTracker
192.168.1.221(hadoop1) SecondaryNameNode
192.168.1.222(hadoop2) DataNode、TaskTracker
192.168.1.223(hadoop3) DataNode、TaskTracker

由于SecondaryNameNode是执行合并任务的,内存占用特别大,所以单独一台大内存的节点。

以上4个ip可以是单独的物理机,也可以是虚拟机。生产环境中,一般是物理机。

假设各节点安装的linux版本完全一致。

假设各ip已经设置完成了主机名、防火墙关闭、ssh免密码登录等事项。并且在192.168.1.220上已经成功安装了hadoop的伪分布模式。如果还没有搞定的同学,可以参考前面的文章。

2.绑定各ip与主机名的映射关系

修改hadoop0的/etc/hosts文件,增加以下内容

192.168.1.220   hadoop0

192.168.1.221   hadoop1

192.168.1.222   hadoop2

192.168.1.223   hadoop3

目的是在hadoop0上通过主机名可以找到各个机器。

然后在hadoop0的终端中执行命令

scp  /etc/hosts hadoop1:/etc

scp  /etc/hosts hadoop2:/etc

scp  /etc/hosts hadoop3:/etc

该命令是把hadoop0的hosts文件复制到其他节点的对应文件中

3.确保各个节点之间ssh可以免密码登录

在hadoop0的终端中执行以下命令

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop1

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop2

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop3

这样做是把公钥信息拷贝到其他节点中。同理,其他节点也执行类似操作,如hadoop1中执行以下命令

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop0

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop2

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop3

在hadoop2、hadoop3中也执行类似操作。

4.在其他节点搭建环境

首先把hadoop0中的${HADOOP_HOME}/tmp和${HADOOP_HOME}/logs删掉,命令如下。

rm  -rf  /usr/local/hadoop/tmp

rm  -rf  /usr/local/hadoop/logs

然后在hadoop0执行以下命令

scp  -r  /usr/local/hadoop  hadoop1:/usr/local

scp  -r  /usr/local/jdk   hadoop1:/usr/local

scp  -r  /etc/profile   hadoop1:/etc/

执行完毕后,把命令中的hadoop1替换为hadoop2执行,替换为hadoop3执行。

以上操作是把hadoop0中的jdk文件夹和hadoop文件夹及环境变量复制到其他节点,避免安装了。

5.修改集群配置文件

在hadoop0的${HADOOP_HOME}/conf目录中,找到masters文件,删除内容,添加hadoop1;

找到slaves文件,删除内容,添加hadoop2和hadoop3,每个节点一行,不能写在一行中。

注意:只修改hadoop0的配置文件,其他节点的任何hadoop配置文件都不能修改。

6.启动集群环境

在hadoop0节点,执行以下命令

hadoop  namenode  -format

start-all.sh

第一条命令是格式化文件系统,第二条命令是启动hadoop集群。

7.验证是否成功

在hadoop0执行命令jps,可以看到两个java进程,分别是NameNode、JobTracker;

在hadoop1执行命令jps,可以看到一个java进程,是SecondaryNameNode;

在hadoop2执行命令jps,可以看到两个java进程,分别是DataNode、TaskTracker;

在hadoop3执行命令jps,可以看到两个java进程,分别是DataNode、TaskTracker;

恭喜你,搞定了!!

 

你可能感兴趣的:(hadoop)