hadoop2.4.1搭建完全分布式集群
准备工具
1.32位ubuntu14.04.4虚拟机
2.jdk1.7版本和hadoop2.4版本(注意jdk的版本位数必须和ubuntu的系统位数相同,hadoop在官网下载的是版本从2.5起都是64位的,这里使用的是32位的系统,所以请下载2.5版本之前的版本,hadoop历史版本的下载地址:https://archive.apache.org/dist/hadoop/core/)
3.ubuntu系统安装ssh
sudo apt-get install openssh-server
开始搭建
1.创建hadoop用户
sudo addgroup hadoop #创建hadoop用户组
sudo adduser -ingroup hadoop hadoop #创建hadoop用户
sudo vim /etc/sudoers #给hadoop用户添加权限,打开/etc/sudoers文件
#在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL
2.安装JDK1.7和hadoop-2.4.1
1.将下载好的jdk1.7解压到/home/hadoop目录下,并重命名文件夹为jdk1.7
2.将下载好的hadoop解压到/home/hadoop目录下,并重命名文件夹为hadoop-2.4.1,在hadoop2.4.1文件夹下新建一个名为tmp的文件夹,用于NameNode、DataNode、JournalNode等存放数据的公共目录。
3.配置jdk和hadoop的环境变量
gedit ~/.bashrc
#追加以下内容到.bashrc中
export JAVA_HOME=/home/hadoop/jdk1.7
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/home/hadoop/hadoop-2.4.1
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
###查看hadoop位数的方法:
cd $HADOOP_HOME/lib/native
file libhadoop.so.1.0.0
###此时可以从输出内容看到hadoop的位数
4.保存退出,执行下列命令使之生效
source /etc/profile
5.检测jdk和hadoop是否安装成功
java -version #显示出版本信息则表示安装成功
hadoop version #显示出版本信息则表示安装成功
###如果出现类似找不到java命令的错误,请重新配置环境变量,确保文件的路径都正确
###如果出现一些不可描述的错误,请确认你的jdk,hadoop,ubuntu都是相同的位数版本
3.配置hadoop
hadoop配置文件目录为/home/hadoop/hadoop-2.4.1/etc/hadoop/
1.在yarn-env.sh 和hadoop-env.sh文件中加上JDK路径
cd /home/hadoop/hadoop-2.4.1/etc/hadoop #切换到配置文件目录
gedit hadoop-env.sh #添加JDK路径 export JAVA_HOME=/home/hadoop/jdk1.7
gedit yarn-env.sh #添加JDK路径 export JAVA_HOME=/home/hadoop/jdk1.7
2.配置 core-site.xml
#master为主机名,可以根据具体情况更改,只要是Master主机的主机名就ok
fs.defaultFS
hdfs://master:9000
true
hadoop.tmp.dir
file:/home/hadoop/hadoop-2.4.1/tmp
io.file.buffer.size
131072
3.配置hdfs-site.xml
dfs.namenode.name.dir
file:/home/hadoop/hadoop-2.4.1/dfs/name
dfs.datanode.data.dir
file:/home/hadoop/hadoop-2.4.1/dfs/data
dfs.replication #数据副本数量,默认3,我们是两台设置2
2
4.配置yarn-site.xml
yarn.resourcemanager.address
master:8032
yarn.resourcemanager.scheduler.address
master:8030
yarn.resourcemanager.resource-tracker.address
master:8031
yarn.resourcemanager.admin.address
master:8033
yarn.resourcemanager.webapp.address
master:8088
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
4.配置mapred-site.xml,该目录下没有该文件,存在一个名为mapred-site.xml.template的文件,该文件是mapred-site.xml的模板,复制该文件并重命名为mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
##编辑mapred-site.xml配置以下内容
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
master:10020
mapreduce.jobhistory.webapp.address
master:19888
5.设置slaves
gedit slaves
#输入每个slave的主机名,也可设置ip地址,建议填写主机名,因为在具体环境中ip地址可能不固定,导致修改工作频繁
slave1
slave2
4.将该主机复制两份作为slave1和slave2,原主机为master,虚拟机请使用桥接模式联网。
5.配置对应Hosts记录,关闭iptables
1.关闭iptables
iptables -P INPUT ACCEPT
iptables -P OUTPUT ACCEPT
#若出现不可描述的错误,请百度ubuntu如何关闭防火墙
2.主机间相互ping通,请百度自行解决,该步骤必须完成才可进行之后的步骤
2.修改主机名
sudo gedit /etc/hostname
#将主机名改为master,其他两台分别改为slave1,slave2,!!!严格区分大小写。
#注销重新登陆使其生效
3.修改/etc/hosts
#第一行的127.0.0.1 localhost不修改,之后添加
master主机IP master
slave1主机IP slave1
slave2主机IP slave2
6.配置SSH无密码登录(注:master本地也要实现无密码登录)
su - hadoop
ssh-keygen -t rsa
cd /home/hadoop/.ssh/
#登陆两台slave创建.ssh目录 mkdir /home/hadoop/.ssh
#返回master将id_rsa.pub传输到两个slave下的/home/hadoop/.ssh文件夹下
scp /home/hadoop/.ssh/id_rsa.pub hadoop@slave1:/home/hadoop/.ssh/ #传输给slave1
scp /home/hadoop/.ssh/id_rsa.pub hadoop@slave2:/home/hadoop/.ssh/ #传输给slave2
#以下为每台主机都要进行的配置
cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys #两台slave都执行该操作
chmod 600 /home/hadoop/.ssh/authorized_keys #两台slave都执行该操作
chmod 700 /home/hadoop/.ssh/ ##目录权限必须设置700,两台slave都执行该操作
sudo gedit /etc/ssh/sshd_config ##开启RSA认证,两台slave都执行该操作
#将文件中出现的以下语句前的注释符#号去掉,保存
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys
service ssh restart
#测试无密码登陆
#在master主机上操作
#本地登录 ssh hadoop@master ##未出现错误则表示成功,出错可能是主机名为修改为master,请用hostname命令查看主机名,若主机名正确,则是未正确安装ssh,执行 sudo apt-get install openssh-server
#登陆slave1 ssh hadoop@slave1 ##登陆成功终端会显示当前用户是hadoop@slave1 退出命令 exit()
#登陆slave2 ssh hadoop@slave2 ##同上
格式化文件系统并启动
1.格式化新的分布式文件系统
hdfs namenode -format
2.启动HDFS文件系统并使用jps检查守护进程是否启动
start-dfs.sh #会输出各节点的启动信息
jps #可以看到master已经启动NameNode和SecondaryNameNode进程,slave已经启动DataNode进程
3.启动新mapreduce架构(YARN)
start-yarn.sh
jps #可以看到master已经启动ResourceManger进程,slave已经启动NodeManager
4.查看集群状态
hdfs dfsadmin -report
5.通过web查看资源(http://master:8088) or (http://master的IP:8088)
6.查看HDFS状态(http://master:50070)or (http://master的IP:50070)
Ubuntu配置和修改IP地址
修改配置文件/etc/network/interfaces
#auto eth0
#iface eth0 inet dhcp
auto eth0
iface eth0 inet static
address 192.168.120.130
gateway 192.168.120.2
netmask 255.255.255.0
dns-nameservers 192.168.120.2
.重启网络,使配置生效
sudo /etc/init.d/networking restart