Hadoop集群安装配置实验

一、环境
四台 VirtualBox上的Linux虚机,每台硬盘20G,内存768M。
IP与主机名:
192.168.56.101 master
192.168.56.102 slave1
192.168.56.103 slave2
192.168.56.104 slave3
主机规划:
192.168.56.101做master,运行NameNode和ResourceManager进程。其它三台主机做slave,运行DataNode和NodeManager进程。
操作系统:CentOS release 6.4 (Final)
java版本:jdk1.7.0_75
hadoop版本:hadoop-2.7.2

二、安装前准备
1. 分别在四台机器上建立grid用户
useradd -d /home/grid -m grid
usermod -G root grid

2. 分别在四台机器上的/etc/hosts文件中添加如下内容
192.168.56.101 master
192.168.56.102 slave1
192.168.56.103 slave2
192.168.56.104 slave3

以下的操作均使用grid用户执行。
3. 分别在四台机器上安装java(安装包下载已经到grid用户主目录):
cd ~
tar -zxvf jdk-7u75-linux-x64.tar.gz

4. 配置免密码ssh(这里配置了任意两台机器都免密码)
(1)分别在四台机器上生成密钥对:
cd ~
ssh-keygen -t rsa
然后一路回车
(2)在master上执行:
cd ~/.ssh/
ssh-copy-id 192.168.56.101
scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/
(3)在slave1上执行:
cd ~/.ssh/
ssh-copy-id 192.168.56.102
scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/
(4)在slave2上执行:
cd ~/.ssh/
ssh-copy-id 192.168.56.103
scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/
(5)在slave3上执行:
cd ~/.ssh/
ssh-copy-id 192.168.56.104
scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/
scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/
scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/

至此,免密码ssh配置完成。

三、安装配置hadoop
以下的操作均使用grid用户在master主机上执行。
1. 安装hadoop(安装包下载已经到grid用户主目录):
cd ~
tar -zxvf hadoop-2.7.2.tar.gz

2. 建立目录
cd ~/hadoop-2.7.2
mkdir tmp
mkdir hdfs
mkdir hdfs/data
mkdir hdfs/name
   
3. 修改配置文件
(1)编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件,添加如下内容,如图1所示。


fs.defaultFS
hdfs://192.168.56.101:9000


hadoop.tmp.dir
file:/home/grid/hadoop-2.7.2/tmp


io.file.buffer.size
131072



Hadoop集群安装配置实验_第1张图片
图1

(2)编辑~/hadoop-2.7.2/etc/hadoop/hdfs-site.xml文件,添加如下内容,如图2所示。


dfs.namenode.name.dir
file:/home/grid/hadoop-2.7.2/hdfs/name


dfs.datanode.data.dir
file:/home/grid/hadoop-2.7.2/hdfs/data


dfs.replication
3


dfs.namenode.secondary.http-address
192.168.56.101:9001


dfs.namenode.servicerpc-address
192.168.56.101:10000


dfs.webhdfs.enabled
true



Hadoop集群安装配置实验_第2张图片
图2
注意:dfs.namenode.servicerpc-address参数必须设置。

(3)编辑~/hadoop-2.7.2/etc/hadoop/yarn-site.xml文件,添加如下内容,如图3所示。


yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.nodemanager.auxservices.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler


yarn.resourcemanager.address
192.168.56.101:8032


yarn.resourcemanager.scheduler.address
192.168.56.101:8030


yarn.resourcemanager.resource-tracker.address
192.168.56.101:8031


yarn.resourcemanager.admin.address
192.168.56.101:8033


yarn.resourcemanager.webapp.address
192.168.56.101:8088


yarn.nodemanager.resource.memory-mb
1024



Hadoop集群安装配置实验_第3张图片
图3
注意:yarn.nodemanager.resource.memory-mb不能小于1024。

(4)编辑~/hadoop-2.7.2/etc/hadoop/mapred-site.xml文件,添加如下内容,如图4所示。


mapreduce.framework.name
yarn


mapreduce.jobhistory.address
192.168.56.101:10020


mapreduce.jobhistory.webapp.address
192.168.56.101:19888



Hadoop集群安装配置实验_第4张图片
图4

(5)编辑~/hadoop-2.7.2/etc/hadoop/slaves文件,添加如下内容,如图5所示。
192.168.56.102
192.168.56.103
192.168.56.104

图5

(6)编辑~/hadoop-2.7.2/etc/hadoop/hadoop-env.sh文件,修改如下内容,如图6所示。
export JAVA_HOME=/home/grid/jdk1.7.0_75

图6

(7)编辑~/hadoop-2.7.2/etc/hadoop/yarn-env.sh文件,修改如下内容,如图7所示。
export JAVA_HOME=/home/grid/jdk1.7.0_75

图7

(8)将hadhoop主目录复制到各个从服务器上
scp -r ./hadoop-2.7.2 192.168.56.102:/home/grid/
scp -r ./hadoop-2.7.2 192.168.56.103:/home/grid/
scp -r ./hadoop-2.7.2 192.168.56.104:/home/grid/

四、安装后配置
使用root用户分别在四台机器上的/etc/profile文件中添加如下环境变量,如图8所示。
export JAVA_HOME=/home/grid/jdk1.7.0_75
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/grid/hadoop-2.7.2
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

Hadoop集群安装配置实验_第5张图片
图8

五、初始化及运行
以下的操作均使用grid用户在master主机上执行。
hdfs namenode -format
结果如图9所示

Hadoop集群安装配置实验_第6张图片
图9
start-dfs.sh
结果如图10所示

Hadoop集群安装配置实验_第7张图片
图10
start-yarn.sh
结果如图11所示

Hadoop集群安装配置实验_第8张图片
图11

查看主节点Java进程,可以看到主节点上启动了NameNode、SecondaryNameNode、ResourceManager守护进程,如图12所示

图12

查看从节点Java进程,可以看到从节点上启动了DataNode、NodeManager守护进程,如图13所示

图13

通过web接口查看NameNode,如图14所示

Hadoop集群安装配置实验_第9张图片
图14

参考:https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html

你可能感兴趣的:(Linux)