构建大数据平台（三）Hadoop集群搭建

一、设置主机名称
当四台服务器安装好之后，获得它们的IP地址，并设置主机名

vi /etc/hostname

修改主机名称，四台机器分别设置为：master，slave1，slave2，slave3

二、设置hosts文件内容
根据实际IP地址和主机名，修改/etc/hosts文件内容为：

192.168.2.158 master 
192.168.2.159 slave1 
192.168.2.177 slave2
192.168.2.178 slave3

（1）使用如下命令修改，然后保存（vi的相关命令见http://www.runoob.com/linux/linux-vim.html）

vi /etc/hosts

（2）使用如下命令查看

more /etc/hosts

（3）重启后，hosts生效。命令：

reboot now

三、SSH免密码登录
提示：我全程用的都是root用户，没有另外创建用户。每台服务器都生成公钥，再合并到authorized_keys。

CentOS默认没有启动ssh无密登录，去掉/etc/ssh/sshd_config其中2行的注释，每台服务器都要设置，
查找

#RSAAuthentication yes
#PubkeyAuthentication yes

修改成

RSAAuthentication yes
PubkeyAuthentication yes

输入命令，ssh-keygen -t rsa，生成key，都不输入密码，一直回车，/root就会生成.ssh文件夹，每台服务器都要设置；
合并公钥到authorized_keys文件，在master服务器，进入/root/.ssh目录，通过SSH命令合并，（~/.ssh/id_rsa.pub 是省略的写法，要根据实际路径来确定）

cd /roo/.ssh
cat id_rsa.pub>> authorized_keys
ssh [email protected] cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh [email protected] cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh [email protected] cat ~/.ssh/id_rsa.pub >> authorized_keys

把master服务器的authorized_keys、known_hosts复制到slave服务器的/root/.ssh目录

scp -r /root/.ssh/authorized_keys [email protected]:/root/.ssh/  
scp -r /root/.ssh/known_hosts   [email protected]:/root/.ssh/

scp -r /root/.ssh/authorized_keys [email protected]:/root/.ssh/
scp -r /root/.ssh/known_hosts  [email protected]:/root/.ssh/

scp -r /root/.ssh/authorized_keys [email protected]:/root/.ssh/
scp -r /root/.ssh/known_hosts  [email protected]:/root/.ssh/

完成后，ssh [email protected]、ssh [email protected]、192.168.2.178或者(ssh root@slave1、ssh root@slave2、ssh root@slave3 ) 就不需要输入密码直接登录到其他节点上。

四、安装JDK 1.8

Hadoop2.9支持JDK7以上的版本，由于我的CentOS自带了OpenJDK，所以要先卸载，然后解压下载的JDK并配置变量即可。可在master上面安装，然后利用scp 复制到slave机器上。

卸载自带OpenJDK:

（1）查看已经安装的jdk

rpm -qa|grep jdk

（2）卸载命令（卸载相应jdk）

yum -y remove java-XXXXXX-XXXX

（3）卸载完成之后Java命令不被识别

安装JDK1.8:

（1）去官网下载：jdk-8u161-linux-x64.tar.gz

（2）在/usr/local 目录下新建java文件夹，并将jdk-8u161-linux-x64.tar.gz上传至该文件夹

（3）解压到安装目录

cd /usr/local/
mkdir java
cd java
tar -zxvf jdk-8u161-linux-x64.tar.gz

（4）安装完毕之后在/etc/profile文件末尾添加

export JAVA_HOME=/usr/local/java/jdk1.8.0_161
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=${JAVA_HOME}/bin:$PATH

（5）使/etc/profile生效

source /etc/profile

（6）检测安装是否成功

[root@master java]# java -version
java version "1.8.0_161"
Java(TM) SE Runtime Environment (build 1.8.0_161-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

（7）删除安装包，并将java文件夹和/etc/profile 文件复制到其他slave机器上

#删除安装包
rm -f jdk-8u161-linux-x64.tar.gz

#复制到其他slave机器上
scp -r /usr/local/java/ root@slave1:/usr/local/
scp /etc/profile root@slave1:/etc/

scp -r /usr/local/java/ root@slave2:/usr/local/
scp /etc/profile root@slave2:/etc/

scp -r /usr/local/java/ root@slave3:/usr/local/
scp /etc/profile root@slave3:/etc/

#slave机上运行
source /etc/profile

五、安装Hadoop

提要:

（1）home下新建/home/hadoop目录，上传“hadoop-2.9.0.tar.gz”，放到该目录下

cd home
mkdir hadoop

（2）只在master服务器解压，再复制到slave服务器（scp命令传输）

（3）解压，输入命令

tar -xzvf hadoop-2.9.0.tar.gz

（4）在/home/hadoop目录下创建数据存放的文件夹，tmp、dfs、dfs/data、dfs/name（hdfs-site.xml文件中会用到）

cd /home/hadoop
mkdir tmp
mkdir dfs
mkdir dfs/data
mkdir dfs/name

（5）创建完成后，删除安装包

cd /home/hadoop
rm -f hadoop-2.9.0.tar.gz

配置文件:

#这里要涉及到的配置文件有7个：
~/hadoop-2.9.0/etc/hadoop/hadoop-env.sh
~/hadoop-2.9.0/etc/hadoop/yarn-env.sh
~/hadoop-2.9.0/etc/hadoop/slaves
~/hadoop-2.9.0/etc/hadoop/core-site.xml
~/hadoop-2.9.0/etc/hadoop/hdfs-site.xml
~/hadoop-2.9.0/etc/hadoop/mapred-site.xml
~/hadoop-2.9.0/etc/hadoop/yarn-site.xml

以上个别文件默认不存在的，可以复制相应的template文件获得。

（1）配置文件1：hadoop-env.sh
修改JAVA_HOME值（export JAVA_HOME=/usr/local/java/jdk1.8.0_161）

（2）配置文件2：yarn-env.sh
修改JAVA_HOME值（export JAVA_HOME=/usr/local/java/jdk1.8.0_161）

（3）配置/home/hadoop/hadoop-2.9.0/etc/hadoop目录下的slaves，删除默认的localhost，增加2个slave节点:

slave1
slave2
slave3

（4）配置文件4：core-site.xml


    
        fs.default.name
        hdfs://master:9000
    
    
        hadoop.tmp.dir
        /home/hadoop/tmp
    
    
        io.file.buffer.size
        131702

（5）配置文件5：hdfs-site.xml


    
        dfs.namenode.name.dir
        file:///home/hadoop/dfs/name
    
    
        dfs.datanode.data.dir
        file:///home/hadoop/dfs/data
    
    
        dfs.replication
        3
    
    
        dfs.namenode.secondary.http-address
        master:9010
    
    
    dfs.webhdfs.enabled
    true

（6）配置文件6：mapred-site.xml
因文件夹中不存在 mapred-site.xml，可使用如下命令创建：

cp mapred-site.xml.template mapred-site.xml

其内容为：


    
        mapreduce.framework.name
        yarn

（7）配置文件7：yarn-site.xml


    
         yarn.resourcemanager.hostname
         master
    
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.resourcemanager.address
        master:8032
    
    
        yarn.resourcemanager.scheduler.address
        master:8030
    
    
        yarn.resourcemanager.resource-tracker.address
        master:8031
    
    
        yarn.resourcemanager.admin.address
        master:8033
    
    
        yarn.resourcemanager.webapp.address
        master:8088
    
    
        yarn.nodemanager.resource.memory-mb
        2048

（8）将master服务器上配置好的Hadoop复制到各个节点对应位置上，通过scp传送

scp -r /home/hadoop  root@slave1:/home/
scp -r /home/hadoop  root@slave2:/home/
scp -r /home/hadoop  root@slave3:/home/

六、启动Hadoop
提示：在master服务器启动hadoop，各从节点会自动启动，进入/home/hadoop/hadoop-2.9.0目录，hadoop的启动和停止都在master服务器上执行。

初始化，在hadoop-2.9.3目录下输入命令：

bin/hdfs namenode –format

启动命令

sbin/start-all.sh

输入命令，jps，可以看到相关信息

master上看到

[root@master hadoop-2.9.0]# jps
3920 SecondaryNameNode
4358 Jps
4087 ResourceManager
3721 NameNode

slave上看到

[root@slave1 hadoop]# jps
2994 DataNode
3107 NodeManager
3237 Jps

停止命令，执行

sbin/stop-all.sh

至此，hadoop配置完成了。

构建大数据平台（三）Hadoop集群搭建

你可能感兴趣的:(构建大数据平台（三）Hadoop集群搭建)