Hadoop 环境部署(标准Linux部署方式)【完结】

hadoop环境部署

前言:Hadoop主要有两种安装方式,即传统解压包方式和Linux标准方式。相对来说,标准Linux部署方式简单易用,而传统部署方式则繁琐易错;标准部署方式隐藏了很多细节,而传统解压包方式有助于读者深入理解Hadoop原理。建议先学习传统部署方式再来学习这个标准部署方式。

实验环境:

虚拟机: VMware Workstation Pro,

Linux版本: CentOS 8,   

JDK版本:1.8.0,

hadoop版本: hadoop-2.10.0(先在虚拟机里下载好),

虚拟机安装时,如果本身物理机内存条和硬盘容量都不大,建议内存2G,硬盘5G,就够了。否则运行起来会非常卡。甚至常常黑屏无法启动。

集群环境设计:

Hadoop各结点设计:

小技巧:执行命令需要管理员权限时,可直接在前加上sudo,这样就可以管理员身份执行了;如果编辑部分系统文件时,无法用“:wq!”更改保存,可以先:q退出,用sudo vi 来编辑文件。

0.修改机器名hostname

首先我们安装完VM,安装完CentOS8之后,打开linux,进入命令行终端进行配置,

修改机器名

sudo hostnamectl set-hostname cMaster

显示机器信息:

hostnamectl

显示机器信息

1. jdk安装

一步安装及配置jdk (仅适用于CentOS),在linux命令行端口,输入

sudo yum install java-1.8.0-openjdk* -y

 然后输入root用户密码即可安装(安装VM时设置的root密码)

利用yum工具安装jdk

接着往下输入

java -version

会显示版本信息时即为成功,

显示jdk版本信息

  而此时yum 安装的jdk位置为 /usr/lib/jvm/java-1.8.0,我们再进行jdk环境变量配置,输入

vi /etc/profile

在文件底端添加以下信息(JAVA_HOME=安装路径,如果不同需要根据自己的实际安装路径更改)

 #set java environment  

 export JAVA_HOME=/usr/lib/jvm/java

 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jar

 export PATH=$PATH:$JAVA_HOME/bin

配置jdk环境

(输入:wq!)保存并退出之后,再输入

source /etc/profile

使得配置的更改生效

此时,当输入

echo $JAVA_HOME

显示路径/usr/lib/jvm/java-1.8.0的时候,配置已经成功。


2.集群环境的共性配置

2.1修改虚拟子网ip

进入虚拟网络编辑器
以管理员身份更改设置
取消dhcp,设置子网ip

2.2修改网络配置文件ens33

(如果你的机器网络服务名称不是ens33的,可以输入ifconfig,第一个英文就是对应的了)

vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改增加内容,并保存退出

更新网络配置 查看结果

sudo nmcli c reload

sudo nmcli c down ens33

sudo nmcli c up ens33

重启网络服务
查看更新之后的ip,修改成功

2.3虚拟机克隆

2.3.1克隆机器

关闭虚拟机,然后克隆
完整克隆
点击完成,默默等待安装就好。

2.3.2 重新生成MAC机器地址

在两台hadoop2,hadoop3克隆虚拟机上重新生成MAC地址

重新生产MAC地址

2.3.3 修改新机器的网络配置 

在两台虚拟机上,都要进行修改机器名hostname修改网络配置文件ens33的步骤,机器名和ipaddr分别如文章开头的集群设计表所示。如hadoop2上,

sudo hostnamectl set-hostname cSlave0

vi /etc/sysconfig/network-scripts/ifcfg-ens33  #ipaddr是192.168.58.130

sudo nmcli c reload

sudo nmcli c down ens33

sudo nmcli c up ens33

再在三台机器上,设置hosts映射表

vi /etc/hosts

加入以上三行映射

之后可以在三台机器上执行ping命令,检验是否互通了。如在(hadoop1)cMaster上执行(Ctrl + C 可停止ping操作)

ping cSlave0

3. 设置免密码登陆(三台机器都需要进行分别设置)

3.1 创建hadoop用户 

创建 hadoop 用户(需要root权限,我设置的密码是简单的一个空格“space”)

sudo useradd hadoop

sudo passwd hadoop

3.2修改用户 hadoop 的权限

(用户权限的修改需要在 /etc/sudoers 下配置, 将 hadoop 的权限修改最高ALL)

sudo vi /etc/sudoers

在以上位置加上下面一行字符串

hadoop    ALL=(ALL)    NoPASSWD:ALL

3.3 切换到 hadoop用户

su hadoop

切换hadoop用户

3.4免密码登陆设置

生成公钥(要求输入设置密码时直接回车就是无密码登录了)

ssh-keygen -t rsa

三个绿框地方直接回车,其他地方看情况输入

将公钥拷贝到其他两台机器(期间要求输入的密码是hadoop的用户密码)

ssh-copy-id hadoop@cSlave0

ssh-copy-id hadoop@cSlave1

拷贝密钥成功

3.5 ssh登录测试(登录其他两台机器,再回来本机)

ssh hadoop@cSlave0

ssh hadoop@cSlave1

ssh hadoop@cMaster

ssh登录成功

4. hadoop安装与配置

4.1 安装hadoop

    4.1.1 新建hadoop的安装目录,设置hadoop用户对 /usr/local/src和 /usr/local/hadoop 的权限, -R 表示级联设置

cd /usr/local

sudo chown -R hadoop:hadoop /usr/local/src

sudo mkdir hadoop

sudo chown -R hadoop:hadoop hadoop

ll

设置权限成功

    4.1.2 将hadoop压缩文件设置为 可执行文件

(这里的压缩包在克隆以前已经下载到了/home/hadoop/下载目录下)

sudo chmod +x hadoop-2.7.5.tar.gz

hadoop压缩包已经由红色转变为绿色


    4.1.3 解压hadoop配置包

准备解压


解压到hadoop安装目录

    4.1.4 配置环境变量

vi /etc/profile

export HADOOP_HOME="/usr/local/hadoop/hadoop-2.10.0"

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

profile文件底端加入以上两行配置,然后用source命令使得配置更新生效

source /etc/profile

    4.1.5 查看结果:

echo $HADOOP_HOME

hadoop环境变量配置成功会显示路径

4.2 配置cMaster的hadoop

(下面的操作为:先配置其中一台机器(如cMaster的)文件,然后直接复制到其他两台机器再修改,否则每台机器都要敲的话,容易敲错)

    4.2.1  编辑hadoop-env.sh 

vi ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh

这个地方 JAVA_HOME为你安装jdk的时候的 JAVA_HOME

"/usr/lib/jvm/java-1.8.0"

配置JAVA_HOME

    4.2.2 编辑core-site.xml

vi ${HADOOP_HOME}/etc/hadoop/core-site.xml

        fs.defaultFS

        hdfs://cMaster:8020

        hadoop.tmp.dir

        /opt/data/tmp

        dfs.namenode.name.dir

        file://${hadoop.tmp.dir}/dfs/name

        dfs.datanode.data.dir

        file://${hadoop.tmp.dir}/dfs/data

设置datanode、namenode、tmp的目录路径

    4.2.3 创建tmp、NameNode和DataNode目录,并且给hadoop用户设置权限

sudo mkdir -p /opt/data/tmp

sudo mkdir -p /opt/data/tmp/dfs/name

sudo mkdir -p /opt/data/tmp/dfs/data

sudo chown -R hadoop:hadoop /opt/data/tmp

sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/name

sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/data


    4.2.4 编辑hdfs-site.xml,将cSlave1设置为secondary name node。

vi ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml

  dfs.namenode.secondary.http-address

  cSlave1:50090

将cSlave1设置为secondary name node

    4.2.5 编辑slaves,设置三台机器为datanode

vi ${HADOOP_HOME}/etc/hadoop/slaves

cMaster

cSlave0

cSlave1

将三台机器都设置为datanode

    4.2.6 编辑yarn-site.xml,将cSlave0设置为resource manager

vi ${HADOOP_HOME}/etc/hadoop/yarn-site.xml

        yarn.nodemanager.aux-services

        mapreduce_shuffle

        yarn.log-aggregation-enable

        true

        yarn.resourcemanager.hostname

        cSlave0

        yarn.log-aggregation.retain-seconds

        106800

        The http address of th RM web application.

        yarn.resourcemanager.webapp.address

        cSlave0:8088

将cSlave0设置为resource manager

    4.2.7 编辑mapred-site.xml,将cSlave1设置为job history server

cd ${HADOOP_HOME}

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

vi ${HADOOP_HOME}/etc/hadoop/mapred-site.xml

                mapreduce.framework.name

                yarn

       

       

                mapreduce.jobhistory.address

                cSlave1:10020

       

       

                mapreduce.jobhistory.webapp.address

                cSlave1:19888

       

将cSlave1设置为job history server

4.3 给cSlave0、cSlave1分发Hadoop配置

    4.3.1 分别在cSlave0、cSlave1创建hadoop、tmp、nanmenode和datanode目录。

sudo mkdir hadoop 

sudo mkdir -p /opt/data/tmp

sudo mkdir -p /opt/data/tmp/dfs/name

sudo mkdir -p /opt/data/tmp/dfs/data

sudo chown -R hadoop:hadoop hadoop 

sudo chown -R hadoop:hadoop /opt/data/tmp

sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/name

sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/data

4.3.2 将cMaster的hadoop安装目录下的文件拷贝到cSlave0、cSlave1

该步骤需要较长时间(20min左右),请耐心等待

scp -r ${HADOOP_HOME}/ cSlave0:/usr/local/hadoop

scp -r ${HADOOP_HOME}/ cSlave1:/usr/local/hadoop

4.3.3 在cMaster上格式化namenode(不要二次格式化,执行一次即可,否则datanode自行查贴解决)

cd ${HADOOP_HOME}

./bin/hdfs namenode -format

4.4 启动hadoop

    4.4.1 关闭三台机器的防火墙.

sudo systemctl stop firewalld.service

    4.4.2 在cMaster上启动 dfs

cd ${HADOOP_HOME}/sbin

 ./start-dfs.sh

    4.4.3 在cSlave0上 启动 yarn

cd ${HADOOP_HOME}/sbin

 ./start-yarn.sh

    4.4.4 在cSlave1 启动 history server

cd ${HADOOP_HOME}/sbin

mr-jobhistory-daemon.sh start historyserver

5 .Hadoop部署结果验证

5.1 查看HDFS页面:

http://cMaster:50070

cSlave0的FireFox截图

5.2 查看YARN Web 页面

http://cSlave0:8088/cluster


cSlave0的FireFox截图

5.3 测试job

运行MapReduce程序 wordCount,编辑测试文件,随便写几个单词或者一句英文

sudo vi /opt/data/wc.input

Future astronauts could travel with emotional support robots.

输入随意一句英文

在HDFS上创建目录并上传wc.input

cd ${HADOOP_HOME}/bin

./hdfs dfs -mkdir /input

./hdfs dfs -put /opt/data/wc.input /input/wc.input

上传完毕

运行wordcount

  ./yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount /input/wc.input /output

计算完毕

结果查看:    

./hdfs dfs -ls /output

结果已生成

./hdfs dfs -cat /output/part-r-00000

显示结果

部署成功(撒花)



参考文章:

1.Hadoop 环境搭建 全集 超详细, 新手必看

2.Hadoop集群搭建好后无法启动datanode

3.Hadoop快速入门

4.《云计算(第三版)刘鹏 主编》电子工业出版社

5.关于虚拟机VMware Workstation Pro繁忙的解决方法

6.Linux跨用户copy文件

7.关于Hadoop进行namenode格式化时ERROR conf.Configuration: error parsing conf xxx.xml错误的问题

8.


(补充)部分问题:

1.网络不可用,检查静态ip设置无问题,但是ping不通,网页打不开

ping超时
找不到服务器

有可能是NATService被关闭了

运行NATService就可以了

2.启动dfs的时候,密码还没输入就弹出了信息

等待的过程中,启动消息迟迟不打印,可以按一个回车

3.jps查看到datanode没有启动

原因可能是datanode二次格式化导致的版本id不一样,需要统一id才能够同时启动。

hadoop的升级功能需要datanode在它的版本文件里存储一个永久性的clusterID,当datanode启动时会检查并匹配namenode的版本文件里的clusterID,如果两者不匹配,就会出现"Incompatible clusterIDs"的异常。

每次格式化namenode都会生成一个新的clusterID, 如果只格式化了namenode,没有格式化此datanode, 就会出现”java.io.IOException: Incompatible namespaceIDs“异常。

所以现在修改统一clusterID,

cd /opt/data/tmp/dfs/data/current

vi VERSION

三台机器统一id

然后再查看再启动一次datanode

start-dfs.sh

datanode启动成功

你可能感兴趣的:(Hadoop 环境部署(标准Linux部署方式)【完结】)