李佳良

Hadoop环境搭建

前言
Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。
这是一篇入门文章，Hadoop的学习方法很多，网上也有很多学习路线图。本文的思路是：以安装部署Apache Hadoop2.x版本为主线，来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的，通过安装认识Hadoop才是目的。
本文分为五个部分、十三节、四十九步。
第一部分：Linux环境安装
Hadoop是运行在Linux，虽然借助工具也可以运行在Windows上，但是建议还是运行在Linux系统上，第一部分介绍Linux环境的安装、配置、Java JDK安装等。
第二部分：Hadoop本地模式安装
Hadoop本地模式只是用于本地开发调试，或者快速安装体验Hadoop，这部分做简单的介绍。
第三部分：Hadoop伪分布式模式安装
学习Hadoop一般是在伪分布式模式下进行。这种模式是在一台机器上各个进程上运行Hadoop的各个模块，伪分布式的意思是虽然各个模块是在各个进程上分开运行的，但是只是运行在一个操作系统上的，并不是真正的分布式。
第四部分：完全分布式安装
完全分布式模式才是生产环境采用的模式，Hadoop运行在服务器集群上，生产环境一般都会做HA，以实现高可用。
第五部分：Hadoop HA安装
HA是指高可用，为了解决Hadoop单点故障问题，生产环境一般都做HA部署。这部分介绍了如何配置Hadoop2.x的高可用，并简单介绍了HA的工作原理。
安装过程中，会穿插简单介绍涉及到的知识。希望能对大家有所帮助。

第一部分：Linux环境安装
第一步、配置Vmware NAT网络
一、Vmware网络模式介绍
参考：http://blog.csdn.net/collection4u/article/details/14127671
二、NAT模式配置
NAT是网络地址转换，是在宿主机和虚拟机之间增加一个地址转换服务，负责外部和虚拟机之间的通讯转接和IP转换。
我们部署Hadoop集群，这里选择NAT模式，各个虚拟机通过NAT使用宿主机的IP来访问外网。
我们的要求是集群中的各个虚拟机有固定的IP、可以访问外网，所以进行如下设置：
1、 Vmware安装后，默认的NAT设置如下：

2、默认的设置是启动DHCP服务的，NAT会自动给虚拟机分配IP，但是我们需要将各个机器的IP固定下来，所以要取消这个默认设置。
3、为机器设置一个子网网段，默认是192.168.136网段，我们这里设置为100网段，将来各个虚拟机Ip就为 192.168.100.*。
4、点击NAT设置按钮，打开对话框，可以修改网关地址和DNS地址。这里我们为NAT指定DNS地址。

5、网关地址为当前网段里的.2地址，好像是固定的，我们不做修改，先记住网关地址就好了，后面会用到。
第二步、安装Linux操作系统
三、Vmware上安装Linux系统
1、文件菜单选择新建虚拟机
2、选择经典类型安装，下一步。
3、选择稍后安装操作系统，下一步。
4、选择Linux系统，版本选择CentOS 64位。

5、命名虚拟机，给虚拟机起个名字，将来显示在Vmware左侧。并选择Linux系统保存在宿主机的哪个目录下，应该一个虚拟机保存在一个目录下，不能多个虚拟机使用一个目录。

6、指定磁盘容量，是指定分给Linux虚拟机多大的硬盘，默认20G就可以，下一步。
7、点击自定义硬件，可以查看、修改虚拟机的硬件配置，这里我们不做修改。
8、点击完成后，就创建了一个虚拟机，但是此时的虚拟机还是一个空壳，没有操作系统，接下来安装操作系统。
9、点击编辑虚拟机设置，找到DVD，指定操作系统ISO文件所在位置。

10、点击开启此虚拟机，选择第一个回车开始安装操作系统。

11、设置root密码。

12、选择Desktop，这样就会装一个Xwindow。

13、先不添加普通用户，其他用默认的，就把Linux安装完毕了。
四、设置网络
因为Vmware的NAT设置中关闭了DHCP自动分配IP功能，所以Linux还没有IP，需要我们设置网络各个参数。
1、用root进入Xwindow，右击右上角的网络连接图标，选择修改连接。

2、网络连接里列出了当前Linux里所有的网卡，这里只有一个网卡System eth0，点击编辑。

3、配置IP、子网掩码、网关（和NAT设置的一样）、DNS等参数，因为NAT里设置网段为100.*，所以这台机器可以设置为192.168.100.10网关和NAT一致，为192.168.100.2

4、用ping来检查是否可以连接外网，如下图，已经连接成功。

五、修改Hostname
1、临时修改hostname
[root@localhost Desktop]# hostname bigdata-senior01.chybinmy.com
这种修改方式，系统重启后就会失效。
2、永久修改hostname
想永久修改，应该修改配置文件 /etc/sysconfig/network。
命令：[root@bigdata-senior01 ~] vim /etc/sysconfig/network
打开文件后，
NETWORKING=yes #使用网络
HOSTNAME=bigdata-senior01.chybinmy.com #设置主机名
六、配置Host
命令：[root@bigdata-senior01 ~] vim /etc/hosts
添加hosts: 192.168.100.10 bigdata-senior01.chybinmy.com
七、关闭防火墙
学习环境可以直接把防火墙关闭掉。
(1) 用root用户登录后，执行查看防火墙状态。
[root@bigdata-senior01 hadoop]# service iptables status
(2) 用[root@bigdata-senior01 hadoop]# service iptables stop关闭防火墙，这个是临时关闭防火墙。
[root@bigdata-senior01 hadoop-2.5.0]# service iptables stop
iptables: Setting chains to policy ACCEPT: filter [ OK ]
iptables: Flushing firewall rules: [ OK ]
iptables: Unloading modules: [ OK ]
(3) 如果要永久关闭防火墙用。
[root@bigdata-senior01 hadoop]# chkconfig iptables off
关闭，这种需要重启才能生效。
八、关闭selinux
selinux是Linux一个子安全机制，学习环境可以将它禁用。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim /etc/sysconfig/selinux
1
#This file controls the state of SELinux on the system.
#SELINUX= can take one of these three values:
#enforcing - SELinux security policy is enforced.
#permissive - SELinux prints warnings instead of enforcing.
#disabled - No SELinux policy is loaded.
SELINUX=disabled
#SELINUXTYPE= can take one of these two values:
#targeted - Targeted processes are protected,
#mls - Multi Level Security protection.
SELINUXTYPE=targeted

第三步、安装JDK
九、安装Java JDK
1、查看是否已经安装了java JDK。
[root@bigdata-senior01 Desktop]# java –version
注意：Hadoop机器上的JDK，最好是Oracle的Java JDK，不然会有一些问题，比如可能没有JPS命令。
如果安装了其他版本的JDK，卸载掉。
2、安装java JDK
(1) 去下载Oracle版本Java JDK：jdk-7u67-linux-x64.tar.gz
(2) 将jdk-7u67-linux-x64.tar.gz解压到/opt/modules目录下
[root@bigdata-senior01 /]# tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules
(3) 添加环境变量
设置JDK的环境变量 JAVA_HOME。需要修改配置文件/etc/profile，追加
export JAVA_HOME="/opt/modules/jdk1.7.0_67"
export PATH=$JAVA_HOME/bin:$PATH
修改完毕后，执行 source /etc/profile
(4)安装后再次执行 java –version,可以看见已经安装完成。
[root@bigdata-senior01 /]# java -version
java version "1.7.0_67"
Java(TM) SE Runtime Environment (build 1.7.0_67-b01)
Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode)
第二部分：Hadoop本地模式安装
第四步、Hadoop部署模式
Hadoop部署模式有：本地模式、伪分布模式、完全分布式模式、HA完全分布式模式。
区分的依据是NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。
模式名称各个模块占用的JVM进程数各个模块运行在几个机器数上
本地模式 1个 1个
伪分布式模式 N个 1个
完全分布式模式 N个 N个
HA完全分布式 N个 N个
第五步、本地模式部署
十、本地模式介绍
本地模式是最简单的模式，所有模块都运行与一个JVM进程中，使用的本地文件系统，而不是HDFS，本地模式主要是用于本地开发过程中的运行调试用。下载hadoop安装包后不用任何设置，默认的就是本地模式。
十一、解压hadoop后就是直接可以使用
1、创建一个存放本地模式hadoop的目录
[hadoop@bigdata-senior01 modules]$ mkdir /opt/modules/hadoopstandalone
2、解压hadoop文件
[hadoop@bigdata-senior01 modules]$ tar -zxf /opt/sofeware/hadoop-2.5.0.tar.gz -C /opt/modules/hadoopstandalone/
3、确保JAVA_HOME环境变量已经配置好
[hadoop@bigdata-senior01 modules]$ echo ${JAVA_HOME}
/opt/modules/jdk1.7.0_67
十二、运行MapReduce程序，验证
我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。
1、准备mapreduce输入文件wc.input
[hadoop@bigdata-senior01 modules]$ cat /opt/data/wc.input
hadoop mapreduce hive
hbase spark storm
sqoop hadoop hive
spark hadoop
2、运行hadoop自带的mapreduce Demo
[hadoop@bigdata-senior01 hadoopstandalone]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /opt/data/wc.input output2
1

这里可以看到job ID中有local字样，说明是运行在本地模式下的。
3、查看输出文件
本地模式下，mapreduce的输出是输出到本地。
[hadoop@bigdata-senior01 hadoopstandalone]$ ll output2
total 4
-rw-r--r-- 1 hadoop hadoop 60 Jul 7 12:50 part-r-00000
-rw-r--r-- 1 hadoop hadoop 0 Jul 7 12:50 _SUCCESS
输出目录中有_SUCCESS文件说明JOB运行成功，part-r-00000是输出结果文件。

第三部分：Hadoop伪分布式模式安装
第六步、伪分布式Hadoop部署过程
十三、Hadoop所用的用户设置
1、创建一个名字为hadoop的普通用户
[root@bigdata-senior01 ~]# useradd hadoop
[root@bigdata-senior01 ~]# passwd hadoop
2、给hadoop用户sudo权限
[root@bigdata-senior01 ~]# vim /etc/sudoers
1
设置权限，学习环境可以将hadoop用户的权限设置的大一些，但是生产环境一定要注意普通用户的权限限制。
root ALL=(ALL) ALL
hadoop ALL=(root) NOPASSWD:ALL
注意：如果root用户无权修改sudoers文件，先手动为root用户添加写权限。
[root@bigdata-senior01 ~]# chmod u+w /etc/sudoers
3、切换到hadoop用户
[root@bigdata-senior01 ~]# su - hadoop
[hadoop@bigdata-senior01 ~]$
4、创建存放hadoop文件的目录
[hadoop@bigdata-senior01 ~]$ sudo mkdir /opt/modules
1
5、将hadoop文件夹的所有者指定为hadoop用户
如果存放hadoop的目录的所有者不是hadoop，之后hadoop运行中可能会有权限问题，那么就讲所有者改为hadoop。
[hadoop@bigdata-senior01 ~]# sudo chown -R hadoop:hadoop /opt/modules
1
十四、解压Hadoop目录文件
1、复制hadoop-2.5.0.tar.gz到/opt/modules目录下。
2、解压hadoop-2.5.0.tar.gz
[hadoop@bigdata-senior01 ~]# cd /opt/modules
[hadoop@bigdata-senior01 hadoop]# tar -zxvf hadoop-2.5.0.tar.gz
十五、配置Hadoop
1、配置Hadoop环境变量
[hadoop@bigdata-senior01 hadoop]# vim /etc/profile
追加配置：
export HADOOP_HOME="/opt/modules/hadoop-2.5.0"
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
执行：source /etc/profile 使得配置生效
验证HADOOP_HOME参数：
[hadoop@bigdata-senior01 /]$ echo $HADOOP_HOME
/opt/modules/hadoop-2.5.0
2、配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数
[hadoop@bigdata-senior01 ~]$ sudo vim ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh
修改JAVA_HOME参数为：
export JAVA_HOME="/opt/modules/jdk1.7.0_67"
3、配置core-site.xml

[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml
（1） fs.defaultFS参数配置的是HDFS的地址。
fs.defaultFShdfs://bigdata-senior01.chybinmy.com:8020
（2） hadoop.tmp.dir配置的是Hadoop临时目录，比如HDFS的NameNode数据默认都存放这个目录下，查看*-default.xml等默认配置文件，就可以看到很多依赖${hadoop.tmp.dir}的配置。
默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下，如果操作系统重启了，系统会清空/tmp目录下的东西，导致NameNode元数据丢失，是个非常严重的问题，所有我们应该修改这个路径。
创建临时目录：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp
将临时目录的所有者修改为hadoop
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tmp
修改hadoop.tmp.dir

hadoop.tmp.dir
/opt/data/tmp

十六、配置、格式化、启动HDFS
1、配置hdfs-site.xml

[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
1

dfs.replication
1

dfs.replication配置的是HDFS存储时的备份数量，因为这里是伪分布式环境只有一个节点，所以这里设置为1。
2、格式化HDFS

[hadoop@bigdata-senior01 ~]$ hdfs namenode –format
格式化是对HDFS这个分布式文件系统中的DataNode进行分块，统计所有分块后的初始元数据的存储在NameNode中。
格式化后，查看core-site.xml里hadoop.tmp.dir（本例是/opt/data目录）指定的目录下是否有了dfs目录，如果有，说明格式化成功。
注意：
1.
格式化时，这里注意hadoop.tmp.dir目录的权限问题，应该hadoop普通用户有读写权限才行，可以将/opt/data的所有者改为hadoop。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown -R hadoop:hadoop /opt/data
2.查看NameNode格式化后的目录。

[hadoop@bigdata-senior01 ~]$ ll /opt/data/tmp/dfs/name/current
1

fsimage是NameNode元数据在内存满了后，持久化保存到的文件。
fsimage*.md5 是校验文件，用于校验fsimage的完整性。
seen_txid 是hadoop的版本
vession文件里保存：

namespaceID：NameNode的唯一ID。


clusterID:集群ID，NameNode和DataNode的集群ID应该一致，表明是一个集群。

#Mon Jul 04 17:25:50 CST 2016
namespaceID=2101579007
clusterID=CID-205277e6-493b-4601-8e33-c09d1d23ece4
cTime=0
storageType=NAME_NODE
blockpoolID=BP-1641019026-127.0.0.1-1467624350057
layoutVersion=-57
3、启动NameNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start namenode
starting namenode, logging to /opt/modules/hadoop-2.5.0/logs/hadoop-hadoop-namenode-bigdata-senior01.chybinmy.com.out

4、启动DataNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start datanode
starting datanode, logging to /opt/modules/hadoop-2.5.0/logs/hadoop-hadoop-datanode-bigdata-senior01.chybinmy.com.out

5、启动SecondaryNameNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start secondarynamenode
starting secondarynamenode, logging to /opt/modules/hadoop-2.5.0/logs/hadoop-hadoop-secondarynamenode-bigdata-senior01.chybinmy.com.out

6、 JPS命令查看是否已经启动成功，有结果就是启动成功了。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ jps3034 NameNode3233 Jps3193 SecondaryNameNode3110 DataNode

7、 HDFS上测试创建目录、上传、下载文件
HDFS上创建目录
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/bin/hdfs dfs -mkdir /demo1
1
上传本地文件到HDFS上
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/bin/hdfs dfs -put
${HADOOP_HOME}/etc/hadoop/core-site.xml /demo1
1
2
读取HDFS上的文件内容
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/bin/hdfs dfs -cat /demo1/core-site.xml
1

从HDFS上下载文件到本地
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -get /demo1/core-site.xml
1

十七、配置、启动YARN
1、配置mapred-site.xml
默认没有mapred-site.xml文件，但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。
[hadoop@bigdata-senior01 hadoop-2.5.0]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
1
添加配置如下：
mapreduce.framework.nameyarn
指定mapreduce运行在yarn框架上。

2、配置yarn-site.xml
添加配置如下：

yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.hostname
bigdata-senior01.chybinmy.com


yarn.nodemanager.aux-services配置了yarn的默认混洗方式，选择为mapreduce的默认混洗算法。


yarn.resourcemanager.hostname指定了Resourcemanager运行在哪个节点上。



3、启动Resourcemanager
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager
1

4、启动nodemanager
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager
1

5、查看是否启动成功
[hadoop@bigdata-senior01 hadoop-2.5.0]$ jps3034 NameNode4439 NodeManager4197 ResourceManager4543 Jps3193 SecondaryNameNode3110 DataNode
可以看到ResourceManager、NodeManager已经启动成功了。

6、 YARN的Web页面
YARN的Web客户端端口号是8088，通过http://192.168.100.10:8088/可以查看。

十八、运行MapReduce Job
在Hadoop的share目录里，自带了一些jar包，里面带有一些mapreduce实例小例子，位置在share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar，可以运行这些例子体验刚搭建好的Hadoop平台，我们这里来运行最经典的WordCount实例。
1、创建测试用的Input文件
创建输入目录:
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -p /wordcountdemo/input
创建原始文件:
在本地/opt/data目录创建一个文件wc.input,内容如下。

将wc.input文件上传到HDFS的/wordcountdemo/input目录中:
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -put /opt/data/wc.input /wordcountdemo/input
1

2、运行WordCount MapReduce Job
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /wordcountdemo/input /wordcountdemo/output

3、查看输出结果目录
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -ls /wordcountdemo/output
-rw-r--r-- 1 hadoop supergroup 0 2016-07-05 05:12 /wordcountdemo/output/_SUCCESS
-rw-r--r-- 1 hadoop supergroup 60 2016-07-05 05:12 /wordcountdemo/output/part-r-00000


output目录中有两个文件，_SUCCESS文件是空文件，有这个文件说明Job执行成功。


part-r-00000文件是结果文件，其中-r-说明这个文件是Reduce阶段产生的结果，mapreduce程序执行时，可以没有reduce阶段，但是肯定会有map阶段，如果没有reduce阶段这个地方有是-m-。


一个reduce会产生一个part-r-开头的文件。


查看输出文件内容。

[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -cat /wordcountdemo/output/part-r-00000
hadoop 3
hbase 1
hive 2
mapreduce 1
spark 2
sqoop 1
storm 1
结果是按照键值排好序的。
十九、停止Hadoop
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop namenode
stopping namenode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop datanode
stopping datanode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/yarn-daemon.sh stop resourcemanager
stopping resourcemanager
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/yarn-daemon.sh stop nodemanager
stopping nodemanager

二十、 Hadoop各个功能模块的理解
1、 HDFS模块
HDFS负责大数据的存储，通过将大文件分块后进行分布式存储方式，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，HDFS是个相对独立的模块，可以为YARN提供服务，也可以为HBase等其他模块提供服务。
2、 YARN模块
YARN是一个通用的资源协同和任务调度框架，是为了解决Hadoop1.x中MapReduce里NameNode负载太大和其他问题而创建的一个框架。
YARN是个通用框架，不止可以运行MapReduce，还可以运行Spark、Storm等其他计算框架。
3、 MapReduce模块
MapReduce是一个计算框架，它给出了一种数据处理的方式，即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理，对实时性要求很高的应用不适用。
第七步、开启历史服务
二十一、历史服务介绍
Hadoop开启历史服务可以在web页面上查看Yarn上执行job情况的详细信息。可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。
二十二、开启历史服务
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver、
1
开启后，可以通过Web页面查看历史服务器：
http://bigdata-senior01.chybinmy.com:19888/
二十三、Web查看job执行历史
1、运行一个mapreduce任务
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /wordcountdemo/input /wordcountdemo/output1
2、 job执行中

3、查看job历史


历史服务器的Web端口默认是19888，可以查看Web界面。
但是在上面所显示的某一个Job任务页面的最下面，Map和Reduce个数的链接上，点击进入Map的详细信息页面，再查看某一个Map或者Reduce的详细日志是看不到的，是因为没有开启日志聚集服务。
二十四、开启日志聚集
4、日志聚集介绍
MapReduce是在各个机器上运行的，在运行过程中产生的日志存在于各个机器上，为了能够统一查看各个机器的运行日志，将日志集中存放在HDFS上，这个过程就是日志聚集。
5、开启日志聚集
配置日志聚集功能：
Hadoop默认是不启用日志聚集的。在yarn-site.xml文件里配置启用日志聚集。

yarn.log-aggregation-enable
true

yarn.log-aggregation.retain-seconds
106800

yarn.log-aggregation-enable:是否启用日志聚集功能。
yarn.log-aggregation.retain-seconds：设置日志保留时间，单位是秒。
将配置文件分发到其他节点：
[hadoop@bigdata-senior01 hadoop]$ scp /opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml bigdata-senior02.chybinmy.com:/opt/modules/hadoop-2.5.0/etc/hadoop/
[hadoop@bigdata-senior01 hadoop]$ scp /opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml bigdata-senior03.chybinmy.com:/opt/modules/hadoop-2.5.0/etc/hadoop/
重启Yarn进程：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/stop-yarn.sh
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/start-yarn.sh
重启HistoryServer进程：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh stop historyserver
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver
1
2
6、测试日志聚集
运行一个demo MapReduce，使之产生日志：
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output1
1
查看日志：
运行Job后，就可以在历史服务器Web页面查看各个Map和Reduce的日志了。

第四部分：完全分布式安装
第八步、完全布式环境部署Hadoop
完全分部式是真正利用多台Linux主机来进行部署Hadoop，对Linux机器集群进行规划，使得Hadoop各个模块分别部署在不同的多台机器上。
二十五、环境准备
1、克隆虚拟机

Vmware左侧选中要克隆的机器，这里对原有的BigData01机器进行克隆，虚拟机菜单中，选中管理菜单下的克隆命令。


选择“创建完整克隆”，虚拟机名称为BigData02，选择虚拟机文件保存路径，进行克隆。


再次克隆一个名为BigData03的虚拟机。

2、配置网络
修改网卡名称：
在BigData02和BigData03机器上编辑网卡信息。执行sudo vim /etc/udev/rules.d/70-persistent-net.rules命令。因为是从BigData01机器克隆来的，所以会保留BigData01的网卡eth0，并且再添加一个网卡eth1。并且eth0的Mac地址和BigData01的地址是一样的，Mac地址不允许相同，所以要删除eth0，只保留eth1网卡，并且要将eth1改名为eth0。将修改后的eth0的mac地址复制下来，修改network-scripts文件中的HWADDR属性。
sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0
1

修改网络参数：
BigData02机器IP改为192.168.100.12
BigData03机器IP改为192.168.100.13
3、配置Hostname
BigData02配置hostname为 bigdata-senior02.chybinmy.com
BigData03配置hostname为 bigdata-senior03.chybinmy.com
4、配置hosts
BigData01、BigData02、BigData03三台机器hosts都配置为：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo vim /etc/hosts
192.168.100.10 bigdata-senior01.chybinmy.com
192.168.100.12 bigdata-senior02.chybinmy.com
192.168.100.13 bigdata-senior03.chybinmy.com
5、配置Windows上的SSH客户端
在本地Windows中的SSH客户端上添加对BigData02、BigData03机器的SSH链接。
二十六、服务器功能规划
bigdata-senior01.chybinmy.com bigdata-senior02.chybinmy.com bigdata-senior03.chybinmy.com
NameNode ResourceManage
DataNode DataNode DataNode
NodeManager NodeManager NodeManager
HistoryServer SecondaryNameNode
二十七、在第一台机器上安装新的Hadoop
为了和之前BigData01机器上安装伪分布式Hadoop区分开来，我们将BigData01上的Hadoop服务都停止掉，然后在一个新的目录/opt/modules/app下安装另外一个Hadoop。
我们采用先在第一台机器上解压、配置Hadoop，然后再分发到其他两台机器上的方式来安装集群。
6、解压Hadoop目录：
[hadoop@bigdata-senior01 modules]$ tar -zxf /opt/sofeware/hadoop-2.5.0.tar.gz -C /opt/modules/app/
7、配置Hadoop JDK路径修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径：
export JAVA_HOME="/opt/modules/jdk1.7.0_67"
8、配置core-site.xml
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/core-site.xml

fs.defaultFS
hdfs://bigdata-senior01.chybinmy.com:8020

hadoop.tmp.dir
/opt/modules/app/hadoop-2.5.0/data/tmp

fs.defaultFS为NameNode的地址。
hadoop.tmp.dir为hadoop临时目录的地址，默认情况下，NameNode和DataNode的数据文件都会存在这个目录下的对应子目录下。应该保证此目录是存在的，如果不存在，先创建。
9、配置hdfs-site.xml
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/hdfs-site.xml
1

dfs.namenode.secondary.http-address
bigdata-senior03.chybinmy.com:50090

dfs.namenode.secondary.http-address是指定secondaryNameNode的http访问地址和端口号，因为在规划中，我们将BigData03规划为SecondaryNameNode服务器。
所以这里设置为：bigdata-senior03.chybinmy.com:50090
10、配置slaves
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/slaves
bigdata-senior01.chybinmy.com
bigdata-senior02.chybinmy.com
bigdata-senior03.chybinmy.com
slaves文件是指定HDFS上有哪些DataNode节点。
11、配置yarn-site.xml
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/yarn-site.xml
1

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.resourcemanager.hostname
bigdata-senior02.chybinmy.com

yarn.log-aggregation-enable
true

yarn.log-aggregation.retain-seconds
106800

根据规划yarn.resourcemanager.hostname这个指定resourcemanager服务器指向bigdata-senior02.chybinmy.com。
yarn.log-aggregation-enable是配置是否启用日志聚集功能。
yarn.log-aggregation.retain-seconds是配置聚集的日志在HDFS上最多保存多长时间。
12、配置mapred-site.xml
从mapred-site.xml.template复制一个mapred-site.xml文件。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
1

mapreduce.framework.name
yarn

mapreduce.jobhistory.address
bigdata-senior01.chybinmy.com:10020

mapreduce.jobhistory.webapp.address
bigdata-senior01.chybinmy.com:19888

mapreduce.framework.name设置mapreduce任务运行在yarn上。
mapreduce.jobhistory.address是设置mapreduce的历史服务器安装在BigData01机器上。
mapreduce.jobhistory.webapp.address是设置历史服务器的web页面地址和端口号。
二十八、设置SSH无密码登录
Hadoop集群中的各个机器间会相互地通过SSH访问，每次访问都输入密码是不现实的，所以要配置各个机器间的
SSH是无密码登录的。
1、在BigData01上生成公钥
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-keygen -t rsa
1
一路回车，都设置为默认值，然后再当前用户的Home目录下的.ssh目录中会生成公钥文件（id_rsa.pub）和私钥文件（id_rsa）。
2、分发公钥
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-copy-id bigdata-senior01.chybinmy.com
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-copy-id bigdata-senior02.chybinmy.com
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-copy-id bigdata-senior03.chybinmy.com
3、设置BigData02、BigData03到其他机器的无密钥登录
同样的在BigData02、BigData03上生成公钥和私钥后，将公钥分发到三台机器上。
二十九、分发Hadoop文件
1、首先在其他两台机器上创建存放Hadoop的目录
[hadoop@bigdata-senior02 ~]$ mkdir /opt/modules/app
[hadoop@bigdata-senior03 ~]$ mkdir /opt/modules/app
2、通过Scp分发
Hadoop根目录下的share/doc目录是存放的hadoop的文档，文件相当大，建议在分发之前将这个目录删除掉，可以节省硬盘空间并能提高分发的速度。
doc目录大小有1.6G。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ du -sh /opt/modules/app/hadoop-2.5.0/share/doc
1.6G /opt/modules/app/hadoop-2.5.0/share/doc
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/app/hadoop-2.5.0/ bigdata-senior02.chybinmy.com:/opt/modules/app
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/app/hadoop-2.5.0/ bigdata-senior03.chybinmy.com:/opt/modules/app
三十、格式NameNode
在NameNode机器上执行格式化：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ /opt/modules/app/hadoop-2.5.0/bin/hdfs namenode –format
注意：
如果需要重新格式化NameNode,需要先将原来NameNode和DataNode下的文件全部删除，不然会报错，NameNode和DataNode所在目录是在core-site.xml中hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir属性配置的。

hadoop.tmp.dir
/opt/data/tmp

dfs.namenode.name.dir
file://${hadoop.tmp.dir}/dfs/name

dfs.datanode.data.dir
file://${hadoop.tmp.dir}/dfs/data

因为每次格式化，默认是创建一个集群ID，并写入NameNode和DataNode的VERSION文件中（VERSION文件所在目录为dfs/name/current 和 dfs/data/current），重新格式化时，默认会生成一个新的集群ID,如果不删除原来的目录，会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID，不一致时会报错。
另一种方法是格式化时指定集群ID参数，指定为旧的集群ID。
三十一、启动集群
1、启动HDFS
[hadoop@bigdata-senior01 hadoop-2.5.0]$ /opt/modules/app/hadoop-2.5.0/sbin/start-dfs.sh
1

2、启动YARN
[hadoop@bigdata-senior01 hadoop-2.5.0]$ /opt/modules/app/hadoop-2.5.0/sbin/start-yarn.sh
1
在BigData02上启动ResourceManager:
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/yarn-daemon.sh start resourcemanager
1

3、启动日志服务器
因为我们规划的是在BigData03服务器上运行MapReduce日志服务，所以要在BigData03上启动。
[hadoop@bigdata-senior03 ~]$ /opt/modules/app/hadoop-2.5.0/sbin/mr-jobhistory-daemon.sh start historyserver
starting historyserver, logging to /opt/modules/app/hadoop-2.5.0/logs/mapred-hadoop-historyserver-bigda ta-senior03.chybinmy.com.out
[hadoop@bigdata-senior03 ~]$ jps3570 Jps3537 JobHistoryServer3310 SecondaryNameNode3213 DataNode3392 NodeManager
4、查看HDFS Web页面
http://bigdata-senior01.chybinmy.com:50070/
5、查看YARN Web 页面
http://bigdata-senior02.chybinmy.com:8088/cluster
三十二、测试Job
我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。
1、准备mapreduce输入文件wc.input
[hadoop@bigdata-senior01 modules]$ cat /opt/data/wc.input
hadoop mapreduce hive
hbase spark storm
sqoop hadoop hive
spark hadoop
2、在HDFS创建输入目录input
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -mkdir /input

3、将wc.input上传到HDFS
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -put /opt/data/wc.input /input/wc.input
4、运行hadoop自带的mapreduce Demo
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/wc.input /output
1

5、查看输出文件
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -ls /output
Found 2 items
-rw-r--r-- 3 hadoop supergroup 0 2016-07-14 16:36 /output/_SUCCESS
-rw-r--r-- 3 hadoop supergroup 60 2016-07-14 16:36 /output/part-r-00000
第五部分：Hadoop HA安装
HA的意思是High Availability高可用，指当当前工作中的机器宕机后，会自动处理这个异常，并将工作无缝地转移到其他备用机器上去，以来保证服务的高可用。
HA方式安装部署才是最常见的生产环境上的安装部署方式。Hadoop HA是Hadoop 2.x中新添加的特性，包括NameNode HA 和 ResourceManager HA。因为DataNode和NodeManager本身就是被设计为高可用的，所以不用对他们进行特殊的高可用处理。
第九步、时间服务器搭建
Hadoop对集群中各个机器的时间同步要求比较高，要求各个机器的系统时间不能相差太多，不然会造成很多问题。可以配置集群中各个机器和互联网的时间服务器进行时间同步，但是在实际生产环境中，集群中大部分服务器是不能连接外网的，这时候可以在内网搭建一个自己的时间服务器（NTP服务器），集群的各个机器与这个时间服务器进行时间同步。
三十三、配置NTP服务器
我们选择第三台机器（bigdata-senior03.chybinmy.com）为NTF服务器，其他机器和这台机器进行同步。
1、检查ntp服务是否已经安装
[hadoop@bigdata-senior03 data]$ sudo rpm -qa | grep ntp
ntpdate-4.2.6p5-1.el6.centos.x86_64
ntp-4.2.6p5-1.el6.centos.x86_64
显示已经安装过了ntp程序，其中ntpdate-4.2.6p5-1.el6.centos.x86_64 是用来和某台服务器进行同步的，ntp-4.2.6p5-1.el6.centos.x86_64是用来提供时间同步服务的。
2、修改配置文件ntp.conf
[hadoop@bigdata-senior03 data]$ vim /etc/ntp.conf
启用restrice,修改网段
restrict 192.168.100.0 mask 255.255.255.0 nomodify notrap
将这行的注释去掉，并且将网段改为集群的网段，我们这里是100网段。
注释掉server域名配置
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
是时间服务器的域名，这里不需要连接互联网，所以将他们注释掉。
修改
server 127.127.1.0
fudge 127.127.1.0 stratum 10
3、修改配置文件ntpd
[hadoop@bigdata-senior03 ~]$ sudo vim /etc/sysconfig/ntpd
添加一行配置：SYNC_CLOCK=yes

4、启动ntp服务
[hadoop@bigdata-senior03 ~]$ sudo chkconfig ntpd on
这样每次机器启动时，ntp服务都会自动启动。
三十四、配置其他机器的同步
切换到root用户进行配置通过contab进行定时同步：
[root@bigdata-senior02 hadoop]# crontab -e
/10 /usr/sbin/ntpdate bigdata-senior03.chybinmy.com
[root@bigdata-senior02 hadoop]# crontab -e
/10 /usr/sbin/ntpdate bigdata-senior03.chybinmy.com
三十五、测试同步是否有效
1、查看目前三台机器的时间
[hadoop@bigdata-senior03 ~]$ date "+%Y-%m-%d %H:%M:%S"2016-09-23 16:43:56
[hadoop@bigdata-senior02 ~]$ date "+%Y-%m-%d %H:%M:%S"2016-09-23 16:44:08
[hadoop@bigdata-senior01 data]$ date "+%Y-%m-%d %H:%M:%S"2016-09-23 16:44:18
2、修改bigdata-senior01上的时间
将时间改为一个以前的时间：
[hadoop@bigdata-senior01 data]$ sudo date -s '2016-01-01 00:00:00'
Fri Jan 1 00:00:00 CST 2016
[hadoop@bigdata-senior01 data]$ date "+%Y-%m-%d %H:%M:%S"2016-01-01 00:00:05
等10分钟，看是否可以实现自动同步，将bigdata-senior01上的时间修改为和bigdata-senior03上的一致。
3、查看是否自动同步时间
[hadoop@bigdata-senior01 data]$ date "+%Y-%m-%d %H:%M:%S"2016-09-23 16:54:36
可以看到bigdata-senior01上的时间已经实现自动同步了。
第十步、Zookeeper分布式机器部署
三十六、zookeeper说明
Zookeeper在Hadoop集群中的作用。
Zookeeper是分布式管理协作框架，Zookeeper集群用来保证Hadoop集群的高可用，（高可用的含义是：集群中就算有一部分服务器宕机，也能保证正常地对外提供服务。）
Zookeeper保证高可用的原理。
Zookeeper集群能够保证NamaNode服务高可用的原理是：Hadoop集群中有两个NameNode服务，两个NaameNode都定时地给Zookeeper发送心跳，告诉Zookeeper我还活着，可以提供服务，单某一个时间只有一个是Action状态，另外一个是Standby状态，一旦Zookeeper检测不到Action NameNode发送来的心跳后，就切换到Standby状态的NameNode上，将它设置为Action状态，所以集群中总有一个可用的NameNode，达到了NameNode的高可用目的。
Zookeeper的选举机制。
Zookeeper集群也能保证自身的高可用，保证自身高可用的原理是，Zookeeper集群中的各个机器分为Leader和Follower两个角色，写入数据时，要先写入Leader，Leader同意写入后，再通知Follower写入。客户端读取数时，因为数据都是一样的，可以从任意一台机器上读取数据。
这里Leader角色就存在单点故障的隐患，高可用就是解决单点故障隐患的。Zookeeper从机制上解决了Leader的单点故障问题，Leader是哪一台机器是不固定的，Leader是选举出来的。选举流程是，集群中任何一台机器发现集群中没有Leader时，就推荐自己为Leader，其他机器来同意，当超过一半数的机器同意它为Leader时，选举结束，所以Zookeeper集群中的机器数据必须是奇数。这样就算当Leader机器宕机后，会很快选举出新的Leader，保证了Zookeeper集群本身的高可用。
写入高可用。
集群中的写入操作都是先通知Leader，Leader再通知Follower写入，实际上当超过一半的机器写入成功后，就认为写入成功了，所以就算有些机器宕机，写入也是成功的。
读取高可用。
zookeeperk客户端读取数据时，可以读取集群中的任何一个机器。所以部分机器的宕机并不影响读取。
zookeeper服务器必须是奇数台，因为zookeeper有选举制度，角色有：领导者、跟随者、观察者，选举的目的是保证集群中数据的一致性。
三十七、安装zookeeper
我们这里在BigData01、BigData02、BigData03三台机器上安装zookeeper集群。
1、解压安装包
在BigData01上安装解压zookeeper安装包。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ tar -zxf /opt/sofeware/zookeeper-3.4.8.tar.gz -C /opt/modules/
2、修改配置
拷贝conf下的zoo_sample.cfg副本，改名为zoo.cfg。zoo.cfg是zookeeper的配置文件：
[hadoop@bigdata-senior01 zookeeper-3.4.8]$ cp conf/zoo_sample.cfg conf/zoo.cfg
dataDir属性设置zookeeper的数据文件存放的目录：
dataDir=/opt/modules/zookeeper-3.4.8/data/zData
指定zookeeper集群中各个机器的信息：
server.1=bigdata-senior01.chybinmy.com:2888:3888
server.2=bigdata-senior02.chybinmy.com:2888:3888
server.3=bigdata-senior03.chybinmy.com:2888:3888
server后面的数字范围是1到255，所以一个zookeeper集群最多可以有255个机器。

3、创建myid文件
在dataDir所指定的目录下创一个名为myid的文件，文件内容为server点后面的数字。

4、分发到其他机器
[hadoop@bigdata-senior01 zookeeper-3.4.8]$ scp -r /opt/modules/zookeeper-3.4.8 bigdata-senior02.chybinmy.com:/opt/modules
[hadoop@bigdata-senior01 zookeeper-3.4.8]$ scp -r /opt/modules/zookeeper-3.4.8 bigdata-senior03.chybinmy.com:/opt/modules
5、修改其他机器上的myid文件
[hadoop@bigdata-senior02 zookeeper-3.4.8]$ echo 2 > /opt/modules/zookeeper-3.4.8/data/zData/myid
[hadoop@bigdata-senior02 zookeeper-3.4.8]$ cat /opt/modules/zookeeper-3.4.8/data/zData/myid 2
[hadoop@bigdata-senior03 ~]$ echo 3 > /opt/modules/zookeeper-3.4.8/data/zData/myid
[hadoop@bigdata-senior03 ~]$ cat /opt/modules/zookeeper-3.4.8/data/zData/myid3
6、启动zookeeper
需要在各个机器上分别启动zookeeper。
[hadoop@bigdata-senior01 zookeeper-3.4.8]$ bin/zkServer.sh start
[hadoop@bigdata-senior02 zookeeper-3.4.8]$ bin/zkServer.sh start
[hadoop@bigdata-senior03 zookeeper-3.4.8]$ bin/zkServer.sh start

三十八、zookeeper命令
进入zookeeper Shell
在zookeeper根目录下执行 bin/zkCli.sh进入zk shell模式。
zookeeper很像一个小型的文件系统，/是根目录，下面的所有节点都叫zNode。
进入zk shell 后输入任意字符，可以列出所有的zookeeper命令

查询zNode上的数据：get /zookeeper
创建一个zNode : create /znode1 “demodata “
列出所有子zNode：ls /

删除znode : rmr /znode1
退出shell模式：quit
第十一步、Hadoop 2.x HDFS HA 部署
三十九、HDFS HA原理
单NameNode的缺陷存在单点故障的问题，如果NameNode不可用，则会导致整个HDFS文件系统不可用。所以需要设计高可用的HDFS（Hadoop HA）来解决NameNode单点故障的问题。解决的方法是在HDFS集群中设置多个NameNode节点。但是一旦引入多个NameNode，就有一些问题需要解决。

HDFS HA需要保证的四个问题：


保证NameNode内存中元数据数据一致，并保证编辑日志文件的安全性。


多个NameNode如何协作


客户端如何能正确地访问到可用的那个NameNode。


怎么保证任意时刻只能有一个NameNode处于对外服务状态。


解决方法


对于保证NameNode元数据的一致性和编辑日志的安全性，采用Zookeeper来存储编辑日志文件。


两个NameNode一个是Active状态的，一个是Standby状态的，一个时间点只能有一个Active状态的
NameNode提供服务,两个NameNode上存储的元数据是实时同步的，当Active的NameNode出现问题时，通过Zookeeper实时切换到Standby的NameNode上，并将Standby改为Active状态。


客户端通过连接一个Zookeeper的代理来确定当时哪个NameNode处于服务状态。

四十、HDFS HA架构图


HDFS HA架构中有两台NameNode节点，一台是处于活动状态（Active）为客户端提供服务，另外一台处于热备份状态（Standby）。


元数据文件有两个文件：fsimage和edits，备份元数据就是备份这两个文件。JournalNode用来实时从Active NameNode上拷贝edits文件，JournalNode有三台也是为了实现高可用。


Standby NameNode不对外提供元数据的访问，它从Active NameNode上拷贝fsimage文件，从JournalNode上拷贝edits文件，然后负责合并fsimage和edits文件，相当于SecondaryNameNode的作用。最终目的是保证Standby NameNode上的元数据信息和Active NameNode上的元数据信息一致，以实现热备份。


Zookeeper来保证在Active NameNode失效时及时将Standby NameNode修改为Active状态。


ZKFC（失效检测控制）是Hadoop里的一个Zookeeper客户端，在每一个NameNode节点上都启动一个ZKFC进程，来监控NameNode的状态，并把NameNode的状态信息汇报给Zookeeper集群，其实就是在Zookeeper上创建了一个Znode节点，节点里保存了NameNode状态信息。当NameNode失效后，ZKFC检测到报告给Zookeeper，Zookeeper把对应的Znode删除掉，Standby ZKFC发现没有Active状态的NameNode时，就会用shell命令将自己监控的NameNode改为Active状态，并修改Znode上的数据。
Znode是个临时的节点，临时节点特征是客户端的连接断了后就会把znode删除，所以当ZKFC失效时，也会导致切换NameNode。


DataNode会将心跳信息和Block汇报信息同时发给两台NameNode，DataNode只接受Active NameNode发来的文件读写操作指令。

四十一、搭建HDFS HA 环境
1、服务器角色规划
bigdata-senior01.chybinmy.com bigdata-senior01.chybinmy.com bigdata-senior01.chybinmy.com
NameNode NameNode
Zookeeper Zookeeper Zookeeper
DataNode DataNode DataNode
ResourceManage ResourceManage
NodeManager NodeManager NodeManager
2、创建HDFS HA 版本Hadoop程序目录
在bigdata01、bigdata02、bigdata03三台机器上分别创建目录/opt/modules/hadoopha/用来存放Hadoop HA环境。
[hadoop@bigdata-senior01 modules]$ mkdir /opt/modules/hadoopha
3、新解压Hadoop 2.5.0
[hadoop@bigdata-senior01 ~]$ tar -zxf /opt/sofeware/hadoop-2.5.0.tar.gz -C /opt/modules/hadoopha/
4、配置Hadoop JDK路径
修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径
export JAVA_HOME="/opt/modules/jdk1.7.0_67"
5、配置hdfs-site.xml

dfs.nameservices
ns1

dfs.ha.namenodes.ns1
nn1,nn2

dfs.namenode.rpc-address.ns1.nn1
bigdata-senior01.chybinmy.com:8020

dfs.namenode.rpc-address.ns1.nn2
bigdata-senior02.chybinmy.com:8020

dfs.namenode.http-address.ns1.nn1
bigdata-senior01.chybinmy.com:50070

dfs.namenode.http-address.ns1.nn2
bigdata-senior02.chybinmy.com:50070

dfs.namenode.shared.edits.dir
qjournal://bigdata-senior01.chybinmy.com:8485;bigdata-senior02.chybinmy.com:8485;bigdata-senior03.chybinmy.com:8485/ns1

dfs.journalnode.edits.dir
/opt/modules/hadoopha/hadoop-2.5.0/tmp/data/dfs/jn

dfs.client.failover.proxy.provider.ns1
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods
sshfence

dfs.ha.fencing.ssh.private-key-files
/home/hadoop/.ssh/id_rsa

6、配置core-site.xml

fs.defaultFS
hdfs://ns1

hadoop.tmp.dir
/opt/modules/hadoopha/hadoop-2.5.0/data/tmp

hadoop.tmp.dir设置hadoop临时目录地址，默认时，NameNode和DataNode的数据存在这个路径下。
7、配置slaves文件
bigdata-senior01.chybinmy.com
bigdata-senior02.chybinmy.com
bigdata-senior03.chybinmy.com
8、分发到其他节点
分发之前先将share/doc目录删除，这个目录中是帮助文件，并且很大，可以删除。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/hadoopha bigdata-senior02.chybinmy.com:/opt/modules
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/hadoopha bigdata-senior03.chybinmy.com:/opt/modules
9、启动HDFS HA集群
三台机器分别启动Journalnode。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start journalnode
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start journalnode
[hadoop@bigdata-senior03 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start journalnode
jps命令查看是否启动。
10、启动Zookeeper
在三台节点上启动Zookeeper：
[hadoop@bigdata-senior01 zookeeper-3.4.8]$ bin/zkServer.sh start
[hadoop@bigdata-senior02 zookeeper-3.4.8]$ bin/zkServer.sh start
[hadoop@bigdata-senior03 zookeeper-3.4.8]$ bin/zkServer.sh start
11、格式化NameNode
在第一台上进行NameNode格式化：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs namenode -format
在第二台NameNode上：
[hadoop@bigdata-senior02 hadoop-2.5.0]$ bin/hdfs namenode -bootstrapStandby
12、启动NameNode
在第一台、第二台上启动NameNode：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
查看HDFS Web页面，此时两个NameNode都是standby状态。
切换第一台为active状态：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs haadmin -transitionToActive nn1
可以添加上forcemanual参数，强制将一个NameNode转换为Active状态。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs haadmin –transitionToActive -forcemanual nn1
此时从web 页面就看到第一台已经是active状态了。

13、配置故障自动转移
利用zookeeper集群实现故障自动转移，在配置故障自动转移之前，要先关闭集群，不能在HDFS运行期间进行配置。
关闭NameNode、DataNode、JournalNode、zookeeper
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop namenode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop datanode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop journalnode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ cd ../../zookeeper-3.4.8/
[hadoop@bigdata-senior01 zookeeper-3.4.8]$ bin/zkServer.sh stop
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop namenode
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop datanode
[hadoop@bigdata- senior02 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop journalnode
[hadoop@bigdata- senior02 hadoop-2.5.0]$ cd ../../zookeeper-3.4.8/
[hadoop@bigdata- senior02 zookeeper-3.4.8]$ bin/zkServer.sh stop
[hadoop@bigdata- senior03 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop datanode
[hadoop@bigdata- senior03 hadoop-2.5.0]$ sbin/hadoop-daemon.sh stop journalnode
[hadoop@bigdata- senior03 hadoop-2.5.0]$ cd ../../zookeeper-3.4.8/
[hadoop@bigdata- senior03 zookeeper-3.4.8]$ bin/zkServer.sh stop
修改hdfs-site.xml

dfs.ha.automatic-failover.enabled
true
修改core-site.xml

ha.zookeeper.quorum
bigdata-senior01.chybinmy.com:2181,bigdata-senior02.chybinmy.com:2181,bigdata-senior03.chybinmy.com:2181
将hdfs-site.xml和core-site.xml分发到其他机器
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp /opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/hdfs-site.xml bigdata-senior02.chybinmy.com:/opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp /opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/hdfs-site.xml bigdata-senior03.chybinmy.com:/opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp /opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/core-site.xml bigdata-senior02.chybinmy.com:/opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp /opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/core-site.xml bigdata-senior03.chybinmy.com:/opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/
启动zookeeper
三台机器启动zookeeper
[hadoop@bigdata-senior01 hadoop-2.5.0]$ /opt/modules/zookeeper-3.4.8/bin/zkServer.sh start
创建一个zNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ cd /opt/modules/hadoopha/hadoop-2.5.0/
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs zkfc -formatZK

在Zookeeper上创建一个存储namenode相关的节点。
14、启动HDFS、JournalNode、zkfc
启动NameNode、DataNode、JournalNode、zkfc
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/start-dfs.sh
1
zkfc只针对NameNode监听。
四十二、测试HDFS HA
1、测试故障自动转移和数据是否共享
在nn1上上传文件
目前bigdata-senior01节点上的NameNode是Active状态的。

[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -put /opt/data/wc.input /
1

将nn1上的NodeNode进程杀掉
[hadoop@bigdata-senior01 hadoop-2.5.0]$ kill -9 3364
1
nn1上的namenode已经无法访问了。
查看nn2是否是Active状态

在nn2上查看是否看见文件

经以上验证，已经实现了nn1和nn2之间的文件同步和故障自动转移。
第十二步、Hadoop 2.x YARN HA 部署
四十三、YARN HA原理
Hadoop2.4版本之前，ResourceManager也存在单点故障的问题，也需要实现HA来保证ResourceManger的高可也用性。
ResouceManager从记录着当前集群的资源分配情况和JOB的运行状态，YRAN HA 利用Zookeeper等共享存储介质来存储这些信息来达到高可用。另外利用Zookeeper来实现ResourceManager自动故障转移。


MasterHADaemon：控制RM的 Master的启动和停止，和RM运行在一个进程中，可以接收外部RPC命令。


共享存储：Active Master将信息写入共享存储，Standby Master读取共享存储信息以保持和Active Master同步。


ZKFailoverController：基于Zookeeper实现的切换控制器，由ActiveStandbyElector和HealthMonitor组成，ActiveStandbyElector负责与Zookeeper交互，判断所管理的Master是进入Active还是Standby；HealthMonitor负责监控Master的活动健康情况，是个监视器。


Zookeeper：核心功能是维护一把全局锁控制整个集群上只有一个Active的ResourceManager。

四十四、搭建YARN HA环境
1、服务器角色规划
bigdata-senior01.chybinmy.com bigdata-senior01.chybinmy.com bigdata-senior01.chybinmy.com
NameNode NameNode
Zookeeper Zookeeper Zookeeper
DataNode DataNode DataNode
ResourceManage ResourceManage
NodeManager NodeManager NodeManager
2、修改配置文件yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.log-aggregation-enable
true

yarn.log-aggregation.retain-seconds
106800

yarn.resourcemanager.ha.enabled
true

yarn.resourcemanager.cluster-id
yarn-cluster

yarn.resourcemanager.ha.rm-ids
rm12,rm13

yarn.resourcemanager.hostname.rm12
bigdata-senior02.chybinmy.com

yarn.resourcemanager.hostname.rm13
bigdata-senior03.chybinmy.com

yarn.resourcemanager.zk-address
bigdata-senior01.chybinmy.com:2181,bigdata-senior02.chybinmy.com:2181,bigdata-senior03.chybinmy.com:2181

yarn.resourcemanager.recovery.enabled
true

yarn.resourcemanager.store.class
org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

3、分发到其他机器
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp /opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/yarn-site.xml bigdata-senior02.chybinmy.com:/opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp /opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/yarn-site.xml bigdata-senior03.chybinmy.com:/opt/modules/hadoopha/hadoop-2.5.0/etc/hadoop/\
4、启动
在bigdata-senior01上启动yarn：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/start-yarn.sh
在bigdata-senior02、bigdata-senior03上启动resourcemanager：
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/yarn-daemon.sh start resourcemanager
[hadoop@bigdata-senior03 hadoop-2.5.0]$ sbin/yarn-daemon.sh start resourcemanager
启动后各个节点的进程。

Web客户端访问bigdata02机器上的resourcemanager正常，它是active状态的。
http://bigdata-senior02.chybinmy.com:8088/cluster
访问另外一个resourcemanager，因为他是standby,会自动跳转到active的resourcemanager。
http://bigdata-senior03.chybinmy.com:8088/cluster
四十五、测试YARN HA
5、运行一个mapreduce job
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /wc.input /input
6、在job运行过程中，将Active状态的resourcemanager进程杀掉。
[hadoop@bigdata-senior02 hadoop-2.5.0]$ kill -9 4475
7、观察另外一个resourcemanager是否可以自动接替。
bigdata02的resourcemanage Web客户端已经不能访问，bigdata03的resourcemanage已经自动变为active状态。
8、观察job是否可以顺利完成。
而mapreduce job 也能顺利完成，没有因为resourcemanager的意外故障而影响运行。
经过以上测试，已经验证YARN HA 已经搭建成功。
第十三步、HDFS Federation 架构部署
四十六、HDFS Federation 的使用原因
1、单个NameNode节点的局限性
命名空间的限制。
NameNode上存储着整个HDFS上的文件的元数据，NameNode是部署在一台机器上的，因为单个机器硬件的限制，必然会限制NameNode所能管理的文件个数，制约了数据量的增长。
数据隔离问题。
整个HDFS上的文件都由一个NameNode管理，所以一个程序很有可能会影响到整个HDFS上的程序，并且权限控制比较复杂。
性能瓶颈。
单个NameNode时HDFS文件系统的吞吐量受限于单个NameNode的吞吐量。因为NameNode是个JVM进程，JVM进程所占用的内存很大时，性能会下降很多。
2、 HDFS Federation介绍
HDFS Federation是可以在Hadoop集群中设置多个NameNode，不同于HA中多个NameNode是完全一样的，是多个备份，Federation中的多个NameNode是不同的，可以理解为将一个NameNode切分为了多个NameNode，每一个NameNode只负责管理一部分数据。
HDFS Federation中的多个NameNode共用DataNode。
四十七、HDFS Federation的架构图

四十八、HDFS Federation搭建
1、服务器角色规划
bigdata-senior01.chybinmy.com bigdata-senior01.chybinmy.com bigdata-senior01.chybinmy.com
NameNode1 NameNode2 NameNode3
ResourceManage
DataNode DataNode DataNode
NodeManager NodeManager NodeManager

2、创建HDFS Federation 版本Hadoop程序目录
在bigdata01上创建目录/opt/modules/hadoopfederation /用来存放Hadoop Federation环境。
[hadoop@bigdata-senior01 modules]$ mkdir /opt/modules/hadoopfederation
1
3、新解压Hadoop 2.5.0
[hadoop@bigdata-senior01 ~]$ tar -zxf /opt/sofeware/hadoop-2.5.0.tar.gz -C /opt/modules/hadoopfederation/
1

4、配置Hadoop JDK路径
修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径。
export JAVA_HOME=”/opt/modules/jdk1.7.0_67”

5、配置hdfs-site.xml

dfs.nameservices
ns1,ns2,ns3

dfs.namenode.rpc-address.ns1
bigdata-senior01.chybinmy.com:8020

dfs.namenode.serviceerpc-address.ns1
bigdata-senior01.chybinmy.com:8022

dfs.namenode.http-address.ns1
bigdata-senior01.chybinmy.com:50070

dfs.namenode.https-address.ns1
bigdata-senior01.chybinmy.com:50470

dfs.namenode.rpc-address.ns2
bigdata-senior02.chybinmy.com:8020

dfs.namenode.serviceerpc-address.ns2
bigdata-senior02.chybinmy.com:8022

dfs.namenode.http-address.ns2
bigdata-senior02.chybinmy.com:50070

dfs.namenode.https-address.ns2
bigdata-senior02.chybinmy.com:50470

dfs.namenode.rpc-address.ns3
bigdata-senior03.chybinmy.com:8020

dfs.namenode.serviceerpc-address.ns3
bigdata-senior03.chybinmy.com:8022

dfs.namenode.http-address.ns3
bigdata-senior03.chybinmy.com:50070

dfs.namenode.https-address.ns3
bigdata-senior03.chybinmy.com:50470

6、配置core-site.xml

hadoop.tmp.dir
/opt/modules/hadoopha/hadoop-2.5.0/data/tmp
hadoop.tmp.dir设置hadoop临时目录地址，默认时，NameNode和DataNode的数据存在这个路径下。

7、配置slaves文件
bigdata-senior01.chybinmy.com
bigdata-senior02.chybinmy.com
bigdata-senior03.chybinmy.com

8、配置yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.resourcemanager.hostname
bigdata-senior02.chybinmy.com

yarn.log-aggregation-enable
true

yarn.log-aggregation.retain-seconds
106800

9、分发到其他节点
分发之前先将share/doc目录删除，这个目录中是帮助文件，并且很大，可以删除。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/ /opt/modules/hadoopfederation bigdata-senior02.chybinmy.com:/opt/modules
[hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/hadoopfederation bigdata-senior03.chybinmy.com:/opt/modules

10、格式化NameNode
在第一台上进行NameNode格式化。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs namenode -format -clusterId hadoop-federation-clusterId
这里一定要指定一个集群ID，使得多个NameNode的集群ID是一样的，因为这三个NameNode在同一个集群中，这里集群ID为hadoop-federation-clusterId。
在第二台NameNode上。
[hadoop@bigdata-senior02 hadoop-2.5.0]$ bin/hdfs namenode -format -clusterId hadoop-federation-clusterId
在第二台NameNode上。
[hadoop@bigdata-senior03 hadoop-2.5.0]$ bin/hdfs namenode -format -clusterId hadoop-federation-clusterId

11、启动NameNode
在第一台、第二台、第三台机器上启动NameNode：
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[hadoop@bigdata-senior03 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
启动后，用jps命令查看是否已经启动成功。
查看HDFS Web页面，此时三个NameNode都是standby状态。

12、启动DataNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
[hadoop@bigdata-senior03 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
启动后，用jps命令确认DataNode进程已经启动成功。
四十九、测试HDFS Federation
1、修改core-site.xml
在bigdata-senior01机器上,修改core-site.xml文件，指定连接的NameNode是第一台NameNode。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/core-site.xml

fs.defaultFS
hdfs://bigdata-senior01.chybinmy.com:8020

hadoop.tmp.dir
/opt/modules/hadoopfederation/hadoop-2.5.0/data/tmp
2、在bigdate-senior01上传一个文件到HDFS
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -mkdir /tmp
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -put ~/shuffle_daily.sh /tmp/shuffle_daily.sh
3、查看HDFS文件

可以看到，刚才的文件只上传到了bigdate-senior01机器上的NameNode上了，并没有上传到其他的NameNode上去。
这样，在HDFS的客户端，可以指定要上传到哪个NameNode上，从而来达到了划分NameNode的目的。
后记
这篇文章的操作步骤并不是工作中标准的操作流程，如果在成百上千的机器全部这样安装会被累死，希望读者可以通过文章中一步步地安装，从而初步了解到Hadoop的组成部分，协助过程等，这对于Hadoop的深入使用有很大的帮助。

你可能感兴趣的:(Hadoop环境搭建)

手把手教Hadoop环境搭建，学不会你咬我～程序IT圈 hadoop jdk linux centos hdfs
之前后台小伙伴私信我想了解hadoop的单机环境安装，以方便用于hadoop学习，今天给大家安排上了，废话不多说，直接上干货。目录前置条件配置SSH免密登录Hadoop(HDFS)环境搭建Hadoop(YARN)环境搭建1、前置条件Hadoop的运行依赖JDK，需要预先安装，安装步骤见：1.1下载并解压在官网下载所需版本的JDK，这里我下载的版本为JDK1.8,下载后进行解压：[root@ jav
Hadoop环境搭建业里村牛欢喜 hadoop 大数据 hdfs
目录一、简介1.1、概念1.2、优势1.3、Hadoop组成部分二、Hadoop运行环境搭建2.1安装VM（虚拟机管理环境）2.2VM网络设置2.3安装CentOS7系统2.4master主机进行网络配置2.5同步时间2.6Xshell6的安装与使用2.7关闭防火墙2.8设置主机名2.9hosts设置2.10安装JDK2.11Hadoop安装与环境配置启动关闭Hadoop一、简介1.1、概念Had
从 Linux 安装到 Hadoop 环境搭建全过程奇妙的代码 Linux hadoop linux 大数据
Hadoop环境搭建从Linux的最小化安装到Hadoop环境的搭建，尽可能详尽介绍每个步骤。文章目录Hadoop环境搭建环境准备安装CentOS7配置yum源安装JDK安装Hadoop（伪分布模式）免密登录开放防火墙的端口安装Hadoop（完全分布模式）环境准备首先需要将如下四个必要的文件下载到计算机（已经附上了下载地址，点击即可下载）。VmwareWorkstation16.x【官方的下载地址
hadoop环境搭建熊_看不见
一、平台环境CentOS6.5二、软件版本hadoop-2.8.1下载地址jdk-8u45-linux-x64下载地址apache-maven-3.3.9软件下载三、内容目录前置内容1.1jdk安装和配置1.2maven安装和配置1.3hadoop编译相关知识2.1hadoop部署方式介绍2.2hadoop主要组件介绍2.3hadoop主要进程介绍2.4jps命令介绍环境搭建3.1Hadoop本地
Hadoop集群搭建详细教程百万攻程狮 Hadoop hadoop 大数据分布式
Hadoop环境搭建1.环境准备1.首先创建一台模板机所谓的模板机是进行了一些最基础的配置，比如说进行主机名修改、网络配置、下载一些插件等准备工作。不会创建虚拟机的可以通过Centos7.5安装配置及虚拟机搭建详细教程进行虚拟机创建。1.1网络测试[root@hadoop101~]#pingwww.baiu.com如果ping不通百度，可能是网络配置没有配置好，可以通过配置文件等修改。1.2修改I
Hadoop集群搭建，基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】，常见问题解决杀死一只知更鸟debug Linux hadoop 大数据 hdfs
Hadoop集群搭建，基于3.3.4hadoop和centos8【小白图文教程-从零开始搭建Hadoop集群】，常见问题解决Hadoop集群搭建，基于3.3.4hadoop1.虚拟机的创建1.1第一台虚拟机的创建1.2第一台虚拟机的安装1.3第一台虚拟机的网络配置1.3.1主机名和IP映射配置1.3.2网络参数配置1.4第一台虚拟机的Java,Hadoop环境搭建1.4.1Java环境搭建1.4.
Hadoop环境搭建 Super乐 Hadoop hadoop 分布式大数据
前言Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。这是一篇入门文章，Hadoop的学习方法很多，网上也有很多学习路线图。本文的思路是：以安装部署ApacheHadoop2.x版本为主线，来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的，通过安装认识Hadoop才是目
史上最详细的hadoop环境搭建 xk_一步一步来 Hadoop
转自：https://blog.csdn.net/hliq5399/article/details/78193113前言Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。这是一篇入门文章，Hadoop的学习方法很多，网上也有很多学习路线图。本文的思路是：以安装部署ApacheHadoop2.x版本为
史上最详细的Hadoop环境搭建 p312011150 大型网站架构数据库
2017年10月10日15:23:59阅读数：37070GitChat作者：鸣宇淳原文：史上最详细的Hadoop环境搭建关注公众号：GitChat技术杂谈，一本正经的讲技术【不要错过文末活动哦】前言Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。这是一篇入门文章，Hadoop的学习方法很多，网上也
Hadoop环境搭建及Demo 星航夜空的帆舟疑难杂症 hadoop 大数据分布式
参考博客Windows10安装Hadoop3.3.0教程(kontext.tech)Hadoop入门篇——伪分布模式安装&WordCount词频统计|LiuBaoshuai’sBlogHadoop安装教程Linux版_linux和hadoop的安装_lnlnldczxy的博客-CSDN博客hadoop启动出错Thevalueofpropertybind.addressmustnotbenullHa
Hadoop环境搭建星星失眠️ hadoop 大数据分布式
1Hadoop集群环境搭建概述所谓集群，就是一组通过网络互联的计算机，集群中的每一台计算机称作一个节点，Hadoop集群搭建就是在这个物理集群之上安装部署Hadoop相关的软件，然后对外提供大数据存储和分析等相关服务。一个前提：Hadoop是为了在Linux平台上使用而开发的一个现实：我们的电脑不是Linux系统如何解决？？？搭建虚拟机，在虚拟机上安装Linux操作系统虚拟机是什么？虚拟的计算机，
搭建伪分布式hadoop系统 arnoldmp hadoop hdfs 大数据 vmware linux
搭建伪分布式hadoop系统一、搭建思路1、软件准备2、基础平台环境搭建（1）VMwareWorkstationPro虚拟机安装（2）CentOS-7-x86_64操作系统安装（3）MobaXterm_Installer_v11.1远程登陆工具安装3、Hadoop环境搭建4、Hadoop环境测试5、问题解决二、软件准备选择在虚拟机中搭建伪分布式hadoop集群系统，首先确定要使用哪些环境软件，使用
spark集成hadoop 0x12A2A7F spark hadoop big data
hadoop环境搭建请参考hadoop3.2.2集群搭建环境centos7、jdk1.8.0_311、scala-2.12.15、zookeeper-3.6.3、hadoop3.2.2、spark-3.2.1-bin-hadoop3.2spark配置配置${SPARK_HOME}/conf/spark-defaults.conf，添加如下内容：spark.serializerorg.apache.
hadoop环境搭建———Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0【转载搬运】 JYeontu hadoop 伪分布大数据 hadoop环境配置 hdfs
最近开始学习大数据，想自己在虚拟机上搭建个伪分布，在网上也找了很多教程，踩了很多坑，最后发现了厦门大学大数据实验室林子雨老师的这个教程，按着步骤终于成功搭建，所以想分享一下，大家可以少踩一些坑，还有就是林子雨老师在慕课上的课程也都很有趣，在这里我也推荐有兴趣的可以去看看，以下均为转载内容，如有侵权，可以联系我删除。本Hadoop教程由厦门大学数据库实验室出品，转载请注明。本教程适合于在CentOS
大数据实战 Linux Ubuntu 20.04.1 hadoop 2.8.5 在MapReduce平台编写单词计数程序十旬叶大叔 Linux 大数据 hadoop mapreduce java
1.前期工作hadoop环境搭建成功。详细如何搭建hadoop环境可以点击这里2.在server最小化系统进行单词计数2.1切换用户，查看进程目的：保证hadoop集群开启su-angel主节点进程从节点进程2.3建立测试文档测试文档的路径是/home/angelvim.tinysw1.txtvim.tinysw2.txt2.4建立测试文件夹并上传到集群在集群中查看文件hdfsdfs-ls/在集群
Hadoop环境搭建---环境准备篇祁连% Hadoop hadoop linux 大数据
目录1、安装JDK2、Hadoop安装3、本地运行模式（官方WordCount）4、完全分布式运行模式4.1scp4.1.1把zabbix1上的JDK拷贝到zabbix2上面4.1.2在zabbix2上拉取zabbix1上的Hadoop-3.1.34.1.3在zabbix2上将zabbix1上的文件拷贝到zabbix3上4.2rsync远程同步工具4.2.1删掉zabbix2中的wcinput和w
大数据----2.基础环境搭建学无止境的大象 #大数据大数据 hadoop spark java hive
大数据hadoop环境搭建一、linux环境搭建1.linux环境1.hadoop是运行在linux系统之上；但是也有windows版本的hadoop；学习的时候使用linux来进行学习；使用虚拟机虚拟一个linux操作系统出来：（先做好单台服务器的相关配置，然后直接克隆其他节点服务器即可）1.设置虚拟机的的ip地址；（一般都是设置为静态地址）第一种操作：安装桌面版的centos系统（自动来获取地
大数据组件测试环境程序猿张同学大数据学习 linux学习大数据 linux centos
一、大数据组件环境搭建1.Hadoop环境搭建1.1模板虚拟机环境准备0）安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G1）hadoop100虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86-1804为例）（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root@hadoop100~
Hadoop环境搭建后端小知识专业课笔记（持续更新）hadoop linux 大数据 java
作者：后端小知识CSDN个人主页：后端小知识GZH：后端小知识欢迎关注点赞收藏⭐️留言文章目录Hadoop环境搭建前言虚拟机环境准备克隆虚拟机在hadoop102安装JDK在hadoop102安装HadoopHadoop目录结构Hadoop环境搭建前言最近在网上学习了下Hadoop，顺便记录了下笔记，笔记内容来源于某谷，能够方便大家直接粘贴使用提效，另外在线学习本节会涉及到较多的虚拟机知识和Lin
二. hadoop环境搭建 yanghx
image.png配置hadoopTODO格式化HDFS这一步操作，只是在第一次时执行，每次如果都格式化的话，那么HDFS上的数据就会被清空。在hadoop-bin目录下hdfsnamenode-format启动HDFSsbin/start-dfs.sh验证是否启动成功jpsjpsDataNodeSecondaryNameNodeNameNode浏览器http://localhost:50070停
(小白全过程记录)Ubuntu下伪分布式Hadoop环境搭建 VaceMan 大数据技术篇 hadoop ubuntu linux
目录0.准备1.Hadoop伪分布式环境搭建2.安装ssh，配置ssh无密码登录3.通过拖拽的方式将文件从windows传到linux桌面5.安装hadoop6.修改hadoop环境变量7.修改配置文件core-site.xml8.修改配置文件hdfs-site.xml文件9.执行NameNode的格式化10.开启NameNode和DataNode守护进程11.访问web页面12.关闭Hadoop
hadoop环境搭建步骤小赖同学啊 BigDate hadoop 环境步骤
搭建Hadoop的环境准备实验的环境：1、安装Linux、JDK2、配置主机名、免密码登录3、约定：安装目录：/root/training安装：1、解压:tar-zxvfhadoop-2.4.1.tar.gz-C/root/training/2、设置环境变量：vi~/.bash_profileHADOOP_HOME=/root/training/hadoop-2.4.1exportHADOOP_H
Eclipse安装Hadoop插件 zerokissingthefire
本人需要用到Eclipse安装Hadoop插件，但是对于一个从没用过的Eclipse的我来说也是找了很多东西，下面我就介绍一下怎么安装。JDK安装配置如果还没有安装Eclipse的朋友们需要先安装并配置好JDK，再下载安装Eclipse，这些我相信大家走到这一步的时候肯定都会了，就不赘述了。接下来，进入Hadoop环境搭建。2.Hadoop插件安装和配置在Eclipse配置Hadoop环境之前应该
Windows下本地hadoop环境搭建 YuuuuuYt hadoop
首先声明，由于课程需要搭建hadoop环境而本人又不太懂这些，在多个教程的结合下才搭建完成，以下内容用来总结如何搭建（可能存在一些不太确定的小问题）。我使用的版本为hadoop-3.1.3版本，安装路径为E:\QQ\文件\2020\hadoop-3.1.3前提：先配置jdk环境变量以及hadoop的安装1、首先配置环境变量：hadoop-3.1.3的bin和sbin需要在path和hadoop_h
【hadoop】centos7.6+hadoop3.1.1搭建分布式hadoop环境——包含各类问题解决方案暗夜无风数据库分布式 hadoop 大数据
本文针对centos7.4即以上版本的hadoop环境搭建，因为这部分搭建是个很复杂且很容易出错的内容，所以在结合了多种搭建方案后给出最适宜当前版本的搭建。目录一、准备阶段环境要求软件版本要求配置部署环境二、部署阶段部署ZooKeeper安装ZooKeeper并配置环境变量修改ZooKeeper配置文件同步配置到其它节点运行验证问题出现：Errorcontactingservice.Itispro
Hadoop环境搭建常见错误 YOLO数据集工作室学习笔记 hadoop 大数据分布式
三、常见错误及解决方案1）防火墙没关闭、或者没有启动YARNINFOclient.RMProxy:ConnectingtoResourceManagerathadoop108/192.168.10.108:80322）主机名称配置错误3）IP地址配置错误4）ssh没有配置好5）root用户和ovo两个用户启动集群不统一6）配置文件修改不细心7）不识别主机名称java.net.UnknownHost
hadoop解决文件上传问题（DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException）生夏夏夏大数据 hdfs big data
完成Hadoop环境搭建后，使用Hadoopshell命令时---上传本地文件到HDFS的目录下，出现如下报错：通过查资料，应该是我多次执行NameNode格式化导致的（因为多次格式化namenode会造成namenode和datanode的clusterID不一致！每次格式化时，namenode会更新clusterID，但是datanode只会在首次格式化时确定）解决方案：1、首先使用以下命令查
Hadoop环境搭建（保姆级教学） Nuyoahㅤㅤ 大数据 hadoop 大数据分布式
Hadoop大数据Hadoop环境搭建一、基本配置二、任务部署三、Hadoop搭建的安装包四、知识讲解简单说明：VMware版本：linux版本：1、linux系统的安装：1、安装VMware2、linux虚拟机配置ios3、linux虚拟机设置网络配置4、克隆虚拟机5、克隆机更改ip地址2、安装大数据集群环境基本配置1、三台虚拟机关闭防火墙2、三台虚拟机更改主机名3、三台虚拟机更改主机名与ip映
【大数据基石】Hadoop环境搭建第七人格大数据基石 hadoop 大数据 hdfs
文章目录前言配置hosts关闭防火墙配置SSH免密下载Hadoop解压Hadoop到指定目录添加环境变量修改Hadoop配置文件core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlworkershadoop-env.sh其他2台服务器也这样配置初始化NameNode启动hdfs启动Yarn启动历史记录服务器✨这里是第七人格的博客。小七，欢迎您
大数据学习之Hadoop环境搭建栀子花_ef39
一、Hadoop的优势1）高可靠性：因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。4）高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。二、Hadoop组成1）H
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option