参考单节点 Single Node Setup YARN的配置
第二次以后启动:先启动,再zk
start-dfs.sh
,再start-yarn.sh
,最后启动yarn-daemon.sh start resourcemanager
Hadoop集群基础配置
Hadoop伪分布式系统配置
VM安装Linux虚拟机环境
VM克隆Linux虚拟机集群配置
Hadoop集群全分布式搭建
ZooKeeper集群搭建
HA高可用集群搭建
Hadoop2.0集群配置情况
主机名 | 机器ip | NN | NN2 | DN | ZK | ZKFC | JNN | RS | NM |
---|---|---|---|---|---|---|---|---|---|
node001 | 192.168.118.101/24 | * | * | * | |||||
node002 | 192.168.118.102/24 | * | * | * | * | * | * | ||
node003 | 192.168.118.103/24 | * | * | * | * | * | |||
node004 | 192.168.118.104/24 | * | * | * | * |
NodeManager 要和DataNode做1:1配置
在配置文件中激活Resource Manager 的HA,自己去挣抢锁(不像NameNode 需要ZKFC去挣抢,把它合并进RM了),谁有就是Active
环境配置
(1)mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
mapreduce.framework.name
yarn
(2)yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
cluster1
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
node003
yarn.resourcemanager.hostname.rm2
node004
yarn.resourcemanager.zk-address
node002:2181,node003:2181,node004:2181
yarn配置文件
基本配置
1、mapreduce框架名称:yarn
2、shuffle拉取数据用的,很多reduce都需要拉取数据,都要写相同代码,做成1个服务集成到NodeManager里,你跟我注册,我帮你去拉!
3、开启HA
4、集群id,逻辑到物理的映射
5、做ZK列表
扩展配置
yarn的HA能力 ResourceManager High Availability
2个RM争抢去ZookKeeper里创建自己的锁,谁创建上了是Active
具体配置
在HA集群中产生另外1批角色,没必然关系
yarn单独启动
通过配置文件node002、node003、node004启动NodeManager
在node003、node004启动 ResourceManager 就可以了
和node001没关系,配置文件可不动!
但它做管理节点,可分发配置文件,所以在node001上操作!
(1)分发配置文件
[root@node001 hadoop]# scp mapred-site.xml yarn-site.xml node002:`pwd`
[root@node001 hadoop]# scp mapred-site.xml yarn-site.xml node003:`pwd`
[root@node001 hadoop]# scp mapred-site.xml yarn-site.xml node004:`pwd`
(2)启动yarn节点
[root@node001 ~]# start-yarn.sh
[root@node003 ~]# yarn-daemon.sh start resourcemanager
- node004:8088
This is standby RM. Redirecting to the current active RM: http://node003:8088/
测试单词统计:hadoop-mapreduce-examples-2.6.5.jar
[root@node001 mapreduce]# pwd
/opt/hadoop2.6.5/share/hadoop/mapreduce
[root@node001 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /user/root/test.txt /data/wc/output
[root@node001 mapreduce]# hdfs dfs -ls /data/wc/output
[root@node001 mapreduce]# hdfs dfs -cat /data/wc/output/part-r-00000
输入:可以是目录(里面所有文件),或具体文件
输出目录:一定是不存在,或空目录
非空马上停止
担心执行完了,把文件覆盖掉,大数据贵重!
/_SUCCESS:是信号/标志文件
/part-r-00000:是reduce输出的数据文件
r:reduce的意思,00000是对应的reduce
多个reduce会有多个数据文件
参考资料
Hadoop之YARN的安装与测试 -