YARN集群环境搭建

参考单节点 Single Node Setup YARN的配置
第二次以后启动:先启动zk,再start-dfs.sh,再start-yarn.sh,最后启动yarn-daemon.sh start resourcemanager

Hadoop集群基础配置

Hadoop伪分布式系统配置
VM安装Linux虚拟机环境
VM克隆Linux虚拟机集群配置
Hadoop集群全分布式搭建
ZooKeeper集群搭建
HA高可用集群搭建

Hadoop2.0集群配置情况

主机名 机器ip NN NN2 DN ZK ZKFC JNN RS NM
node001 192.168.118.101/24 * * *
node002 192.168.118.102/24 * * * * * *
node003 192.168.118.103/24 * * * * *
node004 192.168.118.104/24 * * * *

NodeManager 要和DataNode做1:1配置
在配置文件中激活Resource Manager 的HA,自己去挣抢锁(不像NameNode 需要ZKFC去挣抢,把它合并进RM了),谁有就是Active


环境配置

(1)mapred-site.xml

  • cp mapred-site.xml.template mapred-site.xml

    mapreduce.framework.name
    yarn

(2)yarn-site.xml


    yarn.nodemanager.aux-services
    mapreduce_shuffle


    yarn.resourcemanager.ha.enabled
    true


    yarn.resourcemanager.cluster-id
    cluster1


    yarn.resourcemanager.ha.rm-ids
    rm1,rm2


    yarn.resourcemanager.hostname.rm1
    node003


    yarn.resourcemanager.hostname.rm2
    node004


    yarn.resourcemanager.zk-address
    node002:2181,node003:2181,node004:2181

yarn配置文件

基本配置

1、mapreduce框架名称:yarn
2、shuffle拉取数据用的,很多reduce都需要拉取数据,都要写相同代码,做成1个服务集成到NodeManager里,你跟我注册,我帮你去拉!
3、开启HA
4、集群id,逻辑到物理的映射
5、做ZK列表

扩展配置

yarn的HA能力 ResourceManager High Availability
2个RM争抢去ZookKeeper里创建自己的锁,谁创建上了是Active

ResourceManager High Availability Architecture

具体配置

在HA集群中产生另外1批角色,没必然关系
yarn单独启动
  通过配置文件node002、node003、node004启动NodeManager
  在node003、node004启动 ResourceManager 就可以了

和node001没关系,配置文件可不动!
  但它做管理节点,可分发配置文件,所以在node001上操作!

(1)分发配置文件

[root@node001 hadoop]# scp mapred-site.xml yarn-site.xml  node002:`pwd`
[root@node001 hadoop]# scp mapred-site.xml yarn-site.xml  node003:`pwd`
[root@node001 hadoop]# scp mapred-site.xml yarn-site.xml  node004:`pwd`

(2)启动yarn节点

[root@node001 ~]# start-yarn.sh
[root@node003 ~]# yarn-daemon.sh start resourcemanager
node003-jps
  • node004:8088
  • This is standby RM. Redirecting to the current active RM: http://node003:8088/



测试单词统计:hadoop-mapreduce-examples-2.6.5.jar

[root@node001 mapreduce]# pwd
/opt/hadoop2.6.5/share/hadoop/mapreduce
[root@node001 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /user/root/test.txt /data/wc/output
[root@node001 mapreduce]# hdfs dfs -ls /data/wc/output
[root@node001 mapreduce]# hdfs dfs -cat /data/wc/output/part-r-00000
输入:可以是目录(里面所有文件),或具体文件
输出目录:一定是不存在,或空目录
    非空马上停止
    担心执行完了,把文件覆盖掉,大数据贵重!

/_SUCCESS:是信号/标志文件
/part-r-00000:是reduce输出的数据文件
    r:reduce的意思,00000是对应的reduce
    多个reduce会有多个数据文件

参考资料

Hadoop之YARN的安装与测试 -

你可能感兴趣的:(YARN集群环境搭建)