Hadoop2.6.5 完全分布式搭建(hdfs+mapreduce-on-yarn)

环境

linux Centos6.8

jdk1.8

zookeeper集群环境

角色预设

 

NN-1

NN-2

DN

ZK

ZKFC

JNN

RS

NM

node01

*

 

 

 

*

*

 

 

node02

 

*

*

*

*

*

 

*

node03

 

 

*

*

 

*

*

*

node04

 

 

*

*

 

 

*

*

hdfs配置

1、hdfs-site.xml


        dfs.replication
        2


	  dfs.nameservices
	  mycluster


	  dfs.ha.namenodes.mycluster
	  nn1,nn2


	  dfs.namenode.rpc-address.mycluster.nn1
	  node1:8020


	  dfs.namenode.rpc-address.mycluster.nn2
	  node2:8020


	  dfs.namenode.http-address.mycluster.nn1
	  node1:50070


	  dfs.namenode.http-address.mycluster.nn2
	  node2:50070


	  dfs.namenode.shared.edits.dir
	  qjournal://node1:8485;node2:8485;node3:8485/mycluster



	  dfs.journalnode.edits.dir
	  /var/hadoop/ha/jn


	  dfs.client.failover.proxy.provider.mycluster
	  org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider


	  dfs.ha.fencing.methods
	  sshfence


	  dfs.ha.fencing.ssh.private-key-files
	  /root/.ssh/id_rsa


	dfs.ha.automatic-failover.enabled
	true

2、core-site.xml


      fs.defaultFS
      hdfs://mycluster


       ha.zookeeper.quorum
       node2:2181,node3:2181,node4:2181


       hadoop.tmp.dir
       /var/hadoop/fully

3、将环境执行文件中的JAVA_HOME均改为本地jdk的绝对路径:hadoop-env.sh  mapred-env.sh  yarn-env.sh

4、所有的datanode节点的slaves文件中添加:

                                                                     node2
                                                                            node3
                                                                            node4

第一次启动

1、先启动三个JNN

hadoop-daemon.sh start journalnode

2、第一台NameNode

hdfs namenode -format
hadoop-daemon.sh start namenode

3、另一台NameNode

hdfs namenode  -bootstrapStandby

4、第一台NameNode

start-dfs.sh
hdfs zkfc -formatZK

5、另一台NameNode

hdfs zkfc -formatZK

6、第一台NameNode

stop-dfs.sh && start-dfs.sh  ||  hadoop-daemon.sh start zkfc

第一次启动完成

第二次启动

1,启动zk

2,start-dfs.sh

 

Map-Reduse-On-Yarn配置

1、mapred-site.xml


      mapreduce.framework.name
      yarn

2、yarn-site.xml


   yarn.nodemanager.aux-services
   mapreduce_shuffle


   yarn.resourcemanager.ha.enabled
   true


   yarn.resourcemanager.cluster-id
   cluster1


   yarn.resourcemanager.ha.rm-ids
   rm1,rm2


   yarn.resourcemanager.hostname.rm1
   node3


   yarn.resourcemanager.hostname.rm2
   node4


   yarn.resourcemanager.zk-address
   node2:2181,node3:2181,node4:2181

3、启用Yarn

      start-yarn.sh

       yarn-daemon.sh start resourcemanager

Linux 执行jar : hadoop jar WordCount.jar com.self.study.wordcount.WordCount

你可能感兴趣的:(hadoop)