Hadoop hadoop配置文件yarn-site.xml、mapred-site.xml、hdfs-site.xml 、core-site.xml、hadoop-env.cmd详解

前言:
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件。
上网找的配置可能因为各个hadoop版本不同,导致无法生效,这里需要经验积累。
参数繁多,不用过多纠结每个参数的含义,先照搬配置文件,
用多几次,总会出现bug,需要反复调整的参数就是常用参数。

±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±

正文开始:

yarn-site.xml文件参数配置
配置 ResourceManager,NodeManager 的通信端口,web 监控端口等信息。





  
    yarn.nodemanager.aux-services
    mapreduce_shuffle
	NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序
  

   
	
        yarn.nodemanager.resource.memory-mb
        1500
		NM总的可用物理内存,以MB为单位。一旦设置,不可动态修改
    
	
        yarn.scheduler.maximum-allocation-mb
        1024
		可申请的最大内存资源
    
	
        yarn.scheduler.minimum-allocation-mb
        64
		可申请的最少内存资源
    
	
         yarn.nodemanager.vmem-check-enabled
         false
         由于我的测试机内存少,所以就关闭虚拟内存检测s
    
    
        yarn.nodemanager.resource.cpu-vcores
        1
		可使用的最大cpu个数,不受核心数量限制。
     

mapred-site.xml文件参数配置
注意,该文件不存在,需要将mapred-site.xml.template改名得到。
配置中指示其使用 Yarn 框架执行 map-reduce 处理程序,详细如下



    
    
        mapreduce.framework.name
        yarn
		告诉hadoop以后MR运行在YARN上
    	
	
        yarn.app.mapreduce.am.resource.mb
        512
		MapReduce作业的缺省配置		
    
	 
        mapreduce.map.memory.mb
        256
		每个Map Task需要的内存量		
    
	
        mapreduce.reduce.memory.mb
        512
		每个Map Task需要的内存量		
    

hdfs-site.xml文件参数配置
注意在 hdfs-site.xml 中配置 nameNode,dataNode 的本地目录信息,
以及分片备份详细如下需要根据下面的配置文件的目录结构在hadoop\data\dfs下
建立2个文件夹,datanode和namenode,
创建hadoop的namedate,datanode,temp,文件目录。




  
  
    dfs.replication
    1
    副本个数,配置默认是3,应小于datanode机器数量
  

  
    dfs.name.dir
    /C:/Hadoop2.7.4/workplace/name
    namenode上存储hdfs名字空间元数据 
  

  
    dfs.data.dir
    /C:/Hadoop2.7.4/workplace/data
    datanode上数据块的物理存储位置
  

core-site.xml文件参数配置




  
  
    fs.defaultFS
    hdfs://localhost:8010
    HDFS的URI,文件系统://namenode标识:端口号
  
  
  
    hadoop.tmp.dir
    /C:/Hadoop2.7.4/workplace/tmp
    namenode上本地的hadoop临时文件夹
   

hadoop-env.cmd文件参数配置

 设置java环境变量,推荐使用
	set JAVA_HOME=C:\Progra~1\Java\jdk1.8.0_xx
    不推荐用法,
	set JAVA_HOME=%JAVA_HOME%

±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±
总结:

yarn-site.xml
mapred-site.xml
hdfs-site.xml
core-site.xml
hadoop-env.cmd

这5个文件配置繁多,这里只挑重点的讲,感兴趣的同学可以搜一下相关的博文。
有些比较细的配置在初学阶段过早研究,效果可能不太好,初学者应该先有个整体把握。
理论+实践,遇到感兴趣的点可以过一轮后回过来研究,这样效果往往比较好。

你可能感兴趣的:(大数据Hadoop)