hadoop2.0配置文件详解

 

转至:http://www.cnblogs.com/yinghun/p/6230436.html

Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4。

etc/hadoop/core-site.xml

参数 属性值 解释
fs.defaultFS NameNode URI hdfs://host:port/
io.file.buffer.size 131072 SequenceFiles文件中.读写缓存size设定

 


    
        fs.defaultFS
        hdfs://192.168.1.100:900
        192.168.1.100为服务器IP地址,其实也可以使用主机名
    
    
        io.file.buffer.size
        131072
        该属性值单位为KB,131072KB即为默认的64M
    

 

 

etc/hadoop/hdfs-site.xml

  • 配置NameNode
参数 属性值 解释
dfs.namenode.name.dir 在本地文件系统所在的NameNode的存储空间和持续化处理日志 如果这是一个以逗号分隔的目录列表,然 后将名称表被复制的所有目录,以备不时 需。
dfs.namenode.hosts/
dfs.namenode.hosts.exclude
Datanodes permitted/excluded列表 如有必要,可以使用这些文件来控制允许 数据节点的列表
dfs.blocksize 268435456 大型的文件系统HDFS块大小为256MB
dfs.namenode.handler.count 100 设置更多的namenode线程,处理从 datanode发出的大量RPC请求

 


    
        dfs.replication
        1
        分片数量,伪分布式将其配置成1即可
    
    
        dfs.namenode.name.dir
        file:/usr/local/hadoop/tmp/namenode
        命名空间和事务在本地文件系统永久存储的路径
    
    
        dfs.namenode.hosts
        datanode1, datanode2
        datanode1, datanode2分别对应DataNode所在服务器主机名
    
    
        dfs.blocksize
        268435456
        大文件系统HDFS块大小为256M,默认值为64M
    
    
        dfs.namenode.handler.count
        100
        更多的NameNode服务器线程处理来自DataNodes的RPCS
    

 

 

  • 配置DataNode
参数 属性值 解释
dfs.datanode.data.dir 逗号分隔的一个DataNode上,它应该保存它的块的本地文件系统的路径列表 如果这是一个以逗号分隔的目录列表,那么数据将被存储在所有命名的目录,通常在不同的设备。

 


    
        dfs.datanode.data.dir
        file:/usr/local/hadoop/tmp/datanode
        DataNode在本地文件系统中存放块的路径
    

 

 

etc/hadoop/yarn-site.xml

  • 配置ResourceManager 和 NodeManager:
参数 属性值 解释
yarn.resourcemanager.address 客户端对ResourceManager主机通过 host:port 提交作业 host:port
yarn.resourcemanager.scheduler.address ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源 host:port
yarn.resourcemanager.resource-tracker.address NodeManagers通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.admin.address 管理命令通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.webapp.address ResourceManager web页面host:port. host:port
yarn.resourcemanager.scheduler.class ResourceManager 调度类(Scheduler class) CapacityScheduler(推荐),FairScheduler(也推荐),orFifoScheduler
yarn.scheduler.minimum-allocation-mb 每个容器内存最低限额分配到的资源管理器要求 以MB为单位
yarn.scheduler.maximum-allocation-mb 资源管理器分配给每个容器的内存最大限制 以MB为单位
yarn.resourcemanager.nodes.include-path/
yarn.resourcemanager.nodes.exclude-path
NodeManagers的permitted/excluded列表 如有必要,可使用这些文件来控制允许NodeManagers列表

   

        yarn.resourcemanager.address

        192.168.1.100:8081

        IP地址192.168.1.100也可替换为主机名

   

   

        yarn.resourcemanager.scheduler.address

        192.168.1.100:8082

        IP地址192.168.1.100也可替换为主机名

   

   

        yarn.resourcemanager.resource-tracker.address

        192.168.1.100:8083

        IP地址192.168.1.100也可替换为主机名

   

   

        yarn.resourcemanager.admin.address

        192.168.1.100:8084

        IP地址192.168.1.100也可替换为主机名

   

   

        yarn.resourcemanager.webapp.address

        192.168.1.100:8085

        IP地址192.168.1.100也可替换为主机名

   

   

        yarn.resourcemanager.scheduler.class

        FairScheduler

        常用类:CapacityScheduler、FairScheduler、orFifoScheduler

   

   

        yarn.scheduler.minimum

        100

        单位:MB

   

   

 


    
        yarn.nodemanager.resource.memory-mb
        256
        单位为MB
    
    
        yarn.nodemanager.vmem-pmem-ratio
        90
        百分比
    
    
        yarn.nodemanager.local-dirs
        /usr/local/hadoop/tmp/nodemanager
        列表用逗号分隔
    
    
        yarn.nodemanager.log-dirs
        /usr/local/hadoop/tmp/nodemanager/logs
        列表用逗号分隔
    
    
        yarn.nodemanager.log.retain-seconds
        10800
        单位为S
    
    
        yarn.nodemanager.aux-services
        mapreduce-shuffle
        Shuffle service 需要加以设置的MapReduce的应用程序服务
    

         yarn.scheduler.maximum

 

        256

        单位:MB

   

   

        yarn.resourcemanager.nodes.include-path

        nodeManager1, nodeManager2

        nodeManager1, nodeManager2分别对应服务器主机名

   

  • 配置NodeManager

    
         mapreduce.framework.name
        yarn
        执行框架设置为Hadoop YARN
    
    
        mapreduce.map.memory.mb
        1536
        对maps更大的资源限制的
    
    
        mapreduce.map.java.opts
        -Xmx2014M
        maps中对jvm child设置更大的堆大小
    
    
        mapreduce.reduce.memory.mb
        3072
        设置 reduces对于较大的资源限制
    
    
        mapreduce.reduce.java.opts
        -Xmx2560M
        reduces对 jvm child设置更大的堆大小
    
    
        mapreduce.task.io.sort
        512
        更高的内存限制,而对数据进行排序的效率
    
    
        mapreduce.task.io.sort.factor
        100
        在文件排序中更多的流合并为一次
    
    
        mapreduce.reduce.shuffle.parallelcopies
        50
        通过reduces从很多的map中读取较多的平行副本
    
 
参数 属性值 解释
yarn.nodemanager.resource.memory-mb givenNodeManager即资源的可用物理内存,以MB为单位 定义在节点管理器总的可用资源,以提供给运行容器
yarn.nodemanager.vmem-pmem-ratio 最大比率为一些任务的虚拟内存使用量可能会超过物理内存率 每个任务的虚拟内存的使用可以通过这个比例超过了物理内存的限制。虚拟内存的使用上的节点管理器任务的总量可以通过这个比率超过其物理内存的使用
yarn.nodemanager.local-dirs 数据写入本地文件系统路径的列表用逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log-dirs 本地文件系统日志路径的列表逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log.retain-seconds 10800 如果日志聚合被禁用。默认的时间(以秒为单位)保留在节点管理器只适用日志文件
yarn.nodemanager.remote-app-log-dir logs HDFS目录下的应用程序日志移动应用上完成。需要设置相应的权限。仅适用日志聚合功能
yarn.nodemanager.remote-app-log-dir-suffix logs 后缀追加到远程日志目录。日志将被汇总到${yarn.nodemanager.remote­app­logdir}/${user}/${thisParam} 仅适用日志聚合功能。
yarn.nodemanager.aux-services mapreduce-shuffle Shuffle service 需要加以设置的Map Reduce的应用程序服务

etc/hadoop/mapred-site.xml

  • 配置mapreduce
参数 属性值 解释
mapreduce.framework.name yarn 执行框架设置为 Hadoop YARN.
mapreduce.map.memory.mb 1536 对maps更大的资源限制的.
mapreduce.map.java.opts -Xmx2014M maps中对jvm child设置更大的堆大小
mapreduce.reduce.memory.mb 3072 设置 reduces对于较大的资源限制
mapreduce.reduce.java.opts -Xmx2560M reduces对 jvm child设置更大的堆大小
mapreduce.task.io.sort.mb 512 更高的内存限制,而对数据进行排序的效率
mapreduce.task.io.sort.factor 100 在文件排序中更多的流合并为一次
mapreduce.reduce.shuffle.parallelcopies 50 通过reduces从很多的map中读取较多的平行 副本
  • 配置mapreduce的JobHistory服务器
参数 属性值 解释
maprecude.jobhistory.address MapReduce JobHistory Server host:port 默认端口号 10020
mapreduce.jobhistory.webapp.address MapReduce JobHistory Server Web UIhost:port 默认端口号 19888
mapreduce.jobhistory.intermediate-done-dir /mr­history/tmp 在历史文件被写入由MapReduce作业
mapreduce.jobhistory.done-dir /mr­history/done 目录中的历史文件是由MR JobHistory Server管理

    
         mapreduce.jobhistory.address
        192.168.1.100:10200
        IP地址192.168.1.100可替换为主机名
    
    
        mapreduce.jobhistory.webapp.address
        192.168.1.100:19888
        IP地址192.168.1.100可替换为主机名
    
    
        mapreduce.jobhistory.intermediate-done-dir
        /usr/local/hadoop/mr­history/tmp
        在历史文件被写入由MapReduce作业
    
    
        mapreduce.jobhistory.done-dir
        /usr/local/hadoop/mr­history/done
        目录中的历史文件是由MR JobHistoryServer管理
    

 

Web Interface

Daemon Web Interface Notes
NameNode http://nn_host:port/ 默认端口号50070
ResourceManager http://rm_host:port/ 默认端口号8088
MapReduce JobHistory Server http://jhs_host:port/ 默认端口号19888
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(hadoop2.0配置文件详解)