Hadoop配置文件参数详解

Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4

 

etc/hadoop/core-site.xml

参数 属性值 解释
fs.defaultFS NameNode URI hdfs://host:port/
io.file.buffer.size 131072 SequenceFiles文件中.读写缓存size设定


   
        fs.defaultFS
        hdfs://192.168.1.100:9000
        192.168.1.100为服务器IP地址,其实也可以使用主机名
   

   
        io.file.buffer.size
        131072
        该属性值单位为KB,131072KB即为默认的64M
   

 

etc/hadoop/hdfs-site.xml

配置NameNode

 

参数 属性值 解释
dfs.namenode.name.dir 在本地文件系统所在的NameNode的存储空间和持续化处理日志 如果这是一个以逗号分隔的目录列表,然 后将名称表被复制的所有目录,以备不时 需。
dfs.namenode.hosts/
dfs.namenode.hosts.exclude
Datanodespermitted/excluded列表 如有必要,可以使用这些文件来控制允许数据节点的列表
dfs.blocksize 268435456 大型的文件系统HDFS块大小为256MB
dfs.namenode.handler.count 100 设置更多的namenode线程,处理从datanode发出的大量RPC请求


   
        dfs.replication
        1
        分片数量,伪分布式将其配置成1即可
   

   
        dfs.namenode.name.dir
        file:/usr/local/hadoop/tmp/namenode
        命名空间和事务在本地文件系统永久存储的路径
   

   
        dfs.namenode.hosts
        datanode1, datanode2
        datanode1, datanode2分别对应DataNode所在服务器主机名
   

   
        dfs.blocksize
        268435456
        大文件系统HDFS块大小为256M,默认值为64M
   

   
        dfs.namenode.handler.count
        100
        更多的NameNode服务器线程处理来自DataNodes的RPCS
   

配置DataNode

 

参数 属性值 解释
dfs.datanode.data.dir 逗号分隔的一个DataNode上,它应该保存它的块的本地文件系统的路径列表 如果这是一个以逗号分隔的目录列表,那么数据将被存储在所有命名的目录,通常在不同的设备。


   
        dfs.datanode.data.dir
        file:/usr/local/hadoop/tmp/datanode
        DataNode在本地文件系统中存放块的路径
   

 

etc/hadoop/yarn-site.xml

配置ResourceManager 和 NodeManager:

 

 

 

参数 属性值 解释
yarn.resourcemanager.address 客户端对ResourceManager主机通过 host:port 提交作业 host:port
yarn.resourcemanager.scheduler.address ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源 host:port
yarn.resourcemanager.resource-tracker.address NodeManagers通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.admin.address 管理命令通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.webapp.address ResourceManager web页面host:port. host:port
yarn.resourcemanager.scheduler.class ResourceManager 调度类(Scheduler class) CapacityScheduler(推荐),FairScheduler(也推荐),orFifoScheduler
yarn.scheduler.minimum-allocation-mb 每个容器内存最低限额分配到的资源管理器要求 以MB为单位
yarn.scheduler.maximum-allocation-mb 资源管理器分配给每个容器的内存最大限制 以MB为单位
yarn.resourcemanager.nodes.include-path/
yarn.resourcemanager.nodes.exclude-path
NodeManagers的permitted/excluded列表 如有必要,可使用这些文件来控制允许NodeManagers列表


   
        yarn.resourcemanager.address
        192.168.1.100:8081
        IP地址192.168.1.100也可替换为主机名
   

   
        yarn.resourcemanager.scheduler.address
        192.168.1.100:8082
        IP地址192.168.1.100也可替换为主机名
   

   
        yarn.resourcemanager.resource-tracker.address
        192.168.1.100:8083
        IP地址192.168.1.100也可替换为主机名
   

   
        yarn.resourcemanager.admin.address
        192.168.1.100:8084
        IP地址192.168.1.100也可替换为主机名
   

   
        yarn.resourcemanager.webapp.address
        192.168.1.100:8085
        IP地址192.168.1.100也可替换为主机名
   

   
        yarn.resourcemanager.scheduler.class
        FairScheduler
        常用类:CapacityScheduler、FairScheduler、orFifoScheduler
   

   
        yarn.scheduler.minimum
        100
        单位:MB
   

   
        yarn.scheduler.maximum
        256
        单位:MB
   

   
        yarn.resourcemanager.nodes.include-path
        nodeManager1, nodeManager2
        nodeManager1, nodeManager2分别对应服务器主机名
   

配置NodeManager

 

参数 属性值 解释
yarn.nodemanager.resource.memory-mb givenNodeManager即资源的可用物理内存,以MB为单位 定义在节点管理器总的可用资源,以提供给运行容器
yarn.nodemanager.vmem-pmem-ratio 最大比率为一些任务的虚拟内存使用量可能会超过物理内存率 每个任务的虚拟内存的使用可以通过这个比例超过了物理内存的限制。虚拟内存的使用上的节点管理器任务的总量可以通过这个比率超过其物理内存的使用
yarn.nodemanager.local-dirs 数据写入本地文件系统路径的列表用逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log-dirs 本地文件系统日志路径的列表逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log.retain-seconds 10800 如果日志聚合被禁用。默认的时间(以秒为单位)保留在节点管理器只适用日志文件
yarn.nodemanager.remote-app-log-dir logs HDFS目录下的应用程序日志移动应用上完成。需要设置相应的权限。仅适用日志聚合功能
yarn.nodemanager.remote-app-log-dir-suffix logs 后缀追加到远程日志目录。日志将被汇总到yarn.nodemanager.remote­app­logdir/
{user}/${thisParam} 仅适用日志聚合功能。
yarn.nodemanager.aux-services mapreduce-shuffle Shuffle service 需要加以设置的Map Reduce的应用程序服务


   
        yarn.nodemanager.resource.memory-mb
        256
        单位为MB
   

   
        yarn.nodemanager.vmem-pmem-ratio
        90
        百分比
   

   
        yarn.nodemanager.local-dirs
        /usr/local/hadoop/tmp/nodemanager
        列表用逗号分隔
   

   
        yarn.nodemanager.log-dirs
        /usr/local/hadoop/tmp/nodemanager/logs
        列表用逗号分隔
   

   
        yarn.nodemanager.log.retain-seconds
        10800
        单位为S
   

   
        yarn.nodemanager.aux-services
        mapreduce-shuffle
        Shuffle service 需要加以设置的MapReduce的应用程序服务
   

 

etc/hadoop/mapred-site.xml

配置mapreduce

 

参数 属性值 解释
mapreduce.framework.name yarn 执行框架设置为 Hadoop YARN.
mapreduce.map.memory.mb 1536 对maps更大的资源限制的.
mapreduce.map.java.opts -Xmx2014M maps中对jvm child设置更大的堆大小
mapreduce.reduce.memory.mb 3072 设置 reduces对于较大的资源限制
mapreduce.reduce.java.opts -Xmx2560M reduces对 jvm child设置更大的堆大小
mapreduce.task.io.sort.mb 512 更高的内存限制,而对数据进行排序的效率
mapreduce.task.io.sort.factor 100 在文件排序中更多的流合并为一次
mapreduce.reduce.shuffle.parallelcopies 50 通过reduces从很多的map中读取较多的平行 副本


   
        mapreduce.framework.name
        yarn
        执行框架设置为Hadoop YARN
   

   
        mapreduce.map.memory.mb
        1536
        对maps更大的资源限制的
   

   
        mapreduce.map.java.opts
        -Xmx2014M
        maps中对jvm child设置更大的堆大小
   

   
        mapreduce.reduce.memory.mb
        3072
        设置 reduces对于较大的资源限制
   

   
        mapreduce.reduce.java.opts
        -Xmx2560M
        reduces对 jvm child设置更大的堆大小
   

   
        mapreduce.task.io.sort
        512
        更高的内存限制,而对数据进行排序的效率
   

   
        mapreduce.task.io.sort.factor
        100
        在文件排序中更多的流合并为一次
   

   
        mapreduce.reduce.shuffle.parallelcopies
        50
        通过reduces从很多的map中读取较多的平行副本
   

配置mapreduce的JobHistory服务器

 

参数 属性值 解释
maprecude.jobhistory.address MapReduce JobHistory Server host:port 默认端口号 10020
mapreduce.jobhistory.webapp.address MapReduce JobHistory Server Web UIhost:port 默认端口号 19888
mapreduce.jobhistory.intermediate-done-dir /mr­history/tmp 在历史文件被写入由MapReduce作业
mapreduce.jobhistory.done-dir /mr­history/done 目录中的历史文件是由MR JobHistory Server管理


   
        mapreduce.jobhistory.address
        192.168.1.100:10200
        IP地址192.168.1.100可替换为主机名
   

   
        mapreduce.jobhistory.webapp.address
        192.168.1.100:19888
        IP地址192.168.1.100可替换为主机名
   

   
        mapreduce.jobhistory.intermediate-done-dir
        /usr/local/hadoop/mr­history/tmp
        在历史文件被写入由MapReduce作业
   

   
        mapreduce.jobhistory.done-dir
        /usr/local/hadoop/mr­history/done
        目录中的历史文件是由MR JobHistoryServer管理
   

 

Web Interface

Daemon Web Interface Notes
NameNode http://nn_host:port/ 默认端口号50070
ResourceManager http://rm_host:port/ 默认端口号8088
MapReduce JobHistory Server http://jhs_host:port/ 默认端口号19888

获取更多精彩内容,请支持关注博主公众号

Hadoop配置文件参数详解_第1张图片 

你可能感兴趣的:(Hadoop)