Hadoop4个核心配置文件讲解

Hadoop4个核心配置文件core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml配置讲解
1.hdfs-site.xml
dfs.replication:设置数据副本的份数 1
dfs.namenode.name.dir:设置namenode目录 /hadoop_data/name
dfs.datanode.data.dir :设置hdfs中DataNode目录 /hadoop_data/data
dfs.namenode.checkpoint.dir:设置 secondary namenode目录 /hadoop_data/namesecondary
dfs.permissions:设置hdfs的权限 false
dfs.datanode.balance.bandwidthPerSec:设置hadoop执行 balancer时,hdfs移动数据的速度,默认是1M/S的速度。一般情况下设置为10M,设置的过大会影响当前job的运行 67108864 (64M/s)
dfs.datanode.max.transfer.threads:设置hadoop允许打开的最大文件数 64000

2.core-site.xml
fs.defaultFS:设置namenode的地址 hdfs://hadoopmaster/
hadoop.tmp.dir:设置使用hadoop产生文件的存放目录 /hadoop_data/tmp

3.mapred-site.xml
mapreduce.framework.name: 设置hadoop以后map/reduce运行的环境,运行在yarn上 yarn
mapreduce.reduce.memory.mb: 每个reduce使用内存的上限 4096
mapreduce.map.memory.mb: 每个map使用内存的上限 2048
mapreduce.admin.map.child.java.opts: 内存JVM调优参数, 管理员设置每个map任务分配的内存 -Xmx2040M
mapreduce.admin.reduce.child.java.opts: 内存JVM调优参数, 管理员设置每个reduce任务分配的内存 -Xmx4080M
mapreduce.job.reduce.slowstart.completedmaps: 0.85 设置当map任务完成的比例达到该值后才会为reduce任务申请资源
mapreduce.jobhistory.address: jobhistory web UI hadoopmaster:10020
mapreduce.jobhistory.webapp.address: jobhistory 节点服务器端口 hadoopmaster:19888
mapreduce.reduce.shuffle.input.buffer.percent :设置shuffle阶段内存最大使用值,默认为0.7

4.yarn-site.xml
yarn.resourcemanager.hostname: 设置resourcemanager对客户端暴露的地址,客户端通过该地址想resourcemanager提交应用程序和杀掉应用程序等 。hadoopmaster
yarn.nodemanager.aux-services: 设置nodemanager上运行的附属服务,需要配置成mapreduce_shuffle,才可运行MapReduce程序
yarn.nodemanager.resource.memory-mb: 设置nodemanager总的可用的物理内存 43008
yarn.scheduler.maximum-allocation-mb: 设置每个任务可申请的最大内存资源16384
yarn.scheduler.minimum-allocation-mb: 设置每个任务可申请的最小内存资源512
yarn.scheduler.increment-allocation-mb:设置每个任务可申请新增的内存资源512
yarn.app.mapreduce.am.resource.mb:设置MapReduce ApplicationMaster占用的内存量 2048
yarn.app.mapreduce.am.command-opts: 设置ApplicationMaster-Xmx2000M
yarn.nodemanager.vmem-pmem-ratio: 设置每使用1MB物理内存,最多可用的虚拟内存数 2.1
yarn.nodemanager.resource.cpu-vcores: 设置nodemanagery总的可用虚拟CPU个数 8
yarn.log-aggregation-enable:true

yarn.log-aggregation.retain-seconds:302400

你可能感兴趣的:(大数据,hadoop)