属性名称
|
类型
|
默认值
|
说明
|
所属文件 |
io.file.buffer.size
|
B
|
4kb
|
辅助I/O操作的缓冲区,实际使用可提高该值,比如128Kb(131072) |
|
dfs.block.size
|
b
|
64MB
|
HDFS的块大小,实际可提供该值,以降低namenode压力,并向mapper传更多数据
|
|
io.sort.mb
|
int
|
100M
|
map输出时缓冲区的大小,实际应用中可根据情况尽可能提高该值
|
|
io.sort.record.percent
|
float
|
0.05
|
map输出时缓存边界的io.sort.mb的比例 |
|
io.sort.spill.percent
|
float
|
0.80
|
map输出时缓冲区的阀值,如果超过这个阀值,缓冲区内容被spill到磁盘
|
|
io.sort.factor
|
int
|
10
|
map溢出文件排序时,一次最多合并的流数,这个属性也在reduce中使用,将此值增加到100很常见。 |
|
mapred.compress.map.output |
BooLean
|
false
|
压缩map输出
使用压缩可提供磁盘写的速度,节约磁盘空间,减少传给reducer的数据量
|
|
mapred.map.output.compression.codec
|
Class name
|
org.apache.hadoop.io.compress.DefaultCodec
|
用于压缩的编码器
|
|
tasktracker.http.threads
|
int
|
40
|
通过http方式传送给reducer的文件分区的工作线程数,此设置针对tasktracker,而非map的任务槽 在大型集群上,可根据需要增加 |
|
mapred.reduce.parallel.copies
|
int
|
5
|
用于把map输出并行复制到reducer的线程数
|
|
mapred.job.shuffle.input.buffer.percent
|
float
|
0.70
|
在shuffle的复制阶段,被复制到reducer的缓冲区大小,如果map输出较小,则会直接复制到缓冲区 |
|