map端:
io.sort.mb 类型int默认100=》map的内存缓冲区
io.sort.record.precent 类型:float默认0.05=》io.sort.mb的缓存区记录索引kvindices和缓存区记录索引排序工作数组kvoffsets占用空间比例
io.sort.spill.percent 类型:float默认0.8=》io.sort.mb的缓冲数据边界阙值
io.sort.factor 类型int默认10=》每次合并文件数
min.mum.spills.for.combine类型int默认3=》运行combiner需要的最少溢出文件数
mapred.compress.map.output类型boolean默认false=》是否压缩map输出
mapred.map.output.compression.coderc类型classname默认DefaultCodec=》map输出的压缩编码器
tasktracker.http.threads类型int默认40=》每个tasktracker的工作线程数,将map输出到reduce#只能全局设定
reduce端:
mapred.reduce.parallel.copies类型int默认5=》复制map输出数据的线程数
mapred.reduce.copy.backoff类型int默认300=》获取一个map数据的最大时间
io.sort.factor
mapred.job.shuffer.input.buffer.percent类型float默认0.70=>shuffer的复制阶段,分配给map输出的缓冲区的比例
mapred.job.shuffer.merge.percent类型float默认0.66=》mapred.job.shuffer.input.buffer.percent的阙值
mapred.inmem.merge.threshold类型int默认1000=》mapred.job.shuffer.input.buffer.percent的文件数阙值
mapred.job.reduce.input.buffer.percent类型float默认0.0=》reduce过程中在内存中保存map输出的比例