MR job中map和reduce的确定时机

任务在开始之前即完全确定。

map个数的影响因子:

1)数据总大小
2)  blocksize大小
3)  文件个数
4)文件格式(txt,orc则可以分块,若为gzip/snappy则不能利用分布式计算的优势)。

reduce个数的影响因子:

1) 自定义设置,但是不是一定有效。如遇到order by等特殊关键字,则受该类关键字制约。
2) 推测估计公式计算:  
		 input_map_data_size/hive.exec.reducers.bytes.per.reducer   
         hive.exec.reducers.bytes.per.reducer 该参数默认是64M=67108864

你可能感兴趣的:(数据库,MR)