Hadoop源码分析

当前问题:

input file 如何split?与inputformat有什么关系?
多个reduce输出多个文件,这多个文件如何在HDFS中存储,每个输出文件作为HDFS中的文件吗?会不会太小了?HIVE执行结果是返回一个文件,是HIVE自己把文件合并的吗?
map-reduce如何确定map和reduce任务的个数的?根据输入文件的大小?
map执行完之后的临时文件是写在本地还是写到特定的服务器上?

今天在看inputformat这块,目前对于输入文件的split部分还没有理清楚,很多代码不知道具体作用,看来需要架起环境来单步调试一下。

你可能感兴趣的:(hadoop)