新旧版本FileInputFormat获得输入分片的不同

有接触过hadoop的都应该清楚InputFormat 里有个getSplits方法,用来获得输入分片,并最终影响map task的数量。网上关于split的描述千奇百怪,各家说法都不一样,前几天一个老师跟我讲的FileInputFormat的 split的概念和我脑子里一直记得的split的概念不一样,着实让我困扰,甚至开始怀疑人生了。。。

今天把新旧版本的FileInputFormat的源码拿出来翻看了一下,才算明白了其中的道理,其实大家说的都没错,只是有些人说的是老的API的原理,有些人说的是新的API的原理。

(FileInputFormat老的在 org.apache.hadoop.mapred包下面,新的在org.apache.hadoop.mapreduce.lib.input包下面)。

老版定义:public InputSplit[] getSplits(JobConf job, int numSplits)

新版定义:public List<InputSplit> getSplits(JobContext job)

从定义上就有所区别了,老的有个numSplits参数,这个参数在JobClient中可以看到:

    org.apache.hadoop.mapred.InputSplit[] splits =
    job.getInputFormat().getSplits(job, job.getNumMapTasks());

是用job.getNumMapTasks()获得的,即mapred.map.tasks指定的值,默认是1:  public int getNumMapTasks() { return getInt("mapred.map.tasks", 1); }


这个值在老版中是用来确定目标split大小的: long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

totalSize是输入的所有文件的总大小,即是一个我们期望的split分片大小。


我们再来看看最终splitSize的算法,

老版:long splitSize = computeSplitSize(goalSize, minSize, blockSize);=Math.max(minSize, Math.min(goalSize, blockSize));

新版:long splitSize = computeSplitSize(blockSize, minSize, maxSize);=Math.max(minSize, Math.min(maxSize, blockSize));

算法是相同的,只是传进去的参数就有非常大的差别了。

老版的第一个参数是goalSize即通过numSplits算出来的,所以调整mapred.map.tasks这个参数会对map数量会有影响,当然我们还可以调整minSize,由mapreduce.input.fileinputformat.split.minsize决定。mapred.map.tasks参数越大,goalSize就越小,当小于blockSize的时候,map的数量就会变多了。

新版的接口已经没有这个参数了,第一个参数变成了blockSize即块的大小了。调整splitSize主要通过调整minSize和maxSize来实现了。minSize由mapreduce.input.fileinputformat.split.minsize决定,maxSize 由mapreduce.input.fileinputformat.split.maxsize决定。当maxSize小于blockSize的时候,map的数量就变多了。

另外新老版本中都有这个逻辑:

        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
          String[] splitHosts = getSplitHosts(blkLocations, 
              length-bytesRemaining, splitSize, clusterMap);
          splits.add(makeSplit(path, length-bytesRemaining, splitSize, 
                               splitHosts));
          bytesRemaining -= splitSize;
        }

里面有一个SPLIT_SLOP=1.1,即允许有10%的溢出,由于是按照单个文件进行分片的,为了避免一个太小的分片存在,所以在最后一个分片中允许溢出10%,即最后一个分片的大小可能大于splitSize,但是一定<=1.1*splitSize。

你可能感兴趣的:(hadoop)