Hadoop文件切片与调度本地化

Hadoop集群调度执行task遵循的原则是尽量使执行task的数据位于本地。

虽然InputSplit 对应的block 可能位于多个节点上,但考虑到任务调度的效率,通常不会把所有节点加到InputSplit 的host 列表中,而是选择包含(该InputSplit)数据总量最大的前几个节点(Hadoop 限制最多选择10 个,多余的会过滤掉),以作为任务调度时判断任务是否具有本地性的主要凭证。为此,FileInputFormat 设计了一个简单有效的启发式算法:首先按照rack 包含的数据量对rack 进行排序,然后在rack 内部按照每个node 包含的数据量对node 排序,最后取前N 个node 的host 作为InputSplit 的host 列表,这里的N为block副本数。这样,当任务调度器调度Task 时,只要将Task 调度给位于host 列表的节点,就认为该Task 满足本地性。

你可能感兴趣的:(Hadoop文件切片与调度本地化)