Hadoop2.6和2.7中几个重要的新特征

Hadoop2.7

1. YARN-1492 - Automatic shared, global caching of YARN localized resources (beta)

Hadoop Distributed Cache大家应该比较熟悉。它的局限是只能在一个Job间共享file,该特性期望实现多个job间共享file。不过Hadoop2.7中,该特征为Beta版本,社区希望在Hadoop2.8中实现正式版。

2. MAPREDUCE-5583 - Ability to limit running Map/Reduce tasks of a job

该特征允许用户在提交一个MapReduce Job时,指定可同时运行的Map或Reduce的任务数目上限。看来该特性是寄期望于用户的自觉性,或者是集群规范的管理能力,以避免集群出现类似于DDoS的场景,希望这种期望不要落空......

当然,为了实现这个期望,必须要和Scheduler的资源分配等功能结合使用。

Hadoop2.6

1. HDFS-6740 - Hot swap drive: support add/remove data node volumes without restarting data node (beta)

顾名思义,该特征可在不重启DataNode的情况下,添加新的磁盘,或者移除故障的磁盘了。对运维来说,这是一个非常给力的特征......。cloudera有一篇博客,专门介绍这个特征,以及怎么操作去hot swap磁盘,感兴趣的话可以看看。

2. YARN-796 - Support node labels during scheduling

该特征可让YARN更好的服务在异构集群中。对于这么重要的一个特征,遗憾的是,官方在上述以及相关链接中,描述的很是语焉不详,或许也是我理解能力比较差的原因吧......幸好是找到了一篇介绍比较清楚的文章,如果你没有时间阅读这篇文章,我下面引用该文章中的一段话,相信你看了之后,大致可以知道该特征是怎么回事了。

”用户可以为每个nodemanager标注几个标签,比如highmem,highdisk等,以表明该nodemanager的特性;同时,用户可以为调度器中每个队列标注几个标签,这样,提交到某个队列中的作业,只会使用标注有对应标签的节点上的资源“

貌似该特征目前只支持Capacity Scheduler。

3. YARN-1051 - Support for time-based resource reservations in Capacity Scheduler (beta)

目前的Capacity Scheduler虽然已经具有Job优先级、层级队列、容量担保(为每个队列分配最小和最大资源)、弹性(一个队列空闲的资源可供其它队列使用)等功能,但是仍然不能满足具有显式资源预定需求的Job。这类Job一般由多个子Job构成,带有时间期限,并且对资源的需求随时间变化而变化,典型代表为gang scheduling和workflows。该特征期望在Capacity Scheduler上添加这个能力,这样就能使Resource Manager可以提前规划资源分配。该特征也是beta版本。


你可能感兴趣的:(Hadoop)