Facebook使用Corona提升Hadoop的可伸缩性

Facebook已经 开源了Corona,这是一款内部开发的用以改善Hadoop MapReduce调度的软件。

Corona将集群管理和作业跟踪这两个关键任务分开。这与 Apache YARN在概念上不谋而合,YARN也是MapReduce调度器和资源管理器的一个改进版本。Facebook的工程团队发表了一篇文章来 解释Corna及其背景。他们同时也解释了为什么没有采用YARN——

“值得注意的是,我们曾经考虑过将Apache YARN作为Corona的一种替代方案。然而,在调研了YARN在 我们的HDFS版本(由于我们海量的PB级数据存储而产生的强烈需求)上的使用情况后,我们发现了很多不兼容问题,修复的时间成本过高,而且存在风险。此外,YARN能否适应Facebook规模的负载也是个未知数。”

Facebook的Hadoop版本一个 主要不同是 AvatarNode,它会为集群中的每个结点创建一个热备份。这就创建了高可用的 NameNode,甚至允许非停机条件下进行软件升级。Facebook的数据仓库当前需要处理成百上千PB数据,而且每天还要新增0.5PB ,这对他们是非常关键的。

Corona当前能够运行MapReduce作业,但Facebook打算将其用于来自其他类型应用(比如 Peregrine)的调度作业。

Apache Hadoop是一组支持大规模分布式计算的项目集。读者可以参考InfoQ上的 Hadoop相关资源。

查看英文原文: Corona Improves Hadoop Scalability At Facebook

感谢 臧秀涛对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至 [email protected]。也欢迎大家通过新浪微博( @InfoQ)或者腾讯微博( @InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

相关厂商内容

Web开发国际权威专家Douglas Crockford,确认参加QCon北京2013大会

QCon全球软件开发大会2013(北京),18主题近百位讲师,11月26前6折优惠报名

百度技术沙龙第三十二期:讲讲地图开发那些事(11月17日 周六)

天地行讲师龚书专访——基于AS3显示列表的2d游戏渲染优化

2012RIA天地行•西南游戏开发者大会11月25日,火热报名中

相关赞助商

全球软件案例研究峰会:来自技术领域最值得借鉴的100个设计案例, 详情请点击!

您可能也会喜欢

你可能感兴趣的:(hadoop,Facebook,corona)