Amazon在 Hadoop 2010峰会上带来 Elastic MapReduce更新

Amazon Elastic MapReduce(EMR)的总经理Peter Sirota在2010年的Hadoop峰会 上作了主题演讲,介绍了一个由Amazon托管的Hadoop服务,并且还包括了基于web管理工具。Sirota指出了如下一些来自客户的常见的用例:

  • 数据挖掘与商业智能,包括日志处理,点击流分析,相似性分析,精准广告投放(他认为这一用例比重非常大)。
  • 数据仓库,特别是使用Pig和Hive。
  • 生物信息技术(基因分析)。
  • 金融模拟(例如,蒙特卡洛模拟)。
  • 文件处理(例如,jpeg大小改修)。
  • web索引。

Sirota谈到,用户可以在Amazon的S3存储系统中存储以百计的PB级的数据。他宣称Amazon已经提供支持基于Hadoop 0.20的新的软件栈,同时基于Hadoop 0.18的设施“也不会这么快退休”。Amazon的EMR软件与管理控制台相集成,并且能原生支持Amazon的S3云存储设施。

新软件栈
旧软件栈
Hadoop 0.20 Hadoop 0.18
Pig 0.6 Pig 0.3
Hive 0.5 Hive 0.4
Cascading 1.1 Cascading 1.1

Sirota注意到,客户要求更高的集群灵活性,更好的应用开发工具,更好的分析能力和更多的支持选择。接下来他公告了新功能和在各个领域的合作。 Sirota表示,他们支持用户在运行的集群中增加和移除节点,这能够调整运行时的任务——将计算能力加倍能够将原来需要6小时完成的任务减小到3小时完成。他同时指出能够支持用户方便的更改集群的大小,可以使用较小的节点集合来使用Hive处理查询,用较大的节点集合来进行更新Hadoop系统的批处理过程,与此同时保证EMR集群正常的运行。

Sirota还预告了即将推出的elastic mapreduce的即期价格(spot pricing),这是超出EC2计量而使用EMR的Amazon市场价格的延伸。它允许竞拍一定量的附加节点。如果在该出价下还有可获得的容量,那么节点就会被加入到EMR集群,尽管在市场价超过该竞拍价时这些节点会被移去。他给出了一个使用四个随需节点,并加入第五个附加节点的任务作为例子。这一选项可以为计算环境节省成本,而对于计算完成的速度又提供了很大的灵活性。

Sirota同时还宣布了EMR新的银牌和金牌支持服务级别,金牌支持包括7x24以及紧急情况下1小时的响应时间。Sirota接着介绍了Amazon的合作伙伴,与Karmasphere在开发工具和监控方展开合作,Datameer提供商业用户分析的合作,Microstrategy提供总体的Hadoop支持服务,包括EMR支持,以及通过Hive与他们的商业智能工具集成。

Amazon在Hadoop峰会上召开了一个Elastic MapReduce的客户座谈会,专门介绍了来自Razorfish,Netflix ,Spiral Genetic以及Coldlight Solutions的案例, James Hamilton的博文对此作了总结。

Amazon表明了其对于提升Elastic MapReduce有着显著的持续投入,并对于使用托管服务搭建的大规模应用给出了一些有趣的见解。

查看英文原文:Amazon Elastic MapReduce Updates from Hadoop Summit 2010

你可能感兴趣的:(Amazon在 Hadoop 2010峰会上带来 Elastic MapReduce更新)