Hadoop即服务提供商Qubole现在运行在Google Compute Engine上

Qubole是一家托管的Hadoop即服务提供商,用户现在能够在Google Compute Engine(GCE)上使用该服务了。在这之前Qubole只能在Amazon的AWS上使用,在Google宣布对公众开放GCE之后不久Qubole就宣布了这一消息。

社区对该消息的反映大部分都是积极的,人们好像认为大数据主题会成为GCE潜在的杀手级应用。来自于DataStax的Alex Popescu这样写道:

如果你仔细看看这些内容,那么你将会注意到这样一个主题:覆盖来自于任意角度的数据;使用DataStax的Cassandra/DSE处理OLTP,使用DataTorrent进行流处理,Qubole用于Hadoop,MapR用于Hadoop这样的解决方案。我能够看见这种情况持续了一段时间,同时正在让Google Compute Engine成为Amazon Web服务的一个强力竞争者。

Hadoop即服务(HaaS也被称为云端Hadoop)也带来了一些不同的选项:

  • 动摇你自己的部署,也就是在一个像GCE或者EC2这样的IaaS平台上安装Apache Hadoop或者一个分布式服务(例如Cloudera、Hortonworks、MapR)。这样能够对运行的服务进行细粒度的控制,但是也带来了部署和管理上的复杂性。
  • 预打包的服务,例如Amazon的EMR或者Savvis的大数据服务,该服务有助于降低部署复杂性并且为已安装的服务提供中层控制。
  • 托管的HaaS,例如Qubole和Mortar,有希望降低部署和管理的复杂性。

与本地部署相比HaaS的关键区别在于:弹性、现货定价、计算和存储之间的分离(例如像Amazon S3或者Google云存储这样的最终一致性对象存储)和增强的安全标准。像Qubole这样的托管HaaS服务往往用于开发场景,用于评估和测试、短暂运行的分析工作以及实现混合云设置。但是它们也有各自的一些限制:

  • 将数据放入云端同时再次将其从云端取出都有它们各自的价格标记。
  • 由于法律规定可能会涉及到隐私和数据保护问题,这可能会阻止或者限制用例。
  • 24/7操作的TCO必须在具体分析的基础上进行计算。
  • Hadoop、Hive等服务和最终一致性对象存储一般会存在不匹配的情况。

Ashish Thusoo和Joydeep Sen Sarma在Facebook工作期间丰富了自己运行Hadoop和Hive的经验,在那里他们管理着一个数据基础设施团队。然后,在2012年6月,他们创建了Qubole,并且在2013年4月获得了700万美元的A轮融资。Joydeep深入介绍了他们在实现自己的HaaS服务时所面对的挑战,同时在他的Hive London Meetup谈话“云友好的Hadoop和Hive”中还对内部原理做了讲解。另外,Christian Prokopp (Rangespan的数据科学家)最近还写了一个详细的纲要以及Qubole与EMR之间的对比。

查看英文原文:Hadoop-as-a-Service Provider Qubole Now Runs on Google Compute Engine

你可能感兴趣的:(Hadoop即服务提供商Qubole现在运行在Google Compute Engine上)