谷歌推出Dataproc,让Spark、Hadoop更便宜更快更简单

近日,谷歌发布了Google Cloud Dataproc服务Beta测试版。Cloud Dataproc是一个托管的Spark与Hadoop服务,可以帮助用户快速创建集群、简化集群管理及降低使用成本。借助该服务,用户无需考虑部署、扩展、监控等管理工作,可以将全部精力都集中到数据处理上。

与传统的本地产品或其它存在竞争关系的云服务相比,Cloud Dataproc有如下优势:

  • 成本低:Cloud Dataproc的定价为每颗虚拟CPU每小时1美分。它还可以包含可抢占实例,使使用成本进一步降低。另外,Cloud Dataproc按分钟计费,最小计费周期为10分钟。
  • 速度快:在本地或IaaS提供商那里创建Spark与Hadoop集群需要5到30分钟不等。相比之下,Cloud Dataproc启动、扩展和关闭都非常快,每个操作平均大约只需要90秒。
  • 一体化:Cloud Dataproc内置集成了其它谷歌云平台服务,如BigQuery、Cloud Storage、Cloud Bigtable、Cloud Logging和Cloud Monitoring。这相当于提供了一个完整的数据平台。
  • 托管:Cloud Dataproc使用户可以在没有系统管理员或专门软件的协助下就可以使用Spark与Hadoop集群。用户可以通过谷歌开发者控制台、Google Cloud SDK或Cloud Dataproc REST API管理集群和Spark或Hadoop任务。
  • 简单熟悉:用户不用为了使用Cloud Dataproc学习新的工具或API。现有的项目无需重新开发就可以迁移到Cloud Dataproc上。Spark、Hadoop、Pig及Hive都会经常更新。目前,Spark的版本为1.5,而Hadoop的版本为2.7.1。

总之,正如Cloud Dataproc项目经理James Malone所言:

Cloud Dataproc让你可以随时访问简单、快速但功能强大的、托管的Spark与Hadoop集群。

感兴趣的读者可以查看Cloud Dataproc官方网站,按照入门指南试用,或者在Stack Overflow上提问及反馈。

感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至[email protected]。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群InfoQ好读者)。

你可能感兴趣的:(谷歌推出Dataproc,让Spark、Hadoop更便宜更快更简单)