阿里云计算的ODPS从内部使用的工具变成了面向社会开放的大数据平台,开创了国内大数据公共服务的先河,降低了大数据在资金、人才和应用方面的门槛。
小型企业只要花费几百元就能进行海量数据分析,这是真的吗?阿里云计算的大数据平台ODPS可以让你梦想成真。
今年举行的阿里巴巴大数据竞赛,首次将ODPS和阿里的天池平台开放给参赛的大学生,这可以看成是ODPS商用的前奏。2014年1月,阿里云计算的ODPS服务开始公测。7月,ODSP正式开始商用。阿里云计算总裁王文彬认为,此举标志着中国的大数据已经进入公共服务的新时代。
大数据平台即开即用
云计算出现后,人们可以像使用水、电一样自由地取用IT资源。阿里云计算的ODPS就像是大数据时代的生产流水线,“水龙头”里流出的是用户想要的各类数据分析结果。阿里云计算公布的数据显示,ODPS可在6小时内处理100PB数据,这个数据量相当于1亿部高清电影。王文彬表示,目前全球范围内能够掌握这种技术能力的公司屈指可数,阿里云计算就是其中一家。
人们使用传统解决方案处理大数据,通常要耗巨资自建数据中心,还要请专业的技术人员负责系统维护和运作,而一旦数据总量超过一定界限,比如100TB,那么数据处理就有可能遇到瓶颈。开源的Hadoop虽然提升了大数据处理的效率、降低了成本,但用户自建一个Hadoop集群花费不菲,而且还需要专业的技术人才。王文彬认为,ODPS对于大数据的最大贡献在于,它以公共服务的方式让人们以更低的成本使用大数据平台和工具,从而大大降低了大数据的应用门槛。从公开资料看,ODPS目前采用的是按使用量收费的模式,定价是每GB 0.3元,即开即用,一个月内免费。根据大部分公司的数据使用量来测算,一般用户平均每月只需花费数百元就可以享受到ODPS的服务。
ODPS在对外商用之前,本来是阿里巴巴集团内部30多家公司自用的一个大数据平台。王文彬介绍说,阿里小贷最先将ODPS应用于商业领域,目前已有超过36万人从阿里小贷借款,最小贷款额仅为1元,并可实现3分钟申请、1秒放款、零人工干预。如果没有ODPS大数据平台,阿里小贷若想实现上述目标几乎是不可能的,因为阿里小贷每天处理的数据达30PB,包含店铺等级、收藏、评价等800亿个信息项,涉及100多个数据模型。
在阿里小贷成功地作了一次“小白鼠”后,阿里巴巴集团内部的多个公司纷纷开始尝试ODPS,其中包括淘宝、支付宝等阿里巴巴最核心的数据业务。在ODPS趋于成熟后,阿里云计算终于下定决心将自己的大数据处理能力对外开放,以大幅降低社会创新成本。除了阿里巴巴自身以外,华大基因、国内的一些药监部门等也在ODPS大数据平台上进行了测试。
目前,在国外,只有像Google、亚马逊等少数企业可以提供类似ODPS这样的公共大数据服务。在国内,ODPS公共大数据服务还属于开先河之作。王文彬也表示,阿里云计算有信心让ODPS变得比Google BigQuery更加强大,不仅支持更丰富的SQL语法,还将提供MapReduce编程模型和机器学习建模能力,服务更多的应用场景。
云与大数据相辅相成
回顾ODPS的发展,从2010到现在的5年时间里,阿里云计算的工程师们为ODPS贡献了250万行代码,ODPS经过不断打磨和历练,也从一个企业内部使用的大数据工具变成了可以服务于大众的成熟的大数据平台。
一开始,ODSP只是作为阿里云计算“飞天”平台的一个重要组成模块出现。“飞天”是阿里云计算于2009年开始研发的一款分布式系统软件,主要提供分布式存储和分布式计算的调度和编程框架。ODPS最开始被用于阿里巴巴集团内部的海量结构化数据的处理和分析。
2010年春节期间,ODPS的前身Sql Engine第一版正式上线,首个应用是支持阿里云金融的信用贷款和订单贷款业务,运行在30台机器的“飞天”集群系统之上。2012年第一季度,“冰火鸟”项目正式启动,研发团队在Data Engine和Moye之间做技术选择,并最终决定使用Moye作为ODPS产品的核心引擎。之后,历经8个月的开发,“冰火鸟”项目一期结束,阿里小贷和淘宝的数据仓库业务正式迁移到ODPS平台上,这标志着ODPS项目正式成形。
随着技术的不断成熟,目前,ODPS已经运行在由5000台服务器组成的集群系统之上,这种规模在业内也是少有的。
王文彬归纳了几条ODPS的产品优势。
第一,高速的海量运算唾手可得。用户不必再关心由于数据持续增加带来的存储规模、计算延迟等方面的挑战,ODPS可以根据用户的数据规模自动扩展集群的存储和计算能力,让用户专心于数据分析和挖掘,从而最大程度发挥数据的价值。
第二,ODPS服务即开即用。用户不必自己操心集群的配置和运维,仅需简单的几步操作就可以在ODPS中上传数据、分析数据并快速得到分析结果。
第三,数据存储安全有保障。ODPS采用三重备份、读写请求鉴权、应用沙箱、系统沙箱等多层次的数据存储和访问安全机制,可以保证用户数据不丢失、不泄露、不被窃取。
第四,实现多用户协作。通过配置不同的数据访问策略,企业用户的多名数据分析师可以协同工作,并且每人仅能访问自己权限许可范围内的数据,在保障数据安全的前提下提升工作效率。
第五,按使用量付费。ODPS可以根据用户实际使用的存储量和计算消耗收费,从而有效地降低数据使用成本。
云计算与大数据就像是一个硬币的正反两面。云计算实现了IT架构的变革,而大数据则改变了数据的使用方式,充分展现并挖掘出了数据的价值。“以前,IT可以简单地理解为是硬件加上软件。但是在云计算和大数据时代,IT就是云计算加数据。这对于IT来说是一次翻天覆地的变化。如今,今天再也不用采购IT硬件和软件,只要采用云服务即可。”王文彬告诉记者,“ODPS其实也是一种云服务,它将改变整个IT的使用模式、使用周期。ODPS让大数据可以以一种服务的方式呈现给大众。”
阿里云目前在北京、杭州、青岛、香港等多地拥有多个数据中心节点,这为大数据公共服务提供了有力支撑。阿里云目前直接或间接服务的客户将近一百万个。“大数据公共服务是大数据发展历程中的一个里程碑。无论企业规模大小,都有数据处理、分析和挖掘的需求,这是业务发展的必然选择。阿里巴巴自身已经验证过ODPS这个大数据平台,并且可以满足企业用户对大数据公共服务水平的要求。”王文彬强调说,“我们希望将大数据处理平民化,让大数据变成人人都可以使用的工具,而不仅仅是大公司的专利。”
ODSP需要一个生态系统
ODPS虽然以降低传统大数据处理的资金、人才门槛为己任,但是ODPS本身其实也有一定门槛。王文彬解释说:“ ODPS并不是每个人都可以使用的。就像是编程一样,ODPS只是一个计算平台,用户要通过它上面叠加的多种工具才能实现大数据的处理。我们之所以开放ODPS平台,也是希望能有更多的合作伙伴可以在ODPS平台上进行二次开发,为用户使用大数据提供便利。ODPS的成功要依靠一个庞大的生态圈。”
ODPS刚刚开始商业化,虽然现在已经有一些合作伙伴在做ODPS代运营的业务,并且开始在ODPS平台之上开放分析、报表工具等。但是要建设一个具有一定规模的生态体系还要花费一段时间。王文彬表示,阿里云计算准备用几个月的时间把这个生态体系的架构搭建好,吸引更多的合作伙伴加入进来。
大数据有很多分类方法,其中一种分类方式是按照大数据的属性将大数据分成商业大数据、互联网大数据、机器大数据等。ODPS是不是能够处理所有类型的数据呢?王文彬回应说:“作为一个在线大数据平台,ODPS更擅长处理结构化的数据或半结构化的数据,但不能处理非结构化的数据。不过,未来,我们会在非结构化数据的处理方面做更深层次的探索,这主要取决于用户的需求。”
目前,阿里集团大部分数据业务都运行在ODPS之上,包括阿里小贷、数据魔方、阿里妈妈广告联盟、广告搜索、点击预测模型训练、支付宝的所有业务、淘宝指数、阿里无线、高德、中信21cn等。基于ODPS,阿里云计算为第三方软件服务商和品牌商提供了大数据计算、挖掘、存储的云环境开发平台。通过阿里云的“御膳房”数据市场,数据消费者与数据提供者可以安全地交易、使用海量数据,实现数据价值。