阿里云ODPS(现名MaxCompute,原名ODPS)介绍

什么是ODPS(一)

阿里云开放数据处理服务(Open Data Processing Service,简称ODPS) 是构建在飞天系统上的大规模分布式数据处理服务。

ODPS以REST API的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。在API之上,还提供SDK开发包和命令行工具,Aliyun.com上还有一个Web演示界面。

什么是ODPS(二)

与传统数据仓库工具相比ODPS有以下优势:
处理能力强大:后面提到的“应用案例一”和“应用案例二”和“应用案例五”的客户都曾经购买使用过传统数据仓库技术解决方案,但是都无法适应剧烈膨胀的数据规模。
成本低廉,伸缩灵活:由于云计算的业务特点,用户可以根据自己的实际需求租用相应的计算能力。同时节省昂贵的运营费用。后面提到的“应用案例四” 和“应用案例五”的 客户的支出,是与其网站业务量,以及产品线复杂程度一起增长的。

什么是ODPS(三)

与HIVE、Big Query相比ODPS有以下特点:
企业级特征:定制化ETL、窗口函数、存储过程、作业调度、M\R、UDF等。
项目支撑:项目空间和帐号授权机制(Project/ User/Role/ACL)。Quota和Priority的管理。
Web Service: RESTful API、多语言SDK、事件订阅。

ODPS与RDS、OTS的区别(一)

阿里云关系型数据库服务(Relational Database Service,简称RDS)是构建在弹性计算系统上的商用关系型数据库服务。
RDS适合较小数据规模的常规OLTP(online transactional processing)应用。如果用户的需求是把现有关系数据库服务(例如MySQL和SQL Server)迁移到云平台上, 主要重视兼容性,可以选择RDS。

ODPS与RDS、OTS的区别(二)

阿里云开放结构化数据服务(Open Table Service,简称OTS)是构建在飞天系统之上的海量结构化和半结构化数据存储与实时查询的服务。
OTS服务的特点是大规模、低延时、强一致,其适用场景是对数据规模和实时性要求高的应用。

ODPS与RDS、OTS的区别(三)

ODPS重点面向数据量大(TB级别)且实时性要求不高的OLAP(On-Line Analytical Processing),适用于构建数据仓库、海量数据统计、数据挖掘、数据商业智能等应 用。
OTS和ODPS可以配合使用,前者支撑大规模并发的日常访问(例如铁路售票前台系统),然后每隔24小时就把交易数据推入ODPS支撑的数据仓库,利用后者进行进一步 的业务分析。

在线计算与离线计算

在线计算(Online)
数据稀疏,一般情况半结构化
存取少量数据(单条或一个range)
响应实时,低延迟
每天响应请求次数达数千万
7*24小时服务
离线计算(Offline)
数据稠密,对数据结构化无要求
一经存储,不会改变
批量作业处理,几十分钟/作业,甚至数天
每天扫描数据可达数千亿条

在线计算的技术特点

注重随机存取性能
注重取值区间(Range) 的性能
文件块(Block)容量较小
索引(Index)较多,主键(Key)不易太大
需要一个主节点控制
各节点需要有守护进程
各节点内存占用较多


离线计算的技术特点

注重顺序存取性能
尽量减少不必扫描的数据,减少I/O
文件块(Block)一般较大
可以不用或少量索引(Index)
需要作业调度
除了像join这种操作,否则内存占用量不高

系统模型

帐号(Account)
项目(Project )
表( Table )
查询( Query )和查询任务(Query Task)
导入导出任务(Import/ Export Task )
MapReduce任务(M/R Task)
UDF任务(UDF Task)
作业(Job)和作业实例(Job Instance)

实例:用ODPS干什么?

网聚宝得到御泥坊的授权,通过淘宝API获取其客户、商品和订单的数据。
客户的商务分析人员登录网聚宝的平台,进行数据查询分析。

网站运营中一个简单的例子:
筛选出最近六个月累计购买三次或以上的客户,且该客户购买过商品A,但是尚未购买过商品B或C,同时客户留的联系方式是QQ邮箱。

比较大的淘宝卖家,每月有上百万条数据记录。
普通的关系型数据库(例如MYSQL),其性能无法支撑前面这个运营需求例子里的复杂条件的联合查询。

OTS不支持复杂逻辑多表联查。

也就是说,RDS、OTS均无法满足需求。而ODPS很适合这个场景。


回过头来总结业务特点

ODPS是开发数据仓库的平台工具。
数据仓库的传统市场是电信和银行,传统解决方案很昂贵。
互联网运营团队越来越依赖于大数据分析工具。
云计算是技术创新也是业务创新。
对于网络行业,业务数据天然在网上,导入ODPS更容易。
对于传统行业,前期可能需要VM、RDS和OTS等兄弟产品开路,逐步引导用户使用ODPS。







你可能感兴趣的:(大数据)