漫谈阿里那些大数据技术,大数据学习者必看

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。

漫谈阿里那些大数据技术,大数据学习者必看_第1张图片

  一,DT时代

  大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策。比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率。 这是在特定的环境,特定的时间下,对数据做一些商业化的尝试,还算不上真正的大数据。

  我们再看国内大数据的领导者——阿里巴巴,早在2010年就在开始谈大数据战略,同年,Maxcompute(原ODPS)开始布局,蚂蚁小贷开始创业 。

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,让大家了解到目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!
 

  2012年,阿里设立了CDO这个岗位以及成立CDO事业部,全面负责阿里集团的“数据分享平台”的大数据战略。同年,一本《大数据时代》也开始在国内外畅销,国内大数据时代拉开序幕。

  2014年,马云再次提出,“人类正从IT时代走向DT时代”,人类已经从IT时代走向DT时代,IT时代是以自我控制、自我管理为主,而DT(Datatechnology)时代,它是以服务大众、激发生产力为主的技术。这两者之间看起来似乎是一种技术的差异,但实际上是思想观念层面的差异。

  讲了这么多,那大数据是什么呢?我们先看看大数据不是什么。

  大数据不是什么?

  1,大数据≠拥有数据

  很多人觉得拥有数据,特别是拥有大量的数据,这就是大数据了,这个是肯定不对的,数据量大不是大数据,比如气象数据很大,如果仅仅用于气象预测,只要计算能力跟上就行,还远远没有发挥它的价值。但是保险公司根据气象大数据,来预测自然灾害以及调整与自然灾害相关的保险费率,它就演化出其它的商业价值,形成了大数据的商业环境。所以,大数据要使用,甚至关联,交换才能产生真正价值,形成DT时代特有的大数据商业。

  2,大数据≠报表平台,

  有很多企业,建立了自己业务的报表中心,或者是大屏展示中心,就马上宣布他们已经实现了大数据,这是远远不够的。报表虽然也是大数据的一种体现,但是真正的大数据业务,不是生成报表靠人来指挥,那是披着大数据外表的报表系统而已。在大数据闭环系统中,万物都是数据产生者,也是数据使用者,他们通过自动化,智能化的闭环系统,自动学习,智能调整,从而提升整体的生产效率。

  3,大数据≠计算平台

  之前看过一个报道,说某某金融机构建立了自己的大数据系统,后来仔细一看,就是搭建了一个几百台机器的Hadoop集群而已。大数据计算平台,是大数据应用的技术基础,是大数据闭环中非常重要的一环,也是不可缺少的一环,但是,不能说有了计算平台就有了大数据。比如我买了锅,不能说我已经有了菜,从锅到菜还缺原料(数据),刀具(加工工具),厨师(数据加工)才能最终做出菜来。

  4,大数据≠精准营销

  见过很多创业公司在做大数据创业,仔细一看,人家做的是基于大数据的推荐引擎、广告定投等等。这是大数据吗?他们做的是大数据的一种应用,可以说已经是大数据的一种了。只是大数据整个生态,不能通过这一种就来表达而已。正如大象的耳朵是大象的一部分,但是,它不能代表大象。

  那大数据到底是什么?

  简单讲,大数据需要有大量能互相连接的的数据(不管是自己的,还是购买,交换别人的),他们在一个大数据计算平台(或者是能互通的各个数据节点上),有相同的数据标准能正确的关联(如ETL,数据标准),通过大数据相关处理技术(如算法,引擎,机器学习),形成自动化、智能化的大数据产品或者业务,进而形成大数据采集,反馈的闭环,自动智能的指导人类的活动,工业制造,社会发展等。

  数据正在金融,广告,零售,物流,影视等行业,悄悄地改变我们的生活。随着手机的更大规模的普及,还是日新月异的可穿戴设备、智能家居、甚至无人驾驶汽车,都在提醒我们,以互联网(或者物联网)、云计算、大数据为代表的这场技术革命正引领人类社会加速进入农业时代、工业时代之后的一个新的发展阶段 -- 数据时代(DT时代)。

  前两个时代分别以土地、资本为生产要素,而正在我们面前开启的数据时代,正如其名,数据将成为最核心的生产要素。

  在未来,数据将成为商业竞争最重要的资源,谁能更好的使用了大数据,谁将领导下一代商业潮流。所谓无数据,不智能;无智能,不商业。下一代的商业模式就是基于数据智能的全新模式,虽然才开始萌芽,虽然才几个有限的案例,但是,其巨大的潜力与力量,已经被人们认识到。

  在下一代的革命中,不管是工业4.0(中国叫中国制造2025),还是物联网(甚至是一个全新的协议与标准),随着数据科学与云计算能力(甚至是基于区块链的分布式计算技术),唯独数据是所有系统的核心。万物互联,万物数据化之后,基于数据的个性化、智能化将是一次全新的革命,将超越100多年前开始的自动化生产线的工业3.0,给人类社会整体的生产力提升带来一次根本性地突破,实现从0到1的巨大变化。

  正是在这个意义上,这是一场商业模式的范式革命。商业的未来、知识的未来、文明的未来,它们本质上就是人的未来。而基于数据智能的智能商业,就是这未来的起点。

  二,数据来源

  大数据的第一要务就是需要有数据,否则,何来“数据是DT时代的第一生产要素”。

  数据来源于哪里,哪里会产生数据?

  数据无处不在,人类自从发明文字开始,就开始记录各种数据,只是保存的介质一般是书本,而且难以分析、加工。随着计算机与存储技术的快速发展,以及万物数字化的过程(音频数字化,图形数字化等),出现了数据的爆发,而且数据爆发的趋势,随着万物互联的物联网技术的发展,会越来越迅速。同时,对数据的存储技术,处理技术的要求也会越来越高。

  据IDC出版的数字世界研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB。而到2020年,数据量将增长10倍,达到44ZB。大数据已经成为当下人类最宝贵的财富,怎样合理有效的运用这些数据,发挥这些数据应有的作用,这是大数据将要做到的。

  早期的企业也比较简单,关系型数据库中存储的数据,往往是他们全部的数据来源,这个时候他们对应的大数据技术,也就是传统的OLAP数据仓库解决方案。因为关系型数据库中基本上是他们的所有数据,往往大数据技术也比较简单,直接从关系型数据库中获得统计数据,或者最多建一个统一的OLAP数据仓库中心。

  通过淘宝的历史来看,早期的数仓数据基本来源于主业务的OLTP数据库,数据不外乎用户信息(通过注册、认证获取),商品信息(通过卖家上传获得),交易数据(通过买卖行为获得),收藏数据(通过用户的收藏行为获得)。从公司的业务层面来看,关注的也就是这些数据的统计,比如总用户数,活跃用户数,交易笔数、金额(可钻取到类目,省份等),支付宝笔数、金额等等。因为这个时候没有营销系统,没有广告系统,公司也只关注用户,商品,交易的相关数据,这些数据的统计加工,就是当时淘宝大数据的全部。

  但是,随着业务的发展,比如个性化推荐,广告投放系统的出现,会需要更多的数据来做支撑,而数据库的用户数据,除了收藏,购物车是用户行为的体现,但是,用户的其它行为,如浏览数据,搜索行为等,这个时候是完全不知道的。

  这里就需要引进另外一个数据来源,日志数据,记录了用户的行为数据,可以通过cookie的技术,只要用户登录过一次,就能跟真实的用户取得关联。比如通过获取用户的浏览行为,购买行为,进而可以给用户推荐他可能感兴趣的商品,看了又看,买了又买就是基于这些最基础的用户行为数据做的推荐算法。这些行为数据还可以用来分析用户的浏览路径,浏览时长,这些数据是用来改进相关淘宝产品的重要依据。

  2009年,无线互联网飞速发展,随着基于native技术的App大规模的出现,用传统日志方式获取无线用户行为数据已经不再可能,这个时候也涌现了一批新的无线数据采集分析工具,比如友盟,Talkingdata,淘宝内部的无线数读等等,通过内置的SDK,他们可以统计到native上的用户行为数据。

  数据是统计到了,但是,新的问题也诞生了,比如我在PC上的用户行为,怎么对应到无线上的用户行为,这个是脱节的,因为PC是PC上的标准,无线又采用了无线的标准,如果有一个统一的用户库,比如不管是登录名,邮箱,身份证号码,手机号,imei地址,mac地址等等,来唯一标识一个用户,不管是哪里产生的数据,只要是第一次关联上来,后来就能对应上。

  这就涉及到了一个重要的话题 -- 数据标准,数据标准不仅仅是解决企业内部数据关联的问题,比如一个好的用户库,可以解决未来大数据关联上的很多问题,假定公安的数据想跟医院的数据进行关联打通,发挥更大的价值。但是,公安标识用户的是身份证,而医院标识用户的数据则是手机号码,有了统一的用户库,就可以通过idmapping技术简单的把双方的数据进行关联。

  数据的标准不仅仅是企业内部进行数据关联非常重要,跨组织,跨企业进行数据关联也非常重要,而业界有能力建立类似用户库等数据标准的公司并不多,阿里巴巴就是其中之一。

  大数据发展到后期,当然是数据越多越好,企业内部的数据已经不能满足公司的需要,比如还是淘宝,想要对用户进行一个完整的画像分析,比如想获得用户的实时地位位置,爱好,星座,消费水平,开什么样的车等等,用于精准营销。淘宝自身的数据是不够的,这个时候,很多企业就会去购买一些数据(有些企业也会自己去爬取一些信息,这个相对简单一点),比如阿里购买高德,友盟,又另外采购微博的相关数据,用于用户的标签加工,获得更精准的用户画像。

  但是,数据交易并没有这么简单。因为数据交易涉及到几个非常大的问题:

  1)是怎么保护用户隐私信息

  欧盟已经出台了苛刻的数据保护条例,美国也对出售客户数据的运营商施以重罚,还处在萌芽状态的中国大数据行业,怎么确保用户隐私信息不被泄漏呢?对于一些非隐私信息,比如地理数据,气象数据,地图数据进行开放、交易、分析是非常有价值的,但是一旦涉及到用户的隐私数据,特别是单个人的隐私数据,就会涉及到道德与法律的风险。

  数据交易之前的脱敏或许是一种解决办法,但是,并不能完全解决这个问题,因此,阿里也提出了另外一种解决思路,基于平台担保的“可用不可见”技术。比如阿里云作为交易平台,跟支付宝一样是一个中间担保机构,双方的数据上传到阿里云大数据交易平台,双方可以使用对方的数据,以获得特定的结果,比如通过上传一些算法,模型而获得结果,双方都不能看到对方的任何详细数据。

  2)是数据的所有者问题

  数据作为一种生产资料,跟农业时期的土地,工业时期的资本不一样,使用之后并不会消失,如果作为数据的购买者,这个数据的所有者到底是谁?怎么确保数据的购买者不会再次售卖这些数据?或者购买者加工了这些数据之后,加工之后的数据所有者是谁?

  3)是数据使用的合法性问题

  大数据营销中,目前用得最多的就是精准营销。数据交易中,最值钱的也是个人数据。我们日常分析中做的客户画像,目的就是给海量客户分群、打标签,然后针对性地开展定向营销和服务。然而如果利用用户的个人信息(比如年龄、性别、职业等)进行营销,必须事先征得用户的同意,才能向用户发送广告信息呢,还是可以直接使用?

  所以,数据的交易与关联使用,就必须解决数据标准,立法以及监管的问题,在未来的时间里,不排除有专门的法律,甚至专业的监管机构,如成立数监会来监管数据的交易与使用问题。如果真的到了这一天,那也是好事,数据要流通起来才会发挥更大的价值,如果每个企业都只有自己的数据,就算消除了企业内部的信息孤岛,还有企业外部的信息孤岛。

  如果能合理,合适的使用多方数据,就会发生所谓“羊毛出在猪身上”的事情,比如阿里小贷,使用的是B2B以及淘宝的数据。这样情况下,对猪(B2B,淘宝来)说,这是一种商业场景中的海量数据的溢出效应,而对羊(蚂蚁小贷)来说,是在较低的成本下、不同维度的数据集合后,发生化学反应的价值跃升的过程,这是大数据时代智能商业的典型特征。

  这才是大数据的价值,正是我们正在迎来的这个新时代以“数据”命名的理由。

  阿里大数据发展历程

 

 

  三,数据技术

  大数据技术,个人认为可以分成两个大的层面,大数据平台技术与大数据应用技术。

  要使用大数据,你先必须有计算能力,大数据平台技术包括了数据的采集,存储,流转,加工所需要的底层技术,如hadoop生态圈,数加生态圈。

  数据的应用技术是指对数据进行加工,把数据转化成商业价值的技术,如算法,以及由算法衍生出来的模型,引擎,接口,产品等等。这些数据加工的底层平台,包括平台层的工具,以及平台上运行的算法,也可以沉淀到一个大数据的生态市场中,避免重复的研发,大大的提高大数据的处理效率。

  大数据首先需要有数据,数据首先要解决采集与存储的问题,数据采集与存储技术,随着数据量的爆发与大数据业务的飞速发展,也是在不停的进化过程中。

  在大数据的早期,或者很多企业的发展初期,是只有关系型数据库用来存储核心业务数据,就算数据仓库,也是集中型OLAP关系型数据库。比如很多企业,包括淘宝早期,就用Oracle作为数据仓库来存储数据,当时建立了亚洲最大的Oracle RAC作为数据仓库,按当时的规模来说,可以处理10T以下的数据规模 。

  一旦出现独立的数据仓库,就会涉及到ETL,如数据的抽取,数据清洗,数据校验,数据导入甚至数据安全脱敏。如果数据来源仅仅是业务数据库,ETL还不会很复杂,如果数据的来源是多方的,比如日志数据,APP数据,爬虫数据,购买的数据,整合的数据等等,ETL就会变得很复杂,数据清洗与校验的任务就会变得很重要。

  这时的ETL必须配合数据标准来实施,如果没有数据标准的ETL,可能会导致数据仓库中的数据都是不准确的,错误的大数据就会导致上层数据应用,数据产品的结果都是错误的。错误的大数据结论,还不如没有大数据。由此可见,数据标准与ETL中的数据清洗,数据校验是非常的重要。

  最后,随着数据的来源变多,数据的使用者变多,整个大数据流转就变成了一个非常复杂的网状拓扑结构,每个人都在导入数据,清洗数据,同时每个人也都在使用数据,但是,谁都不相信对方导入,清洗的数据,就会导致重复数据越来越多,数据任务也越来越多,任务的关系越来越复杂。要解决这样的问题,必须引入数据管理,也就是针对大数据的管理。比如元数据标准,公共数据服务层(可信数据层),数据使用信息披露等等。

  随着数据量的继续增长,集中式的关系型OLAP数仓已经不能解决企业的问题,这个时候出现了基于MPP的专业级的数据仓库处理软件 ,如GreenPlum。greenplum采用了MPP方式处理数据,可以处理的数据更多,更快,但是本质上还是数据库的技术。Greenplum支持100台机器规模左右,可以处理PB级别数据量。Greenplum产品是基于流行的PostgreSQL之上开发,几乎所有的PostgreSQL客户端工具及PostgreSQL应用都能运行在Greenplum平台上,在Internet上有着丰富的PostgreSQL资源供用户参考。

  随着数据量的继续增加,比如阿里每天需要处理100PB以上数据,每天有100万以上的大数据任务。以上的解决方案发现都没有办法来解决了,这个时候,就出现了一些更大的基于M/R分布式的解决方案,如大数据技术生态体系中的Hadoop,Spark和Storm。他们是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。以及阿里云推出的数加,它也包括了大数据计算服务MaxCompute(前ODPS),关系型数据库ADS(类似Impala),以及基于Java的Storm系统JStorm(前Galaxy)。

  我们看看大数据技术生态中的不同解决方案,也对比看看阿里云数加的解决方案,最后我也会单独介绍数加。

  1、大数据生态技术体系

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop作为一个基础框架,上面也可以承载很多其它东西,比如Hive,不想用程序语言开发MapReduce的人,熟悉SQL的人可以使用Hive开离线的进行数据处理与分析工作。比如HBase,作为面向列的数据库运行在HDFS之上,HDFS缺乏随即读写操作,HBase正是为此而出现,HBase是一个分布式的、面向列的开源数据库。

  Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。Spark可以通过YARN(另一种资源协调者)在Hadoop集群中运行,但是现在的Spark也在往生态走,希望能够上下游通吃,一套技术栈解决大家多种需求。比如Spark Shark,是为了VS hadoop Hive,Spark Streaming是为了VS Storm。

  Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。Storm擅长处理实时流式。比如日志,比如网站购物的点击流,是源源不断、按顺序的、没有终结的,所以通过Kafka等消息队列来了数据后,Storm就一边开始工作。Storm自己不收集数据也不存储数据,随来随处理随输出结果。

  其上的模块只是大规模分布式计算底层的通用框架,通常也用计算引擎来描述他们。

  除了计算引擎,想要做数据的加工应用,我们还需要一些平台工具,如开发IDE,作业调度系统,数据同步工具,BI模块,数据管理,监控报警等等,他们与计算引擎一起,构成大数据的基础平台。

  在这个平台上,我们就可以基于数据做大数据的加工应用,开发数据应用产品了。

  比如一个餐厅,为了做中餐,西餐,日料,西班牙菜,它必须食材(数据),配合不同的厨具(大数据底层计算引擎),加上不同的佐料(加工工具)才能做出做出不同类型的菜系;但是为了接待大批量的客人,他必须配备更大的厨房空间,更强的厨具,更多的厨师(分布式);做的菜到底好吃不好吃,这又得看厨师的水平(大数据加工,应用能力)。

  2、阿里大数据体系

  我们先看一下阿里的计算引擎三件套。

  阿里云最早先使用Hadoop解决方案,并且成功的把Hadoop单集群规模扩展到5000台规模。2010年起,阿里云开始独立研发了类似Hadoop的分布式计算平台Maxcompute平台(前ODPS),目前单集群规模过万台,并支持多集群联合计算,可以在6个小时内处理完100PB的数据量,相当于一亿部高清电影。

  分析型数据库服务ADS(AnalyticDB) ,是一套RT-OLAP(Realtime OLAP,实时 OLAP)系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用 SQL进行自由灵活的计算分析,无需预先建模;而利用分布式计算技术,ADS可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能,真正实现百亿数据毫秒级计算。ADS是采用搜索+数据库技术的数据高度预分布类MPP架构,初始成本相对比较高,但是查询速度极快,高并发。而类似的产品Impala,采用Dremel数据结构的低预分布MPP架构,初始化成本相对比较低,并发与响应速度也相当慢一些。

  流计算产品(前Galaxy),可以针对大规模流动数据在不断变化运动过程中实时的进行分析 ,是阿里巴巴开源的基于Storm采用Java重写的一套分布式实时流计算框架,也叫JStorm,对比产品是Storm或者是Spark Streaming。最近阿里云会开始公测stream sql,通过sql 的方式来实现实时的流式计算,降低了使用流式计算技术的使用门槛。

  除了计算引擎部分,整个阿里大数据技术生态,我在数加的文章中再详细介绍。

  未来的大数据底层技术又将会怎么发展呢,个人觉得,会有如下两个要点发展:

  1、数据处理云端化与生态化

  数据未来一定是互联互通才有价值,目前的私有云大数据解决方案是一个过渡阶段,未来大数据需要的是更大型,更专业的平台。这里才可以实现整个大数据的生态体系(后面的文章会介绍到)。包括了数据本身的交易市场(大数据交易平台),以及加工数据的工具,算法(或基于算法的引擎,接口,产品)的交易市场,类似目前的App Store。

  数据生态是一个非常大的市场。

  2、云端数仓一体化

  未来很多企业将受益于云端数据库/数据仓库一体化的解决方案中,从现在的技术看来,大数据平台越来越具备实时的能力;在线的业务数据

  库越来越具备分布式计算的能力。当这些能力整合,统一的时候,在线/离线的界限又将变得不再清晰,整个数据技术体系又会回到当初的数据库/数据仓库一体化。

  四,数据应用

  讲了这么多的大数据相关定义与相关技术了,那大数据怎么转变为商业价值呢,这又是一个大的话题。阿里在大数据的应用上,最早的提出了存、通、用三个概念,而现在大数据应用更多是在谈数据反馈闭环。根据数据反馈闭环,我们又把数据使用分成如下几个层面来描述:

  一、数据化

  所谓存,其实就是大数据的采集与存储,必须先有数据,其实前几篇已经介绍过了。很多时候,如果我们连数据都没有,大数据只能是空中楼阁。所以,一个想要做大数据的企业,必须先想办法拥有数据,或者采集、爬取、购买数据。

  关于通,前面也讲过了,主要是两个层面的问题:

  其一是指数据的互通,比如一个企业内部存在很多信息孤岛,信息孤岛之间必须打通,形成统一的大数据平台。关于通,最好的办法其实就是企业建立一个统一的大数据平台,不管这个大数据平台是基于私有云(如Hadoop生态的解决方案),还是基于公共云(如阿里云数加的解决方案),当所有的数据上传到这个大数据平台,数据天然就打通了。

  其二是数据的标准,如果想让不同的数据源可以相互关联,形成更大的效应,就跟我在上文讲到的一样,就得有数据标准。如上文所言,数据标准不仅仅可以指导ETL过程中的数据清洗,数据校验,好的数据标准还可以使得无线的数据跟PC的数据相互关联互通,甚至企业之间的数据关联互通。

  这些过程,我们可以把它叫做数据化的过程,也就是大数据的基本要素 -- 数据的形成。

  二、算法

  用,就是大数据的加工使用,指采用数据科技的相关技术,对大数据进行加工,分析,并最终创造商业价值的过程。这个过程中,最核心就是算法。我们提到算法时,往往也会谈到引擎,仅仅提引擎一词,更多想到的可能是汽车的发动机。汽车引擎不管多复杂,其实输入输出是很简单的,需要的是汽油+空气,输出动力(汽油的能量)。大数据的引擎可能是一组算法的封装,数据就是输入的汽油,通过引擎的转换,输出数据中的能量,提供给更上层的数据产品或者服务,从而产生商业价值。

  算法也是“机器学习”的核心,机器学习又是”人工智能“的核心,是使计算机具有智能的根本途径。在过去十年,机器学习促成了无人驾驶车、高效语音识别、精确网络搜索及人类基因组认知的大力发展。

  如果你不去利用数据,世界上的数据就不会有用。算法其实指的是如何在业务过程中有效拓展人为管理,利用数据。

  从根本上来说,数据是不会说话的,只有数据没有任何价值。如果拥有大量的数据,而不知道怎么使用 ,阿里曾经做过一个比喻,“坐在金山上啃馒头”。大数据真正的价值在算法,算法决定行动。在不远的未来,“所有业务都将成为算法业务”,算法才是真正价值所在,世界上所有大规模的东西都将被数据和算法所管理。

  DT时代的智能商业对算法提出了全新的要求:算法的迭代方向、参数工程等等,都必须与商业逻辑、机制设计、甚至是价值观取向融合为一。当算法迭代优化时,决定其方向的不仅是数据和机器本身的特性,更包含了我们对商业本质的理解、对人性的洞察和创造未来商业新样貌的理想。 这就是我们称算法为智能商业的“引擎”而非“工具”的关键理由,它是智能的核心。 基于数据和算法,完成“机器学习”,实现“人工智能”。

  三、数据产品(或数据应用)

  把用户,数据和算法巧妙地连接起来的,是数据产品(或数据应用),这也是互联网时代特别强调产品重要性的根本原因。因此,智能商业的成功,最关键的一步往往是一个极富想象力的创新产品,针对某个用户问题,定义了全新的用户体验方式,同时启动了数据智能的引擎,持续提升用户体验。

  智能化数据产品的要求是非常高的,不仅仅是与最终用户形成个性化,智能化的交互,有完好的用户体验与突破的技术创新之外,最重要的,同时需要再次记录数据,使得用户反馈的闭环得以发生。

  整个过程是自动的、智能的、可学习提升的,它是大数据时代的灵魂,是智能商业的根基。智能商业的核心特征就是能主动地了解用户,通过学习不断提升用户体验。智能商业的成功,最关键的一步往往是一个极富想象力的创新产品,针对某个用户问题,定义了全新的用户体验方式,同时启动了数据智能的引擎,持续提升用户体验。智能模块和学习功能将成为应用的大脑

  比如蚂蚁小贷,通过数据和产品的紧密融合,基于算法的数据智能实时发挥作用,最终能实现秒级放贷,这个是传统的金融服务没法想象的。同时,获贷后的用户产生的数据,又被源源不断的采集起来,作为未来更多判断的基础。

  再比如搜索系统,用户的任何一次点击行为,都被实时记录并反馈到智能化的算法引擎,不仅优化了你的搜索结果,而且优化了任何搜索这个关键词的人得到的搜索结果。

  这样的智能商业,才是对传统商业的颠覆,才是真正的“降维”攻击,胜者一骑绝尘。

  四、反馈闭环

  上面已经谈到自动化、智能化、可学习提升的反馈闭环,闭环的形成决定了智能化商业的形成,但是,闭环的效率决定了大数据的使用效率。所以说,一个好的大数据产品,不仅仅是有用户反馈闭环,而且需要一个高效的用户反馈闭环。

 

 

  用户行为通过产品实时反馈到数据平台,通过数据智能算法,优化结果又通过数据产品实时提升用户体验,在这样的反馈闭环中,数据既是高速流动的介质,又持续增值;算法既是推动反馈闭环运转的引擎,又持续优化;产品既是反馈闭环的载体,又持续改进功能,在为用户提供更赞的产品体验的同时,也促使数据反馈更低成本、更高效率地发生。

  五,数据生态

  DT时代将催化出大数据生态。DT时代的数据生态,我从如下两个方面来定义:

  一、数据交换/交易市场

  智能商业的基石就是数据,作为智能商业的第一要务,数据是最重要的。

  数据作为生产资料,大数据时代的血液,好比汽车的汽油,没有汽油,再精美高端的汽车也无法运转。而数据的来源往往是多方面的,未来一个企业所用到的数据往往不仅仅是自身的数据,甚至是多个渠道交换、整合、购买过来的数据。对于“羊毛出在猪身上”的大数据商业形态,数据一定是流动的,数据只有整合关联,才能发挥更大的价值。

  但是数据要实现交换,交易,正如我上文所言,我们最终所必须解决的是法律法规,数据标准等一系列问题。

  二、算法经济/生态

  Gartner分析认为,算法将形成一个全球性的交易市场,就像当年的App,催生出全新一代的专业技术初创企业,并且革新机器与机器之间的交互方式。

  同时,更多的数据将生成更好的模型和用户体验,进而吸引更多的用户以及更多的数据,而这将导致储存和计算数据的成本持续降低。

  Gartner曾发表报告,对算法经济可能带来的市场影响做出评估。

  Gartner认为,无可避免地,算法经济将创造一个全新的市场。人们可以对各种算法进行买卖,为当下的公司汇聚大量的额外收入,并催生出全新一代的专业技术初创企业。

  想象这样一个市场:数十亿的算法都是可以买卖的,每一个算法代表的是一种软件代码,能解决一个或多个技术难题,或者从物联网的指数级增长中创造一个新的机会。

  算法是创造智能应用的基石,是大数据的核心价值。

  也就是说,多个机器学习算法可以结合起来成为更强大的算法,从而更好地分析数据,充分挖掘数据里的价值。

  在算法经济中,前沿的技术项目,无论是先进的智能助理,还是能够自动计算库存的无人机,最终都将落实成为实实在在的代码,供人们交易和使用。

  广义的算法存在于大数据的整个闭环之中,从大数据平台、ETL(数据采集,数据清洗,数据脱敏等)、数据加工、数据产品等的每一个层面都会有算法支持。算法可以直接交易,也可以包装成产品、工具、服务,甚至平台来交易,最终形成大数据生态中的一个重要组成部分。

  甚至有人认为好的算法能够摆脱很多公司对大数据的过度依赖。尽管数据在DT时代可能是最昂贵的生产资料,但若算法足够强大,大数据并非必须。如迁移学习能让计算机摆脱对大数据的严重依赖,从而让人工智能不再只是“富人的游戏”。

  正如App经济变革了人类与机器的交互方式一样,我们将会看到,算法经济将会促进下一代机器对机器互动演进的巨大飞跃。

  人们将会通过产品使用的算法来评价它的性能好坏。企业的竞争力也不仅仅在于大数据,还要有能够把数据转换为实际应用的算法。因此,CEO应该关注公司有产权的算法,而不仅仅是大数据。

  正在涌现的机器智能平台可凭借“模型作为服务”的方式,托管预训练过的机器学习模型,从而令企业能够更容易地开启机器学习,快速将其应用从原型转化成产品。当企业们采用了微服务(microservice)发展范式后,接入并使用不同的机器学习模型和服务以提供特定功能的能力将变得越来越有价值。

  所有的这一切,最终也离不开云计算,数据平台天然就是基于云计算来实现。而数据交换,算法交易则需要一个商店,云端就是目前最好的商店。不管是数据的互通,还是基于云端预训练、托管的机器学习模型,将促使每个公司的数据产品都能大规模地利用算法智能。

  六,数加平台

  2016年1月20日,阿里云在2016云栖大会上海峰会上宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”。

  这一平台承载了阿里云“普惠大数据”的理想,即让全球任何一个企业、个人都能用上大数据。数加平台首批集中发布了20款产品,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。

  “这是一个人人都在谈大数据的时代,但只有极少数人在用大数据。” 阿里云大数据事业部资深总监徐常亮特别强调“这些技术至少领先业界三年”,在输出自身大数据能力的同时,“数加”还向有数据开发能力的团队开放。这些团队可入驻“数加”,借助数加上的工具为各行业提供数据服务。“就像在淘宝开店一样,只是他们售卖的是专业能力。”

  那数加到底是什么呢?我们从如下几个方面来分析一下:

  一、数加的来世今生

  我觉得阿里对数据的重视非常早,而且也是非常愿意投入的。

  早在阿里云成立之前,应该是06、07年左右,七公就组建了一只数据平台部的团队,它就是数据事业部(CDO)的前身。在云端、数据魔方、淘宝时光机、淘宝指数、TCIF、阿里妈妈DMP、全景洞察等都是出自这个团队之手 ,这个团队专业解决淘宝早期数据仓库、数据集市、以及数据分析相关的专业问题。

  09年的时候,王坚来到阿里,讲了云计算、大数据未来的愿景,可是当时没有几个人能听懂,但是,我觉得马总还是很厉害的,他信了。然后,阿里提出了云计算、大数据相关战略,阿里云也就在那时成立了。

  数据平台事业部最早使用的并不是现在在用的MaxCompute(原ODPS),而是Hadoop,原hadoop集群令名为云梯1,当时阿里也在研发自己的计算平台,就是原ODPS,并令名为云梯2。

  云梯2在开始的时候,并不是很好用,不过,拿到了内部一个很大的客户,就是阿里金融的蚂蚁小贷。基本上也可以这么说,没有蚂蚁小贷的磨合,基本很难有现在的MaxCompute。

  云梯1、云梯2在内部争吵了很长一段时间,后来,出于各方的考虑,公司决定,启动登月项目,从云梯1全部迁移到云梯2。

  不管是云梯1,还是云梯2,其实,都只是整个大数据技术生态系统中很小的一块,也就是计算引擎那一块,正如我上面所讲的,一个属于hadoop生态系统,一个属于阿里云自建的数加生态系统。

  云梯1当时在内部使用也很广泛,所有内部的数据加工,数据应用基本上都是基于云梯1的,而且,云梯1通过5K项目,成功使单集群的规模扩展到了5000台。而云梯2的生态是后来慢慢建立起来的,包括底层计算平台,开发工具/组件,基于各自算法的计算引擎/服务,以及最上层的各种数据应用/产品,是在云梯1迁移到云梯2的过程中,这些工具,引擎,应用才慢慢完善,统一。

  当然,现在阿里云的整个系统,包括内部系统,都是应用在数加的技术之上,这个也是阿里历来的习惯,把内部使用、验证过的东西,提供给社会使用。这样的好处在于与单纯做产品的大数据公司相比,胜在有场景,有需求,成熟度更高。

  二、数加平台生态的组成

  数加平台生态

 

 

  个人觉得,可以用如下几个层面来描述整个数加生态体系:

  1、数加底层技术平台

  主要包括:

  Maxcompute(原名ODPS)是“数加”底层的计算引擎。有两个维度可以看这个计算引擎的性能,1)6小时处理100PB数据,相当于1亿部高清电影。2)单集群规模过万台,并支持多集群联合计算。

  Analytic DB是实时多维分析引擎,可以实现百亿量级多维查询只需100毫秒。阿里巴巴内部很多面向海量互联网用户的产品的在线大数据查询,很大程度上依赖于Analytic DB。

  流计算(StreamCompute)具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。

  计算引擎之上,“数加”提供了最丰富的云端数据开发套件,开发者可一站式完成数据加工。这些产品包含:数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。

  整体来看,大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。

  计算引擎与大数据开发套件相互依赖,组成了数加的底层技术平台,对应到我上文提到的Hadoop技术平台。

  阿里云的主要目标应该是做好这个技术平台,并将平台的能力更多更快更好地开放出来,这一层才是阿里云大数据的核心竞争力。

  2、数加应用平台生态体系

  基于上面的技术平台,阿里在数加上还开放了规则引擎、推荐引擎、文字识别、智能语音交互、DataV可视化等数据引擎、服务、产品。这些产品很多都是从阿里自身的业务中提炼出来的,可以直接提供给企业使用,并组合成各种不同的解决方案。

  比如:

  “数加”发布的机器学习,可基于海量数据实现对用户行为、行业走势、天气、交通等的预测。图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发。产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等。

  规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。比如,银行会设置如果10分钟内用户在两个省份交易,则需要电话确认。

  推荐引擎是一款用于实时预测用户对物品偏好的数据工具,它能够帮助客户发现众多物品中用户最感兴趣什么。

  文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。

  智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。

  数加最终的目的,不是阿里云自己来研发所有这些数据服务,重点是“数加”大数据平台也将向有数据开发能力的团队开放。这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。阿里云计划用3年时间吸引1000家合作伙伴入驻,共同分享1万亿的大数据蛋糕。

  基于底层的技术平台,上层开放则可以形成丰富的生态 。通过开放式的平台,凝聚行业的力量,为更多的企业和个人提供大数据服务,这就是普惠的时代。大到行业的数据分析,预测行业发展方向;小到我们每一个个体,都可以享受大数据的服务,方便个人生活。

  3、数加交易生态体系

  基于技术平台与应用平台,个人觉得,未来可以在数加上构建一个大数据的交易市场,可以包括:

  应用交易:上文中,我重点描述了数据生态以及算法经济,算法作为大数据时代的另外一个重要要素,未来也是可交易的。基于算法的各种引擎,服务,应用等,既然可以基于数加来开发,就可以不仅仅是自己用,甚至作为一个公共的服务或者产品来出售。

  数据交易:数据是大数据时代的重要基本要素之一,也是大数据时代的基础生产资料,大数据时代的血液。作为如此重要的生产资料,必须流通才能发挥大数据最大的价值。数加通过多租户,可用不可见,担保交易等设计,未来可以解决数据交易上的各种问题。

  当然,如果要实现大数据的交易,必须先解决数据的隐私、安全、法律法规、监管等问题。在这些问题没解决之前,仍有很长的路需要尝试。

  三、为什么选择数加

  小企业不仅自身缺乏数据,自建大数据平台更是折腾不起,往往周期很长,成本非常之高。很多自建的大数据平台又因为没有经过各种实战的检验,没有相应开发工具或者工具偏少而出现各种问题。

  不过数加的出现将有望改善这一现状。

  根据阿里云披露的测算数据:自建Hadoop集群的成本是数加的3倍多,国外计算厂商AWS的EMR成本更是数加的5倍。

  从运算效率来看,去年10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。其中阿里云用377秒完成了100TB的数据排序,打破了此前Apache Spark创造的23.4分钟纪录。

  在含金量最高的GraySort和MinuteSort两个评测系统中,阿里云分别在通用和专用目的排序类别中创造了4 项世界纪录。

  数加承载了阿里巴巴EB级别的数据加工计算,经历了上万名工程师的实战检验。

  借助大数据技术,阿里巴巴取得了巨大的商业成功。通过对电子商务平台上的客户行为进行分析,诞生了蚂蚁小贷、花呗、借呗;菜鸟网络通过电子面单、物流云、菜鸟天地等数据产品,为快递行业的升级提供技术方法。

  可以看到,通过数加,企业能获得的不仅仅是可以更方便、更便宜地使用各种开发工具。其实,比开发工具更重要的是未来大数据的生态,在数加上面,他们可以很方便地获取各种自己想要的数据与服务。

  “数加”的发布显然降低了大数据的应用门槛。通过 “数加”,任何一个企业、个人都能极为方便地进行大数据的开发和应用,最起码,从速度、成本、开发效率上,有很大提升。

  四、数加需要面对的问题

  1、基于公共云数加的安全问题

  有人担心阿里是否会偷看或利用这些数据,其实就是不相信阿里云。当然阿里云官方的回答是斩钉截铁的:不会!

  阿里云大数据事业部资深总监徐常亮强调,数据是客户的宝贵资产,任何云计算平台都不能移作他用。阿里云将严格遵守去年7月份发起的《数据保护倡议书》,也希望全行业能够自律,共同迎接大数据产业的爆发。

  2、基于专有云数加的规模问题

  如果企业实在担心数据的安全问题,想要建立自己的专有云解决方案,那么目前,基于数加的解决方案尚且过于复杂,没有大量预算,基本上没有办法实现专有云的解决方案,所以,对中小企业来说,采用基于专用云数加的解决方案是不现实的。

  就我个人的看法来说,未来的趋势,一定是公共云解决方案。

  因为:

  1,数据需要流动,互相关联才有最大的价值,所以,数据一定要交换、交易,这个要靠公共云来实现。,

  2,数据加工的工具、算法、产品等等,也是一个共享的生态,不能指望所有的东西都由自己来研发。跟工业社会一样,未来的大数据时代,是一个全球化分工的时代,不能指望自己的工厂解决所有的问题。

你可能感兴趣的:(python,数据清洗,人工智能,大数据,大数据学习,深度学习,大数据,大数据技术,大数据开发,阿里大数据)