【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。
2015中国大数据技术大会首日全体会议中,华为IT产品线大数据解决方案规划总监徐兴海和华为电信软件大数据首席技术规划区波共同带来了名为“面向业务创新的大数据平台及商业实践”的主题演讲。
华为IT产品线大数据解决方案规划总监 徐兴海
期间,徐兴海在演讲中首先表示,大数据已从炒作走向企业应用,从试点走向生产,其主要表现在:初步完成历史数据大集中;半/非结构化开始采用;进入数仓、征信、风控等关键业务;新的独立组织,新的服务模式;开始重视数据分析师的培养。随后,他表示,未来大数据将全面与云融合,其主要需求在于:平台统一化,线上线下同构;引擎多样化,真正打通;地域分布化,逻辑与物理;能力服务化,与云结合。
华为电信软件大数据首席技术规划 区波
针对华为大数据平台的未来发展,华为电信软件大数据首席技术规划区波表示,首先,华为希望将新技术和传统技术进行有效整合,并且这种整合能力可以在客户间快速地复制;其次,希望这种整合能力能够相对固化,使这些能力在不同的客户快速的复制;第三,华为希望这个平台上能够有一个相对完备的数据资产治理的平台,使得用户真正了解数据、用好数据。
以下为演讲实录
徐兴海:
今天很高兴跟大家分享一下面向业务创新的大数据平台及华为的商业实践,其实大数据从09年开始逐渐变热,这两年大数据的风头明显盖过了云计算。大家觉得是好事吗?不是好事!因为云计算已经走过了炒作的高峰,已经在公有云的带动下规模落地了,人家已经开始赚钱了,现在不是炒作了,大数据去年的报告说还是波峰的下滑当中,泡沫的破灭当中,今年大数据已经开始有走入了企业的应用的苗头,而不仅仅是炒作。
这张片子可以看出来大数据从试点走向真正广泛的部署有哪些条件或者哪些标志性的条件,其中第一个标志性的事件是平台厂家的出现和平台厂家的集中度,为什么?你做一个新产业,如果这个新产业需要平台,提供这个平台的厂家全球有一百家这个产定一定做不好,大数据的平台在未来一定存活两到三家,在全球之内,当年虚拟化和云计算兴起的时候有多少个厂家宣称自己是云计算提供商,自己是虚拟化提供商,今天回头看还有多少家,今天已经发展起来了。厂家要集中,这是第一个标志。
第二个更多还是从企业客户的角度来看,企业客户哪些标志着大数据走向真正的广泛部署,第一个标志是数据的大集中,原来的数据都是分散在各个部门,今天这个片子里面每一个关键词,每一个观点背后都有华为的案例,尽量以案例的角度分享,我们可以从银行的角度,我跟一个客户做项目的时候,银行的数据历史上也是非常分散的,最开始大机器系统里面还有大量的查询工作要做,大机是非常贵的,做一次查询要几块钱,现在已经广泛用大数据的卸载,把借记卡、信用卡、理财、信贷、风控这些基础的数据都集中出来,这是第一个标志,第二个半结构化和非结构化场景的使用,银行有很多的客服,经常给银行打电话,一般的客服小姐记录下来的是33字左右,我们每次打电话说了很多话,大量的信息在语音里面,这个语音如何转变成有效的文本,被数据所利用,这是第二个重要的标志。
第三个过了前两个阶段以后,第三个大数据还要进入企业的关键应用,始终在外围做应用还没有标志着它已经从试点走向真正的生产。关键应用有三类,一个是数据仓库,从05年开始在国内大企业广泛的部署形成了ODS、EDW几种形态,在大客户里面分的很清晰。今天移动数据上来的时候很多企业受不了,交易是几何增长,如果还用传统的方式,首先收仓方式非常高,必须用新技术降低对海量数据的处理。 第二个是收仓的扩展性,一个标志是有些大企业对技术掌控比较强的企业已经开始利用大数据改造收仓,卸载收仓,还有用大数据做事实的风控,信用卡被盗刷,原来是事后发现的,如何从事后走向事中甚至事前,需要对每个人做360度的洞察和全网数据的时时监控,这个挑战非常大,有一个长传口技术,很少能找到15天的长传口的监测,需要多大的内存,肯定有新技术在里面。还有成立新的独立的组织移大数据一定是跨部门的,数据联动起来才有价值,现在有一些大客户,包括银行,在上海成立了全行的大数据分析中心,汇集全行的数据分析需求,为什么不把数据分析这个部门成立在每个业务部门里面,因为数据是要打通的,新组织的成立,新的服务模式的出现,也是一个大数据走向企业应用的标志,另外一个是数据分析师在培养,数据分析师在拥有数据的大企业非常重要,这一点很多嘉宾也都讲过了。
走向了广泛部署以后,现在的企业需要的是什么样的大数据,企业需要是大数据平台,有三类企业。
第一类是大客户,是跨国的公司。他给我的关键词是第一我需要大数据平台要可持续,一定要平台的可持续,要能保证三到五年甚至十年的持续供应,不能跟我合作一两年以后你这个公司不存在。可持续对大客户非常重要,因为心里技术变化非常快,社区开源新技术变化非常快,客户的消化能力也非常限,客户的主业不在技术,可持续是非常重要。另外一个是云化,一个是内部的云化,为什么,因为大客户内部有很多部门,上百部门都需要数据分析来做支撑,如果你的数据平台是烟囱式的不能做云化,内部做服务化的支撑,内部云化的混合化的提供,对他负担非常重。
第二个是国内零售的银行。跟他们CTO讲的时候,他讲原来的数据确实是烟囱式的,每个子系统都有整个的系统,在12年开始采用华为公司的产品,在各条业务线已经开展了很多的大数据集群,从去年华为就把20多个大数据汇集到统一的平面,形成了第二经营平面,大数据已经作为经营平面支撑企业日常分析活动。
第三是中小企业。技术变化这么快,新技术处在混战的实地,这些中小企业的主业,这个能源公司主要是搞能源,不是搞技术,每天风机在转,风机转跟天气的关系是什么关系,如何做到提前预测,这种公司难道搭建一个大数据平台吗?不可能,IT人员可能一两个人,这种客户迫切需要的是大数据云服务,大数据云服务对中小企业来说也是非常重要的。
未来第一阶段从传统的收仓交易为中心,第二是数据为中心,第三阶段是以人为中心的全渠道数据的整合,这个时候非常重要的一个标志就是数据处理和云服务的结合,跨地域。这个架构多样化的引擎,现在社区有很多的技术,你的平台框架能否引入新的引擎来处理不同的场景,因为现在不是一个引擎包大天下的时代,未来引擎的多样化和大数据云服务非常重要,这是华为FusionInsight大数据平台,简单来说最底层有两个产品,一个是ITD,做一个统一入口,让客户不用关心数据在哪里,可以做一个全量全局的查询,上面这一层非常重要,因为Hadoop1.0(阶段)是给开发者用,2.0(阶段)是期望给分析师用,明年开始大数据的数据分析一定走入业务人员,他是没有办法看到底层这么复杂的技术,他需要是做交互式探索的,大数据不是做定量的分析,是做关联分析,就是在不断的探索过程当中发现数据的价值,不断的修整和反馈,我们提供这个产品能做全量数据的探索,就是没有模式,没有西格玛,可以自动识别出有哪些模式供你选择,你不需要很多搜索条件,给你提供很多自动的(英语)的识别,这是非常重要的。
另外提供一个Farmer的产品,这个产品非常重要,因为客户关键应用,比如征信、审计类的实时应用,跟Hadoop有距离,不能直接用,需要在Hadoop托管之上使用的平台,包括能处理事件和流的决策平台,这个平台架构在Hadoop之上,客户只需要关心自己的应用逻辑,在上面写逻辑就可以了,华为的Farmer已经完成了数据位置到服务的管理,同时也做实时决策的分析,比如你要关心我需要什么样的客户,我推荐什么样的商品,这个逻辑就会运算到下面的大数据平台,这是华为这一层的产品。
从开源的重要性再谈一下,华为持续回馈开源社区,从09年开始在Hadoop、Spark社区辛勤的耕耘,华为在两个社区都是排名第四,Spark排名在上升,很重要的几个标志事件,是今年6月份我们获得了国内首张Spark的 商用发行版认证,而Spark的图算法,华为在社区里有核心的贡献,今年11月份,PrefixSpan算法发布。
最后看一下案例,华为的大数据平台分两个交互模式,一个是线上,一个是线下,线下主要跟企业客户提供大数据平台,跟合作伙伴来开发应用,一起为支撑客户的应用创新。
第一个是招商银行信用卡的案例,从周到分钟,之前客户发信用卡以周为单位,申请以后需要做很多要素的审核,你的消费习惯,你有没有上黑名单,你的风险承受能力,你的信贷情况,其中有很多环节是要人工参与的,采用华为大数据平台,以后发卡周期变成以分钟为单位,当场就可以发卡,华为的平台给他提供了一条非常容易的多条规则并行的计算,给客户提供非常真实的征信情况,当时可以发临时卡,这是一个变化。
还有一个在精准营销,传统收仓做专家系统精准营销的时候我们每个人感受到是群发担心的方式,无法为每个客户做精准营销,比如银行客户量非常大,一个分行900万客户以上,如果为每个客户做个性化的画像,运算速度和成本非常高,采用大数据的技术做到了个性化的推荐,可以知道这个用户喜好是什么,他的行为习惯,当你走进商场的时候不见得一定给你发短信,如果这个厂商的商品没有你喜欢的就不会给你发短信,这就是个性化推荐,采用这种方式担心发送量下降了82%,实际上效果命中率提高了95%,这是非常可观的。从1到5到15,我们原来在银行历史明细数据查一年,后来逐渐扩展到5年,为什么?现在到了7年,我们的一些影像数据实现时时在线查询的重要性,如果你申请贷款,你过去十几年的交易情况,包括你的影像,因为每做一个交易会产生6张图片,影像上时时查询,这个对贷款的审批加速非常重要,数据大集中历史数据集中其中一个体现就是历史数据的周期增长,周期的加长。
另外就是交通行业,我们原来发现套牌车的时候,我们的车套牌在另外一个城市出现,需要很长的时间,现在通过对卡口数据的分析,可以秒级发现套牌车,包括对交通出行公交车排班,包括人流的分析,这都是对我们人为的促进。
还有就是7倍和96%。7倍指的是在客户维挽方面,对于电信运营商来说客户的维挽非常重要,我们国家的电信行业的竞争还是非常充分的,我们每个人从一个运营商切换到另外一个运营商非常容易,电信运营商压力很大,挽留住离网的客户是非常重要的,第一步就是哪些客户有离网的倾向,这有很多的倾向,包括他最近充值减少了,他最近通话时长等等很多的数据进行融合以后,我们给这个客户建立一个平台,做到了一次采集一次存储,多次分析,通过离网的模型发现离网客户的识别率提升了原来的7倍以上,这是非常可观的。通过去关怀,包括使用一些送积分,甚至送流量等等,然后客户的再次充值率也是提升了3倍以上,这是大数据在商业实践方面给客户带来的改变。
我在这里也给大家介绍一下华为企业的云服务,这里面已经有了刚才说的大数据各种服务的上线,大家可以体验,华为大数据在云上还有一个特点,跟电信运营商合作,帮他们建设云化的大数据中心,在上面合营共同提供大数据的服务。
我今天就讲到这里,华为在电信运营商里耕耘了20多年,在电信行业有自己大数据的理解下面请我的同事区波分享一下电信行业大数据的经验,有请区波。
区波:
谢谢大家,因为大数据作为一个新的技术有比较新的突破,这些技术的引用对运营商对数据的处理更好的提供服务,也提供了新的技术,运营商承载着整个电信的运营和互联网的基础网络,之前阿里的王博士举了很形象的例子,如果把互联网比作一个高速公路的通道,数据是在整个公路上走过的一些痕迹,运营商是主要的承载着这个高速公路的建设和提供服务的主要承担者,所以我们生活当中的很多数据,绝大部分数据在云这个管道里面都有,以前很多数据并没有做深入的分析,一方面是因为我们的技术,一方面是对这些数据的需求来自于哪儿。大数据的引入让我们能够有机会重新去看这些数据,以及这些数据可能带来的新价值。从这个图上可以看到运营商原来自己手里面有数据,包括业务处理系统,像POSS系统,这里面已经对原来的数据有一些处理。另外一些是网络数据,这些数据过去运营商比较少做处理,而今天看随着我们要对数据进一步的了解,包括除了支撑运营商内部的业务,同时也会支撑一些企业的应用以及消费者的市场,这些数据会越来越多的被关注。
另外一个角度来看对于运营商相对于互联网的企业比较传统的企业来说,原来已经建立了自己相对比较完整的一套IT的环境,也建立了他自己相对比较大的数据环境,比如像移动运营商他们过去数据仓库的建立已经经历了十多年,他们自己有自己的数据环境,有自己的数据架构,也有自己的数据应用,新的大数据的技术引入,新的数据的引入的时候,我们除了考虑怎么去用好这些数据,同时也需要考虑这些数据和原有IT环境的整合。因为这里面面临的困难,新的技术和IT技术的整合,运营商也在看自己业务的转型,比如国外的运营商已经提出过自己要从一个传统的CT的服务商变成一个DT的服务商,他们在数据化转型的要求,之前也谈到了我们有很多的用户真的是谈需要数据,大家谈了我需要数据,真正谁能够提供数据,这里面有很多的数据没有办法提供,这里面一方面是你有没有这个数据,运营商其实有数据。另外一个角度来看你有这个数据你有不能能力把这个数据合规合法,并且满足我的业务需求提供出来,所以这里面来看对平台的要求也进一提出要求。
我们可以看一下运营商建立大数据的利用演进的过程,最早运营商会看大数据的数据引入过来使得原来历史的数据进一步的做处理和分析,去发现,最早引入运营商大数据的应用比较多的会看到我们做详单的查询,详单我们呼叫的记录详单保存在记录里面量非常大,以前过一段时间我们就把它归档或者从业务系统里面拿掉。但是这些数据其实在以后我们还需要对它进行查询访问,甚至更进一步的分析,而大数据的技术应用使得第一步从一个简单的应用,我们可以对历史数据进行访问和分析,第二块我们也会建一些客户深入的洞察,把原来业务系统里面的数据,跟我们网络上客户的行为数据去做关联,去做客户深度的洞察。但是从这种角度来看,每一个系统或者每一个应用基本上都是垂直在建的。所以接下来我们到了第二个阶段,其实就是要看运营商希望把整个基础的架构,包括原有的业务数据,包括网络运营的这些数据,包括对外部支撑的数据,希望能够有一个公共的平台,所以第二个阶段建一个公共平台,通过公共平台支撑上面的数据分析和业务应用。第二个阶段是有限的一些开发商或者服务商提供,运营商为了更广泛的让更多的人使用他的平台和数据,同时让他的数据价值得到更大程度的发挥,希望有更多的合作伙伴在平台上做数据价值的发现,做数据应用的开发。所以第三个阶段更多看到平台需要有一个更开放的环境,有一个统一的平台,有一个统一的数据治理的环境,有一个开放的数据,使众多的开发商和运营伙伴在这个平台做产品开发和数据使用。
这是基于前面的构想的一个生态环境的描述,最下面可以看到我们有一个数据的提供者,过去这里面更多会谈到运营商自己的一些数据,我的业务系统的网络数据,未来有第三方的数据接入。第二层可以看到有一个数据的统一的基础架构,上面会构建一些公共的服务,并且把这些服务开放出来,这里面包括平台本身自己的服务,包括一些深度计算,数据处理,技术分析的服务,我们把这些服务能够在扁平化的平台上开放出来,而这些开放的是基于相对的标准,不同的开发商不同的消费者可以在这个上面基于这样的标准开发他们的应用。这里面会有数据的开发者,他们基于运营商的数据做数据的加工和处理,会有应用的开发者他们基于这些数据,基于平台的能力开发适合特定的需求的应用,也会有一些工具的开发者,这些工具开发者包括传统工具的提供者,也包括基于今天新兴大数据底层的数据,做二次开发。最上面是我们看到的一些服务的最终数据消费,他们有可能是运营商内部的客户,也有可能是外部的客户。
从这个上面我们推导出来我们需要平台的架构,底层我们可能接入这些数据,包括传统的从运营商自己的业务系统里面的数据,也包括网络上的数据,网络上的数据其实以前在运营商的分析环境里面是接触比较少的,因为这些数据如果要去采集的话,会对网络本身有一些影响,所以我们在构建这样平台的时候,从采集到数据的存储和加工,除了考虑我们对数据本身使用的需求以外,由于这个本身IT环境和CT的环境已经在那里,有他自己的一套架构,同时还需要考虑的是,对这些数据进行采集处理、加工,同时要考虑到怎么样减少对原有系统的影响,以及保持这个系统的稳定性。
绿色既包括我们对传统IT的数据仓库,数据库的集成,也包括像Hadoop新兴大数据的集成,在整个平台上我们还会考虑构建一个统一的数据治理,因为随着Hadoop和非结构化数据的应用,这些数据如何变成运营商或者一个企业客户的数据资产的角度来对他有效的管理,这个里面也是很重要的,因为我们知道数据仓库和Hadoop数据的形态可能都是不一样,需要有一个统计的数据治理。我们还需要考虑在现有的环境里面,如何去跟已有的环境去做整合和集成,运营商这样一个企业IT的环境比较复杂,我们也会考虑到跟数据来源提供者和数据消费提供者的关系。通过能力开放去提供第三方的服务的使用。
在整个平台的设计和构想后,我们已经在一些客户那面得到了一些试点和使用,在这里面就列举了一些,由于引入新的数据处理的手段,新的数据感觉的手段以及分析手段以后,我们能够进一步做哪些分析是我们原来产生的经营分析系统没有办法做。另外我们也可以知道通过网络侧的深入分析我们可以知道,比如说没有人拿了同一个CM卡在不同的地方,一个CM卡被复制,同时在打电话,如果这两个CM卡在不同的基站使用肯定能体现出来。另外一个领域可以看到,可以服务运营商做网络的优化,我通过时时分析知道,在我这个网络和基站里面有哪些用户,这些用户如果基站的某些指标对那些用户产生什么样的影响,从而做网络的优化。
第三块我们基于套餐的优化,比如我用手机上网,流量使用到一定的阶段之后,我可以推荐适合你的套餐,而不是结完账单才发现我上网产生了很高的费用,然后再设立套餐,这样套餐设计更合理。因为运营商有很多通过手机的信息,可以做一些位置的分析,从而这些信息可以对某一个领域里面人流的情况进行深入的分析,这里面也是当一个新的商户要去选他的店址的时候,我们可以通过分析知道某一些时间在某个区域人流分布的情况,从而为商户选址有更精准的定位。
总的来看现在华为来考虑这个平台,其实主要几点:第一个是把大数据的新的技术和原有传统的技术能够有效的整合;第二个是希望这种整合是它的能力能够相对固化,使这些能力在不同的客户快速的复制,今天大数据的技术相对来说非常碎片化化,对于传统的企业如何引入这些技术并且得到持续的能力,这是我们构建这个平台的初衷;第三是希望在这个平台上能够有一个相对完备的数据资产治理的平台,使得用户真正的知道它的数据,了解它的数据,用好它的数据。
更多精彩内容,请关注直播专题 2015中国大数据技术大会(BDTC),新浪微博@CSDN云计算,订阅CSDN大数据微信号。