2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司(以下简称中科天玑)与CSDN共同协办的2016中国大数据技术大会(Big Data Technology Conference 2016,BDTC 2016)在北京新云南皇冠假日酒店成功举办。
中科天玑是国内领先的大数据技术与解决方案提供商,拥有成熟的大数据技术平台、大数据挖掘与服务、云安全等大数据系列产品及解决方案,聚焦政务、金融、舆情、营销、民生、安全等领域的大数据应用。在本次大会上,中科天玑大数据平台事业部总经理张敬亮发表了题为《金融领域传统“小数据”处理模式优化》的演讲。虽然互联网大数据覆盖各行各业,但是很多核心价值数据还是传统的结构化“小数据”,对“小数据”的处理依然非常关键。
张敬亮博士毕业于中科院计算所计算机体系结构方向,有十余年分布式系统、集群存储、云计算及大型行业应用软件方面的从业经验;张博士曾任华为北研所存储技术开发部负责人,目前回归中科天玑,同时任中科院计算所副研究员;近年来张博士主要从事大数据平台方向的研发及产品化工作,技术领域涉及海量数据存储、MPP数仓、敏捷BI、探索式建模、分布式数据挖掘及计算框架等。在产业化方面,张博士目前聚焦于大数据在传统行业的落地及数据驱动的业务模式创新。
CSDN:中科天玑是目前国内专注于大数据技术和应用解决方案的服务商。能否请您介绍下贵公司的业务发展现状及战略布局?
张敬亮:中科天玑是从中科院计算所孵化出来的一家产业化公司,是中科院计算所控股,做技术孵化、产业落地的一个实体。中科天玑团队,在从中科院计算所独立出来之前,已经在做国家信息安全、党政军工等垂直领域的大型项目支撑和产品研发。2015年股份制改造完成之后,中科天玑的经营范围做了比较大的扩展,从之前的垂直领域目前已经扩展到金融、医疗、政府、交通等传统行业。目前中科天玑提供的大数据行业解决方案,已经覆盖到从底层的数据平台到上层的数据报告、数据分析服务及云虚拟化和安全加固等全方位的应用场景。
CSDN:请问您怎么看待目前的大数据环境?
张敬亮:大数据可以分成两部分来看。首先是开源社区,因为咱们说到大数据就会想到Hadoop。以Hadoop为代表的开源体系,目前在技术层面一直有很多新的技术嵌入进来。在导向层面,Hadoop起源于互联网公司的需求,由Google和雅虎主导。目前Hadoop技术生态开始往行业落地方向拓展,包括对传统数据仓库的扩展、OLAP分析及丰富的可视化支持。在分析模式层面,Hadoop技术与新的人工智能和数据挖掘技术的结合日益紧密。这是目前开源的生态。
在产业界,国外现在有三个著名的旗杆是Cloudera,Hortonworks和MapR。他们目前的服务形式还是以技术服务为主,靠技术服务去扩展或融合原有的IT架构做价值的增值,这是国外的生态。在国内,目前也有提供类似开源Hadoop服务的公司,包括Cloudera也已进入中国市场,这是其中第一类;第二类是国内一流的IT厂商华为、浪潮、曙光等,与星环科技、中科天玑等大数据高科技公司,他们拥有自主知识产权的大数据产品。
CSDN:大数据技术与行业需求的结合一直是业界研究的重要课题。针对不同的行业课题,中科天玑提供的技术服务有没有什么不同?
张敬亮:从2015年Gartner曲线上,我们可以看到大数据的标签已经消失了。但这并非表示,大数据已脱离技术关注,究其原因是大数据技术已经分散到各行各业里去了。跟其他提供商相比,中科天玑大数据平台的产品线更加完整。其它平台厂商提供的服务更偏向于PaaS层,存储管理组件这一层,而中科天玑在大数据算法和数据分析上,包括自然语言理解和处理层面,尤其在互联网大数据、社会行为大数据领域,我们有很多积累,我们把这些技术落实到大数据分析的SaaS层;相比平台公司我们对业务有着更深的的理解和更强的适配能力,能够提供更加定制化的解决方案。
CSDN:现在互联网金融逐渐走入了主流市场,那么互联网金融行业的数据获取渠道有哪些?具有什么样的数据特点?
张敬亮:互联网金融尤其是P2P金融,它的大部分核心数据从开源渠道是获取不到的。我们只能从开源做分析和评估,开源的数据渠道包括各个金融论坛、垂直论坛的数据,然后是企业的年报、工商信息、注册信息、上市公司年度财报信息,法院或者合同招投标网站的信息,反映它的经营活跃程度。还有微博、微信公众号等社交网络的信息,也能反映它的经营运行现状。目前国家大力推动政务大数据开放共享,如果结合政务内部数据,则在融合开源数据的基础上,我们能做更精准的分析和预警,给国家监管提供有力的依据。
CSDN:在本次BDTC大会上您分享的话题是什么?
张敬亮:目前中科天玑专注于大数据解决方案的行业落地,首要就是金融行业。比如说银行,在银行里面,银行的数据类型和数据特点是数据库格式的、结构化的、高价值的数据,这个相对于互联网数据而言体量未必有那么大,因此我们把它称作“小数据”,所以这次我演讲的题目是《在金融行业里面传统“小数据”处理模式的升级和优化》,分享我们对它做的一些探索。
CSDN:在这种“小数据”的探索过程中运用到哪些技术?
张敬亮:传统行业的信息化技术已经发展了几十年,从最早的关系型数据库开始,到数据仓库、再到Hadoop生态的SQL技术体系都以对结构化数据的高效处理为目标。针对结构化数据处理的商用产品大家都很清楚,很多形态都是软硬件绑定的,相对封闭的,属于重资产的投入,成本很高,而且大部分核心产品都为国外把持,无法做到自主可控。在扩展性层面,目前传统架构已经很难应付全量数据近实时处理的要求。虽然SQL on Hadoop生态确实能做到高可扩展,但它在传统程序的兼容和接口标准性上存在一定差距,无法让原有业务程序不做太多修改就能跑起来。中科天玑的数据仓库技术就着重解决这两个问题,一是性能及规模扩展性,二是接口、标准兼容性,同时解决这两个问题就能够很好适应目前大数据在银行金融领域的转型和升级。
CSDN:这种高存储、高并发的架构在整个设计过程中有没有遇到一些技术难点?
张敬亮:分布式系统要做分布式化,首要的问题就是一致性,比如分布式的ACID,做到强一致性是很复杂的。我们的思路就是避重就轻,优先对OLAP类分析做高效支持,而对需要强一致性的OLTP支持暂时放后。通过解耦SQL处理路径中的transaction约束,可以更容易地实现高并发。此外,DSQL的MPP引擎采用了多层去耦及分载技术,在SQL执行流程中的查询计划分发、执行计划调度、分片数据并发扫描等环节充分并行化,同时结合数据依赖动态检测技术实现更细粒度的并发。
CSDN:能不能分享一个该平台的架构应用案例?
张敬亮:这里我分享一个金融领域的案例,中科天玑与数朗科创合作将大数据平台应用到银联数据,银联数据托管全国很多城市商业银行的信用卡业务,信用卡托管涉及信用卡开户和交易数据管理等方面,在反欺诈领域会碰到两个问题:一是数据越来越多,包括对外部数据的整合,数据量很大;二是它的底层应用了多种复杂的文本分析技术,比如模糊匹配、地址比对、名称比对等。以Oracle架构为例,它的扩展性能已无法支持大数据量的处理,而且无法在数据库里计算业务逻辑,只能在应用程序、应用服务器上跑。而中科天玑DSQL通过类似Hadoop的MPP架构(标准X86服务器),采用非Oracle架构下的共享存储模式,让DSQL的每个worker都成为具备CPU和存储的逻辑计算单元,将上层业务逻辑下推到底层的数据库执行引擎做全并发处理,从而可以快速并行地在数据层把业务层的事情处理完。性能实测提升了几十倍。
CSDN:对于目前大数据行业落地方面的困难您有怎样的思考?
张敬亮:大数据起源于互联网企业,现在的互联网企业也有转型去做2B市场的趋向。对行业落地而言,很重要的一点就是利旧,包括已有的应用程序和技术运维团队。对于IT能力相对较弱的一些传统行业,他们不可能维护一个团队来构建新兴的大数据架构,包括部署、实施、业务迭代适配和调优过程,但如果能做到大数据平台与传统平台在使用方式及接口上的兼容,则原有团队通过适当培训即可基于新平台开发业务并保障运行。另一方面传统企业本身也需要改变思维,因为大数据带来的不仅是技术的变化,更多的是思路和思考方式的变化。在大数据背景下思考的出发点可以尝试以数据驱动和数据融合的角度来发现新价值,创造新的业务模式。在这个角度大数据技术公司可以提供有价值的解决方案。
CSDN:贵公司大数据团队的整体技术能力如何?
张敬亮:中科天玑目前主要有三个产品事业部。具体来看,大数据平台事业部的产品定位于PaaS及SaaS层的产品能力。本事业部目前的市场目标,不是要做互联网公司内部的大数据平台,而是关注大数据在行业的落地,尤其是金融、政府、运营商、电力、能源、医疗、交通等传统行业。我们的PaaS层产品包括底层的存储组件,数据库,并行数据仓库,图数据库,以及集群文件系统等。再往上就是云分析的组件,接近于SaaS服务,包括敏捷BI、精准营销、用户画像、个性化业务增值,一体化数据探索平台等。本团队由具备分布式系统设计经验以及底层编程能力的资深工程师来做技术支撑,从底层数据汇聚、清洗和存储,到上层定制化建模分析,都有对应的专利输出。
安全事业部,主要在做虚拟化基础设施及其上的一体化安全解决方案,基于在安全方向多年的项目及产品研发经验,沉淀出很多特色产品。目前该事业部主要定位于在虚拟机层面上做安全的加固,并非在虚拟机之上做防火墙,而是基于底层、内核开发出的全面安全防护机制。该部门有内核级的开发工程师和博士硕士团队,已经输出了很多知识产权。
大数据服务事业部,主要是直接提供数据服务。目前,中科天玑建有五六百台服务器的自营数据中心,会对互联网的开源数据做一些采集、清洗和加工。该事业部的定位是互联网开源数据的深度服务,包括舆情分析、商情分析以及金融互联网等。其团队在NLP、社会计算等领域有特色专利及软著的积累。
CSDN:目前人工智能非常火爆,贵公司有结合人工智能技术形成一些案例吗?
张敬亮:中科天玑依托中科院网络数据科学与技术重点实验室,其中的算法组和研究组正在做人工智能和大数据应用的结合落地。比如我们跟首钢集团的大数据合作,他们有多图片类型的数据。虽然传统的大数据技术也可以进行钢板质量检测、图片识别和校正等处理,但是利用神经网络,我们可以做得更好更快,尤其在海量样本情况下这种技术能做到更好的处理精度和实时性。目前结合中科院网络数据科学与技术重点实验室的人工智能技术,中科天玑正在针对多个行业领域的应用场景做解决方案的适配开发。
CSDN:贵公司大数据平台的后续发展方向是什么样子的?
张敬亮:中科天玑会专注一到两个行业,把对用户而言完整的解决方案跑通、跑细,做到十分易用,最终可能以一体机黑盒子的形式装载到用户机房里。接入数据后,用户就能直接看到分析结果,同时还能闭环到相关业务系统。在金融银行业,我们正在大力推动“新型混合数仓+一体化数据探索平台”的整体打包方案,以业务驱动的模式助力大数据在金融领域切实落地。