阎志涛:数据平台部门需要关注数据的本源

个人简介 阎志涛,现任TalkingData研发副总裁,领导研发了公司的数据管理平台(DMP)、数据观象台等产品,并且负责公司大数据计算平台的研发。目前专注于构建一个融合多种计算模型,支持机器学习和数据挖掘的大数据计算平台。关注Spark、Hadoop、HBase、MongoDB等技术。超过15年的IT领域从业经验,一直从事大规模分布式计算系统、中间件、BI等相关工作。

全球架构师峰会(International Architect Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

   

1. 大家好,我在ArchSummit深圳大会现场,今天也十分高兴地邀请到了TalkingData的研发副总裁阎志涛接受我们的采访。那么阎总,您身为15年的IT老兵,先做的大规模分布式计算,然后做了中间件和BI,现在算投身到了大数据领域。能为大家介绍一下去年在TalkingData做的一些主要工作吗?

阎志涛:大家好,从去年到今年我们主要进行了数据平台的整合。TalkingData的成立到现在,从App Analytics到Ad Tracking,Game Analytics实际上是几条产品线,它们各自往前发展。现在遇到很大的问题就是我们原来都是在按一个数值的分割的体系进行的,基本上就跟copy paste一样——A产品线完成后B产品线直接copy paste A的架构,之后两个研发团队或者三个研发团队各自开始在做。这样会导致A踩过的坑B可能会再重新踩一次,而且每个团队在架构演进的过程中会有自己的决定和选项,这样虽然是用了同一个架构体系,但依旧会造成很多中间技术的背离。并且如果往后要再开新的业务线,这个代价会是非常大的。所以我们期望构建一个统一的数据平台体系,这里面就包含了一些技术的整合,比如要整合整个架构的公共服务模块技术。另外公司发展到现在对数据价值的探索演进可能会将这部分内容集成到数据平台里去,将来能够给开发者提供更丰富的数据增值的服务。原来可能是偏统计型的工作,到之后可能会有一些用户画像方面的工作,这些会直接通过数据平台,用接口的形式给开发者提供一部分对应的服务出去。

   

2. 数据平台与其底层的基础架构,还有上层的业务部门等等,是一个怎样的关系?

阎志涛:可以这么理解,在数据平台上一方面是技术的整合,对内的,属于把能够统一化的东西先统一起来。比方说数据收集,原本是每个团队都自己用java这套体系来写一个collector,开始是没问题的,每天几G的数据我们都挺happy了。但到现在一天要收集10T左右的数据,这个差额变得越来越大,于是我们就把这部分剥离了出来,变成一个统一的数据收集的一个模块,对公司来说相当于一个数据收集的服务。

SDK团队同样也在做一个相应的改变,从原有的发展到现有的60多个团队,维护代价也变大了。所以需要将这部分先统一起来,变成一个统一的数据收集的服务。对于开发者来说他们将来的集成的成本也会降低。比如开发者原来集成TalkingData可能要三个SDK,未来可能只需要一个SDK,通过不同的业务组成就可以实现数据收集。对我们自己来说,可以通过这个去控制成本,而且支持我们自己的收集器,可以支持分布的部署。将来开发者的设备端,到我们这端时的延迟就会降低。因为这相当于只是跟本地的数据收集器交互,数据收集器会再跟中心做高压缩的传输,这样既保障传输又节省了中心的带宽。

数据平台这方面实际上是将所有的业务数据通过数据收集器集合在一起后变成一个共用的数据池,我们可以把它按照设备的live去做进一步的分析。可以分析出每一个设备的使用者的偏好,将来可以通过API系统提供给开发者。因为这是移动互联网的发展的方向,开发者最早只关注每天会有多少新增和留存,而现在他们需要经营自己的客户,他们想知道用户喜欢什么,如何契合用户的爱好去制定有针对性的产品的演进。所以在下半年我们会逐渐丰富这些产品的功能,让开发者也能从这个统一平台上享受到一些好处。

   

3. 对这样一个数据平台的团队,你们怎么去划分他们的责任?是属于业务还是属于数据平台?

阎志涛:这问题很好。对于我们公司来讲,首先还是一个创业型公司,不像BAT等所有的有基础架构的公司。他们的业务团队偏于解决所有的业务指标,而我们属于在数据平台这方面将能够抽象的部分先抽象。比如存储方面的隔离,现有的数据通过collector进来后已经达到统一存储了,我们要配置专人负责。这类似于BAT的技术架构,但又不太一样,我们不会去开发那么多丰富的功能,因为没有那么多精力去做,我们要选择合适自己的方案解决存储性能,可靠性等问题。以后的业务开发团队就不需要从存储开始,可以直接开始自己的业务指标计算,有这样的能力就OK了。另一方面,业务团队还是类似做产品经理的工作,去跟客户去沟通,去了解哪些业务是你感兴趣的或者对你有帮助的,据此设定一些业务指标。而我们数据平台部门,会更关注移动数据本身,去发掘可能的价值。我们会将抽象出来的东西与各个业务团队沟通,如果这对你的客户有足够的价值,我们就可以把它开放出去。所以数据平台更偏向于数据本源,业务团队依旧偏于业务需求。

   

4. 这个平台在现在主要是为你们内部的业务线做服务,那么未来有没有可能对外开放出来?

阎志涛:这确实也符合我们的计划,我们之所以这么安排,实际上也是牵涉到公司的一个愿景。对整个公司来讲,我们进行的统计分析是由于公司期望能够进入到一个共建数据的领域,公司需要去了解数据。从未来的角度看,我们希望构建一个让所有有数据供应能力的,包括移动应用开发者,甚至很多有数据的厂商都能利用的一个技术型平台。我们的平台提供一个框架给有数据供应能力的厂商或开发者,利用我们的或者其他的算法科学家做各种数据加工,来挖掘这部分价值。为一些业务专家,或是需要消费数据的人,比如传统金融客户提供更好的服务。这是为整个数据行业来服务的平台,作为公司的一个愿景,我们会逐步完善相关工具的统一,并把它做得更好。

   

5. 那么你们的data collector统一化,是相当于将业务各纬度的需求全都收集下来吗?

阎志涛:基本上就是这样。举个例子的话,好比我们有一个SDK,它本身已经有过统一的基础,然后所有的业务线会收到同样的数据,但其中有些业务线会比较optional,比如通用统计的App Analytics或是Game Analytics可能只需要各自的指标,那么我们只需要将这部分开放出来。而data collector不必不关心这些指标,只要把所有的数据收集上来,通过统一的数据总线传输给不同的业务团队,让他们从这里边消费自己感兴趣的数据就可以了。因为在数据平台来看,所有的数据都是有价值的,都属于能够加工用户画像的相关数据,所以数据平台实际上是把所有的数据都落实到了存储上。

你可能感兴趣的:(阎志涛:数据平台部门需要关注数据的本源)