来源/ 中国软件网(ID:Hapiweb-soft6)
作者/刘学习 编辑/ Emon
每日接入数据条数35万亿,
每日分析的任务数量达到1500万,每日实时计算次数达到30万亿,模型训练维度达到1万亿,算力弹性资源池服务器达到20万······
11月6日,在腾讯云首届Techo开发者大会上,腾讯云副总裁、腾讯数据平台部总经理
蒋杰
在演讲中公布聊了腾讯大数据的一组“大数据”。
说起大数据,你不能不佩服腾讯。它在消费互联网时代几乎是流量之王、数据之王,。
蒋杰说,腾讯大数据和AI全部开源。
开源意味着什么?针对目前技术迭代不断加速,企业建设大数据平台和机器学习平台成本高昂、缺乏专业人才等问题,开源兼开放的腾讯大数据与AI就有赋能的含义。
任何一个企业用户,或者任何一个开发者,任何一个人,都可以拥有腾讯一样的大数据与AI能力。
其实在企业服务领域,大家常说赋能。怎么才能向企业赋予大数据和AI能力?那又怎么保证自己大数据和AI能力不断增加呢?
腾讯云副总裁、腾讯数据平台部总经理蒋杰
蒋杰说,腾讯大数据能力的发展经历了三个不同的阶段,是大数据技术发展所决定的,也是腾讯业务发展所推动的。
作为大数据领域的前沿探索者,腾讯大数据从2009年开始, 经历离线计算、实时计算与机器学习三个阶段。
第一阶段,基于开源的Hadoop体系,腾讯构建了第一代大数据平台,并建设离线计算平台,主要发力规模化。三年时间里,腾讯实现了从关系型数据库到自建大数据平台的全面迁移。
腾讯大数据发展的第二阶段起始于2012年移动互联网爆发,实现从Hadoop转向Spark和Storm体系,在吸收开源技术的基础上,结合腾讯自身的需求进行重写,探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系。
实时化的第二阶段主要支持在线分析和实时计算的场景,比如实时报表、实时查询、实时监控等。
2015年至今则是腾讯大数据的第三阶段,是从数据分析到数据挖掘的转变,主要建设机器学习平台,支持腾讯各业务数据挖掘的需求。
随着数据挖掘、数据应用的深入,“智能化”的腾讯大数据再次自我迭代,于2016年推出了自研机器学习平台Angel,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。
开源与开放也一直伴随着腾讯大数据能力的成长。
腾讯技术委员会对外开源管理办公室执行总监许勇
腾讯技术委员会对外开源管理办公室执行总监许勇告诉中国软件网记者,腾讯开源和腾讯自身的战略有很大关系。腾讯原来是闷头做事情,把自己的产品做好。
2010年,腾讯全面拥抱开放战略,技术研发也在这种环境下,开始向共享、复用和开源迈进。
从2016年开始,腾讯不断将内部开源出来的优质项目在GitHub上发布,腾讯开源逐步进入快节奏时代。如今,腾讯以发起者、贡献者等不同方式积极参与开源。
在自主开源方面,截至2019年10月,腾讯共对外开源86个项目,包含微信、腾讯云、大数据、游戏、AI、安全等领域,并覆盖所有BG(事业群)。
蒋杰说,开源伴随着腾讯大数据发展的每一个阶段。经过十年的探索和实践,腾讯大数据目前支撑着腾讯内部超过4000个业务,除了对内提供经营分析指导,同时也提供每秒超过60万次的精准广告推荐(如微信朋友圈、QQ空间、腾讯新闻等),在实时风控、智慧零售等场景也得到大量应用,在通过商业化产品对外输出能力、服务各行各业的同时,也在不断对外开源回馈贡献技术社区。
那么,腾讯为什么做开源?
从外部环境来看,随着主流的开发平台Linux、Android等逐渐开源化,IT产业想要取得更大的市场份额,拥抱开源是当务之急。
从腾讯内部的技术积累来看,技术研发基础设施完整,有超过8000个开源项目,横跨各个技术领域,经过海量用户验证。腾讯能够源源不断向开源社区输出优质开源项目。
从生态机遇来看,开源能够很好的服务于腾讯重点战略方向,如作为腾讯云的Paas、Saas服务封装,推动机器学习和人工智能的广泛应用,或者通过行业标准的制定领导下一代的技术创新。
许勇说,腾讯通过“三步走”的开源计划,通过代码开放和社区运营,不断深化腾讯已有的技术能力,不断向协同开放和社区开放治理的纵深方向发展。
第一步是内部开源协同。首先拉通内部项目和组织,通过部门小团队作战或跨部门大团队作战的方式协同推进,以优化资源配置的方式集中优势寻求技术突破,并建立起筛选机制将代码开放出来。
第二步是外部代码开放。优化设计与代码结构,不断拓展落地场景,有效利用外部贡献者资源实现资源整合,构建技术影响力。
第三步是社区开放治理。在这一阶段,注重大规模技术推广与应用、开发者生态体系构建、社区领袖与领导力培养、全社会研发资源的优化配置四个方面。
自2012年起,腾讯大数据就开始将海量实践过的内部能力对外开源,2019 年继续将四大重量级产品开源,回馈社区。
11月6日当天宣布的新开源项目,一个是自主研发的分布式数据库管理系统TBase,也是记者会上的明星产品。
TBase是在开源的PostgreSQL基础上自主研发的企业级分布式HTAP数据库管理系统,面向toG/toB场景,同时支持关系模型下的在线交易+分析型业务。
自2015年上线以来,TBase已在腾讯内外部包括政务、银行、保险、证券、微信支付等多个行业提供底层数据库支撑。
另一个则是企业级开源容器平台TKEStack。TKEStack是基于Kubernetes 的开源容器平台,在大数据、深度学习、通用服务等业务的实践和打磨下,可以同时服务公有云和私有云。
目前TKEStack在腾讯内部服务于信鸽、EG游戏云、广点通等多个业务;在外部服务于建设银行、PICC、招商银行、一汽大众、成都绿岛、长沙超脑等多个行业的头部客户和项目。
2019年已经开源的大数据项目则包括明星项目分布式机器学习平台Angel,由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性。
Angel是基于参数服务器架构的分布式计算平台,致力于解决稀疏数据大模型训练以及大规模图数据分析问题。2019年8月,Angel 3.0版本发布,迈向全栈机器学习平台。
另一个是万亿级分布式消息中间件TubeMQ。专注于大数据场景下海量数据的高性能存储和传输,长期服务微信支付、腾讯视频、广点通等产品。
经过近7年、万亿规模的海量数据沉淀,TubeMQ目前日均接入量超过25万亿条消息,在稳定性、性能和成本方面都有着核心优势。2019年9月,TubeMQ正式对外开源,并捐赠给Apache基金会。
蒋杰
说,腾讯开源重点的大数据项目,期望在大数据领域持续贡献优秀的项目来反哺开源社区。
在生态建设方面,腾讯通过捐献项目、为开源项目贡献代码/解决问题、赞助等多种方式,积极参与开源社区,发挥中国科技企业的力量。
腾讯已经把网络、存储、数据库等IaaS能力,大数据、机器学习等PaaS的能力,以及上层的图像、语音、NLP、BI等SaaS能力,通过腾讯云对外开放。
在大数据和AI两个领域,腾讯推出了以TBDS和智能钛TI为首的双引擎,让每个企业和开发者便捷用上领先的大数据和AI的能力。
依靠开源,四方向发展大数据与AI能力
从2019年开始,腾讯大数据的发展就进入了第四个阶段,即下一代计算平台。在技术上,蒋杰说将主要发展四个方向:
第一,批流融合。一直以来,批处理和流处理的引擎都是分开的,近几年批流融合的尝试越来越多,但是基本都是在SQL层面做融合,未来有没有可能从底层的计算引擎融合?“我们正在做这个方面的研究。”
第二,AI+大数据+云计算的融合,即ABC的融合。在腾讯,A+B融合度还是非常高的,机器学习平台和大数据平台属于一个大团队,底层研发力量是融合的;开源项目Angel就是A+B融合的一个很好的Case,他们把数据处理和数据训练在Angel做闭环了,所以一个Angel就能完成以前A、B两套平台做的事情。
上层应用上也有融合。如果光有AI非常枯燥的工具平台,没有数据支撑,其实很难跑得起来。就像一个房子,只有框架没有装修也没法住。
而B+C的融合,无论是CPU资源还是GPU资源,亦或是FPGA资源,用户拥有很好的弹性和开箱即用的能力,就需要云的能力。
ABC融合,也是一个发展方向,把AI、大数据和云打包在一起,放在云上,能够提供给开发者和企业。
第三,数据湖和联邦学习。漂移计算就是数据湖方向的发展,是为了解决跨IDC、跨平台、解决异构数据的共享计算问题而推出的技术。而联邦学习是为了解决数据共享带来的数据安全和数据隐私的问题。
第四,必须具备混合部署的能力,公有云、私有云,不同的集群,都能管理好。还有跨域的数据共享,不同区域、不同机房、不同的云。
蒋杰说,腾讯目前对开源没有商业化的要求或者诉求,更多的是回馈社区,回馈开发者,活跃生态。
而开源前行的步子会迈得更大。
Linux基金会主席Jim Zenlin在对话环节表示,开源不是一种商业模式,开源软件需要增加价值,就必须依靠一家公司里来运营。所以应该把商业竞争留给运用的公司,你可以利用开源进行商业活动。
Apache基金会主席Craig Rassel表示,开源软件许可协议就像交通红灯,是来规范开源软件发展和利用的一个规则。而开源软件许可协议变革风险是存在的。
两个开源基金会主席都对开源软件的发展充满信心,他们形容开源世界发展三大现象:开源软件在2018年实现了巨大的增长;使用开源软件形成了令人惊叹的产品和服务;未来开源硬件、开源或者开放数据、安全将超过开源软件服务。
这也就是为什么全球的科技公司都热衷开源的原因吧!依靠大家的力量,增强自己的能力,赋能别人!
-END-