【导读】现在首先会看到几个场景的需求,第一个爆发出来的需求是数据库的国产化,这一波是由政策推动的一个巨大的市场红利,尤其是在资本市场已经显示出来了潜力,比如 WPS这个边缘的办公应用组件都能有如此巨大的市值,大家的预期很高。我们是要找一个上世界的替代品呢,还是用发展的眼光去看,找到新世界的需求?因为这个世界总是在变化的。
11 月 17 日,金山办公登陆科创版,圆了小米集团创始人、金山软件董事长雷军和金山所有员工的“英雄梦”。算下来,从 1999 年以金山办公为业务主体准备上市算起到今天,雷军足足等了 20 年。
WPS 上市之际,除了引起了人们关于办公软件市场和前景的热烈讨论之外,还牵扯出人们对另一个更加深刻的问题——国产化软件及其安全可靠性的思考。受益于国产化趋势,WPS 的 PE 估值升至 35 倍,维持“买入”评级。正如天云数据 CEO 雷涛所说,这背后的深层次原因,核心实际上在于国内要“去 office”的趋势,所以,这个沉寂了多年,几乎被边缘化的办公软件产品才得以抖落尘埃,涅槃重生。
至于这款国产办公软件的水平,在虎扑论坛上大多数网友表示比较满意,有人认为与微软 office 相比,WPS 具有体积更小,比微软办公软件更安全的优势,甚至发出了“华人之光”的感慨。从中可以看到,只要功能、安全性等有保障,国人似乎非常乐于支持国产化。
在 IT 国产化浪潮下的影响下,“去 IOE”这个概念逐渐流行起来。这一概念最早由阿里巴巴提出,其本意是,在阿里巴巴的 IT 架构中,去掉 IBM 的小型机、Oracle 数据库、EMC 存储设备,代之以自己在开源软件基础上开发的系统。去 IOE 意味着接下来政府必须将数据安全牢牢掌握在国内企业手中,以防止数据丢失造成的一系列严重后果。
具体来说,去 IOE 还有以下两个解释:
第一个是指 IT 架构的更新换代,具体说就是以 IBM 为代表的主机、以 ORACLE 为代表的关系型数据库,以及以 EMC 为代表的高端存储设备,被新型的云计算技术所替换,也就是我们常说的“云化”。其中,主机被X86设备所取代,传统数据库被开源数据库产品替换,而SAN结构的高端存储也受到云化的存储产品和体系的冲击。这三方面中任何一项工作,都可以被冠以“去IOE”的具体表现。
第二个是指针对外国 IT 设备,特别是美国产品的“严打”,减少甚至不再购买 IBM、ORACLE、EMC 等企业的产品。
2008 年阿里提出去 IOE 时不少人觉得是痴人说梦,但经过多年运营,阿里云已经彻底完成了去 IOE 工作,即阿里云的硬件投入彻底抛弃了这三家传统企业,经历几次双十一的挑战之后该技术也趋于成熟。
值得注意的是,这“去 IOE”中的“O”,乃是真正实现国内 IT 技术独立的关键所在,即去除对以 Oracle 为代表的关系型数据库的依赖,如 Oracle、SQLServer、Sybase、Informix、Access、DB2、MySQL 等。
由于关系型数据库具有保持数据的一致性(事务处理),以标准协议为前提,数据更新的开销很小,可以进行Join等复杂查询等特点,一直是数据库领域的关键一环。
多年以来,国内企业多使用这些国外数据公司主导的数据库产品,很少有一款产品能够与之抗衡。
直到2005 年,Gartner提出了 HTAP(Hybrid transactional/analytical processing,在线事务处理/在线分析处理数据库)这一概念,并迅速成为引起一些企业的关注,被很多人视为未来数据库领域发展趋势之一。
2014 年,Gartner 对 HTAP 数据库给出了明确的定义,HTAP 数据库需要同时支持 OLTP 和OLAP 场景。基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去了费时的 ETL 过程。
与传统 IT 架构有一些事务处理需要联机分析和分开处理不同,HTAP 数据库能够在一份数据上同时支撑业务系统运行并做 OLAP 场景,这样就避免在传统架构中,在线与离线数据库之间大量的数据交互。
它会代替 Oracle 吗?
既然 HTAP 有这样的优势,它能够替代 Oracle 吗?
数据资源发生变化的当今时代,生产数据发生了哪些变化?数据消费者随之发生了什么改变?数据架构、计算、信息发生了哪些改变?带着这些疑问,CSDN 采访了天云数据 CEO 雷涛,请他来谈一谈关于 HTAP 和大数据技术的那些事。
记者:在从 IT 向 DT 时代的转换过程中,产品和技术得以飞速发展,行业需求或痛点发生了哪些变化?
雷涛:回到刚才 WPS 的故事。我们看到,WPS 上市代表一种国产化的趋势,WPS 替代了Windows Office,但事实上真是 WPS 做端到端的复制替代 Windows 吗?从我作为一个消费者的体验上来看,我个人会在手机上和 pad 上使用像印象笔记这样的软件,不再使用编辑软件了,我不再关注到底用粗体还是斜体来排版,我关注的是,拿起任何一个设备,它都是同步的,能够保持信息的一致性。所以真正替代 OA 的升级,并不是找到一个完整的 Word 的替代品——WPS,而是找到了下一代产品大的迭代需求。
而这个大的迭代需求,就是我们针对“去O”这个问题,我们做了一两个大型商业银行的 Oracle 替代,但很快发现,它的真实市场并不是点对点替代,而是在整个需求发生升级迭代的过程里出现一个新的消费市场,即 Oracle 在做的是几百万条交易规格的强一致性,不仅是性能,更重要的是数据的移动性、计算框架的变化,比如我们的联机事务同时要做大规模并行计算。以前大数据挖掘的机器学习也要跑到这个数据平台,对计算场景的通用性、即时性和全量数据的这些要求都是传统架构无法适应的。我们现在看到的更多的是,不是替代 Oracle,而是如何升级 Oracle 的市场需求,即我们所说的混布数据库。
记者:“去IOE”开始,有关数据库国产化的话题就一直是市场关注的焦点,您认为国产数据库的安全可靠如何量化,据了解很多银行、政府的关键业务还在用外企的产品,国产数据库的破局点在哪?
雷涛:之前,从运营商到银行核心系统,大的架构都垄断在西方的 IOE(IBM、Oracle、EMC)这三座大山里,而“去 IOE”,最难的是去“O”。
记者:为什么要提 HTAP?天云数据的 HTAP 产品 Hubble 会直接替代 Oracle 吗?
雷涛:不是不可能。数字中心的核心交易系统,我们已经在银行实施,实现了 Oracle 最贵的一体机的替代。
记者:有没有实际落地、应用的行业案例可以分享?
雷涛:用一个案例的数据可以说明。我们的切入点是以金融为核心的系统。现在,混布数据库处理其中超过两千的核心表,400 多亿条交易数据,56 个在线服务交易,满足了 500 个用户并发,500 毫秒的交易响应,每天的在线交易额,包括柜台、手机银行、网银,两百多万,占整个 A 类银行核心系统交易种类的10%。现在,国内少数几家商业银行都换成分布式系统了,但还都是在 MySQL 开源体系中,我们是唯一一个在分布式的 New SQL 下面去做的。这个是“去 IOE” 最根本和彻底的。
记者:替换成本银行承担得起吗?
雷涛:就是谁愿意先尝试创新,这个系统已经在银行上线了三年,但是银行很低调。很多人以为银行的信息化比互联网慢,但其实不是这样。我们原来做互联网和运营商,每天新增交易规模1700 亿记录,就觉得已经是包打天下了,到银行,一个交易跨一千多张表的复杂度、关联度,动辄四千多行 SQL 语句一个交易,而且交易规则是非常复杂的,所以,银行不仅数据规模量大,而且银行体系还面临着银监会的监督,不容出错,对于交易系统的投资大太多了。
记者:OLAP(On-Line Analytical Processing,联机分析技术)和 OLTP(on-line transaction processing,联机事务处理)真的是资源矛盾的需求么?
雷涛:现在国内外有企业在做新型的 HTAP 产品,事实上是在解决联机事务和密集计算,以前TP、AP 是分开场景来算, 必须做选择,鱼和熊掌不可兼得。
AP 的操作和 TP 操作的矛盾在存储里早就有表达,存储的SPC性能设计只能满足其一,AP 就像我选一个大巴来接人,来一支球队,我派一辆大巴全接走了,而 TP 就像是一辆随叫随走的礼宾车,每来一个人,派一辆高档的礼宾车把人接走,它对随机访问能够即时服务和响应,讲究服务质量和高并发,但是不讲究吞吐和带宽。所以,AP 是体量的计算的复杂度问题,它可以容忍服务的下降,而 TP 是强调高并发服务的低延迟响应,以及强一致性的事务保证。似乎在存储上也是这样,它的底层也是Random IO和sequence IO,这两个随机的和持续的连续 IO,完全是两套矛盾的服务,为什么最后出现了像 EMC、cymatrics、HDS 的 HP 的 XP 高端旗舰级存储,它就是把这个问题拆解,可配置量化,一个高端存储可以进行内部位图设计的定制化,还可以互相调整和Balance,做复制时可以基于位图的元数据控制,而不用动真实的数据,所以旗舰级存储轻量、快速,能满足多种目标。所以融合型产品最终体现在企业高端上可控和可被颗粒化。
HTAP 提的这个方案就是这样,纵观 Google 的技术发展历程,从最早的 Big Table 就是基于HDFS 这种模式,它特别适合 AP,即有大规模数据吞吐,但它是批处理操作,到后来的F1 Spanner架构,基于 Paxos 协议,密集同步,强一致性保护,它开始逐渐地拆解得非常细,也就是在 HTAP 场景下,我们会把控制的颗粒度,如整个交易的IO流程和交易流程拆到不同的层级,从如何做存储,每一张表对应 AP 和 TP 场景的问题和存储,到调度层等逐渐分解。Impala 的 AP 做得很好,但是为什么不能解决并发?因为它是进程级的,没有拆解到线程,线程就可以控制到很微小的颗粒度,可以解决并发和很多资源调度问题。然后再往上的逻辑层,基于MVCC机制和像 Raft 这样的协同机制,可以在交易逻辑层来完成更细颗粒度的表达。这很像十年前,旗舰级存储出现时能适应不同的场景,满足不同的需求。
记者:如何满足不同的场景需求,move code or move data?
雷涛:满足的目的是什么呢?不要去动数据,而是动代码,这是我们提出的一个概念:move code,还是 move data。为什么 HTAP 现在这么关键?因为我们现在在大型的银行,现在有一些迫切的刚需出现了,move code 还是 move data 这个问题源于现在的数据发生了变化,数据资源发生变化了,现在我们谈的 4 个 变化,核心就是从交易转向行为和机器生产,大量IOT、物联网的数据产生,数据密集度高、体量大,产生速度又快,这让计算框架结构产生根本变化。这是第一个变化因素。
第二个 Driver 是数据消费者变化,原来的数据消费者是少量的报表、仪表盘,BI 和数据仓作为消费者。对于 TP,其实没有数据消费,TP 是流程,数据是产生的副产品,挖掘数据的价值会随着交易流程的结束而结束。一般都会复制到数仓,甚至复制到 SAS。数据挖掘,就是机器学习这块消费数据,以前AP很少量的数据消费,比如一个仪表盘,就是一两个数仓的管理员在看,但现在,我们碰到大量的需求是什么呢?原来上大屏的数据可视化的那些项目,全部推送到了了移动端,就是个性化数仓/个性化价值仓提高单兵服务能力。比如一个营业厅应用有六万多人,同时在线需要至少五百个并发/秒,理财经理要在某一时刻看到大客户的结息、净值等一系列的数据服务,且都是个性化的。所以,这意味着,以前的 AP 需要提供高并发服务,因为数据消费者一下子增多,从以前的几个老板,看 BI 的东西,变成了很多一线员工要进行数据消费,这对并发的要求把 AP 推到 TP 场景里。
记者:因为移动化了?
雷涛:因为数仓消费化,所以,一下子把大量数据计算内容推到了 TP 场景里。同样,现在 TP 越来越复杂,大量交易都带着权益,且要求交易要即时服务,比如权益类业务,很多现在都是Online,所以使得 TP 场景越来越重,核心系统的交易部分要做得计算的跨越的表越来越多。如此大量的 TP AP 化,AP TP 化,这是场景问题。
这提出了一个问题:我们如何合并这个过程呢?即我们要处理好两个核心要素,一个是计算,一个是数据,这两个角色开始发生变化,原来是以计算为核心,现在要以数据为核心。但说的容易,这其中涉及到架构的变化,即 move data 还是 move code 的问题。
互联网来临时,PC、desktop 时代和互联网时代两者之间比较的是 file和page,FTP 和 HTML,一对比就知道,以前是把文件搬来搬去,code 不动,应用服务器就在 FTP Server 上,代码不动,动数据。但是在互联网时代,我们发现页面不动,访问请求在不断地链接,所以我们在 move code,这是发生在信息层面本身的。
第二次革命发生在计算框架本身,就是 MapReduce 和 IOE 的区别,MapReduce 是Google Big table 这套体系,data 被切碎放在所有的磁盘上,每一个数据的计算都是 CPU 在计算,所以代码被切碎了送进去,数据不动,就是 move data。而现在是把 code 送进去,在存储上计算 data,代码切碎了送进去,而不是把数据拿出来,在一个大型或小型机上算好。MapReduce、Big table 这次的迁移实际上是计算框架的变化。
而这一次,HTAP 事实上是数据中心架构的变化。
原来有一个 Oracle 做交易,完成了整个流程性应用的内容,自动化写的代码,数据是它交易的副产品,交易结束了,数据的生命周期也结束。要想把数据价值做二次表达,我们要每天做ETL,跑批作业,存到数据仓库中,然后在数据仓库中建模、挖掘、数据集市、ODS,一层一层地构建起数据仓库报表。如果还回答不出更细节、隐含的问题,比如非线性问题,还要把数据复制到SAS中做机器学习,再做统计的指标体系,去做进一步的挖掘。数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作在做数据搬家。现在,数据中心也开始要做一个融合性的计算框架。比如,现在AI要做online训练,淘宝推荐引擎,滴滴打车的路径动态规划都在做即时数据,数据闭环是数据基础设施的一个很大的要求。BI和AI操作都要Online化,也就是AP操作要变成TP场景。
回到我刚才说的需求,现在的AP都是高并发的数据服务,都是要TP的应用场景出现了,但是这是一个体量巨大的密集计算,以前我们认为是AP的东西,现在要求,并发和即时,以前的机器学习,比如快速做逻辑回归,贝叶斯、规划、动态规划算法等都需要online做,这些都要求底层有一个融合的数据平台,这是第一个需求,即不能再搬家了,这是融合性数据库的根本性需求。
这种需求不是让你在AP和TP之间做选择,新的架构要解决TP AP化和AP TP化的问题。HTAP会成为未来的一个主导性趋势,而不是一个边缘的补充,因为以数据驱动业务为核心的,会越来越落回生产事件。
记者:这是一个真正具有业务场景需求的功能。
雷涛:而且未来三五年它是主导趋势型的,它不会再区分出一个小TP加上一个重的离线的批处理 AP了,未来,要想让你的前端和企业有弹性、灵活,现在的数据中台服务底层都应该是混布的。
记者:未来,HTAP 还会有更多待开发的场景,您认为它将会向哪个方向发展?
雷涛:我们大量的机器学习也是要跑HTAP的,因为现在很多算法都是即时的,我们能够替代SAS的机器学习的服务,不是靠算法的优势来替代,深度学习真正在流程替代里不多,通用机器学习是最多的,而通用机器算法几十年前就存在,今天要获得其最大的价值,要把数据的价值挖掘出来。
真正做AI的人都会特别依赖HTAP,数据供上来,算法就没有价值了。我们做数据驱动分为几个阶段:
第一阶段是发生了什么?我们做报表、监测、统计等;第二个阶段是为什么会发生?我们做数仓,能够回答一些多视角的问题;第三阶段是做预测,做机器学习,预测将来会发生什么。
记者:HTAP 的需求如此强烈,未来的独角兽会出现在哪里呢?
雷涛:现在大家首先会看到几个场景的需求,第一个爆发出来的需求是数据库的国产化,这一波是由政策推动的一个巨大的市场红利,尤其是在资本市场已经显示出来了潜力,比如 WPS这个边缘的办公应用组件都能有如此巨大的市值,大家的预期很高。我们是要找一个上世界的替代品呢,还是用发展的眼光去看,找到新世界的需求?因为这个世界总是在变化的。
就像在早期,互联网发展大多基于LAMP(Linux、Apache、MySQL、PHP)架构,是向企业级架构学习,对照着企业级的“婴儿版”、“幼儿版”产品,做出对应的便宜、开源、轻量、廉价的互联网,比如Facebook最早的Lamp架构。但很快,Facebook LAMP架构就推倒重来了,因为它扛不住。互联网带来的不是廉价,而是更迅猛的数据资源爆发。交易数据是最早的数据属性,数据是流通的副产品,但是互联网驱动的是行为数据,行为数据要远大于交易数据,行为数据带来的系统架构绝对不是靠廉价,而是靠高并发、高扩展、更松耦合的高服务能力来完成的。我们很少看到Google宕机,它不是靠高可用性来保证,而是靠整个服务的容错。在行为数据中诞生了新的架构,不是LAMP抄了一个企业级的版本,而是生成了一个新的分布式架构。同样地,今天我们看Oracle替代这个问题,我们不是找了一个像WPS替代Office的版本,而是要找到Oracle下面的分布式,能够碾压一体机,能够适应万亿记录规则场景的方法。这是一个新的营销的市场,一个新的蓝海。
雷涛:
雷涛现任天云融创数据科技(北京)有限公司(简称天云数据)首席执行官。雷涛拥有 20 余年北美信息科技公司从业经验,2005 年入席 SNIA 存储工业协会中国区技术委员会联合主席;2013 年首批 CCF 中国计算机学会大数据专委会委员;长江商学院特聘导师,博士后工作站企业导师。2019年第九届“吴文俊人工智能科学技术奖”获得者。
【栏目简介】
「AI技术生态论」是CSDN新媒体编辑部发起的一档人物访谈栏目,通过对AI生态顶级大咖、创业者、行业KOL的访谈,反映出他们对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。2020年,CSDN将对1000+人物进行访谈,形成系列,从而勾勒出AI生态最具影响力人物图谱,以及AI产业全景图!
「寻求报道」
登上「AI技术生态论」?马上联系我们吧,将您的公司及个人资料发送到邮箱[email protected],资料审核之后我们的记者就会与您联系!