常雷
本文由偶数科技创始人兼CEO常雷撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。
大数据产业创新服务媒体
——聚焦数据 · 改变商业
当下,企业业务愈发复杂多元,对数据处理的要求越来越高,实时分析场景也日益繁多。同时,数据技术发展日新月异,新技术层出不穷,利用合适的数据技术打造企业的实时分析能力非常重要。
三大趋势概述
对于未来数据技术的发展,有三大趋势值得注意:
1、实时分析需求高涨,实时特性将成为区分下一代湖仓的重要标准。
2、湖仓融合逐渐成为数据平台迭代的主流方向。
3、AIGC兴起让数据使用更简单,但落地还有一段路要走。
实时特性将成为下一代湖仓的重要标准
越来越多的实时场景涌现,如实时大屏、实时报表、实时指标、实时推荐、实时风控、反欺诈、IoT场景等,我们平时在浏览电商时收到实时推荐,似乎已经司空见惯。从业务场景的需求来看,传统的 T+1 已经难以支撑,大家对实时的需求俨然很迫切了。
客户的IT能力越强,投入越大,越看重实时性,当然业务也会越有竞争力。一些传统企业技术投入较少,因此技术能力不足也会反过来限制业务需求的挖掘和创新,因此会产生一种错觉:好像不依靠新技术,现在业务也能被满足的挺好。但是,这实际上是数字化转型没有做好,业务提升空间还很大。
说回实时湖仓概念本身,根据我们在数据平台项目建设的长期探索和经验,我们总结出了实时湖仓一体的六大特征——ANCHOR,其中6个字母分别代表:
● All Disparate Data(多源异构数据)
● Native on Cloud(云原生)
● Consistency(数据一致性)
● High Concurrency(超高并发)
● One Data in Open Format(一份开放格式数据)
● Realtime(实时T+0)
ANCHOR的中文意思是“锚”,我们可以利用ANCHOR六大特性锚定实时湖仓一体,由此判断某一数据系统设计是否真正满足湖仓一体的本质要求。
那什么是实时呢?Gartner有个关于实时的定义梳理的很清楚。按照分析的时效可以分为战略决策、战术分析、业务运营和自动化处理,依次对时效要求和分析频率越来越高。
具体来看,战略决策比如企业收购、海外扩张,通常要做几个月到半年的分析;战术分析,比如细分市场的定价策略,通常要用几周到一个月的时间来分析;自动化处理,比如信用卡自动审批、股票的量化交易,通常是毫秒级,在一秒钟内完成;而业务运营夹在中间,从1秒钟到几天,跨度很大。所以在业务运营场景中,就需要对实时有更加明确的要求。
Gartner认为15分钟内的算是准实时范畴,根据我们的观察和实践,10秒钟以内才能算是强实时,10秒到15分钟的区间可以认为是准实时的。很多企业正在将传统的T+1报表升级为分钟级的准实时报表,接下来完全可以做成强实时的交互式分析。偶数做实时湖仓,是从离线到在线,从准实时到强实时,全部覆盖,我们提出叫做全实时,也是按需实时分析的理念,同时我们还自主设计了Omega技术架构(相对以往的Lambda和Kappa),用来支持全实时的湖仓一体。
根据现状的不同,企业会采取不同的方式来构建,大致分为三类:
第一类,以前信息化做得较弱,例如没有实现分析场景技术构建,或者之前的技术方案太落后,只做了一个传统的ODS,新的大数据平台也没上,对于这种情况往往是采用新建模式。
第二类,以前的IT基础栈比较全,构建了数据仓库、数据库,以及数据集市。希望基于现有的IT建设向实时湖仓升级换代。在这种情况下,如果原有存储是HDFS,就可以利用原有存储,叠加OushuDB高性能计算层和实时存储能力实现向实时湖仓的转型,也就是从数据湖转型实时湖仓。
第三类,以前有传统的数仓,但没有Hadoop大数据平台,这种情况可以把数仓先升级成云原生存算分离的架构。其他新应用场景再引入新的组件,慢慢形成实时湖仓平台,即数仓转型实时湖仓。
总结下来就是三条路径,新建、从湖转型实时湖仓,或从数仓转型到实时湖仓。第一种情况比较常见,新建一个平台硬件可以复用,应用场景逐步迁移,并不是新建完之后一下全部迁移。对客户来说,新建相对比较简单,因为新建不会涉及重大历史包袱。如果此前有大量业务在跑,改造相对来说耗时较长,需要几个月或者半年的时间,我们尽量让企业在短期内看到价值,增加他的信心。
不仅是技术路线选择,其实建设方法论也同样重要,我们结合偶数在数据平台项目建设的长期探索和经验总结,提炼出了偶数湖仓一体建设方法论。这个方法论主要包括规划(Planning)、实施(Implementation)、运营(Operation)三个子过程,三者先后衔接并形成闭环;战略(Strategy)是一个或有子过程,一般适用新建湖仓数据平台场景,或者特殊建设背景下行业客户的特别要求。
偶数湖仓一体建设方法论,期望既能兼容传统数据仓库的实施方法,又能规避过往数据湖落地过程中的一些弊端;既考虑众多企业已建数据平台多年的现实情况,又能抓住技术变化演进的前瞻趋势,助力企业的数字化转型发展愿景。
融合各有侧重,湖仓融合成主流
目前,在实时性方面有很多新技术和新概念,实时湖仓、HTAP数据库等,这些概念都有一些应用场景。以HTAP为例:在交易场景当中,有时候要做一些小的分析查询,同时,在分析场景里面有一点交易型场景,该类场景HTAP处理的就会比较好。但从主流的业务现状来看,交易场景和分析场景,比如在银行,是TP和AP分开构建的,背后负责的团队也是不同部门。
一般场景都是有侧重的,这个场景偏重于分析,那个场景偏重于交易,然后选用不同的产品,偶数科技的产品偏重于分析型场景,也支持一些交易。有些数据库是偏交易型的数据库,也支持一点分析。但企业真的要采购分析平台的时候,没有人去找交易库,同样,如果选型交易库,也不会有人去选一个分析库,我觉得在实际项目中区分得很清楚的。
但是湖仓的情况则不同,数据湖和数据仓库在使用场景上非常类似,因此湖和仓融合是必须的,是未来所有人都要做的,并不是锦上添花的一个东西。分析场景将来都会走向实时湖仓平台,现在企业都在想着降本增效,实时湖仓能带来很大的价值。
AIGC对数据库行业发展的影响
大语言模型的兴起对数据库行业影响很大。由于数据行业的特殊性和专业性,使用数据往往需要学习复杂的产品和SQL语言,导致原来没有专业基础的用户很难获得和使用数据。因为大语言模型降低了大家使用数据的门槛,让普通用户通过自然语言的方式使用和分析数据。
大模型使得数据栈变得更加简单易用了,比如可以自动生成SQL,将来设计模型、数据治理也可以用自然语言驱动。所以大模型对行业是一个重大利好,只不过现在这种垂直场景还没有非常好的落地。
AIGC现在属于一个比较前沿的探索阶段,基本上还是做一些比较通用的基础场景,针对一些垂直场景,还有一段路要走,任重道远。
·关于常雷:
常雷博士,偶数创始人兼CEO。
Apache HAWQ数据库顶级项目创始人和程序管理委员会主席、前EMC/Pivotal HAWQ产品负责人、组建Greenplum和HAWQ数据库研发团队、毕业于北京大学计算机系数据库专业、数篇论文发表在国际顶级学术期刊和会议(SIGMOD等)、美国商业杂志《快公司》“中国商业最具创意人物100”、中国计算机学会(CCF)数据库专委会专委、中国大数据产业生态联盟专家、中国人工智能百人专家。