自2021年“新基建”概念火爆以来,相关的政策和技术都不断跟进和发展,由于“新基建”本质上是基础设施向数字化、智能化、网络化方向发展,因此更多的科技领域从业者和投资者都将其称为“数字新基建”。而数据库、数据仓库、大数据平台和数据云等基础软件,构成了企业和政府部门数字化转型的重要基础设施,即“数据基础设施”。
但是,迄今为止的数据基础设施发展,仍然难以彻底解决以大型企业政府部门为代表的业数字化转型的痛点。比如,金融机构普遍采用夜间“跑批”的方式对当日交易数据进行ETL处理,从而将数据汇总到数据仓库、数据集市中,供用户进行报表分析与即席查询,但数据基础设施底层的复杂查询性能,成为“跑批”结果时效性的主要瓶颈,影响了用户进行决策的频次和时效性。
再如电力、电信等关乎国计民生、用户数量巨大、IT基础设施复杂的行业,普遍面临的挑战是数据规模及其庞大,数字化应用的计算与存储需求也极其巨大。为了提升工作负载能力,多集群的数据基础设施已经成为行业普遍现状。由此,在数据基础设施内部因为多集群间的数据共享难题,产生了新的“数据孤岛”。
由此可见,数据基础设施的技术架构、功能与性能特点的不断演进和发展,仍具备巨大的提升空间和想象空间。
数据基础设施是一套建立在过往的交易数据基础之上,并结合一定的技术手段与业务流程,为业务场景提供数据服务,实现数据价值变现的生态体系。一般来讲,数据基础设施包括数据体系、技术体系、运营体系、服务体系等四个部分。
数据体系:包含了企业内可利用数据的组织方式,包括源系统的交易数据,各类非结构化、半结构化、二进制数据,以及结构化数据的数据分层关系、数据模型、数据表结构、视图关系、字段名称、数据容量、数据权限分配等。
技术体系:包含了一系列数据相关的技术产品,如交易型数据库、数据接入工具(数据同步/消息中间件)、分析型数据库、NoSQL数据库、大数据开发工具(流处理/批处理)、AI算法开发工具等,以及不同产品之间的协同关系与业务流程。
运营体系:通过数据标准、数据质量、数据资产目录、数据服务培训与推广、平台操作流程与规范等,搭建数据的资产化管理与运营体系,从而为服务体系提供稳定的运营支撑,并保证数据基础设施与组织架构之间的协同效率。
服务体系:是数据与业务结合的关键环节,主要以可视化大屏、固定报表、自助式报表、数据API服务、数据应用等数据服务形态,以便捷的方式为业务部门提供数据服务,实现数据变现。
数据基础设施的演进历程,已经经历了数据库、数据仓库、大数据平台三个完整阶段。目前,数据基础设施正在迈向前三个阶段之后的第四个阶段,即“数据云”阶段。
数据库是数据基础设施的萌芽阶段,而最早的商用数据库产品,如Oracle、DB2,均诞生于1970年代末到1980年代初。早期的数据库应用于以OLTP(联机事务处理)场景为主,即直接承载来自业务系统、交易系统的数据存储与计算,因此这类数据库又被称之为“事务型数据库”或“交易型数据库”。在许多情况下,人们也将它等同于狭义的数据库。
1990年代后,尤其是随着E.F.Codd于1993年正式提出联机分析处理(OLAP)的概念,数据基础设施开始进入“数据仓库”时代。
2005年后,由于互联网、移动互联网的逐步普及,业务系统的终端用户量的爆发式增长,企业内沉淀的数据量同样呈现爆发式增长,数据基础设施开始进入“大数据平台”阶段。
2015年后,企业上云已经成为普遍共识,同时企业各业务部门对大数据分析的需求更加普遍化、敏捷化、个性化、场景化,数据的业务价值也由辅助决策转变为推动创新。在这一背景下,数据基础设施开始进入“数据云”阶段。
尽管数据基础设施经历了漫长的演进历程,但从数据库、数据仓库到大数据平台阶段,数据基础设施在扩展能力、弹性能力、查询性能、易迁移性等方面,始终受到MPP、SQL-on-Hadoop等上一代数据仓库技术的制约。
而时下受到热捧的“数据中台”解决方案,本质上只是在大数据平台的基础上,融合了数据资产化与数据服务化的管理能力,并没有对大数据平台的原有技术路线进行革命性升级。
因此,数据基础设施需要对技术进行彻底变革,变得更加统一与强大,而新一代数据基础设施——“数据云”的出现,则预示着数据基础设施的未来变革方向。
随着企业上云从互联网逐步渗透到传统企业,创新业务、边缘业务逐步渗透到传统业务、核心业务。同时,全球范围内的数据的产生与存储过程,越来越多地从传统数据中心转移到公共云环境中。根据IDC报告显示,到2025年,公共云中的数据百分比将接近50%。
但是,数据基础设施在进行云化改造时面临的两大挑战。
首先,共享存储、MPP无共享、SQL-on-Hadoop等技术架构对云环境的特性(如弹性能力)、组件(如云存储)适应性不足,存在弹性性能瓶颈,难以充分发挥云的弹性优势。
其次,共享存储、MPP无共享等技术架构的计算、存储节点深度耦合,无法实现计算、存储性能的非等量扩容,对IT资源的高效利用带来障碍。
因此,“数据云”应利用云服务器、分布式存储等云原生技术,对数据基础设施的扩展性能进行深度优化,充分适应云上数字化应用对高度弹性、无限扩容能力的要求;同时采取计算、存储分离的技术架构,充分适应数字化应用对计算、存储分别独立扩展的要求,增强弹性扩展的灵活性。
近年来,随着数据技术的不断创新,国内外分别崛起了一系列典型的“数据云”提供商。譬如Snowflake在纽交所上市,一时搅动了整个资本市场,这样的故事也正在打开中国投资者、开发者和用户的想象空间。
去年刚刚完成了B+轮融资的偶数科技,正是在数据基础设施赛道极具特色的一家数据云提供商。能够收到顶级资本的青睐,仅靠追逐热点是难以达成的,更多的是要有核心研发团队对于底层技术的长期专注和坚持。