AI 深入应用,以及数字化与新商业环境的挑战下,对数据的管理与应用被企业和 IT 界提到了更重要的位置。CSDN 的《新程序员》杂志第二期做了主题为“新数据库时代”的系列专题报道,此外,分析与咨询机构在研究与发表的报告中,也印证了这一趋势。德勤在刚刚发布的《2022年度技术趋势 》中,第一个趋势即是数据相关,表示数据共享趋势将加速。Gartner 发布 2022年数据分析十二大趋势 ,将数据分析提升到企业创新起源的高度。
不过从最早的传统关系型数据库,到Hadoop、Spark 大数据应用,再到数据仓库、数据湖,今年湖仓一体、流批一体等实时数据处理被广泛关注,数据赛道呈现了多种需求与多种方案混杂的形态。究竟该如何理解数据的重要性,以及选择什么样的数据策略,是数据从业者都需要去厘清的内容。近日,CSDN 专访了专注于数据智能基础设施的软件厂商九章云极 DatatCanvas 董事长方磊博士,听听他的理解与实践经验。
TP、AP 之后“第三份数据”兴起,引发数据热潮与系统升级机会
在IT 系统发展中,事务型数据(TP)与分析型数据(AP)是最典型的两类数据,以往数据与报表只是企业内部使用,例如白天的业务数据在晚上统一汇总,每天只更新一次(T+1),因此这些数据具有低并发、低频率的特点。
随着商业的创新式发展,数据逐步从内部转为外部用户使用,应用操作即时就需反馈结果,方磊举例道,如手机银行App 如果转账失败需要立刻恢复余额,专业术语称为“冲账”。因此他表示,在 TP、AP 之后出现了“第三份数据”,它需要与内部系统直连,并能快速、高并发地完成外部请求。
为了处理“第三份数据”,新的数据系统既要有数据仓库的特性,又要兼顾交易数据库的特性,同时具有 severing 的能力。因此出现了多个数据系统,并逐步发展为统一架构之上,流批一体、湖仓一体等实时数仓随之产生。不过方磊提到,现在湖仓一体、流批一体侧重于在计算层将结构化、非结构化数据统一,实现统一计算。例如 Databricks 提出的 Lakehouse,这是因为在美国的 IT 系统中,公有云的发展已经解决了数据存储层的问题。
但中国IT 是更为分散的私有云、混合云市场。传统企业中,数据在存储层只是由 Oracle、Teradate、MPP 上一代的数据仓库过渡到了 Hadoop ,数据可能存在 HDFS、或 MPP 数据库,或在云上的对象存储中,各类实时数仓不同的设计,都需要解决数据不一致,这一最大的痛点。
除了实时性的需求之后,数据业务正在从大量事后统计,转向事中与事前(如金融监管)预防,另外在以往系统内BI 应用之外,数据需要支持众多新的 AI 应用,而工业互联网领域的数据应用也在弯道超车,如工业质检、风力发动机转速扭矩调节,等物联网与 AI 应用也带来数据实时性的需求。
这其中,AI 人工智能场景应用对于数据的需求尤为急迫,因为算法与模型都需要更高效和灵活的数据系统去支撑。例如基于 AI 模型的在线实时金融产品,数据早已不是仅限于内部使用,外部对于数据的查询等需求,需要数据系统的分析能力能够实时透传到外部,为外部用户提供查询(如金融产品数据、随股市变化的金额数据等)。以上这些新场景、新应用、新需求,都让实时性数据进一步成为技术界的热点。
不过方磊认为,从更宏观的视野来看,实时数仓不应仅仅是离线数据库的补充和“补丁”。以往数据处理的痛点并未被彻底完美解决,所以现在更是整个数据基础设施与系统架构迭代升级的机会窗口,也因此国内外出现了各种由创业公司、云厂商推出的多个数据系统。
DingoDB:解决实时数据分析最痛的点
在数据基础设施的升级中,各类公司对数据系统的设计分为了很多流派。有些系统针对传统数仓的性能做了调优提速,已经能满足目前80% 的数据业务需求,方磊称之为改良派,但这类系统仍无法解决高并发与外部用户使用的难题。另一类系统,则打破了 TP、AP 数据的割裂性,所有数据全部实现流批一体,不过这也会带来对内存等计算成本的高昂开销。第三种,也是九章云极DataCanvas选择的路线,设计一个既支持“批数据”又支持“流数据”,并兼顾不同类型存储摆放需求的数据系统。
现在,九章云极DataCanvas 推出了实时交互式分析数据库 DingoDB, DingoDB 作为实时数据的通用系统,像 hadoop 一样具有松耦合与灵活性,但同时像 Oracle 具有稳定性且易于运维。
更进一步,在数据系统的各环节中,方磊认为,数据的变换已经被业界很好地解决(如开源Flink 已经可以很好解决实时的数据变换 Realtime ETL),而之后的数据查询仍然是薄弱和待提升的环节。DingoDB 借鉴了 TP 系统和 AP 系统各自的优点,结合 Flink ETL,在存储海量数据的同时,能够进行高并发的数据查询,实时的数据分析。数据从各种类型的渠道导入 DingoDB,借助 DingoDB 的高并发查询,实时数据分析和多维分析的能力,来支撑实时性、需要在线决策的数据业务应用。
方磊介绍,DingoDB 最核心的技术特性,是高效支持高频修改和查询、实时交互式分析、实时多维分析等功能,兼具行列混存等技术创新,详细地来说:
行列混合:DingoDB 采用了统一的存储的设计,支持行存、列存和行列混合的存储形式。
标准SQL:DingoDB 支持 ANSI SQL 语法,可以和 Calcite 客户端、BI 报表工具无缝衔接。
实时高频更新:DingoDB 能够基于主键,实现数据记录的 Upsert、Delete 操作;同时数据采用多分区副本机制,能够将 Upsert、Delete 操作转化为 Key-Value 操作,实现高频更新。
在存储层,DingoDB 与被频繁比较的 Databricks 的 Delta Lake 最大的不同点,是 DingoDB 采用了分布式存储架构,以适应国内用户存储分散的现状,而 Delta Lake 在存储层更多是云上的对象存储的抽象定义,而非真正的存储,这并不适应目前国内云计算的现实情况。
方磊对CSDN 提到,在企业中,算法和数据不分家,并将越来越紧密结合。所以成立之初,九章云极 DataCanvas 推出 AI 机器学习平台 DataCanvas APS,并在多个关键行业积累了大量的落地场景与案例经验,现在更进一步,针对 AI 分析依赖高效、实时性数据这个核心需求,推出的实时数据系统 DingoDB ,则是让数据从处理到 AI 分析,可以在一站式的平台上完成。
面对数据领域层出不穷的新技术,方磊表示,实时数仓、湖仓一体都是数据处理与分析应用的新战术,而从战略层面来说,方磊认为,九章云极DataCanvas 专注和努力在做的,是将 AI 的分析、数据等开放能力,组成一个高效的、互相紧密联系与流动的体系。与 Databricks、亚马逊云科技一样,九章云极DataCanvas 将致力于打造 AI 与数据统一的、一站式的数据科学平台,Data analytics and AI on one platform。以过硬的技术与产品去应对数据处理与分析的效率变革与挑战,将是数据赛道永恒的主题,我们期待九章云极 DataCanvas 与更多中国优秀数据厂商的表现。
DingoDB开源地址:https://github.com/dingodb/dingo