【背景】
随着数字化转型的持续深入,某头部股份制银行把“依托数据洞察提升管理和营销的精准度、实现经营与服务的精细化与个性化”作为参与下一阶段数字化业务竞争的核动力。经过多年的探索,该头部股份制银行数字化技术与业务场景的融合逐渐进入了深水区。
一、源起:敏捷 BI 在各业务条线广泛推广
该行内部已建成一套以数据可视化、自助分析、数据接入等核心组件为一体的数据分析平台,通过赋能行内数据产品建设,服务各业务条线的日常用数。
其中,面向数据分析师的自助用数服务是核心能力,包含了自助制作业务报告、自助探索分析、数据轻加工、增强分析、办公用图表等主要场景。随着该行支撑的数据产品自助化场景逐步拓展,越来越多的用数环节由业务用户自己完成。目前,该行数据平台已经支撑行内批发、零售、财会、运营、风险等条线的数据产品建设,月服务用户超 数 万人。
二、挑战:海量数据规模下的报表查询性能问题
随着数字化转型的持续深入,该行的数智化建设进入数据规模爆炸式增长的“深水区”。据统计,其总行湖仓的整体规模已经超过数十 PB,而数据服务场景从企业高管的“固定分析”需求向“数智化运营”转变,业务运营过程中大量的“微决策”场景高度依赖及时、精准的数据分析。以零售业务为例,营销圈人、人群洞察、活动效果评估等复杂多变的敏捷运营需求大量涌现。
海量数据分析性能的问题成为一大挑战,特别是在报告查询和自助分析响应效率方面。其次,数据需求的交付效率也存在问题。在总分机构的模式下,分行作为业务的最前线,常常出现数据生产和消费的时间差异。业务需求的灵活性给数据模型带来了空间和时间复杂度的挑战。IT 交付的数据模型,无论是宽表、Cube 还是明细数据,在海量数据规模下,都难以满足高效查询的需求。即使在某个时间点能够调整到最佳状态,未来的业务需求仍难以快速响应。
基于上述背景,该行联合 Aloudata 进行创新,通过 Aloudata AIR 逻辑数据平台构建了基于 Data Fabric 理念的敏捷数据准备解决方案,大幅提升了数据准备效率和高并发下的请求响应效率,实现了全行数据的零复制实时汇聚与访问、VIP 业务报告百分百性能保障和 90% 以上报告请求秒级打开率。
【方案介绍】
海量业务数据分散在多个引擎是各项业务快速创新和增长的必然结果。国内头部金融企业和大型互联网公司传统上都是采用数据仓库方案,通过物理方式实现数据的汇总和加工,进而为分析场景提供数据准备。面向不同用数场景的多次物理搬运与 ETL 工程不仅成本高昂,还会导致重复导数、数据安全、数据时效性差、数据灵活性和使用效率较低等问题。
Data Fabric 是一种国际上较为先进的数据管理架构思想,包含了数据虚拟化、主动元数据在内的一系列技术,其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理,让数据架构持续健康。
基于 Aloudata AIR 国内首个 Data Fabric 逻辑数据平台的能力,方案首先通过虚拟化手段将 GaussDB、ClickHouse、MySQL、Postgres 等引擎中的海量的数据进行逻辑整合,构建出一个统一的逻辑数据资产层,进而让该行可以为用户提供更加灵活的自助式数据准备和自助式数据服务的取数、用数方式,进一步提高了数据需求的响应效率,覆盖用户不同业务场景的用数需求。新方案的整体计算和存储消耗不到传统方案的 50%,业务用数整体满意度大幅提升。
一、方案核心技术创新
1、数据虚拟化技术
数据虚拟化技术是一种允许用户通过一个统一接口访问分散在不同数据源中的数据的技术。它通过将多个数据源(如数据库、文件系统、云存储等)的数据实现逻辑整合,使得用户可以像访问单一数据源一样来查询、分析和操作数据。
数据虚拟化的关键在于它提供了一个统一的逻辑数据视图层,在不复制数据的情况下,将不同数据源、不同位置和不同格式的数据进行整合,它隐藏了底层数据存储位置、技术接口、功能特性等的技术复杂性和差异性,并通过逻辑视图层提供统一的数据服务,为多个应用和用户提供支持,从而实现实时的数据访问,减少数据复制搬运成本,提高数据开发与变更的敏捷性。
数据虚拟化只需通过简单的三步流程(连接、合并、消费),即可实现企业全域数据的分析消费。
与传统的数据 处理技术相比,数据虚拟化技术具有以下三大优势:
2、高性能联邦查询
方案实现了面向列存友好的高性能即席计算和零序列化数据传输,结合增强的 Parquet 文件向量化读取及查询下推技术,使得该银行的数据平台实现了多源异构数据源的高性能联邦查询。
3、透明化物化加速
4、AI 增强的自适应加速
基于对全域逻辑数据视图定义和用户查询行为的解析,构建全局算子图谱,并实现基于代价的投影构建规划,智能识别枢纽节点,构建全局成本最优的关系投影,并自动合并相似关系投影存储、下线低收益预计算任务和存储,获得比传统 ETL 方案至少 50% 的成本节约以及更快的数据时效。
5、增量数据更新机制
基于上游数据变更和逻辑数据视图定义变更,自动对关系投影进行更新,而无需用户手动创建和触发 ETL 任务。通过上游数据更新事件触发或对元数据的变更监听,可自动推断增量变更,以及自动分区推导,完成大规模数据的下游数据增量更新,免除业务人员对数据更新的关注。
6、标准化协议接入
数据虚拟化的最终产出是将准备好的数据发布出去,以供下游消费。通过实施方案,该银行实现了为消费应用程序提供单点接入方式,通过 JDBC 标准协议,用户可以在熟悉的工具产品中直接通过标准 SQL 方便快捷地查询用户发布的数据集,而无需改变工作习惯。
7、精细化安全管控
本方案为该行提供了统一且精细的数据安全管控能力,以保障业务自助用数的安全性,包括 RBAC 的数据可见性和管理权限控制,以及行列级数据访问权限控制等。
二、方案架构
基于 Data Fabric 的敏捷数据准备与分析解决方案整体的逻辑架构如下:
添加图片注释,不超过 140 字(可选)
1、多源异构数据接入
通过数据虚拟化技术,集成了该银行 Gauss DB、ClickHouse 、MySQL 以及文件等不同数据源的数据。
2、逻辑数据视图定义
面向业务语义定义逻辑数据视图,无需依赖 ETL 工程师准备应用层数据。支持多级视图嵌套,以及灵活的数据聚合与关联。
3、自适应物化加速
基于用户的查询历史以及数据编排逻辑,进行 SQL Pattern 的抽取,通过抽取算子模板引用关系统计、计算和存储成本、访问次数以及压缩比等因子,计算出有价值、且复用度高的模板,对模板进行泛化和关系投影 (Relational Projection) 的创建,以实现数据预计算链路的物理编排,保障每日十亿级数据量下的查询性能;
4、标准化数据服务
通过 JDBC 标准化接口对接 Tableau 、圆方等下游分析工具,隔离应用与数据库的直接连接。
多集群高可用架构
5、一站式运维管理
提供统一的集群负载队列管理、全方位系统监控(稳定性、时效性、系统异常告警等)、投影任务管理、数据权限管理、投影策略调节及治理、查询历史及性能分析等能力。
【成果效益】
在双方的密切合作下,敏捷数据准备解决方案在该头部股份制银行顺利完成部署,并通过严格的企业级生产环境验证。通过该方案的实施,该银行实现了敏捷数据支撑能力的整体提升,取得了显著的业务效果:
1、业务数据获取时效显著提升
通过引入关系投影和智能更新技术,数据从产出到可供消费的准备周期显著缩短,从原来的 2 周缩短至 1-2 天,整体业务数据集的准备速度提升了 10 倍。
2、业务自助能力显著提高
该方案支持业务用户自助数据获取,响应速度不再受限于 IT 人工协助。原有仅 20% 需求能满足的情况,如今能够满足超过 80% 的敏捷数据需求,自助能力提高了 4 倍。用户通过该平台可以自主完成包括数据发现、需求定义、数据集成、分析建模等在内的全链路工作。 基于“多源异构连接”和“定义即研发”的能力,实现业务自助数据准备,业务自定义 VDS(逻辑数据视图)数量 1600+ 个/月,自定义 VDS 占比 80%。
3、存储和计算成本降低 50%
通过智能投影和多级存储技术,避免全量重复计算,节约冗余存储,总体存储计算成本较之前降低超过 50%。并且平台可以根据情况动态调节投影策略,实现存储计算资源的最优分配。在该行业务场景的实际应用中,实际使用逻辑数据源对应的相关表,其数据存储约占 280 TB、加速存储 157 TB,实际加速比 57% 左右。
4、业务用数整体满意度大幅提升
基于用户查询行为,自适应物化加速和智能查询路由,实现报表 3s 内查询占比从原来的不足 70%,提升至 95%。在用户满意度调研中,95% 的业务用户对新方案给出了高度评价,满意度得分均在 4 分以上。用户普遍反映平台极大激活了数据资产价值,使用数据更加便捷和频繁,将继续扩大平台使用范围。
通过此次项目实施,该头部股份制银行在支持业务敏捷决策、实现数据驱动转型方面迈出了关键一步。项目成果全面验证了该解决方案的技术效果及业务价值。
【方案亮点】
凭借 Aloudata AIR 国内首个 Data Fabric 逻辑数据平台,Aloudata 在该头部股份制银行完美落地了基于 Data Fabric 的敏捷数据准备创新实践。目前,Aloudata 系列产品已在多个极高复杂度的数据环境中完成实地验证,点击了解更多信息。欢迎留言、反馈、分享,期待与您交流。