本文刊登于《金融电子化》杂志 2023 年 1 月上,作者为中国出口信用保险公司信息科技部张倩,曲文非,庞松松,康达。
2022 年初,中国人民银行《金融科技发展规划(2022—2025 年)》和银保监会《关于银行业保险业数字化转型的指导意见》两份重磅文件正式发布,为金融行业数字化转型指明了方向和路径。中国出口信用保险公司(以下简称中国信保)通过数字化转型积极落实公司“336”发展战略,建设科技引领工程,打造内部数字信保,构筑外部数字生态。随着数字化转型进程的提档加速,图片、音频、视频等非结构化数据快速增长,面对快速增长且日益重要的海量小文件,针对如何打造安全可控的金融数据底座,中国信保提出了一套完整的分布式存储架构信创解决方案。
01|以更安全可控的技术方案 应对存储基础设施架构挑战
信创是基于国内外发展环境变化和新时代新征程发展战略需要实施的重大战略举措。在中国信保全面开展数字化转型的背景下,信创工作和数字化转型工作势必同轨并行,既是机遇、也是挑战。
数据应用领域的各种新需求驱动了数据管理层面及数据载体层面的分布式变革。自 2020 年起,中国信保的容器云建设、文档云平台等开发项目陆续提出非结构化文件分布式存储的明确要求。
分布式存储将计算资源和数据分散在各个存储节点上,每个节点均能对外提供存储服务,有着传统存储无法比拟的线性扩展优势。然而线性扩展在提高系统灵活性的同时,也带来了不同硬件兼容适配问题。中国信保在存储信创建设过程中充分汲取了分布式领域先进经验,考虑到未来的供应链变化不可完全预知,经过深入研究和现场测试,决定构建“异构多芯”的安全可控架构。所谓“异构多芯”,即在一个存储资源池中多种 CPU 芯片并存,实现不同架构 CPU 的混合异构部署及集中统一管理、多种异构技术在单一资源池中无缝多芯协同。未来无论硬件架构如何改变,中国信保都能够据此保持整体存储架构的稳定可控,同时满足信创多个场景的业务发展需求,充分发挥不同架构 CPU 在不同场景下的优势。
02|创新集群多站点应用 实现分布式存储双活切换
随着全球 IT 产业的飞速发展,金融行业的IT建设逐步成为引领金融企业业务发展的核心驱动力,金融机构信息系统和数据遭受网络攻击、勒索病毒、自然灾害等的风险威胁也在持续升级。任何非计划性内的停机,都可能引发巨大的经济损失和社会影响,基于金融企业 IT 架构容灾建设的各种行业标准及监管要求正在不断提高。中国信保为落实公司“336”发展战略要求,坚持底线思维,不断提高灾难风险防范能力,保障信息系统的持续稳定运行。
中国信保采用信创 SDS(软件定义存储)“异构多芯”集群“多站点”架构方案实现存储容灾目标。“多站点”架构基于统一的分布式元数据服务,桶、对象、用户、站点配置等信息全局统一,每个站点含有独立的对象路由和对象网关对外提供访问入口。数据写入时,通过统一的元数据服务实现强一致的元数据修改,数据落入站点内的存储平台保障数据的可靠性;数据读取时,从本地站点存储平台读取内容后响应数据请求。多个站点之间同步关系,支持定义多个站点之间的单向、双向同步(如图所示)。
公司大量的应用系统的非结构化数据存储在金融街生产中心(A 站点),A 站点采用星辰天合的天合翔宇鲲鹏架构,提供日常生产存储服务。为保障资源与负载的可靠性,亦庄同城中心(B 站点)作为灾备中心,采用了星辰天合的天合翔宇海光架构,实现与 A 站点数据的实时复制(RPO=0),当 A 站点存储服务中断时,B 站点能够自动接管生产系统服务,应用系统无需调整配置,保证业务连续性(RTO=0)。
具体实现如下 :
(1)在 A、B 站点间通过存储产品的对象多站点特性来构造对象桶级别的数据实时复制,确保不间断的将数据从 A 站点同步到 B 站点。
(2)将两个站点对外的服务 VIP 映射给负载均衡设备,负载均衡设备通过单一域名或者 IP 对外提供服务,同时负载轮询 A 站点和 B 站点的 VIP 地址,默认优先访问 A 站点。
(3)在 TCP/IP 协议七层应用层,负载均衡设备通过持续不断的探测 A 站点对外服务情况进行健康检查。当 A 站点因节点故障、网络故障、对象桶异常或者整个站点断电,导致负载均衡设备连续三次探测失败时,负载均衡设备主动将业务切到 B 站点。多站点统一命名空间的特性能够保障 A、B 站点切换时,业务无需进行任何配置调整。待 A 站点恢复后,存储设备自动实现反向同步。
03|多技术手段灵活运用 分级提升数据安全保障
分布式存储已经拥有多副本,是否仍需要备份?答案是肯定的。对于金融企业,数据备份是必不可少的一项关键性工作,它直接决定着企业能够应对什么样的数据威胁以及相应解决方案的灵活度和有效性。有效的备份可以防止系统出现因操作失误或逻辑故障导致的数据丢失。中国信保基于前篇介绍的 SDS “异构多芯”集群“多站点”架构方案的基础上,增强备份能力以提升数据的安全可靠性。
1.恢复任意版本的数据。开启多版本在对象删除或覆盖的情况下,不会真正删除原始数据,可以起到数据保护的作用,亦可作为数据保留和存档的一种手段。通过版本控制,可以在存储桶中保留多个对象版本,防止意外覆盖和删除版本或存档对象,以便检索早期版本的对象。经实验验证,多版本功能虽然对性能没有影响,但是占用大量存储空间。因此,多版本功能仅使用在 B 站点容灾集群内,且设置版本过量删除策略,超过设置的版本个数后,自动清理旧版本,简化对象版本管理的复杂性,控制成本。
为有效保障核心信息系统数据安全,在意外操作或应用程序故障时快速恢复数据,我们对 B 站点容灾对象桶开启多版本功能。对象应用接入 A 站点时,误删除 A 站点业务桶中的对象 C,则可以通过 B 站点灾备桶来恢复数据。
具体实现如下 :(1) 在 B 站点业务桶打开桶多版本策略,要求此桶在之后上传的对象都记录版本 id,每个版本 id 可以被认为是一个完整对象的次新副本。
(2)在应用侧误删除对象的情况下,能够快速在 B 站点采用对象内容管理工具,选择任意时间点的对象版本获取数据后复制到 A 站点进行访问,或者应用直接调用携带版本 id 参数访问B站点灾备桶任意时间点的对象,此过程RPO 为0,RTO 由人为控制。
2. 根据备份策略恢复。多站点功能虽然能恢复约定变化版本内任意时刻的数据状态,但每次 MD5值发生变化即更新成本较高,不适合大规模使用。因此,对于一般业务系统数据,对象应用接入 A 站点,或者 NAS 应用挂载A 站点文件系统时,误删除 A 站点业务文件系统中的数据,则可以通过 星辰天合的 X3DS 数据管理系统所建立的复制任务策略快速从 B 站点恢复灾备生产数据。具体实现如下 :
(1)在 A、B 站点间通过完全解耦的 X3DS 独立软件完成文件系统的定期复制工作。
(2)可以实现在误删除 A 站点生产数据的情况下,在 B 站点找到 X3DS 最新的定期复制时间点之前的完整数据并直接使用,或者复制至 A 站点的文件系统中进行快速恢复。
结语
目前中国信保所规划的存储基础设施能够充分满足公司对于信创以及数据安全的需求,未来中国信保将进一步加强存储基础设施建设的安全监管,强化存储基础设施服务平台建设。建设安全可控的金融存储基础设施,推进金融信创的发展将是金融机构未来的数字化转型主旋律,希望中国信保的信创探索实践,能够为业界同仁提供借鉴。END