OceanBase数据库官方博客

刘伟光：超大型金融机构国产数据库全面迁移成功实践

文章目录

@[toc]

导语

国产金融级数据库迁移实践

前期准备工作

一、数据库选型

二、基础设施准备

三、迁移策略制定

互联网核心迁移

一、业务背景

二、技术方案

（一）整体选型

（二）迁移方法

（三）主要挑战

（四）迁移历程

传统核心迁移

一、业务背景

二、技术方案

（一）选型方案

（二）迁移方法

（三）主要挑战

（四）迁移历程

全面体系化迁移

主要问题总结

一、数据库连接打满多次触发高可用切换

二、SAN 交换机故障导致数据库进入无主状态

三、执行计划跳变导致业务卡顿

整体效果

结语

关于作者

导语

2021 年 9 月，某超大型金融机构圆满实现最后一个规模高达 20TB+ 核心数据库的全面迁移改造工作，也为后续向云原生多活架构演进打下了坚实的基础。该核心系统数据库全量迁移项目的成功上线，树立了金融行业践行科技强国的标杆实践。阿里巴巴集团副总裁、阿里云智能新金融&互联网事业部总经理刘伟光将历时一年的迁移全过程完整步骤及技术攻略做提炼梳理，完整沉淀成了独一无二的干货、本文的全部内容。

“实践出真知”，阿里云和 OceanBase 走出了助力超大型金融机构国产数据库全面迁移坚实的一步，积累了弥足珍贵的经验。因此，本文不是对于数据库替换的分析和畅想，而是真正从实际面对实际的大规模复杂的核心应用系统的技术平台替换的技术指南，过程中存在各种“分析”文章中想不到的问题，尤其对于现有运行的环境的各种适配和兼容，对应用的友好性等，关于这些问题到底该如何解决，在这篇文章一一给出了详细解法。

在国家层面提出加快建设科技强国，实现高水平科技自立自强的大背景之下，某超大型保险（集团）公司深入推进数字化转型，紧随先锋技术发展趋势，前瞻性布局启动 IT 架构分布式改造转型，并于 21 年 9 月圆满实现了最后一个规模高达 20TB+ 核心数据库的全面迁移改造工作，也为后续向云原生多活架构演进打下了坚实的基础。该数据库国产迁移项目成功上线，树立了金融行业践行科技强国的标杆实践，也是对国家科技自立自强战略以及国产技术的履责担当；更推动了整个国内数据库管理与应用体系科技生态建设和科技产业链的快速成熟。

对于保险行业而言，短时业务并发压力虽没有互联网企业那么大，但是在业务复杂性和对数据库专有特性的依赖程度上，都要远大于互联网企业。保险业务的处理更为复杂，单一业务要多个系统完成，调用链比银行和互联网业务更长、更复杂，确保复杂集合大交易量的稳定是保险业务数据库国产的挑战。

由于金融机构对业务连续性和数据准确性的严苛要求，在传统头部金融机构中始终没能有一家完成国产数据库全面迁移，直到这家保险公司成功实施，并取得了五个突破。

迁移时间短

从 2020 年 9 月到 2021 年 9 月，仅用时一年即完成迁移，而传统金融机构还没有实现过如此大规模的核心系统全量迁移。

迁移规模破纪录

一年内完成了包括传统核心、互联网核心、个险销售、团险销售、经营管理、客服管理、大数据在内的近百个业务系统在线传统集中式数据库的全量搬迁工作，迁移数据规模超 400TB、数据量超千亿，单库数据规模超 20TB，项目整体服务器规模超过 2 万核。

同时保障业务连续性和数据准确性

整个迁移过程无一例回切，上线后近一年来，系统稳定运行,并历经 2021 年完整周期的“业务大考”，经受住了开门红高峰 TPS 5 万+、QPS 21 万+ 和包括精算在内的所有业务环节的严苛考验，完全满足生产需要，实现国产数据库从可用到好用的跨越。

实现技术 100% 自主创新

基于完全自研创新的国产原生分布式数据库，迁移过程中版本升级持续发版共计 50 余次，最长需求解决时间 2 个月（Pro*C+Tuxedo）。同时通过系统培训与交流实现累计超过 500 位员工的数据库专业考试认证，实现了数据库的全面自主掌控能力。

新一代技术成为关键生产力

迁移后，存储成本显著下降，性能也大幅度提升，数据库由主备模式发展为支持两地三中心多活部署，生产事件处理时长从小时级缩短到分钟级。

当我们回顾这一段历程，过程虽然艰辛，但积累了宝贵的大型金融机构国产数据库迁移实践经验。

国产金融级数据库迁移实践

前期准备工作

一、数据库选型

数据库是企业 IT 基础设施中皇冠上的明珠，存储企业运行核心数据资产，向上支撑应用，向下屏蔽底层基础设施，在金融行业“稳定压倒一切”的大前提下，数据库的选型更为慎重，根据信通院《数据库发展研究报告（2021 年）》的描述，截止 2021 年 6 月底，国产关系型数据库厂商就高达 81 家，面对如此纷繁复杂的产品，如何选择合适的数据库是摆在该保险公司面前的首要问题。 虽然数据库产品众多，经过审慎的评估后，最终选择了 OceanBase、PolarDB 等三款产品作为先期试点验证，主要选型考量点如下：

是否能满足业务的平滑迁移和未来架构的演进；
是否具备分层解耦能力，重点解除数据库与底层硬件、操作系统、中间件之间的耦合；
是否有足够人才储备、资金投入，保证产品的长期演进和商业兜底；
是否有广泛的行业实践案例；
是否能做到完全自主研发；
是否能兼容原有开发运维体系，自有技术人员能否快速掌握。

二、基础设施准备

该保险公司核心业务系统原先共计使用超过 60 多台 IBM 和 HP 高端小型机，超过 70 多台高端存储，Oracle 架构耦合性强，难以实现规模和性能的线性扩展。本次国产数据库采用机架式服务器和本地存储全面替代进口小型机及传统 SAN 存储架构，以满足核心系统全量迁移的云原生分布式架构改造。同时为了避免基础设施变动过大导致业务系统不稳定，采用 Intel+海光+鲲鹏服务器混合部署的架构。前期仍以 Intel X86 为主，逐步过度到海光、鲲鹏芯片国产服务器。实现在线调整不同型号机器，解除了基础设施供应依赖。

2020 年 9 月，正式启动国产数据库迁移项目之后，从硬件环境的型号选择，到选出目标系统，进行容量规划，不到两个月的时间，从 0 开始完成国产数据库的硬件和操作系统适配、以及整个服务器集群的搭建。

三、迁移策略制定

该保险公司的业务经过多年的发展，业务范围覆盖全国，特色鲜明、种类繁多、关联关系错综繁杂，核心数据库迁移需要广泛调研和充分的科学论证——既要求数据库产品比照原有生产数据库的高性能和安全可靠，也需要快速实现多套系统的平滑迁移，同时解决资源弹性和数据库横向扩展的能力。 因此，建立了数据库迁移实施的统一规范和标准，总体遵循评估-实现-控制-分析改进的科学方法论，开展有序迁移，并定下三大迁移策略：

先平迁再做业务和架构改造升级，避免多个变量同时发生，影响业务的连续性。原有数据模型不做改造，主体改造工作由新数据库来承担；
迁移批次以业务系统为粒度，从低负载到高负载，从外围到核心；
用1年时间完成所有业务系统的数据库全量迁移改造，所有系统数据库迁移动作时间窗口只给周六、周日凌晨 0 点到早上 6 点，周末小流量验证，周一重点保障，不影响正常业务开展。

互联网核心迁移

一、业务背景

该保险公司核心虽然涉及系统众多，但总结下来主要分为：互联网核心和传统核心，中间通过类似 ESB 的总线机制实现异步解耦。

自 2016 年，这家保险公司的互联网核心和传统新核心应用开始从传统单体架构向分布式微服务架构改造。到 2020 年，互联网核心业务系统已经拆分成了 40 多个微服务模块并完成 Mesh 化接入，互联网核心特点是：

数据库系统已实现全国物理集中、逻辑集中，数据库对接的关联系统较多；
虽然做了微服务拆分，数据库仍有一定量的存储过程，另外触发器、自定义类型、函数、外键、分区表等高级功能均有使用；
因为业务特点，要服务好 100 多万代理人，对数据库资源弹性和性能要求更高。

因此互联网核心的数据库迁移面临的主要技术挑战是：

全国集中式部署下单点故障会影响到全国；
主数据系统作为核心业务链路中的整个保险开户入口，内部对接 43 个关联系统，数据规模超 20TB，最大单表超 50 亿条数据，每天接口调用量超 2000 万次，是该公司单体数据库日均请求量最大的系统，因为关联系统多，且处在业务链路的核心位置，因此对数据库 SQL 的效率要求非常高，迁移过程不能影响原有生产系统；
迁移到新的分布式数据库平台要具备实时同步到 Kafka 的能力，并兼容原有格式，供下游大数据系统消费。

二、技术方案

（一）整体选型

针对以上技术挑战，选择了和原有 Oracle RAC 架构更接近的 PolarDB 作为互联网核心数据库的替换，PolarDB 作为新一代云原生数据库主要特点如下：

计算与存储分离，使用共享分布式存储，满足业务弹性扩展的需求。极大降低用户的存储成本；
读写分离，一写多读，PolarDB 引擎采用多节点集群的架构，集群中有一个主节点（可读可写）和至少一个只读节点（最大支持 15 个只读节点）。写操作发送到主节点，读操作均衡地分发到多个只读节点，实现自动的读写分离；
基于 K8S 形态部署，提供分钟级的配置升降级，秒级的故障恢复，全局数据一致性和完整的数据备份容灾服务；
集中式架构，不需要进行分布式架构相关考虑设计，和原有使用习惯保持一致，性能不低于原有数据库；
高度兼容 Oracle 数据库，应用基本上不需要做 SQL 语法调整。

（二）迁移方法

为了避免对原有生产业务造成影响且保证迁移数据的严格一致性，采用了 DTS 全量+增量的方式，对于数据规模超大的 Oracle 数据库集群，如客户主数据系统，提前 2 周启动数据迁移链路，在全量数据迁移之前 DTS 会启动增量数据拉取模块，增量数据拉取模块会拉取源实例的增量更新数据，并解析、封装、存储在本地存储中。

当全量数据迁移完成后，DTS 会启动增量日志回放模块，增量日志回放模块会从增量日志读取模块中获取增量数据，经过反解析、过滤、封装后迁移到目标实例，通过目标端主键保证数据的唯一性。应用切换成功后，从应用接口的响应速度上看，性能比 Oracle 数据库提升约 30%。到 2020 年底，双方携手完成了互联网核心所有模块的迁移，包括服务超百万代理人的出单系统 APP，和注册用户超 1 亿的寿险 APP、客户主数据等共计 40 多个业务系统。

为了减少迁移过程中对下游大数据消费造成影响，到大数据的同步链路改造采用了 2 步走的策略。

第一步，增加 PolarDB 到 Oracle 的反向实时同步，原有 Oracle 到 Kafka 同步链路不变，避免数据库切换带来太大的变动；

第二步，参考 SharePlex 的格式对 DTS 进行定制化开发改造，待验证充分后，直接替换掉 SharePlex 原有同步链路。

（三）主要挑战

迁移完成后，PolarDB 作为互联网核心数据库，需要稳定支撑起 2021 年一季度业务冲刺。而最前端的出单系统是整个性能压力的集中点，并且由于做了微服务化改造拆成了 30 多个模块，分散在了多个数据库中，任何一个数据库都可能存在被打爆的风险，在迁移到 PolarDB 之前是拆在多个 Oracle RAC 集群中，依靠内部开发的数据库监控完成多个 Oracle 集群的监控，迁到 PolarDB 之后整体架构将更适应业务弹性的挑战：

统一管控：通过 PolarStack 将多台机器组成的集群进行统一管控，提供 DBaaS 服务；
资源弹性：实例由原来的物理机部署，变为 K8S Pod 部署，更为灵活和弹性；
读写分离：通过智能代理服务实现自动的读写分离，实现分钟级扩容，故障场景下自动切换，应用不需要做任何调整。

业务冲刺当天经过了三个高峰时间点：12：00、17：00、21：00，每小时出单量和全天出单量进入了历史的前三位，高峰期出单笔数达到 9000 笔/s。

（四）迁移历程

2020 年 9 月，互联网核心首批应用模块迁移到 PolarDB，整个适配过程不到一个月。此后，互联网核心各个模块就开始了大规模地迁移；
2020 年 11 月，PolarDB 完成了最大的单库客户主数据迁移；
2021 年 1 月底，PolarDB 作为互联网核心出单系统的数据库，稳定支撑起该保险公司 2021 年一季度业务冲刺。