摘要:在没有分布式技术之前,国内银行的核心系统面临着很多挑战。以民生银行为例,2013年的时候每天交易量约1800万笔,整个项目的硬件和运维投入达到1.1亿多,成本非常高昂。中国民生银行总行信息科技部总经理牛新庄做了题为《民生银行核心分布式改造实践分享》的演讲,主要分享民生银行近几年采取的核心系统分布式改造成果。
民生银行的分布式核心架构是金融行业的一个标杆,分布式改造之前做测试的时候,每秒峰值最高也只能达到7800个tps,但是现在用这种横向扩展的方式,每秒轻轻松松就可以达到2~3万tps,不仅降低了成本,而且还可以随时横向扩展。事实上技术上的改造也是银行的技术架构的转移,这个转移反过头来又会去影响银行业务的发展。渠道的分布式系统是非常简单的,但是核心的分布式改造是非常难的,目前民生银行的系统的核心分布式改造非常成功,已经稳定运行了好几个月,银行系统的核心分布式改造方案是可行的,而且银行系统的核心分布式改造也是将来一种技术改革的趋势。
分布式核心应用分层架构基本上可以分为四层,最上面这层叫做服务治理层,在这层上民生银行采用的是阿里云的Dubbo服务。民生银行在2013年与阿里云签订了协议,阿里云将Dubbo开源给民生银行,民生银行在Dubbo上做了改进以适应银行的金融场景。第二层叫服务组装层,第三层叫原子服务层,最后一层是数据库层。在应用层是服务治理的能力,过去银行在讲敏捷开发的时候,最困难的地方在于微服务的治理。这在传统的系统架构上面是很难治理的,也导致了系统的开发很难复用,但是民生银行这一次通过分布式化把服务治理好了以后,很多服务可以重新复用,无形之中能快速的迭代开发,包括在数据层和基础设施层。
整个分布式技术平台包括的功能有:
1、分布式数据库访问。一个理想的数据库架构,其实最开始设计的时候就应该考虑很多后面的事情,但是大部分银行应用迫于业务的压力而匆匆的上线,导致后期很难修改,所以在数据库层面,民生银行进行分库分表,读写分离。
2、分布式事务。在分布式事务上面,民生银行是基于可靠消息的最终一致性和基于冲正模型的反向处理,来保证数据库可靠运行。
3、分布式服务框架与服务管控以及第四分布式批量作业调度。这是金融行业与传统的行业不一样的地方,在一个多并发的情况下,分布式的消息处理能力是最关键的,之前民生银行试了很多开源的框架,但是在压力测试下,都不满足民生银行的要求,因此民生银行重写了一套专有的批量作业调度的框架。
还有分布式配置管理、消息中心、分布式缓存,交易幂等性、统一冲正,全局系列的核心功能,这些所有的核心因素集在一起,构建了分布式的技术核心平台。
在分布式的技术架构的设计上面,有应用的分布式和数据库的分布式。通常大家在讲分布式的时候,有的是在底层数据库上实现分布式,有的是在应用层实现分布式。因为银行系统的业务在很多时候需要靠业务逻辑,需要保证应用的可靠运行,但是底层也需要分布式改造,所以民生银行系统的核心架构在应用层和数据库层都实现了分布式。在应用的分布式上,首先在服务接入层实现了服务路由及管控能力,支持服务与数据单元化部署,然后在分布式服务层,建立分布式服务框架,集成分布式消息及批处理框架能力。在数据的分布式上,首先在分布式数据库层实现分库分表的数据水平扩展能力,然后在DevOps层面上建立分布式运维基础能力,支持分布式应用的持续集成和部署。
民生银行在进行分布式改造的时候,遇到了很多难点,这些难点包括:
1、在服务接入的时候技术难点
包括服务网关、访问控制、服务限流、交易幂等性等,系统需要提供服务的统一接口,并将外部请求路由到相应服务;需要提供细粒度服务访问安全控制,确保系统的安全生产运行;提供多维度服务限流,有效的应对瞬间爆发的高并发访问;支持交易幂等性,防止同一笔交易重复处理。
2、平台应用技术难点
包括服务框架、配置中心、消息中心、批处理框架等。需要攻克这些难点,提供面向远程过程调用的服务框架和面向消息通信的消息中心,解决分布式环境下大量应用节点配置管理和变更复杂的问题,提供应用于数据分布式之后批处理作业开发与运行的机制。
3、配置中心技术难点
主要解决配置分发时的时延控制和多节点的一致性控制。
4、数据访问的技术难点
解决分布式数据访问问题,实现数据库水平扩展,完成分库分表、读写分离的SQL自动路由,且对应用透明,性能高。解决分布式运维问题,支持数据库分表后的应用数据运维支持。
5、应用分库分表的技术难点:
数据库层支持横向扩展,尽量避免分布式事务,应用透明,降低运维复杂度。
6、一致性保证机制:
充分应用微服务和组件化的设计思想,充分解耦应用,最大程度避免分布式事务,在幂等一致性上由服务提供方实现服务处理的幂等性,避免重复提交事务。应用通过冲正、对账、一致性检查等补偿手段确保业务完整性和最终一致性。采用两阶段提交实现分布式的强一致性。
6、分布式架构运维支撑体系
以民生银行为例,在核心分布式系统上,应用和数据分散,服务层次、调用关系和系统状态复杂,设备多、应用多、服务多、配置多,造成核心分布式系统非常难以运维。民生银行实现了服务治理、分布式管控平台、运维视点、集中监控平台、分布式DevOps平台、灾备自动化指挥平台、交易监控平台、实时链路分析、运维架构可视化、日志分析等主要功能。
打造了分布式DevOps平台,实现操作自动化,主要功能包括:快速的启停时间,实现秒级流量切换;灵活的部署方式,可快速部署应用、主机、集群和机房;可信的部署结果,自动对集群、应用进行健康检查。
民生银行认为系统总体改造要点及路径需要经历三个阶段:
1、应用架构的X86化改造,目标是开发统一的分布式微服务框架,实现应用无状态化,数据集中,统一管控。
2、云化基础设施改造,实现数据与业务分离,实施业务去状态化改造,并将数据层迁移到云化基础设施,建立云平台,存储计算虚拟化,数据库分布式部署。
3、云化服务,打造开放的服务能力平台,抽取公告技术服务能力,统一数据处理,全面部署X86集群,减少对数据层逻辑依赖,构建公告数据处理。
另外在应用设计上面,总则是进行垂直水平切分,垂直切分优先,并尽量拆分成流水型应用和状态型应用,并将状态型业务集中下沉。目前民生银行已经把直销银行应用到核心系统之上了,运行效果非常好,现在正在计划把其他的例如网银、手机银行等系统全部采用这样的核心分布式进行改造。
本文由云栖志愿小组黄小凡整理