作者:深耕行业的 SmartX 金融团队 陈俊洁
CTP(Comprehensive Transaction Platform)是国内期货行业主流使用的期货交易系统,能够在帮助期货机构处理日常交易与结算的同时,提供实时的风险监控。作为核心交易系统,CTP 对延迟极为敏感,这就要求 IT 基础架构能够提供高性能、低延迟、高可用的支持。
近期,某期货机构使用 SmartX 超融合开展数据中心云化转型实践,以超融合架构支撑包括 CTP 主席期货交易系统在内的全部业务,并对基于超融合的 CTP 系统开展了一系列性能测试。我们将通过这篇文章,分享客户的转型经验与测试结果,为有需求的读者提供参考。
更多金融行业应用场景探索实践,欢迎阅读文末电子书《金融核心生产业务场景探索文章合集(更新版)》。
某期货机构数据中心原使用物理机支撑 CTP 期货交易系统,在开展数据中心异地搬迁过程中,发现传统架构弊病凸显:扩展能力差、物理设备难以调整、存储存在单点故障风险、操作系统版本过低、数据安全风险较高……这些都为数据中心的整体迁移和重新构建带来不小的阻碍。
因此,对于新建机房,客户计划开展 IT 基础架构云化转型,以提升资源交付效率和整体利用率,缩短故障恢复时间,降低运维和管理成本。考虑到超融合已具备成熟的技术栈和广泛的业内应用案例,而 SmartX 超融合在产品能力和金融行业落地经验上均处于业内领先水平,客户最终决定以 SmartX 超融合作为新数据中心云底座,同时通过实际测试验证超融合对 CTP 交易系统的支持能力。
资源规划是整个云化转型项目的第一步,我们需要将原先的物理机资源转换为虚拟机配置:
网络方面,为实现 CTP 网络系统的高性能、易扩展、易伸缩、容错以及一排座的设计目标,依据系统不同的通讯阶段对各个子网进行物理划分和隔离,总共分出 10 个网络。
注:图片仅选取部分 VM 进行展示,全部网络划分包括:B1.1 交易核心网 1、B1.2 交易核心网 2、B1.3 系统管理网、B2 仲裁网、B3 数据库网、B7 报盘核心网、B8 风控网、S1 交易前置网、S2 报盘前置网、S3 银期前置网。
最终,客户使用 SmartX 超融合构建了 4 个集群、15 个节点,承载新建数据中心的所有业务,包括全套 CTP 主席期货交易系统、开发测试和数据库。在整套环境中运行的虚拟机数量超过 200 个,CPU 总共 480 核,内存近 30 TiB,存储空间达 623 TiB。
4 个集群包括 3 个生产集群以及 1 个办公集群,其中生产集群为 4 节点的集群,办公集群为 3 节点的集群。
可以看到,生产环境中核心交易系统配置了主集群和备集群,这是因为客户希望在应用冗余的基础上,再通过基础架构层面的冗余,进一步保证数据安全和业务的连续性,预防系统层面的风险。由于办公跟生产网络之间存在物理隔离,生产环境的三个集群由统一的 CloudTower 平台进行管理,办公集群则进行单独管理。
以上 4 个集群,SmartX 仅用时两天就完成了部署与交付,进一步体现了超融合架构的敏捷、快速交付能力。
为了验证 SmartX 超融合对 CTP 主席期货交易系统的支持能力,客户通过以下 4 个场景进行了性能测试:
本次测试均采用上期所压力测试工具(AutoTest Platform-V1.2.3),系统流程为:压力测试工具 – Front – Trade – 报盘管理(OM)- SHFE – 交易所,再由交易所返回。
从测试结果来看, CTP 的各个主机都未达到性能瓶颈。可以看到,内存最高的 Front 组件,其内存峰值也才不到 31%, CPU 峰值最高的是报盘管理,也不到 11%,可见总体 CPU、内存使用量还是很少的。由于常规压力测试下没有出现性能瓶颈的情况,我们就进一步增大了测试压力。
在高压力场景下,CTP 系统依旧正常运行,其中 Front 的内存使用率达到了 98%,Trade 模块的内存使用率达到了 65%,其他组件的内存使用率都比较低, 在 20% 以下。在做整个机房规划时,用户预期 CTP 业务系统每秒只需要承载 2000 笔的报单。从目前的验证情况来看,当前环境的业务能力远超预期。
如前文所述,生产环境在基础架构层面进行了冗余保护:用户使用 4 台核心交换机,其中 2 台交换机做为 1 个集群,在 2 个交换机集群之间做一个主备,每台服务器使用 4 个网口连到 4 台交换机的 4 个端口提供业务端口的冗余。在虚拟机层面,CTP 业务也分别放在 2 个集群上运行。
为了验证该冗余架构的可靠性,我们在“一个用户、每秒 5 笔报单”的条件下进行了测试,过程中依次关闭了 Front、Trade 模块、OM、数据库和报盘,测试切换情况。之后我们对 Trade 模块所在的物理服务器采取直接断电的操作,以验证单个服务器节点故障的情况下冗余架构的表现。我们也对网络的冗余进行了验证,将主集群的两台核心交换机同时断电进行验证测试。
测试发现,除了以下两种情况,其他情况下业务系统都达到了冗余:
CTP 穿透即用户请求经过图中浅蓝色框里的 CTP 组件,来到交易所,再由交易所返回到用户的一个过程。这项测试旨在了解 CTP 系统单向报单(图中 1-8)的延迟情况。其中,用户端到 Front(0-1)的网络链路延迟,以及从最后的报盘到交易所(8-9)的时间不包含在测试时间内,原因是用户端到 Front 的网络延迟主要由用户端的接入网络决定,而机房到交易所之间的延迟则主要由数据中心到交易所的专线决定,因此不在测试考察范围内。
测试发现,超融合架构下 CTP 系统单向报单延迟时间是 0.615 ms,优于原先物理环境的 0.9 ms。此前客户担心,由于虚拟化比物理机多一层软件,网络交换会有很大的消耗,导致整个报单时间的延长。这一测试结果直接让客户打消了这种疑虑。
经过上述测试,客户对 SmartX 超融合支撑的 CTP 交易系统性能表现非常满意,随即决定开展业务切换。测试与切换过程大致如下:
自 7 月份业务系统切换至新数据中心至今,整套 CTP 业务系统运行状态稳定,客户体验良好。从虚拟机层面观察 CPU 和内存使用率,均维持在个位数水平。服务器主机层面 CPU 使用率维持在 15% 以下,内存平均使用率维持在 30% 以下,充分满足业务需求。
总体来看,通过本次新数据中心 IT 基础架构云化转型,客户不仅收获了更现代化的基础设施,还通过以下方面的提升,助力业务敏捷发展:
除了 CTP 交易系统,SmartX 还联合多家来自银行、保险、证券、基金、期货、资管等金融细分行业的头部企业,针对超融合在 TA 注册登记、估值、BI 报表、O32、柜台交易系统等多种金融核心业务系统下的表现,开展全方位评测与验证。欲了解更多金融行业应用场景探索实践,一键获取《金融核心生产业务场景探索文章合集》。