2023年8月2日,由北大创新评论主办的2023 Inno China中国产业创新大会-保险产业创新论坛在京举办。本次论坛由同创永益、青牛软件、DaoCloud道客联合主办,INNO创新家、产业集群发展提供战略支持,未名数创承办,邀请到了学术专家、行业专家同台对话,探讨保险行业前沿技术发展,研判数字韧性助推保险业高质量发展,为保险业专业人士、学者及科技专家搭建一个开放交流的平台。
会上,中国信通院云大所系统稳定性专家、同创永益CTO郑阳发表《与数智化共舞:业务稳定性保障新动力》主题演讲。分析了数智化时代,行业的发展趋势,以及企业数字化转型面临的痛点与挑战,并分享了同创永益在业务稳定性方向的探索与实践。
以下为演讲摘录:
因为疫情的关系,带来了保险行业的业务全面线上化,加速了保险行业的数字化转型,在数字化转型过程中,新架构的革新、新技术的应用、新理念的升级,解决了很多问题。但硬币的背面是,新技术架构带来了很多不可避免的风险。另一方面,信息技术国产化在保障国家安全层面是一个重要的趋势,但同时我们也应该认识到,用相对比较新的产品替代成熟的产品,使信息系统在稳定性方面,尤其是在后续服务保障方面存在一定的风险隐患。最重要的是,在金融行业,每年监管机构都在不断出台新的政策,为系统稳定性提出更高的要求。数字化转型、架构升级、国产化替代,以及监管对于稳定性的红线要求,给金融企业IT人员带来了不小的压力与危机。
同创永益的技术世界观基于两个基本原理:一是小概率事件必然发生;二是海因法则,一个严重的生产事故的背后必然是有29个轻型事故、300个先兆以及它背后的1000个隐患。已经发生的生产事件只是冰山一角,回顾一下近两年发生的重大生产事故可以发现,海面之上暴露出来的风险事件不断增多,这个冰山不断往上浮,浮得越来越快,在日益复杂的业务环境下,稳定性持续劣化,就是因为前面几个驱动因素叠加的结果造成的。
保险行业在系统稳定性方面有哪些挑战?我们认为现阶段有三个矛盾点。第一是监管持续提高的业务稳定性要求,跟我们在经济下行周期内的IT投入不足之间的矛盾。第二是线上化业务快速增长,稳敏双态共存和敏态业务的数字韧性覆盖力度不足的矛盾。第三是数字化转型深入与新技术人才需较长学习周期的矛盾。
如何解决这些问题呢?同创永益给出三个对应的解决方案。新技术:引入新的系统稳定性保障技术,弥补现有敏态业务上技术手段的不足;新体系:建立新的体系,单一的工具建设会引起新的混乱,需要完整的体系;新模式:通过更好的模式去解决企业一次性投入比较大的问题。
一、新技术
先讲一下整个业务稳定性技术的一个沿革。2010年之前是大集中时代,那个时候主要是以IOE为代表,集中的数据存储、集中的算力、集中的应用架构,都是集中化的。在这个集中化的架构之下,稳态业务变更非常少。有统计数据显示,生产事故80%都是源于生产变更造成的,变更少、架构相对简单,自然它的稳定性就高。那个时代主要是关注数据的备份,先把数据存下来,只要数据是安全的,这个业务就是安全的。
后来备份手段就从单纯的数据级灾备发展到了应用级灾备,但不管是应用级灾备还是数据级灾备,都旨在事件发生后降低影响。
随着互联网兴起,进入到线上化时代。线上化时代有什么特点?那就是敏态。由稳态转到敏态,发布周期比较短,业务不断在上线。计算机里面有几个矛盾,比如说时间和空间的矛盾,拿空间去换时间叫缓存,拿时间去换空间叫压缩;还有数据库里面CAP的矛盾,CAP这三者不能同时满足,最多只能满足两个,这些都是矛盾。效率和稳定性其实也是一个矛盾体。敏态就是通过快速发布去提高效率,但是牺牲了一部分稳定性。它其实是把稳定性放在上线之后的运维阶段,这就叫风险后置。互联网时代就是把风险后置之后,需要有应对的措施。
2013年,谷歌提出了SRE概念,2016年正式发布,它解决的是风险后置之后怎么让风险左移。左移是指提前预知风险或者是让风险不发生,它的重点是降发生,原来的业务连续性和业务稳定性只关注降影响,互联网时代不只是降影响,同时要考虑如何避免风险发生。
在降发生的手段中,SRE里面明确提出的第一个技术就是混沌工程。混沌工程是通过风险发生之前提前注入故障去探索系统的薄弱性,从而让系统具有对风险事件免疫的能力。第二是观测性,就是监控白盒化,原来监控是黑盒,所有指标都在黑盒子里面,现在这些指标公开化、白盒化,分布式系统全链路的拓扑情况一目了然,这个是可观测性。第三是容量管理,进入互联网管理后,大家开始做分布式化,包括微服务、SOA等都属于分布式化的一种。在分布式化里,最常见的问题是性能瓶颈,当服务链条拉长以后任何节点出现问题都导致整个服务链条雪崩,很容易形成性能瓶颈,这就要求对容量进行管理。
在降影响的手段中新增了应急管理,灾备主备切换应用于低频事件,它是在数据中心故障不能自愈或者是没有办法修复的时候才会进行切换。因为灾备切换的成本相对比较高,所以就应该更关注怎么在本地自愈和本地修复。而应急管理,对本地数据中心修复的全过程进行了管理,包括事件的响应、应急会商、应急决策、应急自动处置以及复盘等,这些在应急管理中都做出了详细的设计。
2022年,中国信通院发布了《分布式系统稳定性建设指南》。中国的情况与国外不同:在国外,敏态比较彻底;在国内,稳敏双态还要长期并存一段时间。因为国内存量的稳定系统实在太多了,而且金融行业不可能快速转到敏态业务。所以中国信通院在SRE基础上又进行扩展:在降发生手段里面加了全链路压测,对全链路的性能进行一个压测和管理;在降影响这一部分加了云原生灾备,因为云原生的技术跟传统的虚拟化技术还是有很大的不同的。
今年,Gartner发布了全球十大科技趋势,这里面新提出了一个概念——数字免疫系统,在之前的稳定性保障手段基础上又增加了人工智能方案。例如在降发生的手段中新增了人工智能增强测试,在降影响手段里面增加了自动修复,利用人工智能技术进行自动化修复,也可以结合我们现在比较火热的GPT的技术。现在已经有这种专注于解决某一个细分场景的自动修复的小模型。
有了这些技术,我们需要把它们串起来形成一个体系,才能帮助我们在敏态业务的环境中做系统稳定性的布点。
事前,第一要做故障预防和故障发现,把企业的科技战略落实到风险预案,风险预案最后会衍生成应急预案和灾备预案,有了预案照着预案做就可以了。这个预案是正确还是不正确,需要做演练去验证,演练就是通过故障来进行演练,真要模拟出这个故障之后才能知道运维人员多久能把这个风险和事件识别出来了,多久能把这个事件修复,业务需要多久才能恢复等等,这些数据是需要的,然后在平时进行演练和掌握。第二是建立灾备的手段,例如数据级的备份,业务级、应用级的备份以及基于应用为单位的云原生化的备份手段,另外是传统的监控告警,以及可观测性等能力也是需要建设的。
事中,以应急管理为轴,从事件的定级开始,到事件的会商、决策,怎么给决策者提供必要的支撑,让决策者能够快速准确决策。最后到事件的自动化处置,配合自动化运维的手段进行本地处置,如果本地不能处置的用容灾切换的方式把主中心的业务自动化切换到灾备中心进行业务恢复。
事后,主要是做的是根因分析。根因分析有一个误区,大家都希望在事中进行根因定位,但这是不可能的,事中一般做的是确定范围之后及时止损。真正的根因分析是在事后进行根因分析,找到真正的补救措施进行架构的改进和流程的改进,这是同创永益的业务稳定性的体系化方案。
这些体系、这些能力需要购买什么样的产品?怎么去建设?这是同创永益产品体系的功能逻辑图。首先,要建设一个应急管理平台,这个应急管理平台从风险预防开始做应急预案的制定和结构化的管理,之后就在事件发生时做应急响应的线上化和辅助决策的智能化。一个事件发生之后留给你的时间可能只有10分钟,甚至更苛刻,比如3分钟我们要求业务恢复。怎么用GPT的方式,用知识图谱的方式去构建出一个决策树,让领导能够合规合理高效进行决策,这是我们要做的事情。
灾备管理主要是针对灾备的全过程,包括灾备环境的一致性比对、灾备环境的监控,这些工作在灾备切换之前完成,确保切换成功。灾备能力建设包含数据级的容灾备份复制,以及基于云原生的以应用为单位的备份复制,包括应用自身、应用的配置,以及应用所依赖的镜像打包进行备份复制。从监控的角度来看,包括通用监控,以及对于一些设备,例如存储设备或网络设备的监控产品。
这些工具平台如果单独去建设,周期都是比较长的,而且容易形成一种单点的烟囱式的建设格局,最后发现实际的效果不好,用不起来。同创永益的优势是,所有与业务稳定性相关的分析平台都是自研的,而且逻辑自洽、功能打通、数据共享。我们给客户呈现的是一个完整的体系化的解决方案。
三、新模式
在新模式这部分,我们把整套的体系化的产品工具平台进行了SaaS化,提供一站式标准化云容灾订阅服务,以上这些能力和产品,都已经上云。通过标准化的服务、标准化的产品可以降低同创永益的自身的边际成本,我们愿意把降低的这一部分边际成本变成客户的收益,让客户总投资金额减少。同时在商务模式上,SaaS化产品都是订阅模式,也不需要客户一次性进行投入,可以做按年、按需订阅,这是我们同创永益在模式上的一个创新。
除了经济效益以外,这种创新给客户带来哪些好处?第一是时效性,我们的产品已经做得足够标准化了,而且这些产品已经服务很多超大型客户,可以做到开箱即用,免去客户自建数据中心采购硬件部署等的周期和时间。第二是服务性,自建数据中心需要投入大量人员去做硬件和软件的维护,这一部分服务也省了。第三是扩展性,同创永益的产品是不断迭代升级的,我们不断在云上扩展我们的功能,也会同步给客户使用。最后是合规性,我们的合作伙伴都是金融行业内的行业云,帮助客户建立灾备系统,满足监管合规要求。
同创永益简介
北京同创永益科技发展有限公司成立于2009年,是国家级高新技术企业、国家级专精特新“小巨人”企业、信创工委会技术活动单位、中国信通院混沌工程实验室副理事长单位。公司深耕企业级数字韧性服务,业务覆盖灾难恢复、业务连续性、IT应急管理、容量管理、混沌工程等产品和解决方案,拥有自主知识产权和全栈服务能力,致力于帮助客户建设数字化系统的全领域韧性体系。