| 广通软件总经理刘东海受邀参加“第14期金融CIO论坛”,并与多位重磅嘉宾一同分享我们在运维领域的思考,本文根据其主旨演讲整理而成,有删节。
·广通软件总经理刘东海·
今天给大家带来“新一代运维平台赋能数字化转型”的主题分享,从安全和运维这两个角度来讲,两者都在为企业数字化保驾护航。我对数字化转型的理解在于它首先是一个商业化的名词,并不是个技术名词,数字化转型的本质是通过数字化技术深度融合,从战略角度推动企业的业务模式和能力转变。
对于企业来说数字化时代不仅是机遇,也会带来很多问题,比如面临着多态业务的创新发展、IT基础设施的混合化等,那么在这样一个复杂的情况下,运维层面上怎么去支撑数字化转型的要求呢?
1.
我们从众多企业中调研发现了当下运维存在的一些普遍性痛点:一是运维对象结构复杂化;二是运维活动变更常态化;三是运维流程机制板结化;四是运维系统工具竖井化。现在很多银行有几十套的运维工具系统,包含了不同运维的主题、分类的工具。这些工具之间的语言、接口都是不同的,因此很难整合成一个非常高效的系统,反而让一线的运维人员陷入到不同的工具中来回切换,产生很大的疲惫感、面对运维的规模和复杂度提升,原有的运维机制瓶颈越来越明显。
其实不仅是国内企业面临的这些压力,国外企业也会存在类似的问题,运维领域大家也在提炼管理方法体系,包括相对比较传统的ITIL,以及Google的SRE,还有DevOps这套开发运维的协作体系,到现在处于比较热门且正处于探索阶段的AIOps。
这几个体系都会关注到三个方面:一是运维稳定性,从风险和质量两个层面保障业务不出问题;二是效率问题,包括企业在自动化方面的投入、优化流程和应对合规等;三是适应性问题,原先大量使用国外工具软件来堆砌运维平台,加上很多二次开发集成,这些平台的适应性变得非常差,一旦IT架构或者开发模式在快速变化时,运维平台本身的支撑能力就会产生瓶颈,所以我们要非常注重运维平台在架构上的适应性。
基于上述这些因素我们也在思考运维平台该怎么样去提升,以适应数字化时代的要求。现在整个运维的机制是工具化的时代,强调工具和集成,接下来我们认为运维会向服务化方向发展,强调标准和服务,最后运维的发展会走向智能化阶段,强调数据和开发。同时我们要注意平台化是运维转型的基础,只有这样才能体系化的持续改进,让运维从传统人工操作模式,走向流程和自动化编排标准化,进一步走向自主管理能力的AI运维。
2.
在这个过程中第一步非常关键,因为传统架构存在很大缺陷,如何跨越这个鸿沟?我们认为可以通过运维平台PaaS化的方式,需要将原有的运维工具平台化、将平台进行组件化改造,所有的组件进行服务化,将原来的运维工具按照场景进行改进,从而实现运维能力的持续演进,并有助于形成运维软件生态。
优云作为广通软件旗下新一代运维品牌,其平台采用数字化的互联网架构作为基础技术框架,同时进行相应的分层,通过组件服务化进行衔接,实现运维PaaS能力体系,形成平台上应用能力输出等。
·运维PaaS平台架构设计思路图·
我们的运维平台整个逻辑架构总体可以分成两层:一层是PaaS级运维服务平台,二是易用的运维App生态。我们将底层PaaS级服务平台主要封装成三类,一类属于采控类服务,第二类属于数据类服务,第三属于运维业务类服务。这些服务都是通过组件化的方式进行打包,向上提供相应的API和服务接口,按照各自不同用户的特点场景搭建相应的运维应用App。
所以总体来讲,我们希望通过运维PaaS平台来实现运维的生态,帮助我们建构一个可持续发展的运维体系。
3.
第二个层面就是运维即服务的能力输出标准化改造。这里需要注重几点:一是要把CMDB作为数据治理的核心,二是以应用作为运维的主视角,三是要把服务目录作为指引入口,最后是尽可能使用自动化手段,提升在运维服务上的效率,降低服务的不可控以及风险。
CMDB依然是非常重要的核心,但我们有一个新的思路去重构CMBD,第一需要认知到CMDB是主数据,它的数据一定要作为数据仓库中的一个核心数据,分享给其他周边的业务数据;第二,CMDB要从原先的维护型CMDB走向管控型CMDB,必须跟自动化、运维即服务的流程结合起来,形成一个真正的闭环,以此实现运维的闭环思维。
围绕CMDB的应用数据消费,形成一个应用视角的运维监控和管理。从这里分析、评估应用当前情况,包括应用的变化以及需要关注的KPI等,同时也能进一步在应用全景分析的帮助下把各种各样运维的活动,监控、工单、告警、自动化进行聚合,进行积极的联动、处置。
最终所有运维能力都会通过服务目录来进行输出。这个服务目录不仅仅是面向客户,还会面向内部的运维人员。各个团队都会有自己的服务目录,以此进行相应的能力输出,从而通过流程自动化进行进一步串联,实现更复杂的业务服务场景。最终的用户也可以享受到面向他们的一些运维服务,比如说功能开通、业务上线、体验修复等。
4.
最后再简单和大家分享一下我们对于AIOps方面的思考。它其实是通过大数据和算法开发两个层面来帮助我们解决复杂性的问题,特别是人眼看不见或看不过来的问题。
毫无疑问,AIOps会对整个运维组织产生比较深远的影响,智能运维时代机器会代替人工做更多重复性的工作,那么技术人员会在这中间扮演什么样的角色呢?我们认为组织中的人员也会做相应的转型。一类人员是运维业务专家,他能帮助训练机器,在机器学习中给出专业性的建议;另外一类人员会转型成为算法开发,通过软件开发实现机器学习方面的场景,帮助我们从日常繁杂的工作当中脱离出来。人力组织模式从以流程为导向转变成以数字化能力为导向的体系方式发展。
在这过程中最重要的底层是大数据平台,这个也是运维PaaS平台建立的初衷,我们需要大数据计算引擎来做数据加工的支撑。在这计算引擎之上融合相关的机器学习框架和算法,在特场景进行AI方面的实试点。当然AIOps还处于不断探索的阶段,现在大部分都还属于特定场景下的实验,但是随着场景不断完善推广后,我们就可以享受到AI带来的真正价值。
最后智能运维还需要通过可视化的方式来输出价值。通过视图我们可以快速的捕捉到系统当前的运行态势,同时也能对未来进行拟合预测,甚至将来会在可视化界面上给出相应的辅助决策和联动,让运维团队的信息在大屏上进行无缝的作战分享。
总而言之,我们能感受到运维在企业数字化转型中的地位在不断地提升,这也是运维最好的时代,但同时我们也要理性分析,因为面临的现状还是非常复杂。跟安全一样,我们有很多需要攻克的难题,但是一个好的架构、一个好的体系和一个好的运维路线,能为未来运维价值的提升和输出带来非常大的帮助。