数据中心是IT和互联网的核心基础,数据中心的运营质量和效率直接关系到许多政府部门和企业的核心竞争力,如何建好、管好数据中心,成为一个永恒的话题。在这方面,中国银行总行数据中心副总经理杨志国先生做了大量深入的探索,今天我们很高兴请到了杨总,他将为我们带来《数据中心运维管理体系的数字化转型》,掌声欢迎!
中国银行总行数据中心副总裁杨志国
各位尊敬的领导、各位尊敬的朋友,上午好!可能也有新老朋友,我记得去年受范总的邀请,去年在北京讲了一门课。今天正好来的人特别多,我刚才看了一下名单,大部分都是一些企业、当地政府的,我一看以后唯一一家我是银行界的,包括保险、证券、银行的都没有。我今天刚刚下飞机赶过来,差点赶不过来,所以今天没有来得及换行头,IT人都是这样的一个情况。IT人比较自由、奔放、创新、开拓,是这么一种精神,所以我今天穿了T恤衫来跟大家讲讲我的一些体会。
特别是我们的范总,把CIO大会做得越来越多,参与的人越来越多,我认为这是一个好事,创新就要这样,发展也要这样,这是有意义的,我们要为此点赞。这个课件比较长,这是我去香港亚太峰会的时候,我给整个亚太地区做的一个分享。大家都讲到数据中心,包括联想、戴尔两位也是老朋友了,因为戴尔、联想一系列的产品在我们中国银行有很多使用价值,使我们得到很大的发展。
现在我们国家的数据中心风起云涌,各个数据中心都起来了。其实2017年底数据中心已经达到43万个,数据中心怎么运维、怎么安全可靠的运维,我在IT方面干了35年,积累了很多经验,给大家分享一下。大家知道,数据中心也有大与小的问题,我那天跟这些大型银行的IT大佬交流的时候,问他们的交易是多少,他们说每天交易量超过6亿笔左右。我们中国银行有多少呢?我们已经有8亿笔交易量,是超大的数据类型。这个交易量大的都在中国,比如说工行、建行等交易量是非常大的。现在各种经济活动比较频繁,我们还有各种股份制银行、商业银行等等,这些银行的数据中心的规模都是超大型的。所以我定了一个量,比如说招商银行的账户数达到16个亿,这是一个很大的海量的数据。
作为传统银行来讲是比较保守的,随着移动互联、大数据、互联网、云计算、物联网开拓出来以后,对于我们传统银行也是一个挑战,我们怎么进行发展。昨天同信在广州召开了大会,马化腾提出了要三张网,三网合一以后,我认为非常有道理,发展非常快。我看了一下今天在座的很多都是CIO、都是信息执行官,你怎么保证你的数据中心好好的活下来,并且活得很好。
怎么活得更好,我总结了18字方针,第一是安全、稳定、可靠是数据中心的基础条件,快速、有序、有效,出了问题以后怎么能在10分钟内解决,这是很关键的,它是有序、有效的。同时客户体验是很好的,不停机的,所以效率是高的,如果你的交易时长是300毫秒,别人的是100毫秒,肯定认为你的效率不好,效益也不好。这是18字方针,安全、稳定、可靠、快速、有序、有效、体验、效率、效益。
接下来我们讲数据怎么管理的问题,我们在探讨的时候,比如说这么多书,你怎么理解这些书?第一是制度管人,大家知道制度是死的、人是活的,往往我们制定了很多制度,他不按照制度去做,特别涉及到系统维护必须按规矩做的,这是有制度的。但是我们做一次变更,他不按时间做了,他违规了,肯定会造成后台的影响。我们是流程分责,流程都是相通的,不相通是管理不好的。第三是角色定位,我们现在进行角色定位,这个角色就干这个活。同时我们按标准做事,比如说我们在中国银行,我们有很多标准,把我们的监控标准也做起来,应急管理也做起来,有1800个,按照标准做事,加上我们的智能化工具去实现,所以形成了数据中心的一套管理理念。你把这18个字加上这5句话就能管好了,大家要记住这个诀窍。
这18个字和5句话是怎么来的,我们数据中心有这么多运维场景,这是必须要做的。我们的智能化也好、大数据也好,数据中心的基础运维必须要一步一步做。要分五个阶段做,第一个阶段是标准化、第二个阶段是流程化、第三个阶段是平台化、第四个阶段是自动化、第五个阶段是数字智能化运维,银行必须要按照这五个阶段做,没有标准化、流程化不能跳到自动化。有很多设备要维护,这是实体的场景,有很多终端要维护,有很多机房设备要维护,有很多网络性能要维护。这个维护我们说有很多模式,怎么做?如果你是一个数据中心、一个CIO管理者,他有很多服务模式要去完成,这个模式完成以后是保证你所有的是一体化的。没有任何一个单位是离开IT去独立运行的,现在所有都是无纸化,全都是网络运行的。
我们举个例子,服务请求是快速完成的,同时我们有一些日常的机房巡检,你是怎么做的,这些都有一些标准和要求,不管是监控、还是巡检、还是海外处理、还是国内处理等等,都有一些要求需要做。比如说监控,监控以后,我统计了一下,监控组件大概有35万多个,你怎么做到自动化。我们还有运行操作,大家知道银行每年都有审计报告出来,同时我们还有大量的生产活动变更,这个生产活动变更以后有很多种模式,我们中国的银行的变更情况有这么多,达到99.86%,这是很高的,国际惯例一般达到99%就不错了,我们中国的银行在这方面是做得很不错的。
大家知道银行是干什么的,像我们的工行、建行、农行,特别是中国银行,全球有30多个国家有中国银行的代理,必须要连到我们这边来,我们是一体化的管理系统,国内的分行也连到这里来。所以大量的日常管理工作是必须要做的,做不好所有系统都不能对外服务。大家想一想,无论是手机银行、还是网上银行、不管是AMT、还是手机支付,现在所有支付企业要进入到网联,以前都是要连到银行,不管是微信还是支付宝都要连到银行去,这是国家规定的。
我们做了一些日常处理,怎么处理呢?我们有这个图,这个自动化率有多高,我们要把自动化做好。比如说防病毒处理,这是我们的一个灾害,包括这次爆发的永恒之蓝,这些病毒要堵在银行的网络外,不能进入到我们的系统里面来,这是病毒。还有信息安全事件,特别是中国的经济发展非常快,现在黑客攻击的事件在全球中国排第二、美国排第一、南韩排第三,都是在攻击这些国家。如果我们没有很好的技术手段,很难对数据安全可靠的正常运维的。
这是异地灾备,异地数据中心都在做灾备。我老杨是反对搞存储异地数据中心和异地灾备中心的,为什么?投入太大,其他国家很少这样做,这是我们的中国特色,实际上我们的投入很大。灾难发生以后,我们要有多核中心进行备份,向多核中心发展,我们可以搞两个控制中心、五个物理中心。我这次去瑞士看了他的数据中心,是非常不错的。这是灾备。
我刚才讲的是我们现在银行在现在要做的一些工作,同时我们怎么做好上面运维的东西,在人方面我们就要思考了。我举个例子,我们的IT组件是35万个,如果每个人监控1个IT组件必须大概要35万人监控,这是不可能的。我们怎么实现智能化呢?数据中心怎么运维?估计在座的CIO也能看得懂,我们是要打造智能化监控管理平台,打造自动化配置管理平台。为什么?我举个例子,我们的智能化管理平台,按照以前打补丁系统升级,我大概是每个地方、每个省行都要派100人去升级,现在我通过一个软件只要一个小时全球35万个终端全部升级完,这就是自动化操作平台带来的一个好处。
打造了自动化平台以后,确实带来了一个运维的可靠性,我是怎么实现的呢?比如说我们通过控制软件,把我们底层的数据采集进行分级,知道我们的问题在哪个地方,这样可以保证自动化运维。我们全部都是自动化的,所有流程都是自动化的,而且全部都是流程化的。比如说把一个事件采集过来之后怎么进行分析,怎么进行定位,定位完之后怎么解决都有一套管理流程出来,这就是自动化管理平台。大家知道,没有自动化管理平台,大数据运维寸步难行。现在我们国家的数据中心一般还是靠人运维的比较多,靠自动化运维的还是比较少,这是我讲的一个实例。
我们要怎么管,数据中心要管起来有很多角色定位。我们有很多角色以后,才能把这个事件处理好,这些角色全都要靠我们的自动化管理流程把它串起来,形成一个有力的整体,把事件在可控的时间内进行处理。比如说日常的工作,我是怎么对服务请求进行处理的、怎么分配的,全都是自动管理流程。这套流程我认为适用于所有的数据中心的运维工作,怎么做我不太细讲,因为只有30分钟时间,本来这个PPT可以讲一个半小时左右,以后有机会我们再探讨。
这是我们的监控显示图,包括我们的基本性能、事件监控等,全都在一个图中展示出来,所有的情况都比较清楚。假如说我们有一个红色告警是怎么来的,告诉大家。我们进入高峰期以后,我们怎么创建告警清单都已经告诉大家了。这个我稍微走得快一点,因为后面有重要的部分要讲。这是交易量的情况图。处理完了,形成自动化,大家都知道这是自动创建、自动处理。我去美国的时候数据中心有一个报警,大概有30万平方米的数据中心,大概有100多家银行租赁他们的数据中心,高度的自动化。这是我们怎么处理一些具体的事件。
我们第一步是组件监控模式,第二步是流程运维模式,第三步是平台化运维模式,第四步是6智能数字化的模式,我们可以分成四步走。现在我们国家的数据中心大多停留在运维2.0,可能有一些组件监控、有一些半自动流程打通,但是到了3.0平台化是还没有的,都是靠人,我记得我当时做的时候都是靠人去做,现在我们都是自动化。我们怎么达到自动化运维4.0,我们有一些探讨和分析。
大家知道,现在我们传统的运维是存在很多问题的,特别是我们的规模大、各种根据不同意,不知道今天有没有做流程根据的人,我知道戴尔也做这些流程建设。混合架构特别是银行架构太多,非常复杂,有了手机银行以后,都跟我们后台的系统连接关系,手机银行有很多关系,有很多海量的节点,跨平台的比较多。我们的很多工具不统一,五花八门,有国产的、进口的、自己开发的。
我们有哪些痛点呢?第一个是多运维场景的挑战,同时所有场景得不到有效分析和定位,自动化操作也不是很高,还有一些典型的场景不太友好,不能快速迭代投产。现在银行投产一个项目要半年时间,现在半年时间根本不行,互联网公司的项目投产一般是10天左右就有一个项目出来了,银行比较安全稳定,怎么样快速的迭代投产也不行。同时人的效率比较低,突发性事件处理能力比较差。比如说“双11”,把我们的银行系统撑爆了。今天同信好像来人了,我对马云同志又爱又狠,爱他是对我们国家的科技创新做得很不错,值得表扬。但是给我们银行又带来了挑战,“双11”5秒钟时间交易量增加了10倍,假如说网上银行交易量一天达到10个亿,我要有大量资源支撑10亿交易量的并发。我们银行是核心系统处理的,大家知道是一条路,处理模式不一样,银行是一本账,我们银行要有零故障出现。
这些大量的事情发生之后,我们怎么做好运维?我经过摸索得出了“老杨级”的理论。我们要做到可知、可控、可信KCT,不管是科研也好、还是快速迭代要投产也好等全都控制起来,做到智能一体化。我比较了一下,怎么对应交付、观测、干预、安全做运维呢?大家看一下我怎么把这些问题解决好。观测我观测什么东西,安全是做什么东西,我们现在大量的靠人判断肯定是不行的,我能不能通过机器学习来分析故障点在哪些地方,这是我们银行解决运维的关键点。
大家知道,所有的交易是有一定规则的,规则破坏以后,我们通过机器学习判断问题所在,解决我们运维的痛点,快速定位、快速处理。并且我们现在叫智能运维,还可以用软件解决运维的问题,不需要人工干预。美国的数据中心智能运维达到65%,发现100个问题有65个问题通过智能运维解决。这是我们得出的一个观点,传统平台是怎么做的,我们的智能运维场景是怎么样的,我不太细讲,因为时间有限。
这个模型怎么去做,交付、观测、干预、安全有哪些东西实现它,这是我们的开始的简单建模。建了模型之后,我们就要打造数据中心智能化运维的体系建设。刚才大家可以看到我们有四台一库,现在有七台两库,我们怎么做运维的,这个逻辑我们根据国外的一些知名公司打造智能化的运维体系建设。大家知道,我们的调度平台已经有了,数据分析平台、智能监控平台、运维管理平台、安全管理平台等等,灾备达到秒级切换。这是我们的智能运维平台,云智能数字运维平台。这里每个地方我不太细讲,比如说工具的实现怎么做这里讲了。
这是云化平台怎么架构,刚才联想的云架构也有了,我们数据中心的云架构怎么做,运维平台怎么进行架构,这里不细讲了。我们在数据分析、数据采集,现在我们不叫IT组件采集,因为IT组件采集肯定不能做智能分析。这里我有一个统计。这是我们数据分析平台的模型,我认为这是很不错的,这个模型我们进行了实践,这个人是在美国待了很多年的资深工程师,他做的模型我认为非常有道理,我们正在实践。它是把所有的日志拿过来进行机器学习以后,判断你所有的问题所在,非常漂亮。确实他的脑袋非常好,这个机器学习模型是他设计出来的处理器。我们在座的同志,这个你们可以研究出来。今天在座的有很多厂商,这个研究出来之后,是不是解决我们的数据化关键所在。现在我们在座的厂商,你们可以去研究这个东西。
我们的大数据平台怎么做的呢,我们采集的数据要怎么去进行分析。最关键的核心,做数据运维没有一个CMDB信息库是不行的,我们建了一个CMDB信息库是非常关键的核心组件。这是我们信息库采集的实例,这是模型图,数据中心所有配置项都在里面有所体现,得出所有信息出来进行集合。我们的监控平台大概怎么做,这是一个实践场景图,比如说交易量达到多少、交易时间多少等等全部都实时分析出来,这样我们就可以掌握到,不用人去干预,所有情况都一目了然,具体情况都能知道。
我们做完了以后,我们应该有一个很好的业务可视图。大家都知道,银行所有系统都是有关联关系的,业务可视图是判断问题的一个很好的方式。我们是以服务客户为宗旨的。我们有运维管理协同平台,打通了所有的流程平台。同时我们还有一些运维的辅助工具,现在工程师不用在数据中心了,可以在云维护、可以在异地维护,大量的通过线上方式进行维护。现在所有的技术方案的审核、大量的性能分析,我都看得见,因为我们都有APP可以下载到手机上来进行远程处理。所以一个数据中心达到这样的情况以后,它就是高度智能化的东西。
当然了,我们的实施路径也有一些方式方法。这是我们有一家银行,我也不好说,今天我们在座的一家公司已经帮他做了云平台的智能架构。这是我们一家银行的云化平台的运维架构方案,我认为也做得很不错。大家知道AWS,这是我们国外的公司的智能化运维架构。大家可以拍下来,这是比较有借鉴意义的,大家去读一下。这是我们国内互联网公司的,不知道能不能看得出来,他们的智能化运维架构,BAT智能化运维还是不一样的,他们的架构也是跟我们不一样的东西。这是我们传统的,今天在座的华云公司的老总在,谁搞认知,就是传统IT公司,他们也是做得不错的,大家也可以学习。
我主要是探讨了智能数字化运维转型的问题,我们怎么转型。实际上有一个运营管理体系,我们要创造效益的时候,必须要把数据中心的管理做好,包括数据管理、人力管理等等,它有几个大的体系去做。做了之后是坚持安全生产为第一要务,打造数据中心特别是战略化运营管理体系。不知道今天讲完课以后,大家有没有启发,如果有启发大家拍个手掌。谢谢大家!
原文发布时间为:2018-05-24
本文来自云栖社区合作伙伴“企业网D1Net”,了解相关信息可以关注“企业网D1Net”。