大型集团企业中,集团旗下各公司通常会独立建设数据中心以及一系列的IT运维系统。
随着IT技术的发展,运维需求越来越多样,运维系统的架构也越来越复杂,各公司分别独立建设运维系统的技术和成本要求越来越高,因此越来越多的大型集团企业开始转变思路,考虑建设集团统一的一体化运维系统。
本文将介绍大型集团企业如何引入互联网理念和技术打造一体化运维系统,为实现信息化、数字化转型奠定基础。
一般大型集团企业会根据业务板块、地域或者收并购的方式在旗下设立多个公司或事业部,每个公司或事业部下又会设立多个子公司或子事业部,每个公司或事业部相对独立的运营某块业务,但彼此之间也有着紧密的联系,如下图所示:
由于每级组织的每家单位都承担着独立的业务职责,每家单位都有自主建设IT系统的权限,因此经过多年的运营集团旗下的单位可能都建设了一个或多个IT数据中心,运行着大量的IT基础设施、业务类系统。
为了保障各级单位的IT基础设施和业务系统的稳定、高效和安全运行,集团旗下各级单位一般还会分别独立规划、建设一整套的IT运维系统。例如,下图所示的安全和运维支撑类系统:
从一体化管理、协同融合、数字化转型角度出发,这种各级单位“烟囱式”、“分散式”的IT运维系统建设模式主要存在如下问题:
系统多样且架构复杂
由于没有进行统一规划,各级单位多年以来独立进行IT运维系统的规划和建设,已经累积了大量不同厂商、不同架构的运维产品或者各单位自建的运维系统,每一个单独的运维系统都负责解决该单位某一个方面的运维需求。
例如IT监控类系统中的服务器监控系统就可能包含微软、惠普、IBM、中软、北塔、Zabbix等多个厂商的产品。
系统之间难以横向协同
由于各类IT运维系统的厂商、架构各不相同,彼此之间没有接口进行协同交互,同时由于各系统的数据规范和格式各不相同导致在数据方面也无法有效统一。
例如,IT监控系统中的配置数据与ITSM中的配置数据差异性较大,无法打通共享;IT监控系统自动采集的配置数据无法自动匹配、更新到IT资产系统;各单位的安全设备及安全类系统厂商不同,所能提供的安全指标差异较大,导致公司层面无法进行统一的安全指标展示和横向对比。
运维数据质量差、无法发挥价值
由于各单位的IT运维系统的数据没有统一的标准规范,各项数据准确性、一致性较差,数据质量问题突出,并且难以推行统一的质量改进方案。
因此,也无法基于各单位已有的运维数据进行分析、挖掘和应用,数据价值不大,无法实现统一化运营。
系统建设和运维成本持续增加
由于各单位的IT运维系统独立规划、建设、部署和运维,随着IT运维需求的复杂度逐步增加,更多数据化、自动化、智能化的运维需求不断提出,且所有单位大部分的运维需求都类似。
如果各单位继续独立规划建设运维系统,将导致整个集团层面的总体系统建设、运维成本持续增加,存在大量的重复投资。
新技术运用参差不齐
传统的IT运维系统技术落后,难以适应当前企业级应用快速开发、精细化管控要求。随着新的互联网技术的不断涌现和成熟,各单位分别自行引入新技术,势必将会造成大量的重复研究投入,并且技术应用程度参差不齐。
基于对大型集团IT运维现状的分析,为了能够满足越来越复杂的IT运维需求,实现运维数字化转型,需要大型集团化企业转变运维系统的建设思路,由原本的“烟囱式”、“分散式”的建设模式转变为“一体化”、“集中式”的建设模式,引入互联网的新兴技术和工具打造一站式IT运维业务“ERP”。
为了满足复杂的运维需求,且兼具良好的扩展性,一体化IT运维系统的整体设计思想如下:
平台+应用模式:
IT运维功能全覆盖:
统一门户、集中部署:
先进技术架构:
经过对目前行业内的多种互联网公司技术和平台的研究对比,目前国内最先进、体系最完整的运维系统架构当属腾讯公司的研运一体化PaaS平台——蓝鲸平台。
如上图所示,蓝鲸平台是一套能适用于各种不同IT数据中心的多层次可扩展的研运一体化能力平台:
IaaS层:能够支持企业传统的数据中心、虚拟化、私有云、公有云、混合云等各种IT基础设施。
PaaS层:能够提供配置管理、容器服务、管控服务、大数据计算、大数据存储、机器学习算法等先进的互联网技术以及基于这些技术研发的配置平台、作业平台、管控平台、容器平台、数据平台、开发框架等多种模块化、可复用的能力。
基础SaaS层:能够提供持续集成、发布变更、故障处理、体验优化、辅助运营、运营安全等多种IT场景中使用的应用系统和工具,满足企业IT在“持续集成-持续部署-持续运营”(CI-CD-CO)的全生命周期开发运营一体化的需求。
场景SaaS层:通过提供底层的开发运维能力和工具,能够支撑企业根据自身的需求构建各种复杂的、个性化的、满足特定场景的应用系统。
根据大型集团化企业的IT运维需求,结合先进的互联网技术思路,可以基于腾讯蓝鲸平台设计如下图所示的一体化IT运维系统架构:
系统由基础平台、运维场景应用、信息展现三部分组成
基础平台具备配置管理(CMDB)、公共组件、开发框架、作业服务、采控服务、数据服务等多种组件,为场景应用提供开发、运行的环境和基础能力。
运维场景既可以支持集团根据所有单位共有的运维需求规划构建统一的运维场景应用进行全集团共用,也可以支持各级单位根据自身的运维需求构建个性化的运维应用独立使用,支持灵活的扩展开发和发布。
例如通用的ITOM应用、ITSM应用等,以及个性化的特定应用系统的自主巡检和快速问题处置应用等。
信息展现可以支持统一运维门户、移动端运维入口、运维信息大屏等,提供面向全集团所有IT运维用户和领导的信息展示和运维操作入口。
为了实现全集团统一集中运维,减少各级单位的部署、运维成本,故规划如下图所示的部署架构,实现集团与各分子公司的数据、服务的互联互通。
集团总部集中部署一体化IT运维系统,面向全集团总部及各级单位的用户提供访问。
每个分子公司部署本地代理服务器,实现对本地IT数据中心的基础设施和应用系统的监、管、控,同时通过数据总线与集团总部的一体化IT运维系统集成:
采集代理:
负责对各单位本地的基础设施和应用系统的配置信息、关联关系、性能信息、运行状态等进行采集,并通过数据总线将采集信息上报到集团总部的采集中心,进而提供给各运维场景应用使用。
管控代理:
负责对各单位本地的基础设施和应用系统进行操作控制,包括文件下发、命令执行等,与集团总部的管控中心协作,接受来自集团总部各运维场景应用的操作指令,如服务启停、文件替换等。
数据代理:
负责接收各单位本地的基础设施或者应用系统发送的各定义格式的运维数据,并通过数据总线将运维数据上报到集团总部的数据中心,提供给各运维场景应用分析或展示。
服务代理:
负责将集团总部的一体化IT运维系统提供的API接口进行注册、封装、转换提供给各单位本地应用系统调用,或者将各单位本地应用系统提供的API接口进行注册、封装、转换提供给集团总部的一体化IT运维系统调用。
近期笔者参与了国内某大型集团企业的一体化IT运维系统的规划和建设,该企业集团下辖10多家二级单位、200多家三级单位,在项目开展前每一家单位都分别建设了大量的IT运维系统。
本次项目通过引入腾讯蓝鲸平台,基于“平台+应用”的模式全新构建了一套全集团的一体化IT运维系统,面向全集团所有单位数千名IT运维人员提供一站式IT运维综合管理系统,并支持各单位基于该系统自主扩展个性化的运维场景。
该一体化IT运维系统主体功能在集团总部集中部署,在二级和三级单位部署平台本地代理,将各单位海量、明细的运维数据实时汇聚至总部进行统一存储及应用。
该系统以CMDB为核心,构建了IT监控、运维流程管理、自动化运维、IT呼叫、安全监测预警等场景功能,集监、防、管、控于一体,从技术上实现了安全、运维业务的全面融合。
同时,通过该系统的上线,该企业实现了从传统手工运维、脚本运维向自动化运维、智能化运维的转变,推进了运维工作的标准化、规范化和体系化,降低了运维成本,提升了运维部门价值。
作者:鲍胜全
Powershell 挖矿病毒处理与防范
蓝鲸CMP:跳出云管看云管
AD域整合的注意事项
DevOps的演进与落地价值
浅谈企业如何建设云管理平台(CMP)