(一) 项目背景:
网上办事大厅是由省信息中心承建的电子政务核心业务系统,致力于为全省民众提供一站式网上办事服务,实现了政务信息网上公开、法人及个人事项网上办理、公共决策网上互动、政府效能网上监督五大功能。目前大厅已进驻省级部门57个,市县部门6318个,提供电脑版和智能终端版访问服务。
随着电子政务的推进,网上办事大厅所涉及的系统规模不断扩大,数量日益增多,业务持续增长,再加上运维团队缺少了有效的管理和防护手段,平台管理和信息安全问题日渐凸现。
在国家对电子政务信息系统安全保障工作的要求以及等级化保护“坚持积极防御、综合防范”的方针指导下,急需建设一套完备的安全管理服务体系,加强运行环境监控、应用性能管理和安全防护体系的建设,从不同维度监控网办平台的可用性和性能,进而保证系统安全高效的运行,实现省网上办事大厅和政府服务的信息化、智能化。
(二) 用户反馈:
OneAPM 帮我们打造了一个五维的安全运行监控平台和体系,从发现问题,通知问题,定位问题,解决问题,到归纳问题。过去都是系统出现问题,我们被动告知,还需要花大量时间定位问题根源,并进行修复。通过这个平台我们能更加直观、主动的发现系统潜藏的问题,有效预防风险,极大的提升了运维效率,降低了管理成本,也给民众带来了更加满意的使用体验。
(三) OneAPM 解决方案:
基于 OneAPM 基础资源管理 Infrastructure Insight、应用性能管理 APM、模拟拨测 Cloud Test、实时应用安全防护 RASP 四大核心产品能力构建的一体化运维管理平台,从全面监测、准确预警、快速诊断、辅助优化,到指导评估,建立起一套完善的安全可靠运行保障体系。
全面监测,及时发现平台风险,故障主动发现率提升至85%
在 OneAPM 一体化运维管理平台上线前,整个网上办事大厅涉及的 IT 资源由8名运维工程师通过几个开源工具进行日常运维,常常是最终用户发现并反馈网办大厅系统问题之后才开始着手处理,运维工程师80%以上的时间都在“救火”。这样的运维方式既被动,又效率低下,造成用户满意度较差。OneAPM 一体化运维管理平台,提供了主动和被动两种监测手段,及时发现网办平台的运行风险。Cloud Test 是一个应用系统可用性及性能主动监测方案,通过遍布全省的访问监测点,7X24小时不间断模拟网办平台的业务访问,详尽了解网办平台业务的性能和可用性,在最终用户访问体验受影响之前提前发现系统性能问题。Infrastructure Insight 和 APM 是一个应用系统可用性及性能被动监测方案,从运行环境和用户体验两个角度,监测应用系统运行态的可用性、健康度、性能和安全性,监测指标覆盖信息中心的服务器、网络、操作系统、数据库、中间件、应用系统、浏览器和手机 APP,以及应用中所存在的各类安全攻击手段,实时监测系统性能、系统故障,以及安全攻击行为。这两种手段相辅相成,构建了一个对网办平台所有 IT 资源进行全面主动监测的日常工作环境,帮助运维工程师对系统状态做到心中有数,对突发故障做到胸有成竹。
准确预警,第一时间反馈风险至责任人,告警准确送达率88%
由于开源工具只提供服务器、网络、操作系统、数据库、中间件等基础资源的实时性能数据查看功能,缺少告警模块,运维人员无法在第一时间获得准确的系统异常信息。OneAPM 一体化运维管理平台结合网办平台等保三级以及日常管理的相关指导文件和相关规范,主动定义各类关键性能指标的最佳预警阈值,第一时间定位系统性能问题。对于一些有着时间周期特性的性能指标,通过动态基线算法自动拟合预警阈值,在减少告警配置工作量的同时,进一步提升了告警的准确度。运维管理平台提供的邮件、短信、微信等多种告警方式,快速、准确通知到相关责任人,实现被动管理到主动管理的跨越。同时,运维管理平台通过采用模拟的手段 Cloud Test,对网办平台可用性进行定期的访问和监测,确保系统能够有效运行,在出现故障时第一时间进行通知和预警。
快速诊断,精准分析定位故障根因,平均故障检测时间 MTTD 缩减到原来的四分之一
作为一个运维管理平台仅仅只提供资源的指标监控和告警是不够的。监控的范围越广,监控的指标越多,系统产生的告警也就越多,运维工程师去甄别告警真伪和根因的时间也就越长。这反而不利于故障的分析和定位。如何帮助运维工程师快速识别和精准分析故障根因,也就成为了体现运维管理平台价值的关键之一。
OneAPM 一体化运维管理平台中的 APM 产品以真实的用户体验和端到端应用性能为切入点,颠覆传统运维监控方案,实现自上而下的 IT 管理新模式。一体化运维管理平台提供了对前端浏览器、应用性能、中间件性能、数据库性能、主机性能的自动关联和分析,帮助运维工程师快速识别、定位网办平台的性能瓶颈和可用性问题。同时,运维管理平台通过自动学习能力,识别、记录业务交易的类型,业务代码类执行的效率及业务性能匹配模式,辅助运维工程师从代码类、参数到数据库语句,进行完整交易链的性能诊断和故障定位,将平均故障检测时间从原来的4小时缩减到1小时。
辅助优化,专业化问题处置建议,平均故障恢复时间MTTR缩短一半
专业化的故障处置建议是缩短平均故障恢复时间的关键。不论是服务器和操作系统的配置参数调整,网络的设置调整,中间件和数据库的配置优化,还是应用系统的代码修改,都提升网办平台处理性能的重要手段。
OneAPM 一体化运维管理平台提供了以一星期为周期的系统性能诊断和优化建议报告,通过对应用系统关键性能指标和参数的详细分析,给出量化的评估效果,并提供系统优化建议,包括应用系统代码优化、数据库性能优化、中间件性能优化、操作系统性能优化等,指导运维工程师与研发工程师快速对网办平台性能瓶颈做出响应。运维管理平台还能提供实时故障处理建议,针对告警详细信息,结合过往运维经验,提供处置方案,方便运维工程师及时对系统故障进行判断和处理。
指导评估,总结沉淀运维经验,提供决策数据支持
通过充分挖掘监控数据的可用性,OneAPM 一体化运维管理平台建立了一套多数据源、多用户视角、沉淀专家经验的运行环境分析评估体系。通过各个维度的分析报表,建立面向客户感知的、面向业务体验的、面向运行质量,围绕性能、故障、考核主题的管理分析能力。帮助运维工程师主动分析系统性能、容量,预测问题,为“决策层、管理层、执行层”人员提供决策支持。
国内 ITOM 管理平台 OneAPM致力于帮助企业用户提供全栈式的性能管理以及 IT 运维管理服务,通过一个探针就能够完成日志分析、安全防护、APM 基础组件监控、集成报警以及大数据分析等功能。想阅读更多优秀文章,请访问 OneAPM官方技术博客