随着电力行业信息化建设的快速发展,尤其是随着云原生和分布式技术在电力信息化建设中的大范围推广和应用,电力行业云上业务系统变得更加复杂,业务系统内部节点和互相之间的健康关联影响也越来越动态多变,给资源管理、系统监控、运行维护工作带来了极大挑战。
目前,在电力“双态”混合发展的情况下,敏态业务不断增多,提高了应用效率的同时,也让资源规模变得庞大,应用的拓扑结构和通讯也变得更复杂、更难监控。
同时,在云上分布式业务架构中,大多数的应用故障也不再来自于单一应用内部,而是来自于不同应用或服务之间的复杂交互,只通过传统的监控手段或人工运维的方式已经不能快速完成云上资源主动感知、状态跟踪和业务故障定界。
另外,由于传统的网络旁路监控是基于交换机实现的,而云上业务通常采用三层网络模型,业务之间的流量不经过交换机,传统的网络监控不能有效支撑云上场景,监控能力失效。
因此,在大规模化的云上业务发展中,电力企业缺少针对云上业务复杂调用的梳理和监控能力,亟需强化云上运维监控能力,自动识别并形成云上业务及相关资源容量的全链路拓扑,实现云上业务监控全覆盖目标,提升云上业务系统健康管理水平和业务安全稳定运行水平。
谐云为多个电力省公司建设实现云上业务全链路监控及健康分析平台,基于eBPF技术以业务无感知无侵入的方式采集业务运行链路关键指标数据,集成易扩展的Prometheus采集云上应用指标以及主机与容器资源信息数据。
同时,谐云监控平台兼容阿里云、华为云及电力容器云平台的数据采集,将采集的原始数据经过数据聚合分析、业务应用调用关系关联、业务数据集成等处理,提供多维度的智能分析与高度可视化界面,实现电力云上业务全链路监控、资源容量精细化管理和业务系统健康度分析。
● 云上业务全链路监控
无感知业务指标采集:基于eBPF技术,以无侵入的方式,获取包括云平台指标、业务运行指标以及业务链路各层面的指标数据,涵盖运行时状态数据、精细化资源容量情况和业务请求链路数据,不影响业务运行;
云上业务全链路监控:自动构建云上全网流量业务拓扑关系图,提供单次请求故障发生时刻的网络质量和应用响应回溯的功能,可准确定位是网络问题还是应用问题,为云上业务提供全链路端到端的监控手段
● 资源容量精益化管理
业务资源容量分析:以业务视角分析业务系统运行过程中全链路各个层面的资源容量情况,对用户访问量与资源使用量进行精准统计,覆盖业务本身、依赖的组件节点等各个层面的资源容量情况;
系统资源异常识别:通过系统监控分析,自动识别业务系统容量异常使用现象,为信息系统的故障分析与容量规划提供有效支撑。
● 业务系统健康度分析
业务系统健康分析:根据业务系统运行方式(节点数)、告警数量、资源容量、中断时长、安全等保评估、漏洞数量等节点信息,构建业务健康算法模型,结合电网知识库,对业务系统健康数据进行融合分析,形成云上业务系统健康度视图;在系统出现某一故障后,可快速判断并分析故障对相关业务健康度的影响,构建处理模型,为故障影响判断、业务系统整体稳定运行提供直观管控手段;
智能告警预测:通过机器学习算法构建重点业务系统黄金指标数据模型,比如访问量、成功率、相应时间等,支持通过核心指标自动识别业务健康,也支持配置并定时访问业务特定健康检查URL识别业务健康,实现业务系统异常的智能预警,及时发现系统问题风险,提高系统运行健康指数。
随着电网信息化建设的高速发展,云上业务规模的不断扩大,电力调度各项业务需要进入精细化运维、智能化管理的时代。
精细化运维,需要精确的指标采集以及对业务运行的全面感知以形成云上业务全链路管控及健康分析;智能化管理,需要坚持创新驱动发展,加快大数据分析和智能告警预测,及时发现系统问题风险,从而摆脱调度业务运行维护对于大量人力投入的依赖,已成为提升调度业务能力的内在需要和必然选择。