云上运维案例分享

一、背景
当下,越来越多的企业选择业务数据上云。不可否认数据上云后,增强了扩展的便利性,但是同时也提高了运维管理的难度。如何实现云上业务管理,是运维工程师们面临的新问题。

LinkSLA智能运维管家,不仅提供私有云的运维管理,同时为公有云上业务系统提供了统一运维平台。方便IT运维工程师实时掌握公有云上系统的运行状况。

二、案例
下面我给大家分享一个云上运维监控的小案例:

1、夜间重启
在5月底,某三甲医院接入10台互联互通云上系统,并接入平台统一进行运维监控。

接入后,平台检测到其中2台云系统多次在凌晨发生重启。

而云系统管理工程师反馈并未发现设备重启现象。在MOC工程师建议下,云管理工程师登录系统,查看服务器日志,找到了系统重启记录。

经过排查,是Windows系统夜间进行打自动补丁更新,导致服务器重新启动。

云设备管理工程师重新配置服务器打补丁策略,夜间重启问题得到解决。

2、cpu使用率异常
几天后,平台接到其中一台云系统的CPU使用率异常告警。MOC工程师查看近三日CPU使用率时序图,发现此设备的CPU使用率在每日凌晨1:00--4:00 和凌晨6:30--7:00两次接近100%,导致系统运行慢,MOC通知用户确认是否需要调整,对CPU进行扩容。然而云设备管理工程师,反馈是夜间备份所致。

在用户的要求下,云设备管理工程师对CPU进行扩容。但是扩容后,平台检测到问题仍然存在。通过MOC工程师协助提供的系统网络流量时序图,确定CPU使用率升高的时间段与网络备份时间并不重叠。排除CPU使用率高是网络备份原因导致。

最后,在软件工程师协助问题排查出是应用软件问题,CPU使用率高问题终于问题得以解决。实际上也验证了我们通过“生命体征”的监测,可以反推“内脏系统”的隐患。

三、总结
通过以上案例,我们可以看到数据上云后,运维工程师更需通过专业监控工具实时掌握云上业务运行情况,为业务系统保驾护航。LinkSLA智能运维管家,完美的提供了解决方案。

数据上云只是轻松运维的开始,专业,可信,方便,快捷的统一运维监控平台才是云上运维顺利进行的保障。

你可能感兴趣的:(云计算,1024程序员节)