1、问题出现

下午接到同事报机房值班同事使用的Solarwinds Orion工具出现异常,设备端口状态异常,无法监控。远程到机房值班电脑上查看状态(上图,没图说个JB):

工作中遇到的那些个问题---第一个 Solarwind Orion软件监控设备接口unknown问题_第1张图片


2、问题处理

第1步,考虑到Windows的系统使用久了莫名问题较多,先重启了软件,再观察接口监控状态还是不对。

第2步,开始思考这个问题,监控软件出现监控问题,要吗是监控软件自身有问题,要吗是监控对象发生了改变,还有就是中间的安全设备block掉了监控信息的首发。逐项分析,发现自己对Solarwind不熟悉、之前安装过程没参与、使用到现在没碰过,前段时间集团新网管系统上线测试修改了所有网络设备的配置,可能在snmp trap时有了变化,而新网管系统没参与,在都没有参与和不熟悉的情况下,要处理这个问题,开始愤怒和焦虑。

第3步,焦虑了十分钟,先与FW管理员确定了相关权限无变化后,准备兵分两路,首先仔细检查Solarwind的监控,发现除接口状态外,其他监控正常,未发现明显日常日志。怀疑是由于前几天新网管上线,修改所有网络配置导致。

工作中遇到的那些个问题---第一个 Solarwind Orion软件监控设备接口unknown问题_第2张图片

工作中遇到的那些个问题---第一个 Solarwind Orion软件监控设备接口unknown问题_第3张图片

第4步,拿出传说中的token card登录核心路由器、找出库存的原有配置,对比检查网管snmp部分配置,发现配置多了很多,哗哗的仔细对比了下,发现多出的命令都是新加的,原有命令没变。两条路都不通,又开始焦虑,难道有哪里没想到的问题?

第5步,基于对网络设备的熟悉和信心,继续查Solarwind,将所有的进程都干掉,再将相关service都stop&start,回头看下接口状态---好了……FUCK…win系统下的东西不靠谱、软的东西不靠谱!!

工作中遇到的那些个问题---第一个 Solarwind Orion软件监控设备接口unknown问题_第4张图片

3、总结

这个简单的影响不大的问题记录下来,其实是想总结下在处理所有类似问题时的心态和方法。

总结1,首先是心态,作为运维人员处理故障时最重要的是心态,保持良好的心态才能尽快处理问题,而良好的心态除了心脏够大以外,还得日常工作中多积累多锻炼;

总结2,分析问题的多个可能性,尽量穷举,再有理有据迅速的逐个排除;

总结3,排除过程中要坚决果断,到处理问题的重点可能原因时要仔细;

以上是从该问题时总结出来的经验教训,敬请拍砖讨论~~


------------------------------------------------------------------------------------

Blog:http://isenhu.blog.51cto.com/

Weibo:http://weibo.com/isenhu

EMAIL:[email protected]

360共享群:http://qun.yunpan.360.cn/12178950 输入邀请码:3946