关于数据库集群环境不定时重启故障的解决方法

数据库RAC环境由四台HPdl580服务器组成,心跳网络使用InfiniBand设备,在实施完成上线后,四个节点的任意一个都会不定时的重启,无任何规律,在分析问题时我们使用鱼骨图进行,整个的分析解决过程花费了4个多月时间。

161751127.png

通过上图鱼骨图,我们进行了逐步检查:

1、首先检查是否是操作人员人为操作导致,然后检查机房环境情况是否会导致设备的自启动,上述两项检查都未发现异常;

2、然后我们进行更深入分析,检查数据库和操作系统的运行情况,进程都正常运行,日志没有异常报错信息,通过脚本监控,系统的cpu,内存,IO及网络等设备运行都未发现异常,没有出现哪一项指标突然变化,每项性能都良好,设置操作系统的Kdump,发现Kdump的过程会卡在openibd服务上,怀疑InfiniBand驱动有问题;

3、检查所有硬件情况,硬件日志没有报错,从HP原厂更新服务器硬件的Firmware和驱动,故障依旧,接下来还剩下InfiniBand卡的驱动没有升级,其实问题刚出现的时候就考虑过升级InfiniBand卡驱动,但当时mellanox官网还没有出现更新的驱动,所以就一直在检查及分析每个硬件的情况,故障依旧。检查过所有硬件,只有InfiniBand卡的驱动没有更新,其他都正常,其他的监控和分析还在继续,同时等待mellanox官网出现新的驱动,终于有一天新的驱动发布,立即更新其中一个节点,观察2个月后未出现过重启现象,确认问题解决。

通过这一次的故障解决收获如下:1、硬件(服务器和配件)的购买最好整体购买,比如我们就是服务器和InfiniBand卡分开购买的,导致技术支持不能很好的跟进;2、问题的跟进需要细心,耐心,确信问题终究是有解决方案的;3、尽量掌握问题分析方法,虽然整个案例只提到了鱼骨图的方法,其实其中还用到了差异对比法、猜

你可能感兴趣的:(数据库,网络,服务器,操作系统,监控)