本帖最后由 maym 于 2012-1-10 10:05 编辑
1.接到用户反映这个机器死机 HP DL380G7机器配置为 XEON 5645 双 CPU,24G内存,报紫色屏幕报错,如下图
仔细观察上图发现基本都是内存地址错误,怀疑为内存故障
用户重新安装过ESXI5.0依旧报错,时间从2小时到2天不等,不是死机就是报紫屏错误
检查内存的插法, ABC的顺序,发现没问题如下图插法(顺序是按英文字母的序列插内存 ABCDEFG…..)如果双 CPU,插内存需对称插,不然会报 NUMA错误, HP也有内存插法的配置页面
如下链接
http://h18004.www1.hp.com/products/servers/options/tool/hp_memtool.html
之后咨询 HP,建议观察 FIRMWARE版本,对其进行升级
拿最新的 firmware盘进行更新,发现已经是最新的,不需要进行更新,
总结下,其实有问题第一时间更新机箱的固件是很好的法子,应更新后再判断故障
1. 把机器拿回公司进行进一步诊断,把 6条 4G内存用 LINUX的 MEMRY TEST进行测试
发现根本进不去,直接重启,找了 2条原装机内存进行测试多次,发现有大约 1/2的几率
根本进不去 TEST的界面,另 1/2几率正常进去,怀疑是内存或者主板的问题,用 smart start
的 maintance 抓出来系统日志其中包括 LOG和内置设备的 LOG以及 smart Array的 log 发现并无异常的报错
2. 插上那 2条原装机内存,开机进行测试,开机大约 1小时,发现机器自动重启一次 ,HP内部服务升级高级服务
开机 2天发现依旧紫屏,死机时间不确定,翻日志也没有发现任何死机或者重启的 LOG
2天后观察依旧死机,时间不确定,紫色屏幕依旧是卡到之前的报错状态,建议更换主板进行维修!另外用 SMARTSTART工具盘进行了整机的诊断,诊断过程时间周期为 20分钟
3. 12.19日更换了主板运行 MEMORYTEST发现正常跑 1圈 24G的测试,下午 3点左右进了 ESXI5.0的系统, 6点又死机
依旧是紫屏
下午 18: 49分将 CPU2摘下,把所有内存插到了 CPU1上测试
第 2天看依旧报错
12.20日将另一个 CPU和 24G内存均插到主板上测试运行了 1天发现没问题
12.21日提交申请更换那个报错的 CPU,将 CPU换上, 2个 CPU 和 24GB内存运行,可以进 memorytest ,运行了一段时间无任何问题了
再次将之前更换的主板换回来,结果发现,进 memory test直接重启,无奈又更换回新的主板,看来 CPU和主板都有问题
总结下,仔细观察上面的三张图,有一个共同点
PCUP0都有报错信息,下面的报错信息有可能是寄存器地址,目前看 6条内存均无问题,跟开始判断并不一样,开始以为那一堆报错地址都是内存的报错
2012.1.10 日运行多日,与用户确认此机器没问题了
|