本帖最后由 maym 于 2012-1-10 10:05 编辑

1.接到用户反映这个机器死机 HP DL380G7机器配置为 XEON 5645 CPU,24G内存,报紫色屏幕报错,如下图
                               
仔细观察上图发现基本都是内存地址错误,怀疑为内存故障
用户重新安装过ESXI5.0依旧报错,时间从2小时到2天不等,不是死机就是报紫屏错误
检查内存的插法, ABC的顺序,发现没问题如下图插法(顺序是按英文字母的序列插内存 ABCDEFG…..)如果双 CPU,插内存需对称插,不然会报 NUMA错误, HP也有内存插法的配置页面
如下链接
http://h18004.www1.hp.com/products/servers/options/tool/hp_memtool.html
之后咨询 HP,建议观察 FIRMWARE版本,对其进行升级
拿最新的 firmware盘进行更新,发现已经是最新的,不需要进行更新, 总结下,其实有问题第一时间更新机箱的固件是很好的法子,应更新后再判断故障
1.     把机器拿回公司进行进一步诊断,把 64G内存用 LINUXMEMRY TEST进行测试
发现根本进不去,直接重启,找了 2条原装机内存进行测试多次,发现有大约 1/2的几率
根本进不去 TEST的界面,另 1/2几率正常进去,怀疑是内存或者主板的问题,用 smart start
maintance 抓出来系统日志其中包括 LOG和内置设备的 LOG以及 smart Arraylog 发现并无异常的报错
2.     插上那 2条原装机内存,开机进行测试,开机大约 1小时,发现机器自动重启一次 ,HP内部服务升级高级服务
        开机 2天发现依旧紫屏,死机时间不确定,翻日志也没有发现任何死机或者重启的 LOG
2天后观察依旧死机,时间不确定,紫色屏幕依旧是卡到之前的报错状态,建议更换主板进行维修!另外用 SMARTSTART工具盘进行了整机的诊断,诊断过程时间周期为 20分钟
3.     12.19日更换了主板运行 MEMORYTEST发现正常跑 124G的测试,下午 3点左右进了 ESXI5.0的系统, 6点又死机
依旧是紫屏
下午 1849分将 CPU2摘下,把所有内存插到了 CPU1上测试
2天看依旧报错
12.20日将另一个 CPU24G内存均插到主板上测试运行了 1天发现没问题
12.21日提交申请更换那个报错的 CPU,将 CPU换上, 2CPU 24GB内存运行,可以进 memorytest ,运行了一段时间无任何问题了
再次将之前更换的主板换回来,结果发现,进 memory test直接重启,无奈又更换回新的主板,看来 CPU和主板都有问题
总结下,仔细观察上面的三张图,有一个共同点
PCUP0都有报错信息,下面的报错信息有可能是寄存器地址,目前看 6条内存均无问题,跟开始判断并不一样,开始以为那一堆报错地址都是内存的报错
2012.1.10 日运行多日,与用户确认此机器没问题了