记一次dell R720服务器ESXI5.5系统宕机的奇葩经历
总结点: 1, 没看宕机的原因。 2, 无故重置bois。 3, 不看日志。 4, Dell r720服务器 内存需要按照顺序插入,如:A1,A2,A3,A4。 5, 使用idrac远程管理页面。 6, 要有自己的判断问题思路,不要什么都依着400。 7, 对问题不重视,要不然就不会直接重启设备了。
失误点一:没看宕机的原因
17号下午5点多的时候,正用着服务器上的虚拟机工作时,mstsc窗口突然断开了。Ping也ping不通,我当时也没想什么,就直接冲到机房把服务器断电重启了,(服务器没有显示器,也没想到去看看什么情况)然后就回到工作台做其他事情了,过了大概10分钟,ping了下服务器,Ping不通,一想坏了,玩大了,我就去拿显示器,键盘去看看情况。一看情况
提示没有Raid,奇了怪了,本着客服至上的精神,就打了400,400指导我看下硬盘,
物理硬盘各方面显示都很正常,状态也正常,所以400就告诉我硬件是没有问题,那就是软件导致的问题,也就是系统喽,让我重新做个raid0,重新装系统。可这问题没有解决,(要是听了400的,我的数据早都没了)。
这是第二天了18号
失误点二:不应该去重置bios
最后跟400客服邮件探讨,400提示我说看看是不是启动项的问题,从硬盘启动试试,我就去试了从硬盘启动,显示DHCP……也就是没找到系统喽,我就挨着试,选择drive C终于成功了,
可以启动了,但是问题又来了。
启动到这个界面就卡住了,我一看当时想估计是bios设置问题把,我就去重置bios。
接着重启,又在这个界面卡住了。然后我按了几下回车,到vkernel load success的时候就立马紫屏显示了。
看到这我就去上网查了一番,查到的方法:1,更新系统,用最新的,这个问题是右e网卡接收到大流量导致的。2,关闭bios的cpuid,3,开启VT功能
找到方法了,就去试试,
1,安装新系统,也是在这个界面就出现了紫屏,估计还是bios设置的问题, 2,bios里面就没有cpuid这个选项, 3,bios里面默认开启VT功能。
没办法就去求助了400
400让我提供这些错误的照片,我跟400说估计是我的bios里面设置有问题,然后他就让我配置下bios,主要是system profile settings这一项。
然后重启进入系统,还是在初始化界面卡住,然后进入紫屏
错误信息减少了,我更加相信是bios设置的问题,回到工作台,就到网上搜了下bios的设置(这个时间,400正在还原我说的问题),看下设置觉得自己设置的没有什么问题,这时候400来了,得出的结论说是我的系统光盘有问题,我第一时间回他说“光盘没有问题”,发过去一想,这问题不是在安装的时候出现的啊,就又回复了一个过去。说明下情况。又让我设置启动项,启动项跟400提供的设置项是一样的。
快要到下班的时候,400又发来一个信息。让我重新下载dell定制的esxi5.5定制的系统,并且在更新bios。今天就算浪费了一天,工作上的事都没干,就弄服务器了。
19号
重大发现:内存错误日志
今天以来我就打开了idrac,本想启动下设备,(开机进F2,一直按太累,就到网上搜了下远程管理的,就看到了这个idrac,也是在昨天捣鼓的,想看虚拟桌面,就必须要升级到企业版,升级就必须要买许可),就去看了下日志。
到网上搜下翻译,提示内存错误,建议操作重新拔插内存
把这个情况跟400说了下,确认是内存有问题,400让我把内存卡换换插槽,我就按照做了,重启设备,提示找不到内存,我里个心肝脾肺肾啊,只好重新拆机重新拔插,重新启动,系统可以进去了,哈哈。可是当我回到操作台去看的时候,发现内存只有8G。我可是有16G的,然后就去看日志(学乖了,知道看日志了)
这个显示A1,A3没有检测到内存卡
屏幕也显示错误
这个错误显示A9,A11内存功能关闭,提示内存要挨着放(就是按照编号,A1,A2,A3...),
(图片上显示的是我安装错误的照片,安装正确的每有拍下来)
综合2个错误,把4个内存卡分别插在A1,A2,A3,A4 这4个插槽内(A4忘了在哪个地方了,就不标了,以免误导),这样重启设备,主板识别内存卡,ESXi主机可以使用了。
历时11个小时。
注: 1,期间不停的按关机,启动进入F11,F2耗费的时间非常长,有时候按了不一定进入设置界面,有一次我连续4次重启设备都没又进入设置界面。这个操作浪费很多时间。 2,期间不停的想重做ESXi系统(客服一直让我重做系统试试),尝试了各种方法。浪费了很多时间