服务器硬件故障

服务器硬件故障

(1)硬件故障对业务产生影响还是很少的。

硬件故障认识
(1)经常性的宕机

(2)系统下操作非常的卡顿(一般是cpu有问题)

(3)数据错误或丢失

常见的故障类型
cpu
cpu\内存、硬盘、raid卡、电源

cpu故障:会发生系统重启、系统宕机

cat /proc/cpuinfo :查看cpu状态

cpupower frequency -info:开启cpu大电量模式

内存
CE:可修复,无感知

UCE:不可修复,无感知

无感知的宕机或重启。

ipmitool sel list :查看内存状态日志

硬盘
raid0卡:没有冗余

raid1:2个100G只看到100G,有备份

raid卡是有电源的,若电源没电了,raid卡的缓存数据会丢失。直接写硬盘,速度慢。

百度的raid卡是,机器电池没电了,强行开启缓存。

没有raid卡,盘坏了,检测不到硬盘故障。

只要不断电,程序宕机,raid会马上写入到磁盘中。

电源
电源一般是双电路,具有冗余。

风扇:给cpu降温,cpu的温度一般是70到80度。

故障信息
smart信息:一般厂商不会对外开放。

smart信息开发的成本非常大。

贝叶斯、马尔科夫是在获取不到smart信息的情况下根据机器以往的情况对机器做一个预判。

总结
1、业务侧要做好冗余

2、故障判断准确

你可能感兴趣的:(学习总结)