硬盘监控

1. MegaRaid 工具

1.1 查看阵列卡信息

# /opt/MegaRAID/MegaCli/MegaCli64  -adpallinfo -aall
...
Product Name    : PERC H310 Mini    # 阵列卡名称
...
FW Package Build: 20.13.1-0002      # 阵列卡firmware版本号,版本如果太低,建议升级以提高稳定性及性能
...
BBU              : Absent           # 是否有配BBU电池,Present-有,Absent-没有

1.2 查看阵列配置

# /opt/MegaRAID/MegaCli/MegaCli64 -cfgdsply -aall
Memory: 512MB                       # 阵列卡cache大小,2的N次方,如果不是,说明阵列卡有异常
Number of dedicated Hotspares: 0    # 阵列是否有专用/独享热备盘(如果有多个逻辑磁盘组/disk group,则可以指定一个硬盘用于全局热备,那么该disk group上的专用热备盘数量为0也不用担心),除了RAID 1/RAID 1+0一般不指定热备盘以外,其他几个阵列级别建议都要指定热备盘
State : Optimal                     # 阵列状态,如果不是 Optimal 就要关注了
Current Cache Policy: WriteBack,    # 阵列读写cache策略,建议写策略设置为FORCE WB,最起码是WB,预
    ReadAheadNone, Direct, Write Cache  # 读策略可以关掉,意义不大,几乎没影响 
    OK if Bad BBU
Disk Cache Policy : Disabled        # 硬盘cache策略,建议关闭,防止意外时数据丢失
Current Power Savings Policy: None  # 节电策略,建议关闭
Media Error Count: 0                # 三个错误计数器,任何一个值大于100就要立刻引起关注,尤其要关注起增长速度
Other Error Count: 0                # 1T以上SATA盘,计数值不够精确,可能所有盘上该值都会大于0,一般重启就会重新清0,如果重启后还是大于0的话,赶紧报修吧
Predictive Failure Count: 0         # SAS盘的计数值则比较准确
Firmware state: Online, Spun Up     # 查看硬盘状态,如果是unconfigured表示该硬盘未分配加入到阵列中;如果是 unconfigured(bad)表示该盘不但是未分配,而且还坏了
                                    # 如果是failed,表示该盘故障无法识别;如果是rebuilding,表示该盘正在重建数据

1.3 查看阵列卡电池信息

# /opt/MegaRAID/MegaCli/MegaCli64 -adpbbucmd -aall
Temperature: 39 C                   # 查看电池温度,如果相比上一次查看高出不少,就需要关注了,或者可以根据经验设置一个基线值
Battery State: Optimal              # 电池状态,如果不是为Optimal,就需要关注了
Charger Status: Complete            # 电池充放电状态
isSOHGood: Yes                      # 电池状态,如果不是为Yes,需要关注
Relative State of Charge: 93 %      # 当前电量,当电量低于15%,或者电池坏掉时,默认都会将写策略从WB改成WT,除非设定为FORCE WB策略
Max Error = 0 %                     # 电池是否有错误信息
Next Learn time: Tue Oct 14 22:06:50 2016   # 电池充放电时间,注意这是美国时间。另外,新的阵列卡电池很多改成电容式的了,也就不需要重复充放电了

1.4 查看阵列卡日志

关注里面的error/fail/warn等多个关键字

# /opt/MegaRAID/MegaCli/MegaCli64 -fwtermlog -dsply -aALL

2 lsiutil工具

TODO

ref

* http://imysql.cn/tag/megacli

你可能感兴趣的:(系统运维)