Linux监控Raid磁盘健康状态

Raid卡型号与操作

Raid卡市场主要是LSI、Adaptec、Highpoint、Promise等厂商提供。Adaptac被PMC收购后,提供的Raid卡即为PMC,简称为P卡。LSI公司提供的Raid卡,即为L卡。

Raid卡配置操作方式

Raid配置可以通过BIOS启动后进入Raid的配置页面进行配置,也可以进入系统后通过对应的操作工具进行配置。
PMC配置操作工具为: arcconf
LSI配置操作工具为:storcli

PS:看具体的RAID卡是什么型号的

通过以下命令 查看RAID卡信息:

安装pciutils工具

pciutils离线RPM包
Centos6
https://wwik.lanzouk.com/iop8A0zddrze
密码:1u5g
Centos7
https://wwik.lanzouk.com/ihnu30zddryd

[root@node1 aihuidi]# cd lspci_rpm/
[root@node1 lspci_rpm]# ll
total 144
-rw-r--r-- 1 root root 95568 Apr 25  2018 pciutils-3.5.1-3.el7.x86_64.rpm
-rw-r--r-- 1 root root 47204 Apr 25  2018 pciutils-libs-3.5.1-3.el7.x86_64.rpm
[root@node1 lspci_rpm]# yum localinstall *.rpm -y

查看RAID卡型号

[root@node7 ~]# lspci -v -s $(lspci | grep -i raid |awk '{print $1}')
5e:00.0 RAID bus controller: Adaptec Series 8 12G SAS/PCIe 3 (rev 01)
Subsystem: Adaptec Device 0555    #此处为RAID卡型号
Physical Slot: 10
Flags: bus master, fast devsel, latency 0, IRQ 48
Memory at c5d00000 (64-bit, non-prefetchable) [size=1M]
Memory at c5e80000 (64-bit, non-prefetchable) [size=1K]
I/O ports at 9000 [size=256]
Expansion ROM at c5e00000 [disabled] [size=512K]
Capabilities: [80] Power Management version 3
Capabilities: [90] MSI: Enable- Count=1/32 Maskable+ 64bit+
Capabilities: [b0] MSI-X: Enable- Count=64 Masked-
Capabilities: [c0] Express Endpoint, MSI 00
Capabilities: [100] Advanced Error Reporting
Capabilities: [300] #19
Kernel driver in use: aacraid
Kernel modules: aacraid
[root@node7 ~]#

Linux监控Raid磁盘健康状态_第1张图片

H3C服务器使用Arcconf此工具

下载和安装存储管理软件

wget https://download.adaptec.com/raid/storage_manager/arcconf_v3_03_23668.zip
unzip arcconf_v3_03_23668.zip
cd  linux_x64/
rpm -ivh Arcconf-3.03-23668.x86_64.rpm

查看硬件RAID信息

[root@node7 aihuidi]# arcconf getconfig 1
[root@node7 aihuidi]# arcconf getconfig 1|more
[root@node7 aihuidi]# arcconf getconfig 1|grep -B 3 State

Linux监控Raid磁盘健康状态_第2张图片
Linux监控Raid磁盘健康状态_第3张图片

查询RAID的基本信息

Linux监控Raid磁盘健康状态_第4张图片

Dell服务器可以使用MegaCli或storcli工具

MeagCli工具比较推荐使用

MegaCli是由LSI原厂提供的LSI
MegaRaid阵列卡管理工具。他可以查看当前RAID卡的所有信息,包括RAID卡型号、类型、磁盘状态、电池状态等等。
MegaCli 是LSI公司官方提供的SCSI卡管理工具,由于LSI被收购变成了现在的Broadcom,所以现在想下载MegaCli,需要去Broadcom官网查找Legacy产品支持,搜索MegaRAID即可。
现在官方有storcli,整合了LSI和3ware所有产品。但是个人认为Megacli用起来更顺手,而且线上用了几家国产厂商服务器,用Megacli都能管理好RAID,所以换不换无所谓。

MegaCl工具

[root@node1 aihuidi]# wget https://docs.broadcom.com/docs-and-downloads/raid-controllers/raid-controllers-common-files/8-07-14_MegaCLI.zip
[root@node1 aihuidi]# unzip 8-07-14_MegaCLI.zip
[root@node1 aihuidi]# cd Linux/
[root@node1 Linux]# rpm -ivh MegaCli-8.07.14-1.noarch.rpm
Preparing...                          ################################# [100%]
Updating / installing...
1:MegaCli-8.07.14-1                ################################# [100%]
[root@node1 lspci_rpm]# ln -s /opt/MegaRAID/MegaCli/MegaCli64 /usr/bin/megacli

常见参数含义

一般通过MegaCli的Media Error Count 、Other Error Count、Predictive Failure Count来确定阵列中磁盘是否有问题
Medai Error Count 不为0,表示磁盘可能错误,可能是磁盘有坏道,数值越大,危险系数越高
Other Error Count 不为0,表示磁盘可能存在松动,可能需要重新再插入
Predictive Failure Count:表示监控硬盘的预报错误数量,不为0要更换
Slot Number:slot号,应该跟机器外观上的标识一致。(磁盘位置)
Inquiry Data: 磁盘的序列号,跟磁盘标签上一致。(磁盘标签需要拔盘才能看到)
Firmware state: 这磁盘的状态,Online是最好的状态,除此之外还有 Unconfigured Offline Failed
Last Predictive Failure Event Seq Number:最后一条预警的时间序列号
Raw Size:磁盘大小
Firmware state:磁盘目前的状态
磁盘状态
Unconfigured Good :未配置好。 RAID控制器可访问的驱动器,但未配置为虚拟驱动器或热备分
Online:在线
Rebuild :重建。写入数据的驱动器,以恢复虚拟驱动器的完全冗余
Failed :失败
Unconfigured Bad:未配置的坏-驱动器上的固件检测不可恢复的错误;驱动器无法初始化Unconfigured Good或驱动器
Missing:失踪。在线驱动,但已从其位置移除
Offline:脱机-驱动器是虚拟驱动器的一部分,但在RAID中具有无效数据或未配置
Hot Spare:热备份
None:具有不支持标志集的驱动器。具有未配置的良好或离线驱动器,完成了搬迁作业的准备工作

MegaCli常用命令

查Raid级别

[root@node1 MegaCli]# /opt/MegaRAID/MegaCli/MegaCli64 -LDInfo -Lall -aALL

Linux监控Raid磁盘健康状态_第5张图片
查看Raid卡信息

[root@node1 MegaCli]# /opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aALL

Linux监控Raid磁盘健康状态_第6张图片
查看硬盘信息

[root@node1 MegaCli]# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL

Linux监控Raid磁盘健康状态_第7张图片
查看磁盘

[root@node1 ~]# megacli -PDList -aAll -Nolog |grep -i -E 'state|Slot\ Number'

Linux监控Raid磁盘健康状态_第8张图片
获取Raid组状态和磁盘数量
Linux监控Raid磁盘健康状态_第9张图片
通过上述命令,大家可以查到Raid组级别和磁盘等信息,可以通过自定义脚本进行监控起来,实现Raid组中有硬盘损坏等情况,可以第一时间得知并处理,减少数据丢失的风险。

你可能感兴趣的:(linux运维,linux,网络,运维,centos,磁盘监控,RAID)