SMART 硬盘状态检测

SMART 简介

S.M.A.R.T.,全称为“Self-Monitoring Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。是一种自动的硬盘状态检测与预警系统和规范。通过在硬盘硬件内的检测指令对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较,若监控情况将或已超出预设安全值的安全范围,就可以通过主机的监控硬件或软件自动向用户作出警告并进行轻微的自动修复,以提前保障硬盘数据的安全。除一些出厂时间极早的硬盘外,现在大部分硬盘均配备该项技术。


smartmontools

  • 项目主页:http://www.smartmontools.org/

  • 功能描述:smartmontools是一款开源的磁盘控制,监视工具,可以运行在 Linux,Unix,BSD,Solaris,Mac OS,OS/2,Cygwin和Windows上,同时它还可以从启动光盘或启动软盘运行,支持ATA/ATAPI/SATA-3(到-8)位的硬盘和 SCSI硬盘,另外还支持磁带设备,它主要包括了两个实用程序:smartctl和smatd。

    它监控的硬盘必须有S.M.A.R.T特性,对虚拟驱动器无效,目前所有硬盘都有这个特性,如果这个功能没有开启,可以通过如下两种方式开启:

  • 通过BIOS设置操作

  • 通过smartctl命令操作


smartctl的基本使用

  • smartctl �Cscan 扫描当前系统中所有支持SMART的设备

  • smartctl -i /dev/sda 查看设备SMART是否开启

  • smartctl -s on /dev/sda 将设备SMART开启

  • smartctl -a /dev/sda 仅显示设备的所有 SMART 属性信息

  • smartctl -x /dev/sda 显示设备的所有属性信息

  • smartctl -H /dev/sda 查看设备的自检评估结果


SMART 属性

  • smartctl -A /dev/sda -f brief

smartctl 命令有一个参数 -f brief/old ,可以将输出信息设置为简要模式或旧的模式

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   081   063   044    -    120125617
  3 Spin_Up_Time            PO----   095   094   000    -    0
  4 Start_Stop_Count        -O--CK   100   100   020    -    11
  5 Reallocated_Sector_Ct   PO--CK   100   100   036    -    0
  7 Seek_Error_Rate         POSR--   084   060   030    -    265204503
  9 Power_On_Hours          -O--CK   073   073   000    -    23932
 10 Spin_Retry_Count        PO--C-   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   100   100   020    -    11
184 End-to-End_Error        -O--CK   100   100   099    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
188 Command_Timeout         -O--CK   100   100   000    -    0
189 High_Fly_Writes         -O-RCK   100   100   000    -    0
190 Airflow_Temperature_Cel -O---K   070   060   045    -    30 (Min/Max 29/36)
191 G-Sense_Error_Rate      -O--CK   100   100   000    -    0
192 Power-Off_Retract_Count -O--CK   100   100   000    -    10
193 Load_Cycle_Count        -O--CK   100   100   000    -    11
194 Temperature_Celsius     -O---K   030   040   000    -    30 (0 16 0 0)
195 Hardware_ECC_Recovered  -O-RC-   021   011   000    -    120125617
197 Current_Pending_Sector  -O--C-   100   100   000    -    0
198 Offline_Uncorrectable   ----C-   100   100   000    -    0
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    0
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

各项 SMART 属性

  • ID 属性编号, 从1到255

  • ATTRIBUTE_NAME 属性名称

  • FLAGS 标识,K 自动保持 ,C 事件统计, R 错误率, S速度/性能 , O 在线更新, P 故障预警

  • VALUE 当前Normalized value (归一化值), 取值范围1到253. 越低表示越差. 越高表示越好

  • WORST 历史最差值(归一化值),表示SMART开启以来的, 所有Normalized values的最低值

  • THRESH 阈值/极限值((归一化值),当Normalized value小于等于THRESH值时, 表示这项指标已经failed了.

  • FAIL

  • RAW_VALUE 物理值(通常对应于计数或物理单位,如扇区个数,摄氏度或秒)

  • TYPE (简要模式不可见)存在两种类型, Pre-failed(故障预警)和Old_age(正常损耗).

  • UPDATED (简要模式不可见)存在两种更新模式 Always(持续更新)和 Offline(离线更新)

详细说明

每个驱动器制造商定义了一组属性,并设置阈值制,不同厂商提供的数目不同,有些特定属性具体含义由各个厂商自行定义,支持SMART的制造商包括三星,希捷,IBM(日立),富士通,迈拓,东芝,英特尔,STEC公司,西部数据与易拓科技。

SMART的属性分为Critical Attributes(关键属性)和 Informative attributes(信息属性)两类,其中关键属性包括了有关硬盘健康的最重要的数据,而信息属性所提供的数据一般只是辅助性的。区分它们的方法是看threshold(阈值/极限值),值为非零代表关键属性,为零代表信息属性。

  • 归一化值,从实际的物理属性值转化来的,取值范围为1~253(一般来说 1代表最坏的情况下和253代表最好),根据不同的生产厂家,100或200的值通常是初始标准值

  • 物理值, 通常对应于计数或物理单位,如扇区个数,摄氏度或时间单位

重要的关键属性

一般来说,如果下面这10项指标开始明显变化,说明硬盘开始进入不稳定的状态,甚至有随时停止工作的可能性

wKioL1WTyGGgbMivAAIF_Ogei_8483.jpg

监控手段

  1. 可以写监控插件,使用监控程序来告警.

  2. 配置 smartd 服务发邮件告警.

  3. 定期收集smart数据, 分析每个属性的Normalized value的变化趋势, 更加精确的推算出磁盘的剩余使用寿命.


你可能感兴趣的:(SMART,硬盘状态检测)