Ceph 集群容量操作阈值,禁止IO读写 的一次故障恢复报告

 

1.客户反映 平台虚拟机无法登陆。由于无法远程接入,去客户现场解决


2.排查过程
2.1 与客户交流中,得知客户有大量数据写入云平台。
2.2 登陆平台底层,检查存储使用量如下:

[root@compute01 ~]# ceph df
GLOBAL:
    SIZE      AVAIL     RAW USED     %RAW USED
    9895G     1668G        8227G         83.14
POOLS:
    NAME              ID     USED      %USED     MAX AVAIL     OBJECTS
    hdd               1          0         0          164G           0
    volumes           2      2161G     65.53          164G      578198
    images            3       642G     19.48          164G      195493
    custmized-hdd     4          0         0          164G           0
    backups           5          0         0          164G           1
[root@compute01 ~]#


[root@xx ~]# ceph osd df        
ID WEIGHT  REWEIGHT SIZE  USE   AVAIL   %USE  VAR  PGS
 0 0.48318  1.00000  494G  396G 100806M 80.10 0.98 308
 1 0.48318  1.00000  494G  452G  43395M 91.43 1.11 326
 2 0.48318  1.00000  494G  401G  95002M 81.25 0.99 303
 3 0.48318  1.00000  494G  390G    104G 78.85 0.96 291
 4 0.48318  1.00000  494G  359G    135G 72.65 0.89 291
 5 0.48318  1.00000  494G  432G  63416M 87.48 1.07 324
 6 0.48318  1.00000  494G  399G  97411M 80.77 0.98 291
 7 0.48318  1.00000  494G  379G    115G 76.65 0.93 309
 8 0.48318  1.00000  494G  440G  55395M 89.07 1.09 276
 9 0.48318  1.00000  494G  337G    157G 68.21 0.83 278
10 0.48318  1.00000  494G  392G    101G 79.43 0.97 320
11 0.48318  1.00000  494G  386G    108G 78.03 0.95 297
12 0.48318  1.00000  494G  355G    138G 71.94 0.88 305
13 0.48318  1.00000  494G  424G  72269M 85.74 1.04 310
14 0.48318  1.00000  494G  463G  31559M 93.77 1.14 291
15 0.48318  1.00000  494G  429G  66993M 86.78 1.06 286
16 0.48318  1.00000  494G  391G    102G 79.20 0.97 303
17 0.48318  1.00000  494G  433G  62271M 87.71 1.07 291
18 0.48318  1.00000  494G  445G  50063M 90.12 1.10 299
19 0.48318  1.00000  494G  406G  90497M 82.14 1.00 301
              TOTAL 9895G 8120G   1774G 82.07          
MIN/MAX VAR: 0.83/1.14  STDDEV: 6.69

###检查ceph的健康状况,处于错误状态,IO读写处于禁止状态,其中有1个osd盘 已满,7个osd接近满
[root@compute01 ~]# ceph -s
    cluster a924c66b-a170-4e1e-b61b-75142d5d25d6
     health HEALTH_ERR
            1 full osd(s)
            7 near full osd(s)
     monmap e1: 3 mons at {ceph01=10.102.1.14:6789/0,ceph02=10.102.1.15:6789/0,ceph03=10.102.1.16:6789/0}
            election epoch 58, quorum 0,1,2 ceph01,ceph02,ceph03
     osdmap e1359: 20 osds: 20 up, 20 in
            flags full,sortbitwise
      pgmap v15298099: 2000 pgs, 5 pools, 2804 GB data, 755 kobjects
            8227 GB used, 1668 GB / 9895 GB avail
                2000 active+clean
[root@compute01 ~]#

##有以上两点确认由于ceph集群磁盘使用量超过阈值,IO禁止读写,导致整个平台虚拟机无法使用。

3 解决方案

3.1 删除ceph集群部分数据,使使用量恢复到正常阈值以内
3.2 增加ceph集群容量

##和客户沟通后确认使用第一种方案

过程:
3.1 底层删除虚拟机数据盘,使 ceph 集群恢复到使用阈值以内


###查看 ceph pool 中相应的虚拟机数据盘卷ID
rbd osd pool ls

imgages
volumes
backups

rbd remove volumes/volume-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

##如果无法删除需要解锁,
[root@compute02 ~]# ceph osd unset full
unset full

##删除 卷之后查看 ceph 集群 容量

[root@compute01 ~]# ceph df

GLOBAL:
    SIZE      AVAIL     RAW USED     %RAW USED
    9895G     7561G        2333G         23.58
POOLS:
    NAME              ID     USED     %USED     MAX AVAIL     OBJECTS
    hdd               1         0         0         2314G           0
    volumes           2      141G      4.28         2314G       37169
    images            3      639G     19.38         2314G      195133
    custmized-hdd     4         0         0         2314G           0
    backups           5         0         0         2314G           1
[root@compute02 ~]#

###osd 盘的使用量
ID WEIGHT  REWEIGHT SIZE  USE     AVAIL %USE  VAR  PGS
 0 0.48318  1.00000  494G    112G  382G 22.69 0.96 308
 1 0.48318  1.00000  494G    147G  347G 29.82 1.27 326
 2 0.48318  1.00000  494G    107G  387G 21.72 0.92 303
 3 0.48318  1.00000  494G    111G  383G 22.57 0.96 291
 4 0.48318  1.00000  494G    112G  382G 22.78 0.97 291
 5 0.48318  1.00000  494G    131G  363G 26.51 1.12 324
 6 0.48318  1.00000  494G    113G  381G 22.97 0.97 291
 7 0.48318  1.00000  494G    122G  372G 24.69 1.05 309
 8 0.48318  1.00000  494G    101G  393G 20.54 0.87 276
 9 0.48318  1.00000  494G 102003M  395G 20.13 0.85 278
10 0.48318  1.00000  494G    124G  369G 25.24 1.07 320
11 0.48318  1.00000  494G    110G  383G 22.41 0.95 297
12 0.48318  1.00000  494G    128G  366G 26.01 1.10 305
13 0.48318  1.00000  494G    106G  388G 21.55 0.91 310
14 0.48318  1.00000  494G    114G  380G 23.14 0.98 291
15 0.48318  1.00000  494G    129G  365G 26.08 1.11 286
16 0.48318  1.00000  494G    106G  388G 21.57 0.91 303
17 0.48318  1.00000  494G  97856M  399G 19.32 0.82 291
18 0.48318  1.00000  494G    135G  358G 27.46 1.16 299
19 0.48318  1.00000  494G    120G  374G 24.31 1.03 301
              TOTAL 9895G   2332G 7562G 23.58          
MIN/MAX VAR: 0.82/1.27  STDDEV: 2.59


3、平台虚拟机 状态恢复,可以正常使用


4、由于 本平台的ceph 集群使用的是3副本,物理磁盘共10TB,真实逻辑使用量为3TB,最多可使用3TB * 70% =2.1TB 的时候
应该考虑增加存储容量或停止写入数据

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Ceph)