Ceph 遇到的错误

错误1

ceph_deploy.mon mon.ceph-mon-2 monitor is not yet in quorum

移除监控节点上次初始化创建的文件

ceph-deploy mon destroy ceph-mon-node1

错误2

neitherpublic_addrnorpublic_networkkeys are defined for monitors

说明有多网卡需要再 ~/my_cluster/ceph.conf 中添加

public_network = 172.16.245.0/24

错误3

unable to resolve host ceph-osd-node2

修改响应节点 /etc/hosts127.0.0.1 localhost 改为 127.0.0.1 主机名 localhost 改成对应的主机名

错误4

RuntimeError: Failed to execute command: /usr/sbin/ceph-disk -v activate --mark-init systemd --mount /dev/sdb

激活失败 再失败的节点上运行

sudo ceph-disk activate-all

错误5

MGR_DOWN no active mgr

没有 mgr 服务创建即可

ceph-deploy mgr create node1  node2 node3

mgr 服务已启动 重启

service ceph-mgr@node1 restart

错误6

application not enabled on pool '...'

这个是在新版本中出现的,需要给 pool 打个标签。具体为什么不知道 - -

ceph osd pool application enable pool_name  rgw

错误7

重启物理机 osd down

1. osd 所在物理机 osd service 是否启动
systemctl status ceph-osd@*

2. 启动失败
ceph osd in osd.0....X

3. 执行第 1 步

错误8

[ceph_deploy.gatherkeys][ERROR ] Failed to connect to host

可能得原因

  1. 物理机防火墙或 iptables 引起。关闭防火墙.
  2. ceph.confmon_host 的 ip 地址和 public_network 不是一个网段

错误9

Removing image: 0% complete...failed. rbd: error: image still has watchers This means the image is still open or the client using it crashed. Try again after closing/unmapping it or waiting 30s for the crashed client to timeout

查看不能删除的 rbd 详情获取 id

root# rbd info images/i-lsehtcgv
rbd image 'i-lsehtcgv':
    size 20 GiB in 5120 objects
    order 22 (4 MiB objects)
    id: 62916b8b4567
    block_name_prefix: rbd_data.62916b8b4567
    format: 2
    features: layering
    op_features:
    flags:
    create_timestamp: Thu May 11 10:49:30 2023
    parent: template/ubuntu18.04@template
    overlap: 20 GiB

根据上的 id 查看 watchcer

root# rados -p images listwatchers rbd_header.62916b8b4567
watcher=192.168.4.214:0/1433428738 client.25236 cookie=18446462598732840961

登录到 192.168.4.214 物理机, 查看 mapped

root# rbd showmapped
id pool   image      snap device
0  images i-lsehtcgv -    /dev/rbd0

使用 unmap 移除

root# rbd unmap /dev/rbd0

重新再出 rbd

root# rbd rm images/i-lsehtcgv

错误10

[ceph01][INFO ] Running command: ceph --cluster=ceph --admin-daemon /var/run/ceph/ceph-mon.ceph01.asok mon_status [ceph01][ERROR ] admin_socket: exception getting command descriptions: [Errno 2] No such file or directory

解决办法 1
ceph.conf 中的 public_network 没有配置

解决办法 2
主机 hostname 和 hosts 中的名字不对应

解决办法 3
以上两种方法无法解决时,清空 ceph 所有配置以及安装包然后重启物理机 - -

ceph-deploy purge node-admin node1 node2 node3
ceph-deploy purgedata node-admin node1 node2 node3
ceph-deploy forgetkeys
rm -rf /var/lib/ceph

你可能感兴趣的:(Ceph 遇到的错误)