Ceph client无法连接至集群问题解决

1.问题描述

今天做iptables策略,重启集群中的一台机器后,输入ceph -s发现如下状况:

[root@deploynode ~]# ceph -s
2015-09-10 13:50:57.688516 7f6a6b8cc700  0 monclient(hunting): authenticate timed out after 300
2015-09-10 13:50:57.688553 7f6a6b8cc700  0 librados: client.admin authentication error (110) Connection timed out
Error connecting to cluster: TimedOut


2.问题分析

之前集群运作良好,后来由于添加了iptables相关策略,就无法通过ceph client连接至集群并获取
集群状态。第一反应是相关IP或者端口号是不是被策略禁掉,导致数据包无法正常到达相关进程。通过命令netstat -ntpl 没有发现ceph-mon进程对于的端口号。


3.处理方法

在策略脚本中添加如下内容:

#添加允许访问的IP地址
allowip=(58.220.*.*)

#开放ceph mon端口号6789
$IPT -A INPUT -p tcp --dport 6789 -j ACCEPT

重新执行后执行命令netstat -ntpl


执行ceph-s命令后

Ceph client无法连接至集群问题解决_第1张图片


-------------------------------------New Added-----------------------------------------------------

后来OSD节点也出了问题,症状体现在osd节点的状态处于up / down 不停变化,到最后只有一个节点up。
但是检查各主机后发现各osd.$i节点都在运行当中,后同样担心是osd进程通信端口被策略影响。后在添加如下
内容:

$IPT -A INPUT -p tcp    -m multiport   --dports 6800:6820  -j ACCEPT



在每个节点上,开放6800-6820的端口,这些端口是给osd进程使用的,后通过ceph osd tree检查osd状态。
俱OK。

你可能感兴趣的:(Ceph client无法连接至集群问题解决)