【解决】docker 容器中 consul集群问题处理

现象描述:
   node1 和node2 日志反复出现 add remove node3节点。 node3 节点 一直 驳回 node1 和node2 认为node3已经dead的消息
 不断重启server3 的node3 和重装consul 集群 都不能解决
 
 
server1 --->node1
 
【解决】docker 容器中 consul集群问题处理_第1张图片
server2 ---> node2
 
【解决】docker 容器中 consul集群问题处理_第2张图片
server3 ---> node3
 
 
问题解决概述:
 
  这个问题是 一个已经的由docker的网络导致的。 存在某种ARP缓存会导致不正确的路由发生,并破坏UDP路由。 不确定究竟是什么问题,但我们已经注意到,只要快速设置/拆卸Docker网络,就会发生这种情况。唯一已知的解决方法是在拆除和重新加入网络之间至少休眠3-5分钟。
 
  这些报错的消息来自于 gossip 层(memberlist),表明节点之间存在网络问题, 如果节点无法通过UDP成功发送ping / ack消息,那么您可能会看到node在  dead/alive 状态之间徘徊
 
 
  问题解决参考:1. https://github.com/hashicorp/consul/issues/352
                       2. https://hub.docker.com/r/progrium/consul/
 
  在测试群集方案时,您可能会杀死容器并在同一主机上重新启动它,并发现它在重新加入群集时遇到问题。将节点重新启动为具有相同发布端口的新容器时会出现问题,这会导致心跳失败并且节点将会翻转。这是一个ARP表缓存问题。如果你在重新开始前等待大约3分钟,它应该可以正常工作。您也可以手动重置缓存。
 
解决办法
  先 stop 容器 然后等几分钟后再启动

 

 

你可能感兴趣的:(【解决】docker 容器中 consul集群问题处理)