Openstack neutron 常见故障分析

1.  节点down了,如图1-12所示

  

图1-12

刚刚部署完了,一看上去全部是down掉了,down掉了怎么办?我要查整个部署。一查没有部署这个没有部署那个,这时日志很关键。所以在部署的时候要统一日志收集,你在上面就可以看到各种日志。看Rabbitmq,文件句柄太少了,或者是硬盘太小了,都会影响到rabbitmq接受agent的连接。还有检查Server,看Neutron Server是不是出问题了。最后就是不要出现时间不同步的问题。

2.  floatingip不通,如图1-13所示


  图1-13

先看看VM是否分配到了固定IP, 是否能通到VM网络的网关。再查询它的安全组规则,看看是否阻止了某种网络流量。再看看这个IP所在的ROUTER是什么,再看看router所在的网络节点,进入这个路由器所在的名字空间,察看floatingip是否存在。软件方面有时候重启也是能解决问题的。

3.  L3节点错误,如图1-14所示

 

 图1-14

L3出错了怎么办?这时可能需要迁移。首先我们把这个L3 agent设为down,down完之后看看这个节点上所有的router。 接着把所有router的管理状态设为down, 然后又设为up, 这时系统就会重新绑定router到其它网络节点。这个过程很复杂,人工去做会影响比较长的时间。现在很多友商用监控,如果L3 agent出错, 启动自动脚本进行迁移。 在Kilo版中, HA router也是一个不错的选择。

4.  还有一个端口绑定失败,如图1-15所示


  图1-15

这是经常遇到的一个问题。在我的产品中,如果出现绑定失败,就直接抛出错误,这样问题就会第一时间暴露出来。如果不这样做,直接把“binding_failure”写在数据库里面,虚拟机就拿不到IP。怎么解决呢?在Neutron里面只要把这个host_id先置一下,再置回去,这时候能让Neutron agent重新绑定端口,设置正确的TAG.

5.  要注意TAG 4095端口,如图1-16所示


  图1-16

我们确认port不在Neutron Server中,然后删除ovs  port。如果在Neutron Server中有,就要重新改一下,让它的binding重新做。

做OpenStack运维,整个网络流程是必须掌握的。我们看Neutron链路分析,如图1-17所示



你可能感兴趣的:(OpenStack)