今天有一台生产服务器上面的docker突然有了一些问题。
具体问题是:启动的容器无法ping通宿主机所在内网的其他服务器。
之前都没问题,好久没碰过这台服务器了,盲猜可能有人重启过服务器或者修改过内核参数。
在docker中,容器想要访问外部网络时,需要本地系统的转发支持,在Linux 系统中,检查转发是否打开。
sysctl net.ipv4.ip_forward
# net.ipv4.ip_forward = 0
打开ip转发后重启docker即可。
如果只想临时修改net.ipv4.ip_forward参数而不希望进行永久更改,可以使用sysctl命令来动态修改内核参数,这种方式在系统重启,或对系统的网络服务进行重启后都会失效。
sysctl 命令的 -w 参数可以实时修改Linux的内核参数并生效,使用如下命令可以开启Linux的路由转发功能:
sysctl -w net.ipv4.ip_forward=1
sysctl.conf文件包含了内核参数的配置信息,打开sysctl.conf文件进行编辑,在文件中找到net.ipv4.ip_forward=0
(如果不存在则手动添加),修改为:
net.ipv4.ip_forward=1
重新加载sysctl.conf文件并应用其中的配置:
sudo sysctl -p
在某些Linux发行版中,如Red Hat Enterprise Linux (RHEL)、CentOS和Fedora,可以通过修改/etc/sysconfig/network
文件来配置网络参数,包括IP转发,在文件中找到NETWORKING_IPV4_FORWARDING=0
(如果不存在则手动添加),修改为:
NETWORKING_IPV4_FORWARDING=yes
重新启动网络服务以使更改生效。可以使用以下命令重启网络服务:
sudo systemctl restart network
在Linux中,net.ipv4.ip_forward是一个内核参数,用于控制IP转发功能。当这个参数设置为1时,表示启用IP转发;当设置为0时,表示禁用IP转发,大多数默认为0。
IP转发是指在一个路由器或者网络设备上接收到一个IP数据包后,根据目标IP地址的路由信息将数据包发送到合适的接口,使其能够到达目标主机。IP转发是构建网络的核心功能之一,它允许数据在不同的网络之间进行传递和路由。其实就是当主机拥有多于一块的网卡时,其中一块收到数据包,根据数据包的目的ip地址将数据包发往本机另一块网卡,该网卡根据路由表继续发送数据包。这通常是路由器所要实现的功能。
在一个典型的网络中,当Linux系统处于默认的配置状态时,IP转发是禁用的。这意味着Linux系统只会处理发送到它自身IP地址的数据包,并且不会将数据包转发到其他主机或网络。
启用net.ipv4.ip_forward参数后,Linux系统可以将接收到的IP数据包转发到其他主机或网络。这对于构建网络设备或者将Linux系统用作路由器或网关非常有用。
通过启用IP转发功能,你可以在Linux系统上实现以下功能:
需要注意的是,启用IP转发功能可能会使网络暴露于一些安全风险。因此,在启用IP转发之前,你应该仔细评估网络的安全性需求,并采取适当的安全措施,例如配置防火墙规则来限制访问和保护网络的安全性。
该节参考于:Linux 中的 net.ipv4.ip_forward - 小李行的文章 - 知乎
建议阅读原文:Linux 中的 net.ipv4.ip_forward - 小李行的文章 - 知乎
假设有三台主机:
设置主机 A 的 IP 地址:ip a add 172.0.0.2/16 dev ens33
设置主机 B 的 IP 地址:ip a add 172.1.0.2/16 dev ens33
设置主机 R 的 IP 地址:ip a add 172.0.0.1/16 dev ens33
和 ip a add 172.1.0.1/16 dev ens33
(也可以将 IP 地址设置在两张不同的网卡上)
查看是否设置成功:ip a s ens33
设置主机 A 的路由信息:ip r add 172.1.0.0/16 via 172.0.0.1
设置主机 B 的路由信息:ip r add 172.0.0.0/16 via 172.1.0.1
查看主机 A 的路由信息是否设置成功(主机 B 同理):
# ip r
172.1.0.0/16 via 172.0.0.1 dev ens33
除了上述的设置路由方法,也可以设置网关(也即默认的路由规则)。方法如下:
设置主机 A 的默认网关:ip r add default via 172.0.0.1
设置主机 B 的默认网关:ip r add default via 172.1.0.1
查看主机 A 的网关是否设置成功(主机 B 同理):
# ip r
default via 172.0.0.1 dev ens33
设置主机 R 的 IP Forward 功能:sysctl -w net.ipv4.ip_forward=1
查看是否设置成功:
# sysctl net.ipv4.ip_forward
net.ipv4.ip_forward = 1
关闭防火墙:systemctl stop NetworkManager
关闭 Selinux:setenforce 0
在主机 A 上 ping 主机 B:ping -c 4 172.1.0.2
在主机 B 上 ping 主机 A:ping -c 4 172.0.0.2
容器间同样可以 IP Foward。
先介绍同一台主机上位于不同网段的的容器间通信。
下图中,172.0.0.2 位于一个容器内,172.1.0.2 位于另一个容器内,两个容器位于同一台主机上。让 172.0.0.2 和 172.1.0.2 可以互相通信。
操作记录如下:
docker network create --subnet 172.0.0.0/16 net0
docker network create --subnet=172.1.0.0/16 net1
docker run -it --name centos0 --net net0 --ip 172.0.0.2 centos bash # 按Ctrl + p + q 退出容器 centos0
docker run -it --name centos1 --net net1 --ip 172.1.0.2 centos bash # 按Ctrl + p + q 退出容器 centos1
iptables -F # 清空 filter 表中的 polices,docker 自定义了几个链,会限制跨网段容器间的 IP Forward。
# 切勿 iptables -t nat -F 清空 nat 表,nat 表的 POSTROUTING 链中设置了连接外网的 NAT,如下:
# Chain POSTROUTING (policy ACCEPT)
# target prot opt source destination
# MASQUERADE all -- 172.17.0.0/16 anywhere
# MASQUERADE all -- 172.0.0.0/16 anywhere
# MASQUERADE all -- 172.1.0.0/16 anywhere
docker exec -it centos0 bash # 现在进入 centos0。它的 IP 是 172.0.0.2
ping 172.1.0.2 # 可以 ping 同另一网段的容器。
# 另外,docker 已经定义好了路由信息,无需再添加
事实上,让同一台主机上的容器位于不同的网段,这样做的意义不大。
建议同一台主机上的容器都位于同一个网段。
接着介绍不同主机上的容器互通。
下图中,172.0.0.2 位于一个容器内,容器运行在主机 A 上;172.1.0.2 位于另一个容器,容器运行在主机 B 上。让 172.0.0.2 和 172.1.0.2 可以互相通信。
在主机 A 上操作记录如下:
docker network create --subnet 172.0.0.0/16 net0
docker run -it --name centos0 --net net0 --ip 172.0.0.2 centos bash # 按Ctrl + p + q 退出容器 centos0
ip r add 172.1.0.0/16 via 192.168.10.10
docker exec -it centos0 bash # 现在进入 centos0。它的 IP 是 172.0.0.2
ping 172.1.0.2 # 可以 ping 同另一网段的容器。
在主机 B 上操作记录如下:
docker network create --subnet=172.1.0.0/16 net1
docker run -it --name centos1 --net net1 --ip 172.1.0.2 centos bash # 按Ctrl + p + q 退出容器 centos1
ip r add 172.0.0.0/16 via 192.168.10.11
docker exec -it centos0 bash # 现在进入 centos0。它的 IP 是 172.0.0.2
ping 172.0.0.2 # 可以 ping 同另一网段的容器。
1 本文介绍的都是非 NAT 的通信,源 IP 和目标 IP 没有发生过转换。
SNAT 网络可以分为内网和外网,如果目标主机在外网,目标主机不知道源主机的真实 IP。
(外网以为对方只是一台主机,事实上对方是一个网关,背后有一整个网络)
SNAT 网络,不需要设置具体的路由信息,只需要设置网关,然后把 IP 包全丢给网关,网关设置 NAT,把 IP 包转发出去。
2 选择 IP 地址时建议避开三个 IPv4 专用地址块:
a) 10.0.0.0/8,即从10.0.0.0 到 10.255.255.255;
b) 172.16.0.0/12,即从 172.16.0.0 到 172.31.255.255;
c) 192.168.0.0/16,即从 192.168.0.0 到 192.168.255.255 。
一般的路由器默认不转发专用地址。
建议直接阅读原文:Linux 中的 ip 命令 - 知乎 (zhihu.com)
ip 命令来自 iproute2 软件包,在 CentOS 7 中默认已安装(yum install -y iproute
)。
iproute2 软件包提供了很多命令(rpm -ql iproute |grep bin
),如 ss 命令、bridge,这些命令可以完全替代 ifconfig、netstat、route 等命令。
ip 命令有很多子命令,本文仅介绍其中几个常用的:
ip address 和 ip route 是网络层的命令,ip link 和 ip neigh 是链路层的命令。
ip 命令有一个 -d
选项,用于显示更多细节(details)信息,非常有用。该选项适用于 ip 的所有子命令。
bridge 命令也有同样功能的 -d 选项。
ip netns
:查看所有的网络命名空间。
docker 隐藏了它创建的网络命名空间,因此无法使用 ip netns 查看。可以使用 lsns 命令查看。
ip netns add NetNS_Name
: 新增一个名为 NetNS_Name 的网络命名空间。
ip netns del NetNS_Name
:删除名为 NetNS_Name 的网络命名空间。
ip netns exec NetNS_Name CMD
:在名为 NetNS_Name 的网络命名空间中执行命令 CMD。
示例:
ip netns add ns0
ip netns # 等同于 ls /var/run/netns/
ip net exec ns0 ip l set lo up # ip l set lo up 整体是一个命令
ip netns del ns0
address 可以简写为 a 或 ad 或 add 或 addr…
ip a
:查看所有 IP 地址(以网卡分组)。
ip a show ens33
:查看 ens33 网卡上的 IP 地址。
ip a add 192.168.10.10/24 dev ens33
:向 ens33 网卡上添加一个临时 IP 地址 192.168.10.10/24 (dev 是 device 的简写)。
通过 ip a add 添加的 IP 会在重启主机后失效。
ip a del 192.168.10.10/24 dev ens33
:从 ens33 网卡上删除一个临时 IP 地址 192.168.10.10/24。
没有修改 IP 地址的命令,若要修改,可以先删除原 IP,再添加新 IP。
route 可以简写为 r 或 ro 或 rou…
ip r
:查看路由。输出结果如下:
default via 10.0.0.2 dev enp0s3 proto static metric 100
10.0.0.0/24 dev enp0s3 proto kernel scope link src 10.0.0.128 metric 100
172.17.0.0/16 dev docker0 proto kernel scope link src 172.17.0.1
# 第一行是默认路由,表示在路由表上查不到数据时时,报文都从 enp0s3 网卡出去,去 IP 为 10.0.0.2 的另一台主机。
# 第二行是网络路由,表示去 10.0.0.0/24 网络的报文都从 enp0s3 网卡出去,报文中携带的源地址(本机地址)为 10.0.0.128。
# 第三行也是网络路由,表示去 172.17.0.0/16 网络的报文都从 docker0 网卡出去,报文中携带的源地址(本机地址)为 172.17.0.1。
# 由第二行可知,走默认路由时,报文中携带的源地址(本机地址)为 10.0.0.128。
ip r add 192.168.10.0/24 dev DEVICE [src IP_ADDR]
: 网络路由。192.168.10.0/24 是直连网络。前往网络 192.168.10.0/24 的请求从 DEVICE 网卡发出。如果该网卡上有多个 IP,可以选择一个偏爱的源 IP 地址。
ip r add 192.168.10.0/24 via 172.17.0.1 dev DEVICE [src IP_ADDR]
:网络路由。192.168.10.0/24 不是直连网络。前往网络 192.168.10.0/24 的请求下一跳前往 172.17.0.1。
注意:via 后面的 IP 必须是可达的(reachable)。
去往直连的网络,会 ARP 广播请求目标主机的 MAC 地址;
去往非直连的网络,会 ARP 广播请求下一跳主机的 MAC 地址。
ip r add 192.168.10.10 dev DEVICE
:主机路由。前往主机 192.168.10.10 的请求从 DEVICE 网卡发出。
ip r add default via 172.17.0.1
:默认路由(网关)。172.17.0.1 就是网关的 IP。
为了在主机重启后路由依然有效 ,在 /etc/sysconfig/network-script/ 目录下创建名为 route-ens33 的文件(ens33 是本机的网卡,连接 172.17.0.1 所在网络 ),向此文件添加如下内容:
192.168.10.0/24 via 172.17.0.1
192.168.10.10 via 172.17.0.1
网卡的默认路由在 /etc/sysconfig/network-script/ifcgfg-ens33 的 gateway 选项中设置:
GATEWAY=172.17.0.1
系统的默认路由在 /etc/sysconfig/network 的gateway 选项中设置:
GATEWAY=172.17.0.1
网卡有默认路由,系统也有默认路由。一个报文先判断是否走系统的默认路由,确定从哪个网卡发出去,到了这个网卡后,再确定是否走网卡的默认路由。
ip r del 192.168.10.0/24 via 172.17.0.1
:删除路由。
ip r get 192.168.10.11
:显示到达 192.168.10.11 的路由信息。
link 表示链路层。link 可以简写为 l 或 li 或 lin…
ip l
:查看所有的网络设备(因为是链路层,所以只显示 MAC 地址,不显示 IP 地址)。其中,lo、ens33 等是真实的物理设备,通过 ip l add
命令创建的都是虚拟设备。
ip l show type bridge
:只查看类型为网桥的网络设备(也可以安装 bridge-utils 包,使用 brctl 命令)。
ip l show type vxlan
:只查看类型为 vxlan 的网络设备。
ip l add [ link DEVICE ] [ name ] NAME type TYPE
:创建虚拟网络设备。注意,此处的 DEVICE 必须是真实的物理设备。
ip l del DEVICE
:删除虚拟设备。只有虚拟设备才能被删除。
ip l set ens33 up
:打开 ens33 网卡。
ip l set ens33 down
:关闭 ens33 网卡。
neigh 可以简写为 n 或 ne 或 nei…
ip n
:查看内核中记录的 ARP 表(也就是链路层直连的主机的 IP 和 MAC 地址,不一定准确,需要之前连过)。
ip n add
:向 ARP 表中新增一个条目。例如:
ip n add 192.168.1.1 lladdr 1:2:3:4:5:6 dev ens33
# 192.168.1.1 的 MAC 地址 是 1:2:3:4:5:6,去该地址走 ens33 网卡。
# lladdr 是 link layer address 的缩写,也就是 MAC 地址。
ip n del
:从 ARP 表中删除一个条目。例如:
ip n del 192.168.1.1 dev ens33
1 使用虚拟网卡对儿“直连”两个 NetNS。
# 创建两个网络命名空间
ip netns add ns0
ip netns add ns1
# 创建一对儿虚拟网卡(Virtual ethernet interface) ,又名 veth-pair
# 分别命名为 veth0 和 veth1
ip l add veth0 type veth peer name veth1
# 将 veth0 加入 ns0,veth1 加入 ns1
ip l set veth0 netns ns0
ip l set veth1 netns ns1
# 给两个 veth0 veth1 配上 IP 并启用
ip netns exec ns0 ip a add 192.168.10.10/24 dev veth0
ip netns exec ns0 ip l set veth0 up
ip netns exec ns1 ip a add 192.168.10.11/24 dev veth1
ip netns exec ns1 ip l set veth1 up
# 现在两个 NetNS 就是直连的了
# 从 ns0 中 ping ns1
ip netns exec ns0 ping 192.168.10.11
2 对于多个 NetNS,直连就太复杂了。最好的方法是建立一个网桥(交换机),所有的 NetNS 都连接到这个网桥上(星形拓扑)。
# 创建三个网络命名空间
ip netns add ns0
ip netns add ns1
ip netns add ns2
# 创建一个网桥并启用
ip l add br0 type bridge # 也可以使用命令 brctl addbr br0
ip l set br0 up
# 创建三对儿虚拟网卡
ip l add veth0 type veth peer name veth0br
ip l add veth1 type veth peer name veth1br
ip l add veth2 type veth peer name veth2br
# 将 veth0 加入 ns0,将 veth1 加入 ns1,将 veth2 加入 ns2
ip l set veth0 netns ns0
ip l set veth1 netns ns1
ip l set veth2 netns ns2
# 分别配上 IP 并启用
ip netns exec ns0 ip a add 192.168.10.10/24 dev veth0
ip netns exec ns0 ip l set veth0 up
ip netns exec ns1 ip a add 192.168.10.11/24 dev veth1
ip netns exec ns1 ip l set veth1 up
ip netns exec ns2 ip a add 192.168.10.12/24 dev veth2
ip netns exec ns2 ip l set veth2 up
# 将 veth0br、veth1br、veth2br 插入网桥并启用
# 检查一下: bridge link 或 brctl show
# 插到网桥上的网卡默认开启了自学习(allow MAC address learning)和泛洪(flood)
# 可以通过 ip -d link 查看
ip l set veth0br master br0 # 也可以使用命令 brctl addif br0 veth01
ip l set veth0br up
ip l set veth1br master br0
ip l set veth1br up
ip l set veth2br master br0
ip l set veth2br up
# 现在三个 NetNS 就通过网桥联通了
# 从 ns0 中 ping ns1
ip netns exec ns0 ping 192.168.10.11
如果安装过 Docker,可能从 ns0 ping 不通 ns1(在 br0 上 ICMP 只能抓到 echo request,抓不到 echo reply,arp 既能抓到 request,也能抓到 reply) 。解决方法有两种:
第一种是关闭 iptables 接管网桥流量:
sysctl -w net.bridge.bridge-nf-call-iptables=0
# Dockeer 会将 net.bridge.bridge-nf-call-iptables 的值设为 1
第二种是将 FORWARD 链的 Policy 改为 ACCEPT。
iptables -P FORWARD ACCEPT
# Docker 会将 FORWARD 链的 POLICY 设成 DROP
# 如果还是不行,可以试试清空 iptables Filter 表:iptables -F
如果想要从默认命名空间中 ping 通 ns0、ns1 或 ns2,需要给 br0 一个 IP 地址,并设置路由:
ip a add 192.168.10.100/24 dev br0
ip r add 192.168.10.0/24 dev br0
查看命令的用法:
ip netns help
ip address help
ip route help
ip link help
ip neigh help
查看帮助文档:
man ip-netns
man ip-address
man ip-route
man ip-link
man ip-neighbour
更多命令的帮助文档可以通过以下命令查看:
# rpm -ql iproute |grep man