【摘要】本文介绍docker网络原理和设置,以及在docker集群中需要解决的问题。最后介绍flannel在解决docker网络问题中的作用。
在介绍docker的网络之前,必须先认识docker所依赖的几个linux技术,这对理解docker的网络有帮助。因水平有限这一节仅简单介绍,对linux网络原理感兴趣的TX可以继续深入研究。
Linux Namespaces机制提供一种资源隔离方案。PID,IPC,Network等系统资源不再是全局性的,而是属于特定的Namespace。每个Namespace里面的资源对其他Namespace都不可见。Linux提供6中命名空间, 现在讲的网络命名空间是其中的一种。
一个Network Namespace提供了一份独立的网络环境,包括网卡、路由、Iptable规则等都与其他的Network Namespace隔离。一个Docker容器“通常”会分配一个独立的NetworkNamespace。“通常”的意思是如果docker以host模式启动则与主机在同一个命名空间,后面还会讲到。
这样每个docker容器就好像拥有了一套独立的网络环境,甚至以为自己霸占了全部的主机,也许这也是使人们经常认为容器就是虚机的原因之一吧~~~
Veth设备对可以在不同的网络命名空间之间通信,用他们可以连接两个网络命名空间。一对veth设备就像网线的两头一样。
简单来说,桥接就是把一台机器上的若干个网络接口“连接”起来。其结果是,其中一个网口收到的报文会被复制给其他网口并发送出去。以使得网口之间的报文能够互相转发。类似交换机。
linux内核支持网口的桥接与交换机有一点点不同不同,交换机只是一个二层设备,对于接收到的报文,要么转发、要么丢弃。而运行着linux内核的机器本身就是一台主机,有可能就是网络报文的目的地。其收到的报文除了转发和丢弃,还可能被送到网络协议栈的上层(网络层),从而被自己消化。
在docker启动时,会在主机上创建一个docker0网桥。通过docker0在同一个主机上的容器之间都可以通信,外部的消息也可以经过docker0进入容器。后面还会讲到。
het@het:~$ ifconfig docker0 Link encap:以太网 硬件地址 02:42:df:66:95:96 inet 地址:172.17.0.1 广播:0.0.0.0 掩码:255.255.0.0 inet6 地址: fe80::42:dfff:fe66:9596/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1 |
Docker有以下4种网络模式:
host模式,使用--net=host指定。
container模式,使用--net=container:NAME_or_ID指定。
none模式,使用--net=none指定。
bridge模式,使用--net=bridge指定,默认设置。
我们重点讲这个模式。Bridge是默认模式,正常docker启动时都已这个模式启动。在这个模式下当Docker server启动时,会在主机上创建一个名为docker0的虚拟网桥,此主机上启动的Docker容器会连接到这个虚拟网桥上。Docker0拥有一个自己的ip地址,有的书上说是172.17.42.1,但是我的机器上是172.17.0.1。总之是个172段的内部地址,机器外是访问不了的。
het@het:~$ ifconfig docker0 Link encap:以太网 硬件地址 02:42:df:66:95:96 inet 地址:172.17.0.1 广播:0.0.0.0 掩码:255.255.0.0 inet6 地址: fe80::42:dfff:fe66:9596/64 Scope:Link UP BROADCAST MULTICAST MTU:1500 跃点数:1 接收数据包:7 错误:0 丢弃:0 过载:0 帧数:0 发送数据包:30 错误:0 丢弃:0 过载:0 载波:0 碰撞:0 发送队列长度:0 接收字节:480 (480.0 B) 发送字节:4909 (4.9 KB) eth0 Link encap:以太网 硬件地址 08:00:27:02:6c:8b inet 地址:10.43.86.110 广播:10.43.86.255 掩码:255.255.255.0 inet6 地址: fe80::a00:27ff:fe02:6c8b/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1 接收数据包:140296 错误:0 丢弃:0 过载:0 帧数:0 发送数据包:30286 错误:0 丢弃:0 过载:0 载波:0 碰撞:0 发送队列长度:1000 接收字节:9847208 (9.8 MB) 发送字节:2946052 (2.9 MB) lo Link encap:本地环回 inet 地址:127.0.0.1 掩码:255.0.0.0 inet6 地址: ::1/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 跃点数:1 接收数据包:130 错误:0 丢弃:0 过载:0 帧数:0 发送数据包:130 错误:0 丢弃:0 过载:0 载波:0 碰撞:0 发送队列长度:0 接收字节:17199 (17.1 KB) 发送字节:17199 (17.1 KB) |
Docker容器处在自己的网络命名空间中,容器之间怎么互通呢,就是连这个docker0网桥。这里就用到前面另一个概念veth对。可以把veth对看成网线的两头,他一头在容器里另一头在主机上。下面我们建个容器,然后看看主机上ip的变化。
het@het:~$ docker run -it ubuntu //// 启动一个ubuntu镜像 root@3337bb998bf3:/# ifconfig ///////// 容器里的ip地址 eth0 Link encap:Ethernet HWaddr 02:42:ac:11:00:03// 这个硬件地址也是docker分配的 inet addr:172.17.0.3 Bcast:0.0.0.0 Mask:255.255.0.0 inet6 addr: fe80::42:acff:fe11:3/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:18 errors:0 dropped:0 overruns:0 frame:0 TX packets:6 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:2912 (2.9 KB) TX bytes:508 (508.0 B) lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:0 errors:0 dropped:0 overruns:0 frame:0 TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:0 (0.0 B) TX bytes:0 (0.0 B) |
het@het:~$ ifconfig ///////主机的地址 docker0 Link encap:以太网 硬件地址 02:42:df:66:95:96 inet 地址:172.17.0.1 广播:0.0.0.0 掩码:255.255.0.0 inet6 地址: fe80::42:dfff:fe66:9596/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1 接收数据包:14 错误:0 丢弃:0 过载:0 帧数:0 发送数据包:30 错误:0 丢弃:0 过载:0 载波:0 碰撞:0 发送队列长度:0 接收字节:960 (960.0 B) 发送字节:4909 (4.9 KB) eth0 Link encap:以太网 硬件地址 08:00:27:02:6c:8b inet 地址:10.43.86.110 广播:10.43.86.255 掩码:255.255.255.0 inet6 地址: fe80::a00:27ff:fe02:6c8b/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1 接收数据包:207853 错误:0 丢弃:0 过载:0 帧数:0 发送数据包:30418 错误:0 丢弃:0 过载:0 载波:0 碰撞:0 发送队列长度:1000 接收字节:14099886 (14.0 MB) 发送字节:2966220 (2.9 MB)
lo Link encap:本地环回 inet 地址:127.0.0.1 掩码:255.0.0.0 inet6 地址: ::1/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 跃点数:1 接收数据包:154 错误:0 丢弃:0 过载:0 帧数:0 发送数据包:154 错误:0 丢弃:0 过载:0 载波:0 碰撞:0 发送队列长度:0 接收字节:20370 (20.3 KB) 发送字节:20370 (20.3 KB)
veth8e0ee35 Link encap:以太网 硬件地址 5a:34:bf:13:00:f5 /// 这时在主机命名空间里面出现了一个veth,即veth对的一头。另一头在容器里呢,并且被容器改名为eth0了。 inet6 地址: fe80::5834:bfff:fe13:f5/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1 接收数据包:7 错误:0 丢弃:0 过载:0 帧数:0 发送数据包:21 错误:0 丢弃:0 过载:0 载波:0 碰撞:0 发送队列长度:0 接收字节:578 (578.0 B) 发送字节:3516 (3.5 KB) |
好了现在可以看到几个结论。在bridge模式下:
主机上面会有一个docker0的网桥
每个容器都与docker0连通,所以同主机上的容器之间也连通
每个主机上容器的地址都是从172.17.0.2开始往后分
Docker会修改系统的路由规则来控制消息收发,这节就表达这一个意思。
在docker启动之后通过iptables-save查看,可以看到关于docker0的几个规则,他们使得docker0网桥可以收发消息。同一主机中的容器之间就可以通信。
het@het:~$ sudo iptables-save # Generated by iptables-save v1.4.21 on Wed Jan 27 10:49:15 2016 *nat :PREROUTING ACCEPT [10631:1010228] :INPUT ACCEPT [1268:199346] :OUTPUT ACCEPT [3169:190771] :POSTROUTING ACCEPT [3170:190855] :DOCKER - [0:0] -A PREROUTING -m addrtype --dst-type LOCAL -j DOCKER -A OUTPUT ! -d 127.0.0.0/8 -m addrtype --dst-type LOCAL -j DOCKER -A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE COMMIT # Completed on Wed Jan 27 10:49:15 2016 # Generated by iptables-save v1.4.21 on Wed Jan 27 10:49:15 2016 *filter :INPUT ACCEPT [15605:2501897] :FORWARD ACCEPT [0:0] :OUTPUT ACCEPT [31535:2534237] :DOCKER - [0:0] -A FORWARD -o docker0 -j DOCKER -A FORWARD -o docker0 -m conntrack --ctstate RELATED,ESTABLISHED -j ACCEPT -A FORWARD -i docker0 ! -o docker0 -j ACCEPT -A FORWARD -i docker0 -o docker0 -j ACCEPT COMMIT # Completed on Wed Jan 27 10:49:15 2016 |
如果使用-p参数将容器端口暴露出来docker run -it -p 2200:22 -d ubuntu,再通过iptables-save查看信息,会发现多出了两条规则。他们使得发送到主机地址和2200端口的消息可以送到docker0上,从而进入容器内。这样就使得容器内可以和主机外通信。
het@het:~$ sudo iptables-save # Generated by iptables-save v1.4.21 on Wed Jan 27 10:56:17 2016 *nat :PREROUTING ACCEPT [40:4571] :INPUT ACCEPT [4:623] :OUTPUT ACCEPT [9:558] :POSTROUTING ACCEPT [9:558] :DOCKER - [0:0] -A PREROUTING -m addrtype --dst-type LOCAL -j DOCKER -A OUTPUT ! -d 127.0.0.0/8 -m addrtype --dst-type LOCAL -j DOCKER -A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE -A POSTROUTING -s 172.17.0.4/32 -d 172.17.0.4/32 -p tcp -m tcp --dport 22 -j MASQUERADE -A DOCKER ! -i docker0 -p tcp -m tcp --dport 2200 -j DNAT --to-destination 172.17.0.4:22 COMMIT # Completed on Wed Jan 27 10:56:17 2016 # Generated by iptables-save v1.4.21 on Wed Jan 27 10:56:17 2016 *filter :INPUT ACCEPT [49:8589] :FORWARD ACCEPT [0:0] :OUTPUT ACCEPT [47:6227] :DOCKER - [0:0] -A FORWARD -o docker0 -j DOCKER -A FORWARD -o docker0 -m conntrack --ctstate RELATED,ESTABLISHED -j ACCEPT -A FORWARD -i docker0 ! -o docker0 -j ACCEPT -A FORWARD -i docker0 -o docker0 -j ACCEPT -A DOCKER -d 172.17.0.4/32 ! -i docker0 -o docker0 -p tcp -m tcp --dport 22 -j ACCEPT COMMIT # Completed on Wed Jan 27 10:56:17 2016 |
事实上,kubernetes的service-Pod之间的寻址也是通过挂载路由规则实现的。Flannel也是通过路由规则使得docker0上的消息可以发到flannel0,进而实现docker集群中Node结点之间的互通。因本文并不是介绍这些开源工具的原理,所以不在路由表这上面做过多展开,我们只需知道kubernetes、flannel等都是通过修改路由规则来解决他们的问题的,这样在使用他们的时候不至于总是思考“咋通的呢”,“他背后是什么东西实现的呢”。
Bridge模式可以解决同主机内容器的通信,同时可以看到几个问题:
docker容器之间想要连通需要在同一台主机上,跨主机无法通信
容器的ip地址都docker分配的,一般都从172.17.0.2开始,不同主机上的容器地址有可能是相同的。Docker集群要解决这个问题,不能让他们相同。
在解决这些问题之前,我们先把另外docker的三个模式简单介绍一下。后面介绍的flannel是解决这些问题的方案之一。
如果启动容器的时候使用host模式,那么这个容器将不会获得一个独立的Network Namespace,而是和宿主机共用一个Network Namespace。容器将不会虚拟出自己的网卡,配置自己的IP等,而是使用宿主机的IP和端口。
当我们在容器中执行任何类似ifconfig命令查看网络环境时,看到的都是宿主机上的信息。而外界访问容器中的应用,则直接使用物理机器地址即可,就如直接跑在宿主机中一样。但是,容器的其他方面,如文件系统、进程列表等还是和宿主机隔离的。
这个模式指定新创建的容器和已经存在的一个容器共享一个Network Namespace,而不是和宿主机共享。新创建的容器不会创建自己的网卡,配置自己的IP,而是和一个指定的容器共享IP、端口范围等。同样,两个容器除了网络方面,其他的如文件系统、进程列表等还是隔离的。
kubernetes中一个Pod内的容器共享网络,就是在pod内有容器使用了这种网络模式。
在这种模式下,Docker容器拥有自己的Network Namespace,但是,并不为Docker容器进行任何网络配置。也就是说,这个Docker容器没有网卡、IP、路由等信息。需要我们自己为Docker容器添加网卡、配置IP等。
Flannel是CoreOS团队针对Kubernetes设计的一个网络规划服务,简单来说,它的功能是让集群中的不同节点主机创建的Docker容器都具有全集群唯一的虚拟IP地址。并且连通主机节点的网络。
但在默认的Docker配置中,每个节点上的Docker服务会分别负责所在节点容器的IP分配。这样导致的一个问题是,不同节点上容器可能获得相同的内外IP地址。Flannel的设计目的就是为集群中的所有节点重新规划IP地址的使用规则,从而使得不同节点上的容器能够获得“同属一个内网”且”不重复的”IP地址,并让属于不同节点上的容器能够直接通过内网IP通信。 默认的节点间数据通信方式是UDP转发。
下图来自网络:
简单的说flannel做了三件事情:
1. 数据从源容器中发出后,经由所在主机的docker0虚拟网卡转发到flannel0虚拟网卡,这是个P2P的虚拟网卡,flanneld服务监听在网卡的另外一端。 Flannel也是通过修改Node的路由表实现这个效果的。
2. 源主机的flanneld服务将原本的数据内容UDP封装后根据自己的路由表投递给目的节点的flanneld服务,数据到达以后被解包,然后直接进入目的节点的flannel0虚拟网卡,然后被转发到目的主机的docker0虚拟网卡,最后就像本机容器通信一样由docker0路由到达目标容器。
3. 使每个结点上的容器分配的地址不冲突。Flannel通过Etcd分配了每个节点可用的IP地址段后,再修改Docker的启动参数。“--bip=X.X.X.X/X”这个参数,它限制了所在节点容器获得的IP范围。
解压文件,tar -zxvf xxx.tar
Flannel路径在:
在系统中增加两个文件:
在 /etc/init/ 增加flanneld.conf文件,内容见最下面。
在 /etc/default/ 增加flanneld文件,内容见最下面。
前面说到了,flannel需要通过ETCD管理每个结点分配的地址段。所以先启动etcd。当然在kubernetes集群系统里面,kubernetes也要求启动etcd。这里提一下,需要先启动flannel之后再通过kubectl启动容器,因为需要通过flannel限制docker容器的ip地址段。看完后面就理解了。
./etcd--listen-client-urls=http://0.0.0.0:4001 --listen-peer-urls=http://0.0.0.0:7001&
设置本集群的容器ip地址段。
etcdctl rm /coreos.com/network/ --recursive
./etcdctlmk /coreos.com/network/config '{"Network":"172.200.0.0/16"}'
设置完可以查看一下:
etcdctl get /coreos.com/network/config {"Network":"172.200.0.0/16"}
|
Network是本集群docker容器可分配的代码段,由flannel管理。不能和机器实际物理结点ip冲突,最好搞个和谁都不冲突的,随便写。
执行:ip link set dev docker0 down
执行:brctl delbr docker0
进入flannel/bin 路径,
sudo./flanneld -etcd-endpoints=http://ETCD所在机器的IP地址:4001-iface=eth0&
het@het:/usr/bin$ sudo ./flanneld -etcd-endpoints=http://10.43.86.110:4001 [sudo] password for het: I0120 21:31:00.282318 30969 main.go:275] Installing signal handlers I0120 21:31:00.788024 30969 main.go:130] Determining IP address of default interface I0120 21:31:00.925879 30969 main.go:188] Using 10.43.86.110 as external interface I0120 21:31:01.025180 30969 main.go:189] Using 10.43.86.110 as external endpoint I0120 21:31:01.331261 30969 etcd.go:204] Picking subnet in range 172.200.1.0 ... 172.200.255.0 I0120 21:31:01.418648 30969 etcd.go:84] Subnet lease acquired: 172.200.59.0/24 I0120 21:31:02.359643 30969 udp.go:222] Watching for new subnet leases
|
Flannel启动之后会创建一个文件 subnet.env ,可以打开看一下
het@het:/run$ vi flannel/subnet.env
FLANNEL_NETWORK=172.200.0.0/16 ////这个就是在etcd里面设置的地址段 FLANNEL_SUBNET=172.200.59.1/24 /// 这个就是为本结点分配的容器地址段 FLANNEL_MTU=1472 FLANNEL_IPMASQ=false |
下面让flannel产生的地址段生效,控制docker容器的ip地址分配。
执行:source /run/flannel/subnet.env
执行:sudo rm /var/run/docker.pid
执行:sudo docker -d --bip=${FLANNEL_SUBNET}--mtu=${FLANNEL_MTU} &
可以看到上面的操作就是把flannel启动起来,把他的地址段提出来,然后设置一下docker的启动参数。
好了,下面可以测试一下。
测试:执行docker run -it ubuntu /bin/bash
ifconfig查看容器被分配的IP。非flannel时docker的ip是172.17.0.X,如果上面的成功,此时分配的IP应该为172.200.59.x。
至此一个docker集群的网络就打通了,在另一个主机上也是按这样操作,注意启动flannel时要指定到同一个etcd。
附录 flanneld.conf
description "Flannel service" author "@chenxingyu"
start on (net-device-up and local-filesystems and runlevel [2345]) stop on runlevel [016]
respawn respawn limit 10 5
pre-start script FLANNEL=/usr/bin/$UPSTART_JOB if [ -f /etc/default/$UPSTART_JOB ]; then . /etc/default/$UPSTART_JOB fi if [ -f $FLANNEL ]; then exit 0 fi exit 22 end script
script # modify these in /etc/default/$UPSTART_JOB (/etc/default/docker) FLANNEL=/usr/bin/$UPSTART_JOB FLANNEL_OPTS="" if [ -f /etc/default/$UPSTART_JOB ]; then . /etc/default/$UPSTART_JOB fi exec "$FLANNEL" $FLANNEL_OPTS end script |