k8s-cni原理

一个 Linux 容器能看见的“网络栈”,实际上是被隔离在它自己的 Network Namespace 当中的。而所谓“网络栈”,就包括了:网卡(Network Interface)、回环设备(Loopback Device)、路由表(Routing Table)和iptables规则。对于一个进程来说,这些要素,其实就构成了它发起和响应网络请求的基本环境。
作为一种最简单的使容器与目标网络联通起来的方法,就是将他以某种形式借用宿主机的网络栈。

借用宿主机网络栈

容器可以声明直接使用宿主机的网络栈(–net=host),即:不开启 Network Namespace,比如:

$ docker run –d –net=host --name nginx-host nginx

在这种情况下,这个容器启动后,直接监听的就是宿主机的80端口。像这样直接使用宿主机网络栈的方式,虽然可以为容器提供良好的网络性能,但也会不可避免地引入共享网络资源的问题,比如端口冲突。所以,在大多数情况下,我们都希望容器进程能使用自己Network Namespace里的网络栈,即:拥有属于自己的IP地址和端口。

Veth设备

这个被隔离的容器进程,要跟其他Network Namespace里的容器进程、甚至宿主机进行交互,需要一个联通到宿主机的连线。通过创建Veth设备可以解决这个问题:

  • veth和其它的网络设备都一样,一端连接的是内核协议栈
  • veth设备是成对出现的,另一端两个设备彼此相连
  • 一个设备收到协议栈的数据发送请求后,会将数据发送到另一个设备上去
    基于以上几点,veth设备非常适合于作为连接不同Network Namespace的连线。
    事实上,我们进入容器看到的网卡,其实就是veth设备的一端,它的另一端在宿主机的主network namespace上。要让容器或者pod具备独立的网络栈,基本上都是从这个veth设备入手进行考虑,在宿主机上添加各种路由策略、网桥等,使容器流量去往正确的方向。

CNI是什么

CNI便是k8s用于实现以上任务的标准接口。通过编写支持这套协议方法的插件,可以实现自己对k8s网络的管理。包括:

  • CNI Plugin负责给容器配置网络,它包括两个基本的接口:
    配置网络: AddNetwork(net NetworkConfig, rt RuntimeConf) (types.Result, error)
    清理网络: DelNetwork(net NetworkConfig, rt RuntimeConf) error
  • IPAM Plugin负责给容器分配IP地址,主要实现包括host-local和dhcp。而虎牙Athena容器云所实现的ip不变的方案,便是通过在ipam plugin中控制ip的分配策略所实现。
    以上两种插件的支持,使得k8s的网络可以支持各式各样的管理模式,当前在业界也出现了大量的支持方案,其中比较流行的比如flannel、calico等。

kubernetes配置了cni网络插件后,其容器网络创建流程为:

  • kubernetes先创建pause容器生成对应的network namespace
  • 调用网络driver,因为配置的是CNI,所以会调用CNI相关代码
  • CNI driver根据配置调用具体的CNI插件
  • CNI插件给pause容器配置正确的网络,pod中其他的容器都是用pause的网络

其中,CNI Plugin是独立的可执行文件,被上层的容器管理平台(kubelet)调用。网络插件只有两件事情要做:把容器加入到网络(AddNetwork)以及把容器从网络中删除(DelNetwork)。
对应于具体的CNI框架内的实现,即两个基本操作ADD和DEL,前者用于加入容器网络,后者用于从容器网络中退出。

当CNI插件被调用时,首先进入main函数,main函数会对环境变量和标准输入中的配置信息进行解析,接着根据解析得到的操作方式(ADD或DEL),转入具体的执行函数完成网络的配置工作。如果是ADD操作,则调用cmdAdd()函数,反之,如果是DEL操作,则调用cmdDel()函数。从宏观角度来看,以上为CNI插件的实现框架主体。

编写自己的cni插件

按照上述说法,由于cni插件是kubelet以二进制的形式调用的,具体实现上主体为cmdAdd,cmdDel两大函数。

package main

import (
...
)

const (
...
)

func cmdAdd(args *skel.CmdArgs) error {
    conf := types.NetConf{}
    if err := json.Unmarshal(args.StdinData, &conf); err != nil {
        log.Errorf("Error loading config from args: %v", err)
        return errors.Wrap(err, "add cmd: error loading config from args")
    }

    versionDecoder := &cniversion.ConfigDecoder{}
    confVersion, err := versionDecoder.Decode(args.StdinData)
    if err != nil {
        return err
    }

    // 在此实现:
    // 1. 调用ipam plugin接口进行ip申请
    // 2. 容器及宿主机各自网络栈内的操作,如创建veth,配置ip地址,配置路由等

    ips := []*current.IPConfig{{Version: "4", Address: *ipnet}}

    result := ¤t.Result{
        IPs: ips,
    }

    return cnitypes.PrintResult(result, confVersion)
}

func cmdDel(args *skel.CmdArgs) error {
    conf := types.NetConf{}
    if err := json.Unmarshal(args.StdinData, &conf); err != nil {
        log.Errorf("Error loading config from args: %v", err)
        return errors.Wrap(err, "add cmd: error loading config from args")
    }

    versionDecoder := &cniversion.ConfigDecoder{}
    confVersion, err := versionDecoder.Decode(args.StdinData)
    if err != nil {
        return err
    }

    // 在此实现:
    // 1. 调用ipam plugin接口进行ip释放
    // 2. 容器及宿主机各自网络栈内的操作,如删除veth,删除路由等

    return nil
}

func main() {
    log.SetLevel(log.DebugLevel)
    ConfigLocalFilesystemLogger(logPath, 24*60*time.Hour, 24*time.Hour)
    exitCode := 0

    if e := skel.PluginMainWithError(cmdAdd, nil, cmdDel, cniversion.All, "<版本说明等信息>"); e != nil {
        exitCode = 1
        log.Error("Failed CNI request: ", e)
        if err := e.Print(); err != nil {
            log.Error("Error writing error JSON to stdout: ", err)
        }
    }

    os.Exit(exitCode)
}

至于其中ipam接口如何调用,则不一定按照官方的ipam plugin规范编写,甚至可将ipam相关逻辑结合到cni plugin中。也可以独立服务,并通过API、RPC等方式调用。

坑在哪

本文介绍了容器网络CNI插件的原理,简化后的代码接口清晰简洁,主体流程围绕在:解析参数、执行add/del、返回结果上,按照CNI规范的结构编写配置、入参、返回值,可实现简单CNI逻辑。
但CNI特点在于具体的网络配置、网络连通方案、ip分配方案可由插件自定义,k8s仅负责调用。因此CNI的出现,使k8s网络架构更为灵活多变,也引入了更加复杂的因素:

  • 因为k8s与容器网络的相对分离,容易形成容器的声明周期与其网络资源的生命周期相脱节
    kubelet通过pleg进行的pod声明周期管理,使pod可控,但容器网络不可控。CNI的编写上,需要支持上层(kubelet)调用的多次重入及幂等,且pod与cni无强依赖,容易导致容器网络遗漏、残留等问题发生。
    因此,在cni插件编写上,需进行更多的一致性校验及补漏、清理工作。

你可能感兴趣的:(k8s-cni原理)