kubernetes-kubelet进程源码分析(二)

kubelet关键代码分析

在上篇博文,我们分析了kubelet进程的启动流程,大致明白了kubelet的核心个哦你工作流程就是不断从Pod Source中获取与本节点相关的Pod,然后开始加工处理,所以我们先来分析Pod source部分代码。前面我们提到,kubelet可是同时支持三类Pod source,为了能够将不同的Pod source汇聚到一起统一处理,谷歌特地设计了Podconfig这个对象,其代码如下:

kubernetes-kubelet进程源码分析(二)_第1张图片

其中,source属性包括了当前加载的所有Pod source类型,sourceLock是source的排他锁,在新增Pod source的方法里使用它来避免共享冲突。

在Pod发生变动时,例如Pod创建、删除或更新,相关的Pod source就会产生对应的PodUpdate事件并推送到channel,为了能够统一处理来自多个source的channel,谷歌设计了config.mux这个聚合器,它负责监听多路channel,当接收到channel发来的事件后,交给merger对象进行统一处理,merger对象最终把多路channel发来的时间合并写入updates这个汇聚channel等待处理。

下面是config.mux的结构体定义,其属性sources为一个channel Map,key是对应的Pod source的类型:

kubernetes-kubelet进程源码分析(二)_第2张图片

我们继续深入分析config.Mux的工作过程,前面提到,kubelet在启动过程中在makePodSourceConfig方法里创建了一个PodConfig对象,并且根据启动参数来决定要加载哪些类型的Pod Source,在这个过程中调用了下述方法来创建一个对应的channel:

kubernetes-kubelet进程源码分析(二)_第3张图片

而channel具体的创建过程则在config.Mux里,channel创建完成后被加入config.mux的sources并启动一个协程开始监听消息,代码如下:

kubernetes-kubelet进程源码分析(二)_第4张图片

kubernetes-kubelet进程源码分析(二)_第5张图片

config.Mux的上述listen方法很简单,就是监听新创建的channel,一旦发现channel上有数据就交给merger进行处理:

 

我们先来看看Pod source是如何发送PodUpdate事件到自己所在的channel上的,在上篇博文,我们所见到的下面这段代码创建了一个config file类型的Pod source:

kubernetes-kubelet进程源码分析(二)_第6张图片

在NewSourceFile方法里启动了一个协程,每隔指定时间(kc.FileCheckFrequency)就执行一次sourceFile的run方法,在run方法里所调用的主体逻辑就是下面的函数:

kubernetes-kubelet进程源码分析(二)_第7张图片

kubernetes-kubelet进程源码分析(二)_第8张图片

看一下上面的代码,我们就大致明白了config file类型的Pod source是如何工作的:它从指定的目录中加载多了Pod定义文件并转换为Pod列表或者加载单个Pod定义文件并转化为单个Pod,然后生成对应的全量类型的PodUpdate事件并写入channel中去。

接下来我们分析merger对象,Podconfig里的merger对象其实是一个config.podStorage实例,它同时是PodConfig的pods属性的一个引用。podStorage的源码位于pkg/kubelet.config/config.go里,其定义如下:

kubernetes-kubelet进程源码分析(二)_第9张图片

我们看到podstorage的关键属性解释如下。

1.pods:类型是Map,存放每个Pod source上拉过来的pod数据,是podstorage当前保存全量Pod的地方

2.updates:它就是PodConfig里的updates属性的一个引用

3.mode:表明podstorage的pod事件通知模式,有以下几种:

1)PodConfigNotificationSnapshot:全量快照通知模式

2)PodConfigNotificationSnapshotAndUpdates:全量快照+更新Pod通知模式(代码中创建podstorage实例时采用的模式)

3)PodConfigNotificationIncremental:增量通知模式

podStorage实现的merge接口的源码如下:

kubernetes-kubelet进程源码分析(二)_第10张图片

在上述merge过程中,先调用内部函数merge,将Pod source的channel上发来的PodUpdate事件分解为对应的新增、更新及删除等三类PodUpdate事件,然后判断是否有更新事件,如果有,则直接写入汇总的channel里(podstorage.updates),然后调用mergestate函数复制一份podstorage的当前全量Pod列表,以此产生一个全量的PodUpdate事件并写入汇总的channel中,从而实现了多Pod Source channel的汇聚逻辑。

分析完merger过程以后,我们接下来看看是什么对象,以及如何消费这个汇总的channel。在上篇博文提到,在kubelet进程启动的过程中调用了startKubelet方法,此方法首先启动一个协程,让kubelet处理来自PodSource的Pod update消息,即下面这行代码:

‘’

其中,PodConfig的updates()方法返回了前面我们所说的汇总channel变量的一个引用,下面是kubelet的Run(updates < -chan PodUpdate)方法的代码:

kubernetes-kubelet进程源码分析(二)_第11张图片

kubernetes-kubelet进程源码分析(二)_第12张图片

上述代码首先启动了一个HTTP file server来远程获取本节点的系统日志,接下来根据启动参数的设置来决定是否在指定的docker容器中启动kubelet进程,然后分别启动Image manager(负责Image GC)、CAdvisor(Docker性能监控)、Container Manger(Container GC)、OOM Watcher(OOM监测)、Status Manager(负责同步本节点上Pod的状态到API Server上)等组件,最后进入syncLoop方法中,无线循环调用下面的syncLoopIteration方法:

kubernetes-kubelet进程源码分析(二)_第13张图片

kubernetes-kubelet进程源码分析(二)_第14张图片

在上述代码中,如果从Channel中拉取到了PodUpdate事件,则先调用podManager的UpdatePods方法来确定此PodUpdate的同步类型,并将结果放入podSyncTypes这个Map中,同时为了提升处理效率,在代码中增加了持续循环拉取PodUpdate数据直到channel为空为止的一段逻辑,在方法的最后,调用syncHandler接口来完成Pod同步的具体逻辑,从而实现了PodUpdate事件的高效批处理模式。

syncHandler在这里就是kubelet实例,它的syncPods方法比较长,其主要逻辑如下:

1.将传入的全量Pod,与Statusmanager中当前保存的Pod集合进行对比,删除Statusmanager中当前已经不存在的Pod(孤儿Pod)。

2.调用kubelet的admitPods方法以过滤掉不适合本节点创建的Pod。此方法首先过滤掉状态为failed或者succeeded的pod,接着过滤掉不适合本节点的Pod,比如Host Port冲突、Node Label的约束不匹配及Node的可用资源不足等情况;最后检查磁盘的使用情况,如果磁盘的可用空间不足,则过滤掉所有Pod。

3.对上述过滤后的Pod集合中的每一个Pod调用podWorkers的UpdatePod方法,而此方法内部创建了一个Pod的workUpdate事件并发布到该Pod对应的一个Work Channel上。

4.对于已经删除或者不存在的Pod,通知podWorkers删除相关联的work channel。

5.对比Node当前运行中的Pod及目标Pod列表,杀掉多余的Pod,并且调用docker runtime API,重新获取当前运行中的Pod列表信息。

6.清理孤儿Pod所遗留的PV和磁盘目录。

要真正理解Pod是怎么在Node上落地的,还要继续深入分析上述第三步的代码,首先我们看看对workUpdatec这个结构体的定义:

kubernetes-kubelet进程源码分析(二)_第15张图片

其中的属性Pod是当前要操作的Pod对象,mirrorPod则是对应的镜像Pod,下面是对它的解释:

对于每个来自非API Server Pod source上的Pod,kubelet都在API Sever上注册一个几乎一模一样的Pod,这个Pod被称为mirrorPod,这样一来,就将不同的Pod source上的Pod都统一到了kebelet的注册表上,从而统一了Pod生命周期的管理流程。

workUpdate的updateCompleteFn属性是一个回调函数,work完成后会执行此回调函数,在上述第三步中,此函数用来计算该work的调度时延指标。

对于每个要同步的Pod,podWorkers会用一个长度为1的channel来存放其对应workUpdate,而属性lastUndeliveredWorkUpdate则存放最后一个待安排执行的workUpdate,这是因为一个Pod的前一个workUpdate正在执行的时候,可能会有一个新的PodUpdate事件需要处理,理解了这个过程后,再来看podWorkers的定义,就不难了:

kubernetes-kubelet进程源码分析(二)_第16张图片

下面这个函数就是第3步里产生workUpdate事件并放入podWorkers的对应channel的方法的源码:

kubernetes-kubelet进程源码分析(二)_第17张图片

kubernetes-kubelet进程源码分析(二)_第18张图片

上述代码会调用podWorkers的managePodLoop方法来处理podUpdates队列,这里主要是获取必要的参数,最终处理又转手交给syncPodFn方法去处理,下面是managePodLoop的源码:

kubernetes-kubelet进程源码分析(二)_第19张图片

kubernetes-kubelet进程源码分析(二)_第20张图片

追踪podWorkers的构造函数调用过程,可以发现syncPodFn函数其实就是kubelet的syncPod方法,这个方法的代码量很多,主要逻辑如下:

1.根据系统配置中的权限控制,检查Pod是否有权在本节点运行,这些权限包括Pod是否有权使用HostNetwork(由Pod source类决定)、Pod中的容器是否被授权以特权模式启动(privileged mode)等,如果没有被授权,则删除当前运行中的旧版本的Pod实例并返回错误信息。

2.创建Pod相关的工作目录、PV存放目录、Plugin插件目录,这些目录都以Pod的UID为上一级目录。

3.如果Pod有PV定义,则针对每个PV执行目录的mount操作。

4.如果是syncPodUpdate类型的Pod,则从Docker runtime的API接口查询获取Pod及相关容器的最新状态信息。

5.如果Pod有imagePullSecrets属性,则在API Server上获取对应的Secret。

6.调度Container Runtime的API接口方法SyncPod,实现Pod真正同步的逻辑。

7.如果Pod source不来自API Server,则继续处理其关联的mirrorPod。

1)如果mirrorPod跟当前Pod的定义不匹配,则它会被删除。

2)如果mirrorPod还不存在(比如新创建的Pod),则会在API Server上新建一个。

kubernetes中container runtime的默认实现是dockers,对应类是dockertools.DockerManager,其源码位于pkg/kublelet/dockertools/manager.go里,在上述kubelet.syncPod方法中所调用的DockerManager的syncPod方法实现了下面的逻辑:

1.判断一个Pod实例的哪些组成部分需要重启:包括Pod的infra容器是否发生变化(如网络模式、Pod里运行的各个容器的端口是否发生变化);Pod里运行的容器是否发生变化;用Probe检测容器的状态以确定容器是否异常等。

2.根据Pod实例重启结果的判断,如果需要重启Pod的infra容器,则先kill Pod然后启动Pod的infra容器,设定好网络,最后启动Pod里的所有container;否则就先kill那些需要重启的container,然后重新启动它们。注意,如果是新创建的Pod,则因为找不到Node上对应的Pod的infra容器,所以会被当做重启Pod的infra容器的逻辑来实现创建过程。

dockermanager创建Pod的infra容器的逻辑在createPodInfracontainer方法里,大致逻辑如下:

1.如果Pod的网络不是HostNetwork模式,则搜集Pod所有容器的Port作为infra容器所要暴露的Port列表。

2.如果infra容器的Image目前不存在,则尝试拉取Image。

3.创建infra的container对象并且启动run ContainerInPod方法。

4.如果容器定义有Lifecycle,并且PostStart回调方法被设置了,就会触发此方法的调用,如果调用失败则kill容器并返回。

5.创建一个软连接文件指向容器的日志问加你,此软连接文件名包括Pod的名称、容器的名称及容器的ID,这样的目的是让ElasticSearch这样的搜索技术容易索引和定位Pod日志。

6.如果此容器是Pod infra容器,则设置其OOM参数低于标准值,使得它比其他容器具备更强的抗灾能力

7.修改docker生成的容器的resolv.conf文件,增加ndots参数并默认设置为5,这是因为kubernetes默认假设的域名分割长度是5.

上述逻辑中所调用的runContainerInPod是Dock人Manager的核心方法之一,不管是创建Pod的infra容器还是Pod里的其他容器,都会通过此方法使得容器被创建和运行,以下是其主要逻辑。

1.生成container必要的环境变量和参数,比如ENV环境变量,Volume Mounts信息、端口映射信息、DNS服务器信息、容器的日志目录、parent cgroup等。

2.调用runContainer方法完成Docker container实例的创建过程,简单地说,就是完成docker create container命令行所需的各种参数的构造过程,并通过程序来调用执行。

3.构造HostConfig对象,主要参数有目录映射、端口映射等、Cgroup设定等,简单地说,就是完成了docker start container命令行所需的必要参数的构造过程,并通过程序来调用执行。

在上述逻辑中,runContainer与startContainer的具体实现都是靠DockerManger中的dockerClient对象完成的,它实现了DockerInterface接口,dockerClient的创建过程在pkg/kubelet/dockertools/docker.go里,下面是这段代码:

kubernetes-kubelet进程源码分析(二)_第21张图片

这里的dockerEndpoint是本节点上的docker deamon进程的访问地址,默认是unix:///var/run/docker/sock,在上述代码中使用了来自开源项目http://github.com/fsouza/go-dockerclient提供的docker client,它也是Go语言实现的一个用HTTP访问Docker Deamon提供的标准API的客户端框架。

我们来看看dockerclient创建容器的具体代码(createcontainer):

kubernetes-kubelet进程源码分析(二)_第22张图片

 

上述代码其实就是通过调用标准的docker Rest API来实现功能的,我们进入docker.client的do方法可以看到更多详情,例如输入参数转化为JSON格式的数据、DockerAPI版本检查及异常处理等逻辑,最有趣的是:在dockerEndpoint是Unix套接字的情况下,会先建立套接字连接,然后在这个连接上创建HTTP连接。

至此,我们分析了kubelet创建和同步Pod实例的整个流程,简单总结如下:

1.汇总,先将多个Pod source上过来的PodUpdate事件汇总到一个总的channel上去。

2.初审:分析并过滤掉不符合本节点的PodUpdate时间,对满足条件的PodUpdate则生成一个workupdate时间,交给podworkers处理。

3.接待:podworkers对每个pod的workUpdate事件排队,并且负责更新cache中的Pod状态,而把具体的任务转给kubelet去处理(syncPod方法)。

4.终审:kubelet对符合条件的Pod进一步审查,例如检查Pod是否有权在本节点运行,对符合审查的Pod开始着手准备工作,包括目录创建、PV创建、image获取、处理Mirror Pod问题等,然后把皮球踢给了dockermanager。

5.落地:任务抵达dockermanager之后,dockermanager尽心尽责分析每个pod的情况,以决定这个Pod究竟是新建、完全重启还是部分更新的,给出分析结果后,剩下的就是dockerclient的工作了。

你可能感兴趣的:(kubernetes学习)