和oom的对比
首先对比一下 evictionManager 和 oom
* System OOM events本来就是对资源敏感的,它会stall这个Node直到完成了OOM Killing Process。
* 当OOM Killer干掉某些containers之后,kubernetes Scheduler可能很快又会调度一个新的Pod到该Node上或者container 直接在node上restart,马上又会触发该Node上的OOM Killer启动OOM Killing Process,事情可能会没完没了的进行。
接下来看看 evictionManager
* Kubelet通过pro-actively监控并阻止Node上资源的耗尽,一旦触发Eviction Signals,就会直接Fail一个或者多个Pod以回收资源,而不是通过Linux OOM Killer这样本身耗资源的组件进行回收。
* 这样的Eviction Signals的可配置的,可以做到Pro-actively。
* 另外,被Evicted Pods会在其他Node上重新调度,而不会再次触发本Node上的再次Eviction。
工作机制
* kubelet预先监控本节点的资源使用,并且阻止资源被耗尽,这样保证node的稳定性。
kubelet会通过监控Eviction Signal的值,当达到配置的阈值时,就会触发Evict Pods。 kubelet对应的监控周期,就通过cAdvisor的 evictionMonitoringPeriod 配置的,默认10s。
如果一个Node上监控到的Soft Eviction Signals的值,一直在eviction-soft水平线上下波动,那么为了避免 Node Condition 在true和false频繁切换,配置了 EvictionPressureTransitionPeriod 的值。一旦 MemoryPressure Or DiskPressure为True的前提下, 发生了Soft Evction Singal低于Soft Eviction Thresholds的情况,则需要等待配置时间(默认5m)才会切回 false。
* kubelet会预先Fail N(>= 1)个Pod以回收出现紧缺的资源。
如果 eviction pods 回收了一小部分资源就满足了要求,可能随着资源使用的波动或者新的调度Pod使得在该Node上很快又会触发evict pods的动作,这个是非常不划算的。所以在回收资源的时候,不仅要保证比 Eviction Thresholds 低,还要比它低 EvictionMinimumReclaim 所配置的数量。
* kubelet会Fail一个Pod时,会将Pod内所有Containners都kill掉,并把PodPhase设为Failed。
在每一个监控周期内,如果Eviction Thresholds被触及,则:
获取候选Pod
Fail the Pod
等待该Pod被Terminated 如果该Pod由于种种原因没有被成功Terminated,Kubelet将会再选一个Pod进行Fail Operation。其中,Fail Pod的时候,Kubelet是通过调用容器运行时的KillPod接口,如果接口返回True,则认为Fail Pod成功,否则视为失败。
* kubelet通过事先人为设定Eviction Thresholds来触发Eviction动作以回收资源。
Eviction Thresholds 支持绝对值和相对百分比两种形式
* memory.available<10%
* memory.available<1Gi
Soft Eviction Thresholds 指的是,当Eviction Signal中值达到配置的值时,并不会马上触发Kubelet去Evict Pods,而是会等待一个用户配置的grace period之后,再触发。
Hard Eviction Thresholds 就是, 当Eviction Signal中值达到Hard Eviction Thresholds配置的值时,会立刻触发Kubelet去Evict Pods 。 这个值,要设置的比eviction-soft更低才有意义。
代码学习
1. evictionManager 的创建
首先,Kubelet 在初始化的时候,初始化一个 evictionManager 对象;
然后,在初始化 runtime 的时候启动这个 evictionManager;
接下来,看一下 manager 的定义;
managerImpl struct {
clock clock.Clock
config Config // 配置,包括
PressureTransitionPeriod( –eviction-pressure-transition-period)
MaxPodGracePeriodSeconds(–eviction-max-pod-grace-period)
Thresholds(–eviction-hard, –eviction-soft)
KernelMemcgNotification(–experimental-kernel-memcg-notification)
killPodFunc KillPodFunc // evict pod时kill pod的接口,kubelet NewManager的时候,赋值为killPodNow方法
imageGC ImageGC // 当node出现diskPressure condition时,imageGC进行unused images删除操作以回收disk space
containerGC ContainerGC // 使用 containerGC 来对容器进行删除操作
sync.RWMutex
nodeConditions []v1.NodeConditionType
nodeConditionsLastObservedAt nodeConditionsObservedAt
nodeRef *v1.ObjectReference // 记录有关节点的事件
recorder record.EventRecorder // used to measure usage stats on system
summaryProvider stats.SummaryProvider // 提供node和node上所有pods的最新status数据汇总,既NodeStats and []PodStats。
thresholdsFirstObservedAt thresholdsObservedAt // 记录threshold第一次观察到的时间
thresholdsMet []evictionapi.Threshold // 保存已经触发但还没解决的Thresholds,包括那些处于grace period等待阶段的Thresholds。
resourceToRankFunc map[v1.ResourceName]rankFunc // 定义各种Resource进行evict 挑选时的排名方法。
resourceToNodeReclaimFuncs map[v1.ResourceName]nodeReclaimFuncs // 定义各种Resource进行回收时调用的方法。
lastObservations signalObservations // 上一次获取的eviction signal的记录,确保每次更新thresholds时都是按照正确的时间序列进行。
notifiersInitialized bool // 表示threshold notifier是否已经初始化,以确定是否可以利用kernel memcg notification功能来提高evict的响应速度。目前创建manager时该值为false,是否要利用kernel memcg notification,完全取决于kubelet的--experimental-kernel-memcg-notification参数。
dedicatedImageFs *bool
}
NewManager不但返回evictionManager对象,还返回了一个lifecycle.PodAdmitHandler实例evictionAdmitHandler,它其实和evictionManager的内容相同,但是不同的两个实例。evictionAdmitHandler用来kubelet创建Pod前进行准入检查,满足条件后才会继续创建Pod,通过 Admit 方法来检查
这里EvictionManager就影响了 Pod调度的逻辑,在机器有压力的时候,禁止了新的pod产生。
2. evictionManager 的运行
start 方法,启动了一个goroutine,来调用 synchronize 方法,获取已经被驱逐的pods,并等待清理操作完成。
在 synchronize 方法中
注册Evict Pod时各种Resource的排名函数 (对于内存,硬盘的使用量进行排序)
m.resourceToRankFunc = buildResourceToRankFunc(hasImageFs)
注册回收Node Resource的Reclaim函数 (清理所有没有用到的容器和镜像)
m.resourceToNodeReclaimFuncs = buildResourceToNodeReclaimFuncs(m.imageGC, m.containerGC, hasImageFs)
通过makeSignalObservations从cAdvisor中获取Eviction Signal Observation和Pod的StatsFunc(后续对Pods进行Rank时需要用)
observations, statsFunc, err := makeSignalObservations(m.summaryProvider, capacityProvider, activePods)
如果kubelet配置了--experimental-kernel-memcg-notification且为true
if m.config.KernelMemcgNotification && !m.notifiersInitialized {
通过startMemoryThresholdNotifier启动soft & hard memory notification 当system usage第一时间达到soft & hard memory thresholds时,会立刻通知kubelet,并触发evictionManager.synchronize进行资源回收的流程。这样提高了eviction的实时性。(下面调用时候的最后一个参数即handler)
err = startMemoryThresholdNotifier(m.config.Thresholds, observations, false, func(desc string) { m.synchronize(diskInfoProvider, podFunc, capacityProvider)})
err = startMemoryThresholdNotifier(m.config.Thresholds, observations, true, func(desc string) { m.synchronize(diskInfoProvider, podFunc, capacityProvider)})
}
根据从cAdvisor数据计算得到的Observation(observasions)和配置的thresholds通过thresholdsMet计算得到此次Met的thresholds
thresholds = thresholdsMet(thresholds, observations, false)
再根据从cAdvisor数据计算得到的Observation(observasions)和thresholdsMet通过thresholdsMet计算得到已记录但还没解决的thresholds,然后与上一步中的thresholds进行合并。
thresholdsNotYetResolved := thresholdsMet(m.thresholdsMet, observations, true)
根据lastObservations中Signal的时间,对比observasions的中Signal中的时间,过滤thresholds。
thresholds = mergeThresholds(thresholds, thresholdsNotYetResolved)
更新thresholdsFirstObservedAt, nodeConditions
nodeConditionsLastObservedAt := nodeConditionsLastObservedAt(nodeConditions, m.nodeConditionsLastObservedAt, now)
nodeConditions = nodeConditionsObservedSince(nodeConditionsLastObservedAt, m.config.PressureTransitionPeriod, now)
过滤出那些从observed time到now,已经历过grace period时间的thresholds。
thresholds = thresholdsMetGracePeriod(thresholdsFirstObservedAt, now)
更新evictionManager对象的内部数据: nodeConditions,thresholdsFirstObservedAt,nodeConditionsLastObservedAt,thresholds,observations。
m.nodeConditions = nodeConditions
m.thresholdsFirstObservedAt = thresholdsFirstObservedAt
m.nodeConditionsLastObservedAt = nodeConditionsLastObservedAt
m.thresholdsMet = thresholds
m.lastObservations = observations
根据thresholds得到starvedResources
starvedResources := getStarvedResources(thresholds)
进行排序,如果memory属于starvedResources,则memory排序第一
sort.Sort(byEvictionPriority(starvedResources))
取starvedResources排第一的Resource,调用reclaimNodeLevelResources对Node上这种Resource进行资源回收。如果回收完后,available满足thresholdValue+evictionMinimumReclaim,则流程结束,不再evict user-pods
resourceToReclaim := starvedResources[0]
m.reclaimNodeLevelResources(resourceToReclaim, observations)
如果reclaimNodeLevelResources后,还不足以达到要求,则会继续evict user-pods,首先根据前面buildResourceToRankFunc注册的方法对所有active Pods进行排序
rank, ok := m.resourceToRankFunc[resourceToReclaim]
rank(activePods, statsFunc)
按照前面的排序,顺序的调用killPodNow将选出的pod干掉。如果kill某个pod失败,则会跳过这个pod,再按顺序挑下一个pod进行kill。只要某个pod kill成功,就返回结束,也就是说这个流程中,最多只会kill最多一个Pod
for i := range activePods {
m.killPodFunc(pod, status, &gracePeriodOverride)
return []*v1.Pod{pod}
}
其中,资源回收 reclaimNodeLevelResources 就是调用 GC 的方法进行资源的回收。
killPodNow 则调用了 podWorkers.UpdatePod 方法进行pod的驱逐。
一些总结
Kubelet通过Eviction Signal来记录监控到的Node节点使用情况。
Eviction Signal支持:memory.available, nodefs.available, nodefs.inodesFree, imagefs.available, imagefs.inodesFree。
通过设置Hard Eviction Thresholds和Soft Eviction Thresholds相关参数来触发Kubelet进行Evict Pods的操作。
Evict Pods的时候根据Pod QoS和资源使用情况挑选Pods进行Kill。
Kubelet通过eviction-pressure-transition-period防止Node Condition来回切换引起scheduler做出错误的调度决定。
Kubelet通过--eviction-minimum-reclaim来保证每次进行资源回收后,Node的最少可用资源,以避免频繁被触发Evict Pods操作。
当Node Condition为MemoryPressure时,Scheduler不会调度新的QoS Class为BestEffort的Pods到该Node。
当Node Condition为DiskPressure时,Scheduler不会调度任何新的Pods到该Node。