Kubernetes之调度器和调度过程
当用户请求向API server创建新的Pod时,API server检查授权、权限等没有任何问题的话,他会把这个请求交由Scheduler,由Scheduler检查所有符合该Pod要求的列表,开始执行Pod调度逻辑,选定Node完成后会把选择结果返回给API server,并将选定信息写入etcd中。接下来API server将指挥被选定Node的kubelet去创建Pod(或者说kubelet始终去watch API server当中与当前节点相关联的事件变动),因此接下来这个node就要去尝试着获取到API server当中定义的这个pod的配置清单,根据配置清单当中的定义去创建pod。Scheduler在整个系统中承担了承上启下的作用,承上是负责接收创建的新Pod,为安排一个落脚的地(Node),启下是安置工作完成后,目标Node上的kubelet服务进程接管后继工作,负责Pod生命周期的后半生。具体来说Scheduler的作用是将待调度的Pod按照特定的调度算法和调度策略绑定到集群中的某个合适的Node上,整个调度过程中涉及三个对象,分别是:待调度的Pod列表,可用的Node列表,以及调度算法和策略。
常用的预选策略 | 用途 |
---|---|
CheckNodeConditionPred | 检查节点是否正常 |
GeneralPred HostName | 如果pod定义hostname属性,会检查节点是否匹配。(pod.spec.hostname) |
PodFitsHostPorts | 检查pod要暴露的hostpors是否被占用。(pod.spec.containers.ports.hostPort) |
MatchNodeSelector pod.spec.nodeSelector | 看节点标签能否适配pod定义的nodeSelector |
PodFitsResources | 判断节点的资源能够满足Pod的定义(如果一个pod定义最少需要1C2G node上的低于此资源的将不被调度。用kubectl describe node NODE名称 可以查看资源使用情况) |
NoDiskConflict | 判断pod定义的存储是否在node节点上使用。(默认没有启用) |
PodToleratesNodeTaints | 检查pod上Tolerates的能否容忍污点(pod.spec.tolerations) |
CheckNodeLabelPresence | 检查节点上的标志是否存在 (默认没有启动) |
CheckServiceAffinity | 根据pod所属的service。将相同service上的pod尽量放到同一个节点(默认没有启动) |
CheckVolumeBinding | 检查是否可以绑定(默认没有启动) |
NoVolumeZoneConflict | 检volume区域是否冲突(默认没有启动) |
CheckNodeMemoryPressure | 检查内存压力是否过大 |
CheckNodeDiskPressure | 检查磁盘IO压力是否过大 |
CheckNodePIDPressure | 检查pid资源是否过大 |
优选过滤器名 | 说明 |
---|---|
LeastRequestedPriority | 调度至请求较少、资源更空闲的节点上 |
BalancedResourceAllocation | 调度至资源平衡的节点 |
NodePreferAvoidPodsPriority | 通过scheduler.alpha.kubernetes.io/preferAvoidPods注释,避免pod间调度至同一个node节点 |
SelectorSpreadPriority | 标签优先级计算 |
InterPodAffinityPriority | pod亲和度计算 |
MostRequestedPriority | 调度至请求较多、资源更紧凑的节点上(尽量将一个节点上的资源用完) |
RequestedToCapacityRatioPriority | 使用默认资源打分函数进行优选计算 |
NodeAffinityPriority | node亲和度计算 |
TaintTolerationPriority | 根据节点上无法忍受的污点数量,为所有节点准备优先级列表 |
ImageLocalityPriority | 倾向于本地已有pod缓存的节点。(根据已有镜像体积大小之和) |
ServiceSpreadingPriority | 对于给定服务,此策略旨在确保该服务的Pod在不同的节点上运行 |
CalculateAntiAffinityPriorityMap | 此策略有助于实现pod的反亲和力 |
EqualPriorityMap | 所有节点给定一个相同的权重 |
当我们想把Pod调度到希望的节点上时,我们可以可以使用如下高级调度方式进行Pod调度:
kubectl explain deployment.spec.template.spec.affinity
查看策略名称 | 匹配目标 | 支持的操作符 | 支持拓扑域 | 设计目标 |
---|---|---|---|---|
nodeAffinity | 主机标签 | In,NotIn,Exists,DoesNotExist,Gt,Lt | 不支持 | 决定Pod可以部署在哪些主机上 |
podAffinity | Pod标签 | In,NotIn,Exists,DoesNotExist | 支持 | 决定Pod可以和哪些Pod部署在同一拓扑域 |
PodAntiAffinity | Pod标签 | In,NotIn,Exists,DoesNotExist | 支持 | 决定Pod不可以和哪些Pod部署在同一拓扑域 |
使用命令 kubectl explain deployment.spec.template.spec.affinity
可以查看语法格式,大致说明:
1)nodeAffinity
node亲和性,pod和node之间的亲和性,表示是否愿意调度到某个node上,其细分为以下两种:
2)podAffinity
pod亲和性,pod和pod之间的亲和性,表示该pod愿意与其他pod调度到一个区域(可以是node、机架、也可以是机房)
3)podAntiAffinity
pod反亲和性,和podAffinity相反表示该pod不愿意与其他pod调度到一个区域。
podAffinity和podAntiAffinity也也可以细分为以下两种:
k8s中的节点默认自带一些标签,通过如下查看:
[root@k8s-m1 k8s-scheduler]# kubectl get nodes --show-labels
NAME STATUS ROLES AGE VERSION LABELS
k8s-m1 Ready master 133d v1.19.16 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-m1,kubernetes.io/os=linux,node-role.kubernetes.io/master=
k8s-m2 Ready master 133d v1.19.16 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-m2,kubernetes.io/os=linux,node-role.kubernetes.io/master=
k8s-m3 Ready master 133d v1.19.16 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-m3,kubernetes.io/os=linux,node-role.kubernetes.io/master=
[root@k8s-m1 k8s-scheduler]#
我们定义一个pod,让其选择带有kubernetes.io/hostname=k8s-m2这个标签的节点
[root@k8s-m1 k8s-scheduler]# cat node-selector-pod.yml
apiVersion: v1
kind: Pod
metadata:
name: nginx
labels:
app: nginx
spec:
containers:
- name: myapp
image: nginx
imagePullPolicy: IfNotPresent
nodeSelector:
kubernetes.io/hostname: k8s-m2
[root@k8s-m1 k8s-scheduler]# kubectl apply -f node-selector-pod.yml
pod/nginx create
[root@k8s-m1 k8s-scheduler]# kubectl get pod -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
nginx 1/1 Running 0 16s 10.244.81.170 k8s-m2 <none> <none>
#定向调度到节点k8s-m2上
从上面的效果可以看出,设置了nodeSelector以后只会将Pod调度到符合标签的node1上,但是需要注意的是如果没有一个node满足nodeSelector的标签那么Pod会一直处于Pending状态直到有Node满足条件。
硬亲和性:
硬亲和性,必须满足条件才能正常调度。
[root@k8s-m1 k8s-scheduler]# cat node-hard-affinity.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: hard-affinity-nginx
spec:
replicas: 2
selector:
matchLabels:
app: nginx
template:
metadata:
name: my-nginx
labels:
app: nginx
spec:
containers:
- name: my-nginx
image: nginx:latest
imagePullPolicy: IfNotPresent
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution: #硬亲和
nodeSelectorTerms:
- matchExpressions:
- key: kubernetes.io/hostname
operator: In
values: ["k8s-m2","k8s-m3"]
[root@k8s-m1 k8s-scheduler]# kubectl apply -f node-hard-affinity.yaml
deployment.apps/hard-affinity-nginx created
[root@k8s-m1 k8s-scheduler]# kubectl get po -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
hard-affinity-nginx-d5cbfc49-g6gzj 1/1 Running 0 78s 10.244.81.163 k8s-m2 <none> <none>
hard-affinity-nginx-d5cbfc49-p74ch 1/1 Running 0 56s 10.244.11.20 k8s-m3 <none> <none>
# 通过上面结果发现两个pod分别分布在k8s-m2和k8s-m3上
软亲和性:
与requiredDuringSchedulingIgnoredDuringExecution比较,这里需要注意的是preferredDuringSchedulingIgnoredDuringExecution是个列表对象,而preference就是一个对象。
[root@k8s-m1 k8s-scheduler]# cat node-soft-affinity.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: soft-affinity-nginx
spec:
replicas: 2
selector:
matchLabels:
app: nginx
template:
metadata:
name: my-nginx
labels:
app: nginx
spec:
containers:
- name: my-nginx
image: nginx:latest
imagePullPolicy: IfNotPresent
affinity:
nodeAffinity:
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 50
preference:
matchExpressions:
- key: kubernetes.io/hostname
operator: In
values: ["k8s-m4"]
##设置了一个不存在的节点
[root@k8s-m1 k8s-scheduler]# kubectl apply -f node-soft-affinity.yaml
deployment.apps/soft-affinity-nginx created
[root@k8s-m1 k8s-scheduler]# kubectl get po -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
soft-affinity-nginx-6cdb7b4899-z5bhw 1/1 Running 0 20s 10.244.11.63 k8s-m3 <none> <none>
soft-affinity-nginx-6cdb7b4899-z72gd 1/1 Running 0 15s 10.244.81.167 k8s-m2 <none> <none>
#通过结果发现,软亲和性的pod在节点不存在的情况下页能正常调度
Pod亲和性场景,我们的k8s集群的节点分布在不同的区域或者不同的机房,当服务A和服务B要求部署在同一个区域或者同一机房的时候,我们就需要使用亲和性调度。
podAffinity和NodeAffinity是一样的,都是有硬亲和性和软亲和性。
参数:
硬亲和性:
由于我的集群都是虚拟机创建的节点,并没有划分区域或者机房,所以我这里直接使用主机名来作为拓扑域(topologyKey),把 pod 创建在同一个主机上面。
[root@k8s-m1 k8s-scheduler]# kubectl get node -o wide
NAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS-IMAGE KERNEL-VERSION CONTAINER-RUNTIME
k8s-m1 Ready master 133d v1.19.16 192.168.2.140 <none> CentOS Linux 7 (Core) 3.10.0-957.el7.x86_64 docker://19.3.15
k8s-m2 Ready master 133d v1.19.16 192.168.2.141 <none> CentOS Linux 7 (Core) 3.10.0-957.el7.x86_64 docker://19.3.9
k8s-m3 Ready master 133d v1.19.16 192.168.2.142 <none> CentOS Linux 7 (Core) 6.1.9-1.el7.elrepo.x86_64 docker://19.3.9
[root@k8s-m1 k8s-scheduler]# cat pod-affinity-pod.yml
apiVersion: v1
kind: Pod
metadata:
name: pod-affinity-pod1
labels:
name: podaffinity-nginx1
spec:
containers:
- name: myapp
image: nginx:latest
imagePullPolicy: IfNotPresent
---
apiVersion: v1
kind: Pod
metadata:
name: pod-affinity-pod2
labels:
spec:
containers:
- name: myapp
image: nginx:latest
imagePullPolicy: IfNotPresent
affinity:
podAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: name
operator: In
values:
- podaffinity-nginx1
topologyKey: kubernetes.io/hostname
[root@k8s-m1 k8s-scheduler]# kubectl apply -f pod-affinity-pod.yml
pod/pod-affinity-pod1 created
pod/pod-affinity-pod2 created
[root@k8s-m1 k8s-scheduler]# kubectl get pod
NAME READY STATUS RESTARTS AGE
pod-affinity-pod1 1/1 Running 0 81s
pod-affinity-pod2 1/1 Running 0 81s
上面这个例子中的Pod pod-affinity-pod2需要调度到某个指定的主机上,至少有一个节点上运行了这样的 pod:这个 pod 有一个name=pod-affinity-pod1的 label
如果我们不部署上面的 node-affinity-pod1,然后重新创建 pod-affinity-pod2这个pod,看看能不能正常调度呢,先注释 node-affinity-pod1的相关yaml文件。
[root@k8s-m1 k8s-scheduler]# kubectl apply -f pod-affinity-pod.yml
pod/pod-affinity-pod2 created
[root@k8s-m1 k8s-scheduler]# kubectl get pod
NAME READY STATUS RESTARTS AGE
pod-affinity-pod2 0/1 Pending 0 3s
[root@k8s-m1 k8s-scheduler]# kubectl get pod
NAME READY STATUS RESTARTS AGE
pod-affinity-pod2 0/1 Pending 0 5s
[root@k8s-m1 k8s-scheduler]# kubectl describe po pod-affinity-pod2
Name: pod-affinity-pod2
Namespace: default
Priority: 0
Node: <none>
Labels: <none>
Annotations: <none>
Status: Pending
IP:
IPs: <none>
Containers:
myapp:
Image: nginx:latest
Port: <none>
Host Port: <none>
Environment: <none>
Mounts:
/var/run/secrets/kubernetes.io/serviceaccount from default-token-glxls (ro)
Conditions:
Type Status
PodScheduled False
Volumes:
default-token-glxls:
Type: Secret (a volume populated by a Secret)
SecretName: default-token-glxls
Optional: false
QoS Class: BestEffort
Node-Selectors: <none>
Tolerations: node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Warning FailedScheduling 5s (x2 over 5s) default-scheduler 0/3 nodes are available: 3 node(s) didn't match pod affinity rules, 3 node(s) didn't match pod affinity/anti-affinity.
可以看到pod-affinity-pod2处于Pending状态了,这是因为现在没有一个节点上面拥有name=pod-affinity-pod1这个 label 的 pod,而上面我们的调度使用的是硬策略,所以就没办法进行调度了,也可以去尝试下重新将pod-affinity-pod1 这个 pod 调度到 某个具体节点上,看看上面的 pod-affinity-pod2会不会也被调度到 相同节点上去?
[root@k8s-m1 k8s-scheduler]# cat pod-affinity-pod.yml
apiVersion: v1
kind: Pod
metadata:
name: pod-affinity-pod1
labels:
name: podaffinity-nginx1
spec:
containers:
- name: myapp
image: nginx:latest
imagePullPolicy: IfNotPresent
nodeSelector:
kubernetes.io/hostname: k8s-m3
---
apiVersion: v1
kind: Pod
metadata:
name: pod-affinity-pod2
labels:
spec:
containers:
- name: myapp
image: nginx:latest
imagePullPolicy: IfNotPresent
affinity:
podAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: name
operator: In
values:
- podaffinity-nginx1
topologyKey: kubernetes.io/hostname
[root@k8s-m1 k8s-scheduler]# kubectl apply -f pod-affinity-pod.yml
pod/pod-affinity-pod1 created
pod/pod-affinity-pod2 configured
[root@k8s-m1 k8s-scheduler]# kubectl get po -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pod-affinity-pod1 1/1 Running 0 51s 10.244.11.7 k8s-m3 <none> <none>
pod-affinity-pod2 1/1 Running 0 5m28s 10.244.11.22 k8s-m3 <none> <none>
我们这个地方使用的是kubernetes.io/hostname这个拓扑域,意思就是我们当前调度的 pod 要和目标的 pod 处于同一个主机上面,因为要处于同一个拓扑域下面kubernetes.io/hostname=k8s-m3中,为了说明这个问题,我们把拓扑域改成beta.kubernetes.io/os,同样的我们当前调度的 pod 要和目标的 pod 处于同一个拓扑域中,目标的 pod 是不是拥有beta.kubernetes.io/os=linux的标签,而我们这里3个节点都有这样的标签,这也就意味着我们3个节点都在同一个拓扑域中,所以我们这里的 pod 可能会被调度到任何一个节点(因为master的污点被清除了,所以和普通节点一样都可以调度),判断他们是否在同一拓扑域中是根据topologyKey中指定的node标签的values是否相同,如果相同则表示在同一拓扑域中。软亲和性类似,关键字为preferredDuringSchedulingIgnoredDuringExecution
请大家自行测试使用。
和Pod亲和性的用法类似,只是podAntiAffinity是反着来的。比如一个节点上运行了某个应用服务pod,那么我们的redis服务pod则尽量不要在同一台节点上,这就是反亲和性。podAntiAffinity和上面两个策略也是有硬亲和性和软亲和性两种不同用法;
硬亲和性:
[root@k8s-m1 k8s-scheduler]# cat pod-antiaffinity-pod.yaml
apiVersion: v1
kind: Pod
metadata:
name: pod-antiaffinity-pod1
labels:
name: podantiaffinity-nginx
tier: service
spec:
containers:
- name: myapp
image: nginx:latest
imagePullPolicy: IfNotPresent
nodeSelector:
kubernetes.io/hostname: k8s-m2
---
apiVersion: apps/v1
kind: Deployment
metadata:
name: antiaffinity-nginx
labels:
app: myapp
spec:
replicas: 3
selector:
matchLabels:
app: nginx
template:
metadata:
labels:
app: nginx
spec:
containers:
- name: myapp
image: nginx:latest
imagePullPolicy: IfNotPresent
affinity:
podAntiAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: name
operator: In
values: ["podantiaffinity-nginx"]
topologyKey: kubernetes.io/hostname
[root@k8s-m1 k8s-scheduler]# kubectl apply -f pod-antiaffinity-pod.yaml
pod/pod-antiaffinity-pod1 created
deployment.apps/antiaffinity-nginx created
这里的意思就是如果一个节点上面有一个podantiaffinity-nginx这样的 pod 的话,那么我们的pod 就不能调度到这个节点上面来,上面我们把podantiaffinity-nginx这个 pod 固定到了 k8s-m2这个节点上面来,所以正常来说我们这里的 pod 不会出现在 k8s-m2 节点上:
[root@k8s-m1 k8s-scheduler]# kubectl get pod -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
antiaffinity-nginx-769b467cf4-4qkh6 1/1 Running 0 75s 10.244.42.189 k8s-m1 <none> <none>
antiaffinity-nginx-769b467cf4-6qthb 1/1 Running 0 75s 10.244.11.25 k8s-m3 <none> <none>
antiaffinity-nginx-769b467cf4-7ppbj 1/1 Running 0 75s 10.244.42.130 k8s-m1 <none> <none>
pod-antiaffinity-pod1 1/1 Running 0 75s 10.244.81.179 k8s-m2 <none> <none>
在三个节点集群中,web应用程序需要使用redis做缓存,比如redis。我们希望web服务器尽可能与redis共存。
下面的yaml文件是部署一个简单的redis,其中包含三个副本和label标签app=store。还配置了PodAntiAffinity,以确保调度器不会在单个节点上同时调度多个副本。
[root@k8s-m1 k8s-scheduler]# cat redis-podaffinity.yml
apiVersion: apps/v1
kind: Deployment
metadata:
name: redis-cache
spec:
selector:
matchLabels:
app: redis
replicas: 3
template:
metadata:
labels:
app: redis
spec:
affinity:
podAntiAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: In
values:
- redis
topologyKey: "kubernetes.io/hostname"
containers:
- name: redis-server
image: redis:5.0.14-alpine
下面是web服务器部署的yaml文件配置了podAntiAffinity和podAffinity。这将通知调度器,它的所有副本都将与具有选择器标签app=redis的pod共存。这还将确保每个web服务器副本不会同时位于单个节点上。
apiVersion: apps/v1
kind: Deployment
metadata:
name: web-server
spec:
selector:
matchLabels:
app: nginx-server
replicas: 3
template:
metadata:
labels:
app: nginx-server
spec:
affinity:
podAntiAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: In
values:
- nginx-server
topologyKey: "kubernetes.io/hostname"
podAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: In
values:
- redis
topologyKey: "kubernetes.io/hostname"
containers:
- name: web-app
image: nginx:1.22.1-alpine
如果我们创建上面的两个部署,我们集群中的3个节点上每个节点都有一个nginx-server和redis服务。如下:
[root@k8s-m1 k8s-scheduler]# kubectl get po -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
redis-cache-64d4c5fbd6-mhxzl 1/1 Running 0 6m22s 10.244.81.144 k8s-m2 <none> <none>
redis-cache-64d4c5fbd6-qh82v 1/1 Running 0 6m23s 10.244.42.167 k8s-m1 <none> <none>
redis-cache-64d4c5fbd6-sfw6s 1/1 Running 0 6m22s 10.244.11.29 k8s-m3 <none> <none>
web-server-7f965dcbcc-crsd9 1/1 Running 0 2m9s 10.244.81.151 k8s-m2 <none> <none>
web-server-7f965dcbcc-rsmhr 1/1 Running 0 2m9s 10.244.42.190 k8s-m1 <none> <none>
web-server-7f965dcbcc-tblsz 1/1 Running 0 2m9s 10.244.11.14 k8s-m3 <none> <none>
上面的例子使用PodAntiAffinity规则和topologyKey: "kubernetes.io/hostname"配合使用来部署redis集群,使其同一主机上不存在两个实例;而在实际工作中,我们的集群节点一般都是都以hostname来划分拓扑域。
最后注意,亲和性设置中多个key之间的关系是与关系(and),而matchExpressions之间的关系是是或关系(or),但实际使用中我们也不会设置太复杂。
更多关于kubernetes的知识分享,请前往博客主页。编写过程中,难免出现差错,敬请指出