在K8s系统中,Pod在大部分场景下都只是容器的载体而已,通常需要通过Deployment、DaemonSet、RC、Job等对象来完成一组Pod的调度与自动控制功能。
Deployment或RC的主要功能之一就是自动部署一个容器应用的多份副本,以及持续监控副本的数量,在集群内始终维持用户指定的副本数量。
下面是一个Deployment配置的例子,使用这个配置文件可以创建一个ReplicaSet,这个ReplicaSet会创建3个Nginx应用的Pod。
nginx-deployment.yaml
apiVersion: apps/v1beta1
kind: Deployment
metadata:
name: nginx-deployment
spec:
replicas: 3
template:
metadata:
labels:
app: nginx
spec:
containers:
- name: nginx
image: nginx:1.7.9
ports:
- containerPort: 80
运行kubectl create命令创建这个Deployment:
kubectl create -f nginx-deployment.yaml
deployment "nginx-deployment" created
查看Deployment的状态
kubectl get deployments
NAME DESIRED CURRENT UP-TO-DATE AVAILABLE AGE
nginx-deployment 3 3 3 3 18s
该状态说明Deployment已创建好所有3个副本,并且所有副本都是最新的而且是可用的。
运行kubectl get rs和kubectl get pods可以查看已创建的ReplicaSet(RS)和Pod的信息
kubectl get rs
NAME DESIRED CURRENT READY AGE
nginx-deployment-4087004473 3 3 3 53s
kubectl get pods
NAME READY STATUS RESTARTS AGE
nginx-deployment-4087004473-9jqqs 1/1 Running 0 1m
nginx-deployment-4087004473-cq0cf 1/1 Running 0 1m
nginx-deployment-4087004473-vxn56 1/1 Running 0 1m
从调度策略上来说,这3个Nginx Pod由系统全自动完成调度。各自最终运行在哪个节点上,完全由Master的Scheduler经过一系列算法计算得出,用户无法干预调度过程和结果。
K8s Master上的Scheduler服务(kube-scheduler进程)负责实现Pod的调度,整个调度过程通过执行一系列复杂的算法,最终为每个Pod计算出一个最佳的目标节点,这一过程是自动完成的,通常无法知道Pod最终会被调度到哪个节点上。在实际情况中,也可能需要将Pod调度到指定的一些Node上,可以通过Node的标签(Label)和Pod的nodeSelector属性相匹配,来达到上述目的。
1.首先通过kubectl label命令给目标Node打上一些标签:
kubectl label nodes <node-name> <label-key>=<label-value>
为k8s-node-1节点打上一个zone=north的标签,表明它是北方的一个节点:
kubectl label nodes k8s-node-1 zone=north
NAME LABELS STATUS
k8s-node-1 kubernetes.io/hostname=k8s-node-1,zone=north Ready
上述命令操作也可以通过修改资源定义文件的方式,并执行kubectl replace -f xxx.yaml命令来完成。
2.在Pod的定义中加上nodeSelector的设置,以redis-master-controller.yaml为例:
apiVersion: v1
kind: ReplicationController
metadata:
name: redis-master
labels:
name: redis-master
spec:
replicas: 1
selector:
name: redis-master
template:
metadata:
labels:
name: redis-master
spec:
containers:
- name: master
image: kubeguide/redis-master
ports:
- containerPort: 6379
nodeSelector:
zone: north
运行kubectl create -f命令创建Pod,scheduler就会将该Pod调度到拥有zone=north标签的Node上。
使用kubectl get pods -o wide命令可以验证Pod所在的Node:
kubectl get pods -o wide
NAME READY STATUS RESTARTS AGE NODE
redis-master-f0rqj 1/1 Running 0 19s k8s-node-1
如果给多个Node都定义了相同的标签(例如zone=north),则scheduler将会根据调度算法从这组Node中挑选一个可用的Node进行Pod调度。
通过基于Node标签的调度方式,可以把集群中具有不同特点的Node贴上不同的标签。例如"role=frontend",“role=backend”,"role=database"等标签,在部署应用时就可以根据应用的需求设置NodeSelector来进行指定Node范围的调度。
需要注意的是:指定了Pod的nodeSelector条件,且集群中不存在包含相应标签的Node,则即使集群中还有其他可供使用的Node,这个Pod也无法被成功调度。
除了用户可以自行给Node添加标签,K8s也会给Node预定义一些标签,包括:
NodeSelector通过标签的方式,简单地实现了限制Pod所在节点的方法。亲和性调度则极大地扩展了Pod的调度能力,主要的增强功能如下:
亲和性调度功能包括节点亲和性(NodeAffinity)和Pod亲和性(PodAffinity)两个维度的设置。Pod的亲和与互斥限制则通过Pod标签而不是节点标签来实现。
两种节点亲和性表达:
IgnoredDuringExecution的意思是:如果一个Pod所在的节点在Pod运行期间标签发生了变更,不再符合该Pod的节点亲和性需求,则系统将忽略Node上Label的变化,该Pod能继续在该节点运行。
下面的例子设置了NodeAffinity调度的如下规则:
apiVersion: v1
kind: Pod
metadata:
name: with-node-affinity
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: beta.kubernetes.io/arch
operator: In
values:
- amd64
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 1
preference:
matchExpressions:
- key: disk-type
operator: In
values:
- ssd
containers:
- name: with-node-affinity
image: gcr.io/google_containers/pause:2.0
从上面的配置中可以看到In操作符,NodeAffinity语法支持的操作符包括In、NotIn、Exists、DoesNotExist、Gt、Lt,用NotIn和DoesNotExist就可以实现排斥的功能了。
NodeAffinity规则设置的注意事项如下:
限制Pod所能运行的节点:
Pod亲和与互斥的条件设置也是requiredDuringSchedulingIgnoredDuringExecution和preferredDuringSchedulingIgnoredDuringExecution。Pod亲和性定义于PodSpec的affinity字段的podAffinity子字段里。Pod间的互斥性则定义于同一层次的podAntiAffinity子字段中。
下面通过实例来说明Pod间的亲和性和互斥性策略设置。
1.参照目标Pod
创建一个名为pod-flag的Pod,带有标签security=S1和app=nginx,后面的例子将使用pod-flag作为Pod亲和与互斥的目标Pod。
apiVersion: v1
kind: Pod
metadata:
name: pod-flag
labels:
security: "S1"
app: "nginx"
spec:
containers:
- name: nginx
image: nginx
2.Pod的亲和性调度
下面创建第2个Pod来说明Pod的亲和性调度,定义的亲和标签是security=S1,对应上面的Pod“pod-flag”,topologyKey的值被设置为"kubernetes.io/hostname"。
apiVersion: v1
kind: Pod
metadata:
name: pod-affinity
spec:
affinity:
podAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: security
operator: In
values:
- S1
topologyKey: kubernetes.io/hostname
containers:
- name: with-pode-affinity
image: gcr.io/google_containers/pause:2.0
创建Pod之后,使用kubectl get pods -o wide命令可以看到,这两个Pod处于同一个Node之上运行。
3.Pod的互斥性调度
创建第三个Pod,希望不与参照目标Pod运行在同一个Node上。
apiVersion: v1
kind: Pod
metadata:
name: anty-affinity
spec:
affinity:
podAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: security
operator: In
values:
- S1
topologyKey: failure-domain.beta.kubernetes.io/zone
podAntiAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: In
values:
- nginx
topologyKey: kubernetes.io/hostname
containers:
- name: anti-affinity
image: gcr.io/google_containers/pause:2.0
创建Pod后,同样用kubectl get pods -o wide来查看,会看到新的Pod被调度到了同一个zone内的不同的Node上去。
与节点亲和性类似,Pod亲和性的操作符包括In、NotIn、Exists、DoesNotExists、Gt、Lt。
原则上,topologyKey可以使用任何合法的标签Key赋值,但是出于性能和安全方面的考虑,对topologyKey有如下限制。
PodAffinity规则设置的注意事项如下:
可以用kubectl taint命令为Node设置Taint信息:
下面的两个Toleration都设置为可以容忍(Toleration)具有该Taint的Node,使得Pod能够被调度到node1上:
tolerations:
- key: "key"
operator: "Equal"
value: "value1"
effect: "NoSchedule"
或
tolerations:
- key: "key"
operator: "Exists"
effect: "NoSchedule"
Pod的Toleration声明中的key和effect需要与Taint的设置保持一致,并且满足以下条件之一。
还有两个特例:
上面的例子中,effect的取值为NoSchedule,还可以取值为PreferNoSchedule,这个值的意思是优先,也可以算作NoSchedule的软限制版本,一个Pod如果没有声明容忍这个Taint,则系统会尽量避免把这个Pod调度到这一节点上去,但不是强制的。
系统允许在同一个Node上设置多个Taint,也可以在Pod上设置多个Toleration。K8s调度器处理多个Taint和Toleration的逻辑顺序为:首先列出节点中所有的Taint,然后忽略Pod的Toleration能够匹配的部分,剩下的没有忽略掉的Taint就是对Pod的效果了。
下面是几种特殊情况:
例子:
对一个节点进行Taint设置:
kubectl taint nodes node1 key1=value1:NoSchedule
kubectl taint nodes node1 key1=value1:NoExecute
kubectl taint nodes node1 key2=value2:NoSchedule
然后在Pod上设置两个Toleration:
tolerations:
- key: "key1"
operator: "Equal"
value: "value1"
effect: "NoSchedule"
key: "key1"
operator: "Equal"
value: "value1"
effect: "NoExecute"
tolerations:
- key: "key1"
operator: "Equal"
value: "value1"
effect: "NoSchedule"
tolerationSeconds: 3600
Taint和Toleration是一种处理节点并且让Pod进行规避或者驱逐Pod的弹性方式。下面列举一些常见的用例。
1.独占节点
想要拿出一部分节点,专门给一些特定应用使用,则可以为节点添加这样的Taint:
kubectl taint nodes nodename dedicated=groupName:NoSchedule
给这些应用的Pod加入对应的Toleration。带有合适Toleration的Pod就会被允许同使用其他节点一样使用Taint的节点。
2.具有特殊硬件设备的节点
在集群里可能有一小部分节点安装了特殊的硬件设备(如CPU芯片),用户自然会希望把不需要占用这类硬件的Pod排除在外,以确保对这类硬件有需求的Pod能够顺利调度到这些节点上。
可以用下面的命令为节点设置Taint:
kubectl taint nodes nodename special=true:NoSchedule
kubectl taint nodes nodename special=true:PreferNoSchedule
在Pod中利用对应的Toleration来保障特定的Pod能够使用特定的硬件。
3.定义Pod驱逐行为,以应对节点故障
NoExecute这个Taint效果对节点上正在运行的Pod有以下影响:
把节点故障标记为Taint,在节点故障情况下,系统将会以限速的模式逐步给Node设置Taint,防止在一些特定情况下造成大量Pod被驱逐,允许Pod定义节点故障时持续多久才被逐出。
例如一个包含很多本地状态的应用可能需要在网络发生故障时,还能持续在节点上运行,期望网络能够快速恢复,从而避免这个Node上被驱逐。
Pod的Toleration可以这样定义:
tolerations:
- key: "node.alpha.kubernetes.io/unreachable"
operator: "Exists"
affect: "NoExecute"
tolerationSeconds: 6000
对于Node为就绪状态,可以把Key设置为node.alpha.kubernetes.io/notReady。
没有为Pod指定node.alpha.kubernetes.io/notReady的Toleration,Kubernetes会自动为Pod加入tolerationSeconds=300的node.alpha.kubernetes.io/notReady类型的Toleration。
Pod没有定义node.alpha.kubernetes.io/unreachable的Toleration,系统会自动为其加入tolerationSeconds=300的node.alpha.kubernetes.io/unreachable类型的Toleration。
这些系统自动设置的toleration用于在Node发现问题时,能够为Pod确保驱逐前再运行5min,这两个默认的Toleration由Admission Controller “DefaultTolerationSeconds”自动加入。