在Kubernetes集群中,Pod是所有业务类型的基础,它是一个或多个容器的组合。这些容器共享存储、网络和命名空间,以及如何运行的规范。在Pod中,所有容器都被同一安排和调度,并运行在共享的上下文中。对于具体应用而言,Pod是它们的逻辑主机,Pod包含业务相关的多个应用容器。Kubernetes不只是支持Docker容器,它也支持其他容器。Pod 的上下文可以理解成多个linux命名空间的联合:
一个Pod的共享上下文是Linux命名空间、cgroups和其它潜在隔离内容的集合。 在Pod中,容器共享一个IP地址和端口空间,它们可以通过localhost发现彼此。在同一个Pod中的容器,可以使用System V 或POSIX信号进行标准的进程间通信和共享内存。在不同Pod中的容器,拥有不同的IP地址,因此不能够直接在进程间进行通信。容器间通常使用Pod IP地址进行通信。在一个Pod中的应用于口访问共享的存储卷,它被定为为Pod的一部分,可以被挂接至每一个应用文件系统。与独立的应用容器一样,Pod是一个临时的实体,它有着自己的生命周期。在Pod被创建时,会被指派一个唯一的ID,并被调度到Node中,直到Pod被终止或删除。如果Pod所在的Node宕机,给定的Pod(即通过UID定义)不会被重新调度。相反,它将被完全相同的Pod所替代。这所说的具有和Pod相关生命周期的情况,例如存储卷,是说和Pod存在的时间一样长。如果Pod被删除,即使完全相同的副本被创建,则相关存储卷等也会被删除,并会Pod创建一个新的存储卷等。Pod本身就没有打算作为持久化的实体,在调度失败、Node失败和获取其它退出(缺少资源或者Node在维护)情况下,Pod都会被删除。一般来说,用户不应该直接创建Pod,即是创建单个的Pod也应该通过控制器创建。在集群范围内,控制器为Pod提供自愈能力,以及副本和部署管理。
一个多容器的Pod会包含一个文件拉取器和一个web服务器,此web服务器使用一个持久化存储卷来在容器中共享存储。
网络:每一个Pod都会被指派一个唯一的Ip地址,在Pod中的每一个容器共享网络命名空间,包括Ip地址和网络端口。在同一个Pod中的容器可以同locahost进行互相通信。当Pod中的容器需要与Pod外的实体进行通信时,则需要通过端口等共享的网络资源。
存储:Pod能够被指定共享存储卷的集合,在Pod中所有的容器能够访问共享存储卷,允许这些容器共享数据。存储卷也允许在一个Pod持久化数据,以防止其中的容器需要被重启。
在Kubernetes中一般不会直接创建一个独立的Pod,这是因为Pod是临时存在的一个实体。当直接创建一个独立的Pod时,如果缺少资源或者所被调度到的Node失败,则Pod会直接被删除。这里需要注意的是,重起Pod和重起Pod中的容器不是一个概念,Pod自身不会运行,它只是容器所运行的一个环境。Pod本身没有自愈能力,如果Pod所在的Node失败,或者如果调度操作本身失败,则Pod将会被删除;同样的,如果缺少资源,Pod也会失败。Kubernetes使用高层次的抽象,即控制器来管理临时的Pod。通过控制器能够创建和管理多个Pod,并在集群范围内处理副本、部署和提供自愈能力。例如,如果一个Node失败,控制器可以自动的在另外一个节点上部署一个完全一样的副本。控制器是Pod模板来创建Pod,Pod的控制器包括:
Pod模板是一个被包含在其它对象(例如:Deployment、StatefuleSet、DaemonSet等)中的Pod规格。控制使用Pod模板创建实际的Pod,下面是Pod模板的一个示例:
在Pod中的容器可能会由于异常等原因导致其终止退出,Kubernetes提供了重启策略以重启容器。重启策略对同一个Pod的所有容器起作用,容器的重启由Node上的kubelet执行。Pod支持三种重启策略,在配置文件中通过restartPolicy字段设置重启策略:
注意,这里的重启是指在Pod的宿主Node上进行本地重启,而不是调度到其它Node上。
在Kubernetes中,容器的运行是基于容器镜像的。Pod支持三种镜像拉取策略,在配置文件中通过imagePullPolicy字体设置镜像的拉取策略:
注意:
在Kubernetes中运行容器时,需要为容器获取镜像。Pod中容器的镜像有三个来源,即Docker公共镜像仓库、私有镜像仓库和本地镜像。当在内网使用的Kubernetes场景下,就需要搭建和使用私有镜像仓库。在使用私有镜像拉取镜像时,需要为私有镜像仓库创建一个docker registry secret,并在创建容器中进行引用。
通过kubectl create secret docker-registry命令创建docker registry secret:
$ kubectl create secret docker-registry regsecret --docker-server= \
--docker-username= --docker-password= --docker-email=
在容器中通过imagePullSecrets字段指定该secret:
Kubernetes通过cgroups来限制容器的CPU和内存等计算资源,在创建Pod时,可以为Pod中的每个容器设置资源请求(request)和资源限制(limit),资源请求是容器需要的最小资源要求,资源限制为容器所能使用的资源上限。CPU的单位是核(core),内存(Memory)的单位是字节(byte)。在Pod中,容器的资源限制通过resources.limits进行设置:
资源请求通过resources.requests进行设置,
Kubernetes在进行Pod调度时,Pod的资源请求是最重要的一个指标。Kubernetes Schedule会检查Node是否存在足够的资源,判断是否能够满足Pod的资源请求,从而决定是否可以运行Pod。
在Pod部署到Kubernetes集群中以后,为了确保Pod处于健康正常的运行状态,Kubernetes提供了两种探针,用于检测容器的状态:
kubelet在容器上周期性的执行探针以检测容器的健康状态,kubelet通过调用被容器实现的处理器来实现检测,在Kubernetes中有三类处理器:
健康检测的结果为下面三种情况:
在一个POD中,可以运行多个容器,同时它也可以拥有有一个或多个初始化容器,初始化容器在应用程序容器启动之前运行。初始化容器与普通容器完全一样,只是:
如果Pod中的初始化容器失败,Kubernetes将会重复重启Pod,直到初始化容器成功执行。然而,如果Pod的重启策略为Never,则Pod不会重启。初始化容器支持应用程序容器的所有字段和特性,包括资源限制、存储卷和安全设置等。初始化容器不支持健康检测探针,因为,它们必须在POD准备好之前完成运行。如果为Pod指定了多个初始化容器,则这些初始化容器将会按顺序依次运行。每一个都必须在下一个运行之前成功运行。当所有的初始化容器都运行完成时,Kubernetes完成Pod的初始化,并像通常的方式一样运行应用程序容器。
Kubernetes Scheduler负责根据调度策略自动将Pod部署到合适Node中,调度策略分为预选策略和优选策略,Pod的整个调度过程分为两步:
1)预选Node:遍历集群中所有的Node,按照具体的预选策略筛选出符合要求的Node列表。如没有Node符合预选策略规则,该Pod就会被挂起,直到集群中出现符合要求的Node。
2)优选Node:预选Node列表的基础上,按照优选策略为待选的Node进行打分和排序,从中获取最优Node。
随着版本的发展,Kunbernetes提供了大量的预选策略,通过预选策略能够筛选出符合条件的Node列表。预选策略是强制性规则,用来检测Node是否匹配Pod所需要的资源。如果没有任何Node能够满足预选策略, 该Pod就会被挂起,直到出现能够能够满足要求的Node。
Position | 预选策略 | 策略说明 |
1 | CheckNodeConditionPredicate | 检查是否可以将Pod调度到磁盘不足、网络不可用和未准备就绪的Node。 |
2 | PodFitsHost | 检查集群Node中是否存在与Pod配置文件中指定的Node名称相匹配。 |
3 | PodFitsHostPorts | 检查Node是否存在空闲可用的端口。 |
4 | PodMatchNodeSelector | 检查Pod上的Node选择器是否匹配Node的标签。 |
5 | PodFitsResources | 检查Node上的cpu、内存、gpu等资源是否满足Pod的需求,来决定是否调度Pod到Node上。 |
6 | NoDiskConflict | 根据Pod请求的存储卷进行评估,如果在这个Node已经挂载了存储卷,则其它同样请求这个存储卷的Pod将不能调度到这个Nods上。 |
7 | PodToleratesNodeTaints | 检查pod的能否容忍Node上的污点。 |
8 | PodToleratesNodeNoExecuteTaints | 检查Pod是否能容忍Node上未执行的污染。 |
9 | CheckNodeLabelPresence | 检查所有指定的标签是否存在于Node上,而不考虑它们的值。 |
10 | checkServiceAffinity | 检查服务的亲和性,确定是否在Node部署Pod。 |
11 | MaxPDVolumeCountPredicate | 检查Pod所需要的存储卷的数量,确定在哪个Node上部署Pod。 |
12 | VolumeZonePredicate | 根据volumes需求来评估Node是否满足条件。 |
13 | CheckNodeMemoryPressurePredicate | 检查Node内存的压力情况 |
14 | CheckNodeDiskPressurePredicate | 根据Node磁盘的压力情况,确定是否调度Pod到Node上。 |
15 | InterPodAffinityMatches | 根据Pod的亲和和反亲和的配置,检查是否能够将Pod调度到指定的Node上。 |
通过预选策略对Node过滤后,获得预选的Node列表。在预选Node列表的基础上,对这些预选的Node进行打分,从而为Pod选择一个分值最高的Node。Kubernetes通过一系列的优选策略对预选Node进行打分。每一个优选函数都会为Node给出一个0-10的分数,分数越高表示节点越优;同时,每个优选函数也会有一个对应的权重值。那个Node的最终得分是每个优选函数给出的得分的加权分数之和,因此每个Node的最终主机的得分如以下公式计算:
finalScoreNode = (weight1 * priorityFunc1) + (weight2 * priorityFunc2) + … + (weightn * priorityFuncn)
序号 | 优选策略 | 优选说明 |
1 | BalancedResourceAllocation | 根据Node上各项资源(CPU、内存)使用率均衡情况进行打分。 |
2 | ImageLocalityPriority | 基于Pod所需镜像的总体大小,根据Node上存在Pod所需镜像的大小从0到10进行打分。 |
3 | InterPodAffinityPriority | 基于Pod亲和情况打分。 |
4 | LeastRequestedPriority | 计算Pod需要的CPU和内存资源与在Node可用资源的百分比,具有最小百分比的节点就是最优。 |
5 | PriorityMetadata | 根据元素进行打分。 |
6 | MostRequestedPriority | 根据Node上所提供的资源进行打分。 |
7 | NodeAffinityPriority | 根据亲和情况进行打分。 |
8 | NodeLabelPriority | 根据Node上是否存在特殊的标签进行打分。 |
9 | NodePreferAvoidPodsPriority | 根据Node上的注释进行打分。 |
10 | ResourceAllocationPriority | 根据在Node上的分配的资源进行打分。 |
11 | ResourceLimitsPriority | 根据Pod的资源限制进行打分。 |
12 | SelectorSpreadPriority | 按service,RC,RS or StatefulSet归属
计算Node上分布最少的同类Pod数量,得分计算,数量越少得分越高。 |
13 | TaintTolerationPriority | 基于Node上不可容忍的污点数进行打分。 |
您可以约束一个POD,以便只能在特定节点上运行,或者更喜欢在特定节点上运行。有几种方法可以做到这一点,它们都使用标签选择器来进行选择。一般来说,这样的约束是不必要的,因为调度器将自动地进行合理的放置(例如,将您的荚散布在节点上,而不是将POD放置在自由资源不足的节点上),但是在某些情况下,您可能希望在POD L的节点上进行更多的控制。ODS,例如,确保POD在带有SSD的机器上结束,或者将两个不同服务的POD定位到相同的可用性区域中。
2.7.3.1 nodeSelector
nodeSelector是最简单一种约束形式,nodeSelector是PodSpec的一个字段。为了使Pod能够在Node上运行,Node必须具有所指示的键值对作为标签(它也可以有附加的标签)。nodeSeletor的用法如下:
1)为Node打上标签
$ kubectl label nodes =
2)在Pod配置文件中添加nodeSelector字段
apiVersion: v1
kind: Pod
metadata:
name: nginx
labels:
env: test
spec:
containers:
- name: nginx
image: nginx
imagePullPolicy: IfNotPresent
nodeSelector:
disktype: ssd
3)创建Pod,并将Pod调度到Node上
通过执行如下命令,在集群中将会创建Pod,并在后台会将其调度到打上了键值对的Node上。
$ kubectl create -f nginx.yaml
通过下面的命令,可以查看Pod调度的情况
$ kubectl get pods -o wide
2.7.3.2 nodeName
1)在Pod的配置文件中添加nodeName字段
apiVersion: v1
kind: Pod
metadata:
name: nginx
labels:
env: test
spec:
containers:
- name: nginx
image: nginx
imagePullPolicy: IfNotPresent
nodeName:
2)创建Pod,并将Pod调度到Node上
通过执行如下命令,在集群中将会创建Pod,并在后台会将其调度到所指定的Node上。
$ kubectl create -f nginx.yaml
通过下面的命令,可以查看Pod调度的情况
$ kubectl get pods -o wide
在创建Pod时,可以为在Pod中运行的容器设置环境变量。在Kubernetes中,通过env或envFrom字段进行设置。使用env或envFrom字段设置的环境变量将会覆盖容器镜像中指定的环境变量。在下面的YAML文件中,设置了名称为DEMO_GREETING和DEMO_FAREWELL的两个环境变量。
apiVersion: v1
kind: Pod
metadata:
name: envar-demo
labels: purpose: demonstrate-envars
spec:
containers:
- name: envar-demo-container
image: gcr.io/google-samples/node-hello:1.0
env:
- name: DEMO_GREETING
value: "Hello from the environment"
- name: DEMO_FAREWELL
value: "Such a sweet sorrow"
在创建Pod时,也能够为Pod中的容器定义命令和参数。在配置文件通过设置command字段来定义命令,通过设置args字段来定义参数。在Pod被创建后,定义的命令和参数将不能被修改。在配置文件中定义的命令和参数会覆盖在容器镜像中定义的命令和参数。下面的YAML配置文件中,设置了printenv命令,以及设置了HOSTNAME和KUBERNETES_PORT两个参数。
apiVersion: v1
kind: Pod
metadata:
name: command-demo
labels:
purpose: demonstrate-command
spec:
containers:
- name: command-demo-container
image: debian
command: ["printenv"]
args: ["HOSTNAME", "KUBERNETES_PORT"]
restartPolicy: OnFailure
1)通过上述YAML配置文件参加Pod:
$ kubectl create -f https://k8s.io/docs/tasks/inject-data-application/commands.yaml
2)以列表的形式展示正在运行的Pod:
$ kubectl get pods
3)可以通过Pod的日志信息,参看命令的输出结果:
$ kubectl logs command-demo
输出结果显示了HOSTNAME和KUBERNETES_PORT环境变量的值:
command-demo tcp://10.3.240.1:443
在前面的例子中,通过提供字符串直接定义了参数,在参数中也可以使用环境变量来定义参数:
env:
- name: MESSAGE
value: "hello world"
command: ["/bin/echo"]args: ["$(MESSAGE)"]
这意味可以使用所有任意的技术变量(用于定义环境变量的)来定义Pod的参数,包括ConfigMaps和Secrets。在参数中,环境变量以”$(VAR)“的格式出现。
按照Kubernetes的设计,Pod一般不独立进行创建,这是因为独立创建的Pod没有自愈能力,也就说在Pod异常终止后,无法进行自动重启和重新调度。
1) 通过执行kubectl create -f命令创建名为nginx的部署和Pod:
$ kubectl create -f nginx.yml
2)通过执行kubectl get pods命令,可以看到在Kubernetes中运行了的nginx的Pod:
$ kubectl get pods
在Pod被创建出来以后,可以通过如下的命令查看特定Pod的信息:
$ kubectl describe pods/nginx-8566d78dc7-q4frr
在集群中,Pod代表着运行的进程,但不再需要这些进程时,如何优雅的终止这些进程是非常重要。以防止在Pod被暴力删除时,没有对Pod相关的信息进行必要的清除。当用户请求删除一个Pod时,Kubernetes将会发送一个终止(TERM)信号给每个容器,一旦过了优雅期,杀掉(KILL)信号将会被发送,并通过API server删除Pod。可以通过kubectl delete pod/{Pod名称} -n {命名空间名称}删除特定的Pod,一个终止Pod的流程如下:
1) 用户可以通过kubectl、dashboard等发送一个删除Pod的命令,默认优雅的退出时间为30秒;
2)更新API server中Pod的优雅时间,超过该时间的Pod会被认为死亡;
3)在客户端命令行中,此Pod的状态显示为”Terminating(退出中)”;
4)(与第3步同时)当Kubelet检查到Pod的状态退出中的时候,它将开始关闭Pod的流程:
5)(与第3步同时进行)从服务的端点列表中删除Pod,对于副本控制器来说,此Pod将不再被认为是运行着的Pod的一部分。缓慢关闭的pod可以继续对外服务,直到负载均衡器将其移除。
6.)当超过优雅的退出时间,在Pod中任何正在运行的进程都会被发送被杀死。
7)Kubelet完成Pod的删除,并将优雅的退出时间设置为0。此时会将Pod删除,在客户端将不可见。
在默认情况下,Kubernetes集群所有的删除操作的优雅退出时间都为30秒。kubectl delete命令支持–graceperiod=的选项,以支持用户来设置优雅退出的时间。0表示删除立即执行,即立即从API中删除现有的pod,同时一个新的pod会被创建。实际上,就算是被设置了立即结束的的Pod,Kubernetes仍然会给一个很短的优雅退出时间段,才会开始强制将其杀死。
Pod的生命周期包括:从Pod被创建、并调度到Node中、以及Pod成功或失败的终止。Pod的阶段是一个简单的、高层次的Pod所处在生命周期的概述。在Pod的生命周期中,有如下的几个状态:
在Pod的规格中有一个restartPolicy属性,它的值包括:Always, OnFailure和Never。
1.《Pull an Image from a Private Registry》地址:https://kubernetes.io/docs/tasks/configure-pod-container/pull-image-private-registry/
2.《Kubernetes调度详解》作者:张夏 地址:http://dockone.io/article/2885
3.《predicates.go》地址:https://github.com/kubernetes/kubernetes/blob/master/pkg/scheduler/algorithm/predicates/predicates.go
4.《Define Environment Variables for a Container》地址:https://kubernetes.io/docs/tasks/inject-data-application/define-environment-variable-container/
5.《Define a Command and Arguments for a Container》地址:https://kubernetes.io/docs/tasks/inject-data-application/define-command-argument-container/
6.《Pod Lifecycle》地址:https://kubernetes.io/docs/concepts/workloads/pods/pod-lifecycle
7.《Init Containers》地址:https://kubernetes.io/docs/concepts/workloads/pods/init-containers/
8.《Configure Pod Initialization》地址:https://kubernetes.io/docs/tasks/configure-pod-container/configure-pod-initialization/
9.《Assign CPU Resources to Containers and Pods》地址:https://kubernetes.io/docs/tasks/configure-pod-container/assign-cpu-resource/
10.《Assign Memory Resources to Containers and Pods》地址:https://kubernetes.io/docs/tasks/configure-pod-container/assign-memory-resource/
11.《Configure Liveness and Readiness Probes》地址:https://kubernetes.io/docs/tasks/configure-pod-container/configure-liveness-readiness-probes/
12.《predicates ordering》地址:https://github.com/kubernetes/community/blob/master/contributors/design-proposals/scheduling/predicates-ordering.md
13.《priorities》地址:https://github.com/kubernetes/kubernetes/tree/master/pkg/scheduler/algorithm/priorities
14.《Assigning Pods to Nodes》地址:https://kubernetes.io/docs/concepts/configuration/assign-pod-node/
15.《Pod Overview》地址:https://kubernetes.io/docs/concepts/workloads/pods/pod-overview/