深入剖析Kubernetes--第五章:Kubernetes编排原理_Pod

kubernetes编排原理:Pod

1 为什么需要Pod

复习:

​ Namespace做隔离,Cgroups做限制,rootfs做文件系统

​ 容器的本质是进程

今日学习:

​ 在操作系统中,进程通常以进程组的方式“有原则”地组织在一起。

​ 一些容器之间需要紧密协作(超亲密关系):互相之间发生直接的文件交换、使用localhost 或者Socket文件进行本地通信、会发生非常频繁的远程调用、需要共享某些Linux Namespace(例如一个容器需要加入另一个容器的 Network Namespace)等

​ Pod是一个逻辑概念,是一组共享了某些资源的容器。Pod里所有容器都共享一个Network Namespace,实现上则需要一个中间容器–Infra容器(永远是第一个被创建的容器),其他用户定义的其他容器则通过Join Network Namespace的方式与Infra容器关联在一起。

Pod中的容器A、B:

​ 它们可以直接使用localhost进行通信

​ 他们看到的网络设备跟Infra一样

​ 一个Pod只有一个IP地址,也就是这个Pod的Network Namespace对应的IP地址

​ 所有网络资源都是一个Pod一份,被所有Pod中容器共享

​ Pod的生命周期只跟Infra容器一致,而与容器A和容器B无关

​ ps:如果为k8s开发网络插件,应考虑如何配置Pod的Network Namespace,而不是考虑每一个用户容器如何使用你的网络配置。

共享Volume:

​ kubernetes项目只需要把所有的Volume的定义都设计在Pod层级即可,Pod里的容器只要声明挂载这个Volume,就一定可以共享这个Volume对应的宿主机目录

apiVersion: v1
kind: pod
metadata:
  name: two-containers
spec:
  restartPolicy: Never
  volumes:
  - name: share-data
    hostPath:
      path: /data
  containers:
  - name: nginx-container
    image: nginx
    volumeMounts:
    - name: share-data
      mountPath: "/usr/share/nginx/html"
  - name: debian-container
    image: debian
    volumeMounts:
    - name: share-data
      mountPath: "/pod-data"
    command: ["/bin/sh"]
    args: ["-c","echo Hello from the debian container > /pod-data/index.hgtml"]
kubectl exec two-containers -it -c nginx-container /in/bash
cd /usr/share/nginx/html/
ls
index.hgtml

WAR包与Web服务器解决方法//貌似pull失败

apiVersion: v1
kind: Pod
metadata:
  name: javaweb-2
spec:
  initContainers:
  - image: geektime/sample:v2
    name: war
    command: ["cp","/sample.war","/app"]
    volumeMounts:
    - name: app-volume
      mountPath: /app
  containers:
  - name: tomcat
    image: geektime/tomcat:7.0
    command: ["sh","-c","/root/apache-tomcat-7.0.42-v2/bin/start.sh"]
    volumeMounts:
    - name: app-volume
      mountPath: /root/apache-tomcat-7.0.42-v2/webapps
    ports:
    - containerPort: 8080
      hostPort: 8001
  volumes:
  - name: app-volume
    emptyDir: {}

这里声明了两个容器,第一个容器使用的镜像是 geektime/sample:v2 ,这个镜像只有一个存放在根目录的 WAR 包 sample.war。另一个容器使用的镜像是 Tomcat。

WAR 包容器声明的是一个 initContainer 类型。initContainer 和 container 的区别在于,initContainer 会先于 container 且按照声明顺序运行,等 initContainer 运行完成才会运行普通的 container(有关顺序的容器:定义为Init Container)。

Pod 上挂载的 volume 是一个空目录 app-volume,即它只用于容器间共享。WAR 包容器将 app-volume 挂载到自己的 /app 目录。Tomcat 容器将 app-volume 挂载到自己的 /root/apache-tomcat-7.0.42-v2/webapps 目录下。当 WAR 包容器运行时就会将 sample.war 拷贝到对应目录上,因此 Tomcat 在运行时就能加载对应 Java 应用了。并且在之后需要更新 WAR 包时,只要打一个新的 WAR 包镜像即可。

这种通过主从容器的组织方式我们称为 Sidecar 模式。即我们可以启动一个辅助容器独立于主容器完成一些工作。

Istio 就是一个通过共享 Network Namespace 典型的 Sidecar 项目。

2.深入剖析Pod

基本结构

apiVersion: v1     #必选,版本号,例如v1
kind: Pod         #必选,资源类型,例如 Pod
metadata:         #必选,元数据
  name: string     #必选,Pod名称
  namespace: string  #Pod所属的命名空间,默认为"default"
  labels:           #自定义标签列表
    - name: string                 
spec:  #必选,Pod中容器的详细定义
  containers:  #必选,Pod中容器列表
  - name: string   #必选,容器名称
    image: string  #必选,容器的镜像名称
    imagePullPolicy: [ Always|Never|IfNotPresent ]  #获取镜像的策略 
    command: [string]   #容器的启动命令列表,如不指定,使用打包时使用的启动命令
    args: [string]      #容器的启动命令参数列表
    workingDir: string  #容器的工作目录
    volumeMounts:       #挂载到容器内部的存储卷配置
    - name: string      #引用pod定义的共享存储卷的名称,需用volumes[]部分定义的的卷名
      mountPath: string #存储卷在容器内mount的绝对路径,应少于512字符
      readOnly: boolean #是否为只读模式
    ports: #需要暴露的端口库号列表
    - name: string        #端口的名称
      containerPort: int  #容器需要监听的端口号
      hostPort: int       #容器所在主机需要监听的端口号,默认与Container相同
      protocol: string    #端口协议,支持TCP和UDP,默认TCP
    env:   #容器运行前需设置的环境变量列表
    - name: string  #环境变量名称
      value: string #环境变量的值
    resources: #资源限制和请求的设置
      limits:  #资源限制的设置
        cpu: string     #Cpu的限制,单位为core数,将用于docker run --cpu-shares参数
        memory: string  #内存限制,单位可以为Mib/Gib,将用于docker run --memory参数
      requests: #资源请求的设置
        cpu: string    #Cpu请求,容器启动的初始可用数量
        memory: string #内存请求,容器启动的初始可用数量
    lifecycle: #生命周期钩子
        postStart: #容器启动后立即执行此钩子,如果执行失败,会根据重启策略进行重启
        preStop: #容器终止前执行此钩子,无论结果如何,容器都会终止
    livenessProbe:  #对Pod内各容器健康检查的设置,当探测无响应几次后将自动重启该容器
      exec:         #对Pod容器内检查方式设置为exec方式
        command: [string]  #exec方式需要制定的命令或脚本
      httpGet:       #对Pod内个容器健康检查方法设置为HttpGet,需要制定Path、port
        path: string
        port: number
        host: string
        scheme: string
        HttpHeaders:
        - name: string
          value: string
      tcpSocket:     #对Pod内个容器健康检查方式设置为tcpSocket方式
         port: number
       initialDelaySeconds: 0       #容器启动完成后首次探测的时间,单位为秒
       timeoutSeconds: 0          #对容器健康检查探测等待响应的超时时间,单位秒,默认1秒
       periodSeconds: 0           #对容器监控检查的定期探测时间设置,单位秒,默认10秒一次
       successThreshold: 0
       failureThreshold: 0
       securityContext:
         privileged: false
  restartPolicy: [Always | Never | OnFailure]  #Pod的重启策略
  nodeName:  #设置NodeName表示将该Pod调度到指定到名称的node节点上
  nodeSelector: obeject #设置NodeSelector表示将该Pod调度到包含这个label的node上
  imagePullSecrets: #Pull镜像时使用的secret名称,以key:secretkey格式指定
  - name: string
  hostNetwork: false   #是否使用主机网络模式,默认为false,如果设置为true,表示使用宿主机网络
  volumes:   #在该pod上定义共享存储卷列表
  - name: string    #共享存储卷名称 (volumes类型有很多种)
    emptyDir: {}       #类型为emtyDir的存储卷,与Pod同生命周期的一个临时目录。为空值
    hostPath: string   #类型为hostPath的存储卷,表示挂载Pod所在宿主机的目录
      path: string                #Pod所在宿主机的目录,将被用于同期中mount的目录
    secret:          #类型为secret的存储卷,挂载集群与定义的secret对象到容器内部
      scretname: string  
      items:     
      - key: string
        path: string
    configMap:         #类型为configMap的存储卷,挂载预定义的configMap对象到容器内部
      name: string
      items:
      - key: string
        path: string
#   在这里,可通过一个命令来查看每种资源的可配置项
#   kubectl explain 资源类型         查看某种资源可以配置的一级属性
#   kubectl explain 资源类型.属性     查看属性的子属性
[root@k8s-master01 ~]# kubectl explain pod
KIND:     Pod
VERSION:  v1
FIELDS:
   apiVersion   
   kind 
   metadata     
   spec 
   status       

[root@k8s-master01 ~]# kubectl explain pod.metadata
KIND:     Pod
VERSION:  v1
RESOURCE: metadata 
FIELDS:
   annotations  
   clusterName  
   creationTimestamp    
   deletionGracePeriodSeconds   
   deletionTimestamp    
   finalizers   <[]string>
   generateName 
   generation   
   labels       
   managedFields        <[]Object>
   name 
   namespace    
   ownerReferences      <[]Object>
   resourceVersion      
   selfLink     
   uid  
 
  
在kubernetes中基本所有资源的一级属性都是一样的,主要包含5部分:

- apiVersion  版本,由kubernetes内部定义,版本号必须可以用 kubectl api-versions 查询到
- kind  类型,由kubernetes内部定义,版本号必须可以用 kubectl api-resources 查询到
- metadata  元数据,主要是资源标识和说明,常用的有name、namespace、labels等
- spec  描述,这是配置中最重要的一部分,里面是对各种资源配置的详细描述
- status  状态信息,里面的内容不需要定义,由kubernetes自动生成

在上面的属性中,spec是接下来研究的重点,继续看下它的常见子属性:

- containers <[]Object> 容器列表,用于定义容器的详细信息
- nodeName  根据nodeName的值将pod调度到指定的Node节点上
- nodeSelector  根据NodeSelector中定义的信息选择将该Pod调度到包含这些label的Node 上
- hostNetwork  是否使用主机网络模式,默认为false,如果设置为true,表示使用宿主机网络
- volumes <[]Object> 存储卷,用于定义Pod上面挂在的存储信息
- restartPolicy  重启策略,表示Pod在遇到故障的时候的处理策略
 
  

基础

凡是调度、网络、存储,以及安全相关的属性,基本上是 Pod 级别的。

这些属性的共同特征是,它们描述的是“机器”这个整体,而不是里面运行的“程序”。比如,配置这个“机器”的网卡(即:Pod 的网络定义),配置这个“机器”的磁盘(即:Pod 的存储定义),配置这个“机器”的防火墙(即:Pod 的安全定义)。更不用说,这台“机器”运行在哪个服务器之上(即:Pod 的调度)。

HostAliases:

定义了 Pod 的 hosts 文件(比如 /etc/hosts)里的内容,用法如下

apiVersion: v1
kind: Pod
...
spec:
  hostAliases:
  - ip: "10.1.2.3"
    hostnames:
    - "foo.remote"
    - "bar.remote"
...

在这个 Pod 的 YAML 文件中,我设置了一组 IP 和 hostname 的数据。这样,这个 Pod 启动后,/etc/hosts 文件的内容将如下所示:

cat /etc/hosts
# Kubernetes-managed hosts file.
127.0.0.1 localhost
...
10.244.135.10 hostaliases-pod
10.1.2.3 foo.remote
10.1.2.3 bar.remote

Kubernetes 项目中,如果要设置 hosts 文件里的内容,一定要通过这种方法。否则,如果直接修改了 hosts 文件的话,在 Pod 被删除重建之后,kubelet 会自动覆盖掉被修改的内容。

shareProcessNamespace
apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  shareProcessNamespace: true
  containers:
  - name: nginx
    image: nginx
  - name: shell
    image: busybox
    stdin: true
    tty: true

shareProcessNamespace=true 意味着 Pod 里的容器要共享 PID Namespace

这个 Pod 被创建后,可以使用 shell 容器的 tty 跟这个容器进行交互了

使用 kubectl attach 命令,连接到 shell 容器的 tty 上

kubectl attach -it nginx -c shell

在 shell 容器里执行 ps 指令,查看所有正在运行的进程

$ kubectl attach -it nginx -c shell
/ # ps ax
PID   USER     TIME  COMMAND
    1 root      0:00 /pause
    8 root      0:00 nginx: master process nginx -g daemon off;
   14 101       0:00 nginx: worker process
   15 root      0:00 sh
   21 root      0:00 ps ax

在这个容器里,不仅可以看到它本身的 ps ax 指令,还可以看到 nginx 容器的进程,以及 Infra 容器的 /pause 进程。这就意味着,整个 Pod 里的每个容器的进程,对于所有容器来说都是可见的:它们共享了同一个 PID Namespace。

Containers

Init Containers 的生命周期,会先于所有的 Containers,并且严格按照定义的顺序执行

Lifecycle

​ 它定义的是 Container Lifecycle Hooks。顾名思义,Container Lifecycle Hooks 的作用,是在容器状态发生变化时触发一系列“钩子”。

apiVersion: v1
kind: Pod
metadata:
  name: lifecycle-demo
spec:
  containers:
  - name: lifecycle-demo-container
    image: nginx
    lifecycle:
      postStart:
        exec:
          command: ["/bin/sh", "-c", "echo Hello from the postStart handler > /usr/share/message"]
      preStop:
        exec:
          command: ["/usr/sbin/nginx","-s","quit"]

postStart 在容器启动后,立刻执行一个指定的操作。需要明确的是,postStart 定义的操作,虽然是在 Docker 容器 ENTRYPOINT 执行之后,但它并不严格保证顺序。也就是说,在 postStart 启动时,ENTRYPOINT 有可能还没有结束。

preStop 发生的时机,则是容器被杀死之前(比如,收到了 SIGKILL 信号)。而需要明确的是,preStop 操作的执行,是同步的。所以,它会阻塞当前的容器杀死流程,直到这个 Hook 定义操作完成之后,才允许容器被杀死,这跟 postStart 不一样。

Pod生命周期
  1. Pending。这个状态意味着,Pod 的 YAML 文件已经提交给了 Kubernetes,API 对象已经被创建并保存在 Etcd 当中。但是,这个 Pod 里有些容器因为某种原因而不能被顺利创建。比如,调度不成功。
  2. Running。这个状态下,Pod 已经调度成功,跟一个具体的节点绑定。它包含的容器都已经创建成功,并且至少有一个正在运行中。
  3. Succeeded。这个状态意味着,Pod 里的所有容器都正常运行完毕,并且已经退出了。这种情况在运行一次性任务时最为常见。
  4. Failed。这个状态下,Pod 里至少有一个容器以不正常的状态(非 0 的返回码)退出。这个状态的出现,意味着你得想办法 Debug 这个容器的应用,比如查看 Pod 的 Events 和日志。
  5. Unknown。这是一个异常状态,意味着 Pod 的状态不能持续地被 kubelet 汇报给 kube-apiserver,这很有可能是主从节点(Master 和 Kubelet)间的通信出现了问题。

进阶

volume

k8s中有几种特殊的 Volume( Projected Volume 投射数据卷),不用于存放容器里的数据,也不是用来进行容器和宿主机之间的数据交换。用于为容器提供预先定义好的数据。

常用的有:

  1. Secret;
  2. ConfigMap;
  3. Downward API;
  4. ServiceAccountToken。
Secret:

把 Pod 想要访问的加密数据,存放到 Etcd 中。然后,可以通过在 Pod 的容器里挂载 Volume 的方式,访问到这些 Secret 里保存的信息。

apiVersion: v1
kind: Pod
metadata:
  name: test-projected-volume 
spec:
  containers:
  - name: test-secret-volume
    image: busybox
    args:
    - sleep
    - "86400"
    volumeMounts:
    - name: mysql-cred
      mountPath: "/projected-volume"
      readOnly: true
  volumes:
  - name: mysql-cred
    projected:
      sources:
      - secret:
          name: user
      - secret:
          name: pass

使用文本创建 Secret 对象

cat ./username.txt
admin
cat ./password.txt
c1oudc0w!
 
kubectl create secret generic user --from-file=./username.txt
kubectl create secret generic pass --from-file=./password.txt

kubectl get secrets
NAME           TYPE                                DATA      AGE
pass                  Opaque                                1      10s
user                  Opaque                                1      16s

username.txt 和 password.txt 文件里,存放的就是用户名和密码;而 user 和 pass,则是为 Secret 对象指定的名字。

编写 YAML 文件的方式创建 Secret 对象

apiVersion: v1
kind: Secret
metadata:
  name: mysecret
type: Opaque
data:
  user: YWRtaW4=
  pass: MWYyZDFlMmU2N2Rm

Secret 对象要求这些数据必须是经过 Base64 转码的,以免出现明文密码的安全隐患

echo -n 'admin' | base64
YWRtaW4=
echo -n '1f2d1e2e67df' | base64
MWYyZDFlMmU2N2Rm

创建Pod

kubectl create -f test-projected-volume.yaml

验证

kubectl exec -it test-projected-volume -- /bin/sh
ls /projected-volume/
user
pass
cat /projected-volume/user
root
cat /projected-volume/pass
1f2d1e2e67df

通过挂载方式进入到容器里的 Secret,一旦其对应的 Etcd 里的数据被更新,这些 Volume 里的文件内容,同样也会被更新。这个更新可能会有一定的延时。

ConfigMap

ConfigMap与Secret类似,但ConfigMap 保存的是不需要加密的、应用所需的配置信息。

ConfigMap 的用法几乎与 Secret 完全相同:可以使用 kubectl create configmap 从文件或者目录创建 ConfigMap

也可以直接编写 ConfigMap 对象的 YAML 文件。

例如:一个 Java 应用所需的配置文件(.properties 文件),就可以通过下面这样的方式保存在 ConfigMap 里:

# .properties 文件的内容
$ cat example/ui.properties
color.good=purple
color.bad=yellow
allow.textmode=true
how.nice.to.look=fairlyNice
 
# 从.properties 文件创建 ConfigMap
$ kubectl create configmap ui-config --from-file=example/ui.properties
 
# 查看这个 ConfigMap 里保存的信息 (data)
$ kubectl get configmaps ui-config -o yaml
apiVersion: v1
data:
  ui.properties: |
    color.good=purple
    color.bad=yellow
    allow.textmode=true
    how.nice.to.look=fairlyNice
kind: ConfigMap
metadata:
  creationTimestamp: "2022-03-03T13:03:46Z"
  name: ui-config
  namespace: default
  resourceVersion: "128611"
  selfLink: /api/v1/namespaces/default/configmaps/ui-config
  uid: be23a898-15f3-43ef-a67e-5d298e0d153a

//kubectl get -o yaml 这样的参数,会将指定的 Pod API 对象以 YAML 的方式展示出来

Downward API

让 Pod 里的容器能够直接获取到这个 Pod API 对象本身的信息

apiVersion: v1
kind: Pod
metadata:
  name: test-downwardapi-volume
  labels:
    zone: us-est-coast
    cluster: test-cluster1
    rack: rack-22
spec:
  containers:
    - name: client-container
      image: k8s.gcr.io/busybox
      command: ["sh", "-c"]
      args:
      - while true; do
          if [[ -e /etc/podinfo/labels ]]; then
            echo -en '\n\n'; cat /etc/podinfo/labels; fi;
          sleep 5;
        done;
      volumeMounts:
        - name: podinfo
          mountPath: /etc/podinfo
          readOnly: false
  volumes:
    - name: podinfo
      projected:
        sources:
        - downwardAPI:
            items:
              - path: "labels"
                fieldRef:
                  fieldPath: metadata.labels

Downward API Volume,则声明了要暴露 Pod 的 metadata.labels 信息给容器。

通过这样的声明方式,当前 Pod 的 Labels 字段的值,就会被 Kubernetes 自动挂载成为容器里的 /etc/podinfo/labels 文件。

这个容器负责打印出 /etc/podinfo/labels 里的内容。可以通过 kubectl logs 指令,查看到这些 Labels 字段被打印出来

Probe

容器健康检查和恢复机制

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: test-liveness-exec
spec:
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy5.
      initialDelaySeconds: 5
      periodSeconds: 5

定义一个 livenessProbe(健康检查)。它的类型是 exec,这意味着,它会在容器启动后,在容器里面执行一句我们指定的命令,比如:“cat /tmp/healthy”。这时,如果这个文件存在,这条命令的返回值就是 0,Pod 就会认为这个容器不仅已经启动,而且是健康的。这个健康检查,在容器启动 5 s 后开始执行(initialDelaySeconds: 5),每 5 s 执行一次(periodSeconds: 5)。

创建此Pod

kubectl create -f test-liveness-exec.yaml

由于已经通过了健康检查,这个 Pod 就进入了 Running 状态

test-liveness-exec   1/1     Running   0          30s

30 s 之后,再查看一下 Pod 的 Events:

test-liveness-exec   1/1     Running   1          119s

Events:
  Type     Reason     Age                From               Message
  ----     ------     ----               ----               -------
  Warning  Unhealthy  35s (x3 over 45s)  kubelet, node2     Liveness probe failed: cat: can't open '/tmp/healthy': No such file or directory
  Normal   Killing    35s                kubelet, node2     Container liveness failed liveness probe, will 

健康检查探查到 /tmp/healthy 已经不存在了,所以它报告容器是不健康的。

Pod 并没有进入 Failed 状态,而是保持了 Running 状态

RESTARTS 字段从 0 到 1 的变化,这个异常的容器已经被 Kubernetes 重启了(重新创建了容器)。在这个过程中,Pod 保持 Running 状态不变.

livenessProbe 也可以定义为发起 HTTP 或者 TCP 请求的方式:书P106

...
livenessProbe:
     httpGet:
       path: /healthz
       port: 8080
       httpHeaders:
       - name: X-Custom-Header
         value: Awesome
       initialDelaySeconds: 3
       periodSeconds: 3
  ...
    livenessProbe:
      tcpSocket:
        port: 8080
      initialDelaySeconds: 15
      periodSeconds: 20

Pod 可以暴露一个健康检查 URL(比如 /healthz),或者直接让健康检查去检测应用的监听端口。

restartPolicy

容器发生异常后:

  • Always:在任何情况下,只要容器不在运行状态,就自动重启容器;
  • OnFailure: 只在容器 异常时才自动重启容器;
  • Never: 从来不重启容器。
PodPreset

即Pod 预设置

开发人员定义pod.yaml:

apiVersion: v1
kind: Pod
metadata:
  name: website
  labels:
    app: website
    role: frontend
spec:
  containers:
    - name: website
      image: nginx
      ports:
        - containerPort: 80

运维人员就可以定义一个 PodPreset 对象:preset.yaml

apiVersion: settings.k8s.io/v1alpha1
kind: PodPreset
metadata:
  name: allow-database
spec:
  selector:
    matchLabels:
      role: frontend
  env:
    - name: DB_PORT
      value: "6379"
  volumeMounts:
    - mountPath: /cache
      name: cache-volume
  volumes:
    - name: cache-volume
      emptyDir: {}
kubectl create -f preset.yaml
kubectl create -f pod.yaml
kubectl get pod website -o yaml
apiVersion: v1
kind: Pod
metadata:
  name: website
  labels:
    app: website
    role: frontend
  annotations:
    podpreset.admission.kubernetes.io/podpreset-allow-database: "resource version"
spec:
  containers:
    - name: website
      image: nginx
      volumeMounts:
        - mountPath: /cache
          name: cache-volume
      ports:
        - containerPort: 80
      env:
        - name: DB_PORT
          value: "6379"
  volumes:
    - name: cache-volume
      emptyDir: {}

PodPreset 里定义的内容,只会在 Pod API 对象被创建之前追加在这个对象本身上,而不会影响任何 Pod 的控制器的定义。

你可能感兴趣的:(kubernetes)