Zz罗伯特

k8s系列（四）——资源对象

k8s系列四——资源对象

pod概念

思考：为什么k8s会引出pod这个概念，容器不能解决么？

我的理解：一组密切相关的服务使用容器的话，如果他们的镜像不在一个容器里的话，那么就需要配置反向代理进行通信，没办法进行localhost实现通信

pod类型

自主式pod：（不是被控制器管理的Pod）：死亡后不会被拉起来，也不会有人创建新的Pod

每个Pod里运行着一个特殊的被称为Pause容器，其他容器为业务容器，这些业务容器共享Pause容器的网络栈和Volume挂载卷，因此他们之间通信和数据交互更为高效。

在设计时我们可以充分利用这一特性将一组密切相关的服务进程放入同一个Pod中，同一个Pod里的容器之间仅需通过localhost就能互相通信，这样也意味着同一个pod内容器的端口不能冲突！！！。

控制器管理的Pod：

POD控制器类型：
- ReplicationController & ReplicaSet & Deployment
  
  ReplicationController ：确保期望值，少了就创建新的Pod替代，多了会自动回收。(官方已抛弃！)
  
  新版本的K8S种建议使用ReplicaSet来取代ReplicationController，没有本质不同，但只有ReplicaSet 支持集合式的selector（每个Pod有不同标签，ReplicaSet 操作Pod可以按照标签条件操作）
  
  虽然ReplicaSet 可以独立，但是一般还是建议使用Deployment来自动管理ReplicaSet ，这样就无需担心跟其他机制不兼容问题（如ReplicaSet 不支持rolling-update（滚动更新），但是Deployment支持（Deployment并不支持Pod创建），所以这俩要一起运行。）
  
  滚动更新的含义：
  
  比如有两个pod，里面的镜像是V1版本，现如今我们需要V2版本的，那么k8s就会先启动一个V2版本的pod，然后删除其中一个v1版本，然后再启动一个V2版本pod，在删除最后一个V1版本的
  
  Deployment原理
  
  创建3个pod为V1版本的镜像
  
  滚动更新，更新V1到V2，新建个RS然后创建1个V2，删除1个V1
  
  从而达到滚动更新的状态，此时RS，停用、保留，可以回滚
  
  如果v2版本有bug，还可以回滚，undo即可
  
  旧的RS启用，开始回滚老版V1以此类推。
- HPA（HorizontalPodAutoScale）
  
  HPA（HorizontalPodAutoScale）根据利用率平滑扩展仅适用于DaemonSet和ReplicaSet ，在V1版本中支持根据Pod的利用率扩容，在vlalpha版本中，支持根据内存和用户自定义的metric扩缩容。
  
  HPA基于RS定义，并且监控V2Pod的资源利用率
  
  当cpu > 80 后，符合条件，会创建Pod
  
  每次创建后判断条件，符合后继续创建，直到最大值。期间如果cpu < 80 了，就会停止创建。使用率小就回收，直到最小值，实现水平自动扩展（弹性伸缩）。
- StatefulSet
  
  为了解决有状态服务的问题（Deployment和RS是为了解决无状态服务而设计（Docker主要也是）），其场景包括：
  
  - 稳定的持久化存储，即有个Pod死了，重新调度回来以后还是能访问到相同的持久化数据（数据不丢失），基于PVC实现。
  
  - 稳定的网络标识，即重新调度后的PodName和HostName不变，基于Headless Service（即没有Cluster IP的Service）来实现
  
  - 有序部署，有序扩展，按照顺序进行M>A>N（从0到N-1，在下一个Pod运行前，之前所有的Pod必须是running和Ready状态），基于init containers来实现。
  
  - 有序收缩，有序删除（即从N-1到0） Nagix > Apache >Mysql
- DaemonSet
  
  确保全部（或者一些）Node上运行一个Pod的副本。当有Node加入集群时，也会为他们新增一个Pod。当有Node从集群移除时，这些Pod也会被回收。删除DaemonSet将会删除它创建的所有Pod。除非打污点，正常情况所有Node都会运行一个且只有一个Pod。
  
  典型用法:
  - 运行集群存储 daemon,例如在每个Node上运行glusterd、ceph
  - 在每个Node上运行日志收集daemon，例如fluentd、logstash
  - 在每个Node上运行监控daemon，例如Prometheus Node Exporter、Zabix Agent 都可以封装在DaemonSet中在每个Node上运行，帮我们收集数据。
  可以在一个node里面运行多个daemonset，也可以将多个组装成一个pod运行！
- Job，Cronjob
  
  job负责批处理任务，即仅执行一次的任务，他保证批处理任务的一个或者多个Pod成功结束。
  
  比如要备份数据库，备份代码可以放到统一Pod里，再放到Job里执行，与Linux直接运行不同点是是封装好的Job可以重复利用，并且脚本执行异常退出可以重复执行，并且可以设置正常退出次数才算Job执行成功
  
  Cronjob管理基于时间的Job，即
  - 在给定时间点运行一次
  - 周期性地在给定时间点运行

pod的状态

Pod的status字段是一个PodStatus的对象，PodStatus中有一个phase字段。

无论是手动创建还是通过Deployment等控制器创建，Pod对象总是应该处于其生命进程中以下几个相位（phase）之一。

挂起（Pending）：API Server创建了pod资源对象已存入etcd中，但它尚未被调度完成，或者仍处于从仓库下载镜像的过程中。
运行中（Running）：Pod已经被调度至某节点，并且所有容器都已经被kubelet创建完成。
成功（Succeeded）：Pod中的所有容器都已经成功终止并且不会被重启
失败（Failed）：Pod中的所有容器都已终止了，并且至少有一个容器是因为失败终止。即容器以非0状态退出或者被系统禁止。
未知（Unknown）：Api Server无法正常获取到Pod对象的状态信息，通常是由于无法与所在工作节点的kubelet通信所致。

服务发现

Client访问service的IP和端口，使用RR（Round ribbon轮询）等算法间接访问到Pod。

客户端访问一组pod，service是通过标签来进行收集pod，进行统一代理

k8s的pod与pod之间的通讯方案：

网络通讯方式

网络通讯模式：

Kubernetes的网络模型假定了所有Pod都在一个可以直接连通的扁平的网络空间中（所有的pod都可以通过对方IP"直接到达"，其实底层有很多转换机制），这在GCE（Google Compute Engine）里面是现成的网络模型，K8S假定这个网络已存在。而在私有云搭建K8S集群，就不能假定这个网络已经存在了。我们需要自己实现这个网络假设，将不同节点上的Docker容器之间互相访问先打通，然后再运行K8S。

同一个Pod内的多个容器间：lo pause

各Pod之间的通讯： Overlay Network

Pod与Service之间的通讯：各节点的Iptables规则，新版本支持LVS 转发上限、效率更高

网络解决方案K8S+Flannel

Flannel是CoreOS团队针对K8S设计的一个网络规划服务，简单来说他，他的功能是让集群中的不同节点主机创建的Docker容器具有全集群唯一的虚拟IP主机。而且它还能在这些IP之间建立一个覆盖网络（Overlay Network），通过这个覆盖网络，将数据包原封不动地传递到目标容器内

ETCD之Flannel提供说明：

存储管理Flannel可分配的IP地址段资源
监控ETCD中每个Pod的实际地址，并在内存中建立维护Pod节点路由表

总结：

不同情况下网络通信方式

同一个 Pod 内部通讯：同一个 Pod 共享同一个网络命名空间，共享同一个 Linux(pod内的pause) 协议栈；
Pod1 至 Pod2（不同pod之间的访问）
- Pod1 与 Pod2 在同一台机器，由 Docker0 网桥直接转发请求至 Pod2，不需要经过 Flannel
- Pod1 与 Pod2 不在同一台主机，Pod的地址是与docker0在同一个网段的，但docker0网段与宿主机网卡是两个完全不同的IP网段，并且不同Node之间的通信只能通过宿主机的物理网卡进行。将Pod的IP和所在Node的IP关联起来，通过这个关联让Pod可以互相访问
Pod 至 Service 的网络

目前基于性能考虑，全部为 iptables 维护和转发（最新版转发模式可以修改为LVS模式）
Pod 到外网

Pod 向外网发送请求，查找路由表, 转发数据包到宿主机的网卡，宿主网卡完成路由选择后，iptables执行Masquerade，把源 IP 更改为宿主网卡的 IP，然后向外网服务器发送请求
外网访问 Pod：Service

组件通讯示意图

节点网络：真实的，物理网络

pod网络与service网络均为虚拟的，私有网络

资源清单

等同于剧本，里面已经写好了每一步怎么去做，k8s接收到剧本之后去执行，从而达到预期

资源：K8s 中所有的内容都抽象为资源，资源实例化之后，叫做对象

K8S 中的资源

依据资源的主要功能作为分类标准，Kubernetes的API对象大体可分为五个类别，如下：

级别	类型	名称	备注
名称空间	工作负载(Workload)	Pod、ReplicaSet、Deployment、StatefulSet、DaemonSet、Job、Cronjob ( ReplicationController 在 v1.11 版本被废弃 )
名称空间	负载均衡(Discovery &LB)	Service、Ingress、…
名称空间	配置和存储(Config&Storage)	Volume( 存储卷 )、CSI( 容器存储接口,可以扩展各种各样的第三方存储卷 )
名称空间	特殊类型的存储卷	ConfigMap( 当配置中心来使用的资源类型，热更新 )、Secret(保存敏感数据)、 DownwardAPI(把外部环境中的信息输出给容器)
集群级资源	集群(Cluster)	Namespace、Node、Role、ClusterRole、RoleBinding、ClusterRoleBinding	一旦经过定义以后，在全集群中都能被可见以及调用
元数据型资源	元数据(metadata)	HPA、PodTemplate、LimitRange	根据某些指标进行操作

资源清单

资源清单含义：

在 k8s 中，一般使用 yaml 格式的文件来创建符合我们预期期望的 pod ，这样的 yaml 文件我们一般称为资源清单

简单说明

是一个可读性高，用来表达数据序列的格式。YAML 的意思其实是：仍是一种标记语言，但为了强调这种语言以数据做为中心，而不是以标记语言为重点

基本语法

缩进时不允许使用Tab键，只允许使用空格
缩进的空格数目不重要，只要相同层级的元素左侧对齐即可
#标识注释，从这个字符一直到行尾，都会被解释器忽略

YAML 支持的数据结构

对象：键值对的集合，又称为映射（mapping）/ 哈希（hashes） / 字典（dictionary）
数组：一组按次序排列的值，又称为序列（sequence） / 列表（list）
纯量（scalars）：单个的、不可再分的值

对象类型：对象的一组键值对，使用冒号结构表示

name: Steve
age: 18

Yaml 也允许另一种写法，将所有键值对写成一个行内对象

hash: { name: Steve, age: 18 }

数组类型：一组连词线开头的行，构成一个数组

animal:
  - cat
  - dog

数组也可以采用行内表示法

animal: [Cat, Dog]

复合结构：对象和数组可以结合使用，形成复合结构

languages:
  -Ruby
  -Perl
websites:
YAML: yaml.org
Ruby: ruby-lang.org
Perl: use.perl.org

纯量：纯量是最基本的、不可再分的值。以下数据类型都属于纯量

1 字符串 布尔值 整数 浮点数 Null
2 时间 日期
数值直接以字面量的形式表示
number: 12.30
布尔值用true和false表示
isSet: true
 
null用 ~ 表示
parent: ~
 
时间采用 ISO8601 格式
iso8601: 2001-12-14t21:59:43.10-05:00
 
日期采用复合 iso8601 格式的年、月、日表示
date: 1976-07-31
 
YAML 允许使用两个感叹号，强制转换数据类型
e: !!str 123
f: !!str true

字符串

字符串默认不使用引号表示

str: 这是一行字符串

如果字符串之中包含空格或特殊字符，需要放在引号之中

str: '内容： 字符串'

单引号和双引号都可以使用，双引号不会对特殊字符转义

s1: '内容\n字符串'
s2: "内容\n字符串"

单引号之中如果还有单引号，必须连续使用两个单引号转义

str: 'labor''s day'

字符串可以写成多行，从第二行开始，必须有一个单空格缩进。换行符会被转为空格

str: 这是一段
 
 多行
 
 字符串

多行字符串可以使用|保留换行符，也可以使用>折叠换行

this:|
 
Foo
 
Bar
 
that: >
 
Foo
 
Bar

+ 表示保留文字块末尾的换行，- 表示删除字符串末尾的换行

s1: |
 
 Foo
 
s2: |+
 
 Foo
 
 
s3: |-
 
 Foo

常用字段的解释

必须存在的属性:

参数名	字段类型	说明
version	string	这里是指的是K8S API的版本，目前基本上是v1，可以用kubectl api-versions命令查询
kind	string	这里指的是yaml文件定义的资源类型和角色,比如:Pod
metadata	object	元数据对象，固定值就写metadata
metadata. name	string	元数据对象的名字，这里由我们编写，比如命名Pod的名字
metadata.namespace	string	元数据对象的命名空间,由我们自身定义
spec	object	详细定义对象，固定值就写Spec
spec.containers[]	list	这里是Spec对象的容器列表定义,是个列表
spec.containers[]. name	string	这里定义容器的名字
spec.containers[]. image	string	这里定义要用到的镜像名称

主要对象：

参数名	字段类型	说明
spec.containers[].name	string	定义容器的名字
spec.containers[J.image	string	定义要用到的镜像名称
spec.containers[]. imagePullPolicy	string	定义镜像拉取策略,有Always、Never、lfNotPresent三个值可选 (1) Always:意思是每次都尝试重新拉取镜像 (2)Never:表示仅使用本地镜像 (3)IfNotPresent:如果本地有镜像就使用本地镜像，没有就拉取在线镜像。上面三个值都没设置的话,默认是Always.
spec.containers[].command[]	List	指定容器启动命令，因为是数组可以指定多个，不指定则使用镜像打包时使用的启动命令。
spec.containers[].args[]	List	指定容器启动命令参数，因为是数组可以指定多个。
spec.containers[].workingDir	string	指定容器的工作目录
spec. containers[]. volumeMounts[]	List	指定容器内部的存储卷配置
spec.containers[].volumeMounts[].name	String	指定可以被容器挂载的存储卷的名称
spec.containers[].volumeMounts[].mountPath	String	指定可以被容器挂载的存储卷的路径
spec.containers[].volumeMounts[]J.readOnly	String	设置存储卷路径的读写模式,ture 或者false,默认为读写模式
spec.containers[].ports[]	List	指定容器需要用到的端口列表
spec.containers[].ports[].name	String	指定端口名称
spec.containers[].ports[].containerPort	String	指定容器需要监听的端口号
spec.containers[].ports[].hostPort	String	指定容器所在主机需要监听的端口号,默认跟上面containerPort相同,注意设置了hostPort，同一台主机无法启动该容器的相同副本(因为主机的端口号不能相同，这样会冲突)
spec.containers[].ports[].protocol	String	指定端口协议,支持TCP和UDP，默认值为TCP
spec.containers[].env[]	List	指定容器运行前需设置的环境变量列表
spec.containers[].env].name	String	指定环境变量名称
spec.containers[j.env[.value	String	指定环境变量值
spec.containers[J.resources	object	指定资源限制和资源请求的值(这里开始就是设置容器的资源上限)
spec.containers[].resources.limits	object	指定设置容器运行时资源的运行上限
spec.containers[J. resources.limits.cpu	String	指定CPU的限制,单位为core数,将用于docker run --cpu-shares参数(这里前面文章Pod资源限制有讲过)
spec.containers[]J.resources.limits.memory	String	指定MEM内存的限制,单位为MIB、GiB
spec.containers[].resources.requests	object	指定容器启动和调度时的限制设置
spec.containers[].resources.requests.cpu	String	CPU请求,单位为core数，容器启动时初始化可用数量
spec.containers[].resources.requests.memory	String	内存请求，单位为MIB、GiB，容器启动的初始化可用数量

额外的参数项：

参数名	字段类型	说明
spec.restartPolicy	String	定义Pod的重启策略，可选值为Always、OnFailure，默认值为Always. 1.Always: Pod—且终止运行，则无论容器是如何终止的，kubelet服务都将重启它。 2.OnFailure:只有Pod以非零退出码终止时，kubelet才会重启该容器。如果容器正常结束(退出码为0),则kubelet将不会重启它。 3. Never: Pod终止后，kubelet将退出码报告给Master，不会重启该Pod。
spec.nodeSelector	object	定义Node的Label过滤标签，以keyvalue格式指定
spec.imagePullSecrets	object	定义pull镜像时使用secret名称，以name:secretkey格式指定
spec.hostNetwork	Boolean	定义是否使用主机网络模式,默认值为false。设置true表示使用宿主机网络，不使用docker网桥,同时设置了true将无法在同一台宿主机上启动第二个副本。

如果想了解更详细的，可以使用命令：

kubectl explain pod 

# 结果显示
[root@k8s-master ~]# kubectl explain pods
KIND:     Pod
VERSION:  v1

DESCRIPTION:
     Pod is a collection of containers that can run on a host. This resource is
     created by clients and scheduled onto hosts.

FIELDS:
   apiVersion <string>
     APIVersion defines the versioned schema of this representation of an
     object. Servers should convert recognized schemas to the latest internal
     value, and may reject unrecognized values. More info:
     https://git.k8s.io/community/contributors/devel/api-conventions.md#resources

   kind <string>
     Kind is a string value representing the REST resource this object
     represents. Servers may infer this from the endpoint the client submits
     requests to. Cannot be updated. In CamelCase. More info:
     https://git.k8s.io/community/contributors/devel/api-conventions.md#types-kinds

   metadata <Object>
     Standard object's metadata. More info:
     https://git.k8s.io/community/contributors/devel/api-conventions.md#metadata

   spec