kubernetes系列 - n. 设置kubelet 预留资源

参考资料:https://www.lmlphp.com/user/18418/article/item/473049/

节点预留及限制资源的几种方式

kubelet 的 Node Allocatable 特性,该特性主要是为系统守护进程预留计算资源。
Kubernetes 推荐集群管理员按照每个节点上的工作负载密度配置 Node Allocatable

Node Capacity(方式) 说明
kube-reserved kubernetes预留资源
system-reserved 系统预留资源
eviction-threshold kubernetes驱逐阈值
allocatable(available for pods) Allocatable 被定义为 pod 可用计算资源量。调度器不会超额申请 Allocatable。目前支持 CPU, memory 和 storage 这几个参数

1. kube-reserved

Kubelet Flag: --kube-reserved=[cpu=100m][,][memory=100Mi][,][storage=1Gi]

kube-reserved 是为了给诸如 kubelet、container runtime、node problem detector 等 kubernetes 系统守护进程争取资源预留。这并不代表要给以 pod 形式运行的系统守护进程保留资源。
设置方式:

1. 通过 systemctl status kubelet 查看kubelet 启动的配置文件地址
2. vim /var/lib/kubelet/config.yaml

apiVersion: kubelet.config.k8s.io/v1beta1
...
kubeReserved:  # 配置 kube 资源预留
  cpu: 500m
  memory: 1Gi
  ephemeral-storage: 1Gi

2. system-reserved

Kubelet Flag: --system-reserved=[cpu=100mi][,][memory=100Mi][,][storage=1Gi]

system-reserved 用于为诸如 sshd、udev 等系统守护进程争取资源预留。system-reserved 也应该为 kernel 预留 内存,因为目前 kernel 使用的内存并不记在 Kubernetes 的 pod 上。同时还推荐为用户登录会话预留资源(systemd 体系中的 user.slice)。

systemReserved:  # 配置系统资源预留
  memory: 1Gi

3. Eviction Thresholds

Kubelet Flag: --eviction-hard=[memory.available<500Mi]

节点级别的内存压力将导致系统内存不足(System OOMs),这将影响到整个节点及其上运行的所有 pod。节点可以暂时离线直到内存已经回收为止。
为了防止(或减少可能性)系统内存不足,kubelet 提供了 资源不足(Out of Resource) 管理。驱逐(Eviction)操作只支持 memory 和 storage。通过 --eviction-hard 标志预留一些内存后,当节点上的可用内存降至保留值以下时,kubelet 将尝试 驱逐 pod。
假设,如果节点上不存在系统守护进程,pod 将不能使用超过 capacity-eviction-hard 的资源。因此,为驱逐而预留的资源对 pod 是不可用的。

evictionHard:  # 配置硬驱逐阈值
  memory.available: "300Mi"
  nodefs.available: "10%"

4. 一般原则

在执行 system-reserved 预留操作时请加倍小心,因为它可能导致节点上的关键系统服务 CPU 资源短缺或因为内存不足(OOM)而被终止。

一般的限制设置顺序为:

  1. 在 pods 上执行 Allocatable 作为开始。
  2. 一旦足够用于追踪系统守护进程的监控和告警的机制到位,请尝试基于用量探索(usage heuristics)方式执行 kube-reserved。
  3. 随着时间推进,如果绝对必要,可以执行 system-reserved

5. 示例

这是一个用于说明节点 Allocatable 计算方式的示例:

节点拥有 32Gi 内存,16 核 CPU 和 100Gi 存储
--kube-reserved 设置为 cpu=1,memory=2Gi,storage=1Gi
--system-reserved 设置为 cpu=500m,memory=1Gi,storage=1Gi
--eviction-hard 设置为 memory.available<500Mi,nodefs.available<10%

在这个场景下,Allocatable 将会是 14.5 CPUs、28.5Gi 内存以及 98Gi 存储。
调度器保证这个节点上的所有 pod 请求的内存总量不超过 28.5Gi,存储不超过 88Gi。
当 pod 的内存使用总量超过 28.5Gi 或者磁盘使用总量超过 88Gi 时,Kubelet 将会驱逐它们。
如果节点上的所有进程都尽可能多的使用 CPU,则 pod 加起来不能使用超过 14.5 CPUs 的资源。

当没有执行 kube-reserved 和/或 system-reserved 且系统守护进程使用量超过其预留时,如果节点内存用量高于 31.5Gi 或存储大于 90Gi,kubelet 将会驱逐 pod。

你可能感兴趣的:(kubernetes系列 - n. 设置kubelet 预留资源)