使用ansible修复containerd容器逃逸漏洞

关于容器逃逸漏洞 CVE-2020-15257，网上已经有很多文章分析了，验证手段及修复方案也挺简单，升级 containerd 到指定版本即能修复漏洞。至于怎么升级 containerd，对于需要管理多个 K8s 集群的管理员来说就得好好考虑一下了。

最容易想到的方案是手工一个一个节点升级，简单可行，就是容易疲劳操作，后续有类似的事情还得这么干一遍，集群跟节点规模大了的话，这种操作就太骚气了，这么干不是个好办法。
因此我们决定写个 ansible playbook，一劳永逸，方便后面类似的工作可以复用代码。

想要自动化操作，我们得要理一下思路，想清楚操作逻辑，怎么做才能确保影响面最小，因为升级 containerd 涉及到容器引擎的重启，不可避免的业务容器也得要重启了。

我们大概整理了一下思路：
- 先升级 master 节点，待 master 节点升级完成后再升级 worker 节点
- 操作一个节点前先判断集群所有节点的状态是否正常，如集群所有节点状态均正常，则升级该节点的 containerd，如有集群节点状态不正常，则异常退出
- 当一个节点升级 containerd 完成后检测本节点的 kubelet 状态，待 kubelet 正常后再进行下一个循环，若检查 5min kubelet 都没法正常则同样异常退出
- 一个一个节点滚动轮询
其实这里还可以做更多的逻辑判断，比如说升级完一个节点之后加上检查整个集群所有 pod 的状态以及集群网络等等（实际上应该根据不同的实际环境情况来定判断逻辑的）。但根据混沌工程理论，我们认为随便故障三几个节点都不应该影响整个集群以及应用的健康状态，这个理论跟 K8s 的能力也是匹配的。

理清楚思路，写代码就相对简单了。

首先，定义一个 ansible roles

# 所有代码就几个文件，还是非常简单的
.
├── update_node_containerd
│   ├── files
│   │   └── check_node_status.sh
│   ├── README.md
│   ├── tasks
│   │   ├── install_jq.yml
│   │   ├── main.yml
│   │   └── update_containerd_loop.yml
│   └── vars
│       └── main.yml
└── update_node_containerd.yml
# 指定操作机器范围以及使用串行的操作方式
---
- hosts: update_containerd
  remote_user: root
  serial: 1
  gather_facts: false
  roles:
    - update_node_containerd

接着进入 role 的 main.yml，更新 yum repo(包含新版本的 containerd)，安装 jq 以及进入判断升级 containerd 循环。

---
# tasks file for update node containerd
# Configure intranet YUM repo
- name: create-yum-repo
  shell: curl http://{{ yum_server }}/repo/get_yum_L7_latest.sh | bash

# include update containerd
- include: install_jq.yml
- include: update_containerd_loop.yml

进入升级 containerd 循环
- 注册一个变量，用于定义检查集群状态
- 若集群状态正常，则升级当前节点的 containerd 版本
- 升级完 containerd 版本后检查当前节点的 kubelet 状态，若 5min 后依然异常则异常退出

---
# tasks file for update containerd
- name: check-node-status
  script: check_node_status.sh
  register: node_state_result

- name: update-containerd
  yum: 
    name: ['containerd.io-1.3.9-3.1.el7']
    state: present
  when: "'error' not in node_state_result.stdout"

- name: waiting-kubelet-to-come-back
  local_action:
    module: wait_for
    host: "{{ inventory_hostname }}"
    port: 10250
    delay: 5
    timeout: 300
    state: started

- fail:
    msg: "Conditions established,Interrupt running playbook"
  when: "'error' in node_state_result.stdout"

check_node_status.sh
- 通过集群 api 检查集群节点状态，如有非正常状态则返回 error

#!/bin/bash

set -euo pipefail

api_url=""
api_token=""
k8s_cluster=""

# sleep 1min wait for cluster status ready
sleep 60

# check the cluster node status
for item in $(curl -sSk -H "Authorization: Bearer ${api_token}" ${api_url}/clusters/${k8s_cluster}/nodes | jq -r '.data[].state'); do
    case "$item" in
        active|cordoned)
            echo ready
        ;;
        unavailable)
            echo error
        ;;
        *)
            echo error
        ;;
    esac
done

代码就这么多了，其实还是很简单的，做这些事情都是为了总结一下思路，为后面类似的工作偷偷懒。

运维工作是一个知识积累的过程，能在工作中明确思路，运用自己的知识是一件比较幸运的事情。

使用ansible修复containerd容器逃逸漏洞

你可能感兴趣的:(使用ansible修复containerd容器逃逸漏洞)