Kubernetes(K8S)容器集群管理环境完整部署详细教程-上篇

Kubernetes（通常称为"K8S"）是Google开源的容器集群管理系统。其设计目标是在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台。Kubernetes通常结合docker容器工具工作，并且整合多个运行着docker容器的主机集群，Kubernetes不仅仅支持Docker，还支持Rocket，这是另一种容器技术。Kubernetes是一个用于容器集群的自动化部署、扩容以及运维的开源平台。

本文系列：

Kubernetes(K8S)容器集群管理环境完整部署详细教程-上篇

Kubernetes(K8S)容器集群管理环境完整部署详细教程-中篇

Kubernetes(K8S)容器集群管理环境完整部署详细教程-下篇

通过Kubernetes, 可以快速有效地响应用户需求：

-> 快速而有预期地部署应用；
-> 极速地扩展你的应用；
-> 无缝对接新的应用功能；
-> 节省资源，优化硬件资源的使用；

Kubernetes功能特性：

->  自动化容器部署与复制
-> 随时扩展或收缩容器规模
-> 组织容器成组，提供容器间的负载均衡
->  快速更新及回滚容器版本
->  提供弹性伸缩，如果某个容器失效就进行替换

Kubernetes重要组件：

1）Master组件

Master节点上面主要由四个模块组成：APIServer、scheduler、controller manager、etcd
-> APIServer: 负责对外提供RESTful的Kubernetes API服务，它是系统管理指令的统一入口，任何对资源进行增删改查的操作都要交给APIServer处理后再提交给etcd。kubectl（k8s提供的客户端工具，该工具内部就是对Kubernetes API的调用）是直接和APIServer交互的。
-> schedule: 它的职责很明确，就是负责调度pod到合适的Node上。如果把scheduler看成一个黑匣子，那么它的输入是pod和由多个Node组成的列表，输出是Pod和一个Node的绑定，即将这个pod部署到这个Node上。Kubernetes目前提供了调度算法，但是同样也保留了接口，用户可以根据自己的需求定义自己的调度算法。
-> controller manager: 如果说APIServer做的是“前台”的工作的话，那controller manager就是负责“后台”的。每个资源一般都对应有一个控制器，而controller manager就是负责管理这些控制器的。比如我们通过APIServer创建一个pod，当这个pod创建成功后，APIServer的任务就算完成了。而后面保证Pod的状态始终和我们预期的一样的重任就由controller manager去保证了。
-> etcd: 它是一个高可用的键值存储系统，Kubernetes使用它来存储各个资源的状态，从而实现了Restful的API。

2）Node组件

每个Node节点主要由三个模块组成：kubelet、kube-proxy、runtime。
runtime。runtime指的是容器运行环境，目前Kubernetes支持docker和rkt两种容器。
-> kubelet:Kubelet是Master在每个Node节点上面的agent，是Node节点上面最重要的模块，它负责维护和管理该Node上面的所有容器，但是如果容器不是通过Kubernetes创建的，它并不会管理。本质上，它负责使Pod得运行状态与期望的状态一致。
-> kube-proxy:该模块实现了Kubernetes中的服务发现和反向代理功能。反向代理方面：kube-proxy支持TCP和UDP连接转发，默认基于Round Robin算法将客户端流量转发到与service对应的一组后端pod。服务发现方面，kube-proxy使用etcd的watch机制，监控集群中service和endpoint对象数据的动态变化，并且维护一个service到endpoint的映射关系，从而保证了后端pod的IP变化不会对访问者造成影响。另外kube-proxy还支持session affinity。

3）Pod

Pod是k8s进行资源调度的最小单位，每个Pod中运行着一个或多个密切相关的业务容器，这些业务容器共享这个Pause容器的IP和Volume，我们以这个不易死亡的Pause容器作为Pod的根容器，以它的状态表示整个容器组的状态。一个Pod一旦被创建就会放到Etcd中存储，然后由Master调度到一个Node绑定，由这个Node上的Kubelet进行实例化。每个Pod会被分配一个单独的Pod IP，Pod IP + ContainerPort 组成了一个Endpoint。

4）Service

Service其功能使应用暴露，Pods 是有生命周期的，也有独立的 IP 地址，随着 Pods 的创建与销毁，一个必不可少的工作就是保证各个应用能够感知这种变化。这就要提到 Service 了，Service 是 YAML 或 JSON 定义的由 Pods 通过某种策略的逻辑组合。更重要的是，Pods 的独立 IP 需要通过 Service 暴露到网络中。

K8s集群可以帮助培育出一个组件及工具的生态，帮助减轻在公有云及私有云上运行应用的负担。

搭建Kubernetes集群环境有以下三种方式：

1. Minikube安装方式

Minikube是一个工具，可以在本地快速运行一个单点的Kubernetes，尝试Kubernetes或日常开发的用户使用。但是这种方式仅可用于学习和测试部署，不能用于生产环境。

2. Kubeadm安装方式

kubeadm是一个kubernetes官方提供的快速安装和初始化拥有最佳实践（best practice）的kubernetes集群的工具，提供kubeadm init和kubeadm join，用于快速部署Kubernetes集群。目前kubeadm还处于beta 和alpha状态，不推荐用在生产环境，但是可以通过学习这种部署方法来体会一些官方推荐的kubernetes最佳实践的设计和思想。

kubeadm的目标是提供一个最小可用的可以通过Kubernetes一致性测试的集群，所以并不会安装任何除此之外的非必须的addon。kubeadm默认情况下并不会安装一个网络解决方案，所以用kubeadm安装完之后，需要自己来安装一个网络的插件。所以说，目前的kubeadm是不能用于生产环境的

3. 二进制包安装方式（生产部署的推荐方式）

从官方下载发行版的二进制包，手动部署每个组件，组成Kubernetes集群，这种方式符合企业生产环境标准的Kubernetes集群环境的安装，可用于生产方式部署。

一、基础信息

使用Kubernetes1.14.2，所有节点机操作系统是Centos7.5。本文档部署中所需kubernetes相关安装包和镜像可提前在FQ服务器上下载，然后同步到k8s部署机器上。具体信息如下:

ip地址	主机名	角色
172.16.60.241	k8s-master01	主节点1、etc节点1
172.16.60.242	k8s-master02	主节点2、etc节点2
172.16.60.243	k8s-master03	主节点3、etc节点3
172.16.60.244	k8s-node01	工作节点1
172.16.60.245	k8s-node02	工作节点2
172.16.60.246	k8s-node03	工作节点3
172.16.60.247	k8s-ha01	nginx节点1、harbor节点1
172.16.60.248	k8s-ha02	nginx节点2、harbor节点2

本套Kubernetes集群环境版本

- Kubernetes 1.14.2
- Docker 18.09.6-ce
- Etcd 3.3.13
- Flanneld 0.11.0

插件：

- Coredns
- Dashboard
- Metrics-server

镜像仓库：

- harbor（两个仓库相互同步，对外提供统一入口VIP地址）

主要配置策略

kube-apiserver高可用（Nginx负载层）：

- 使用Nginx+Keepalived实现高可用, VIP1：172.16.60.250；
- 关闭非安全端口 8080 和匿名访问；
- 在安全端口 6443 接收 https 请求；
- 严格的认证和授权策略 (x509、token、RBAC)；
- 开启 bootstrap token 认证，支持 kubelet TLS bootstrapping；
- 使用 https 访问 kubelet、etcd，加密通信；

kube-controller-manager高可用：

- 3节点高可用；
- 关闭非安全端口，在安全端口 10252 接收 https 请求；
- 使用 kubeconfig 访问 apiserver 的安全端口；
- 自动 approve kubelet 证书签名请求 (CSR)，证书过期后自动轮转；
- 各controller 使用自己的 ServiceAccount 访问 apiserver；

kube-scheduler高可用：

- 3节点高可用；
- 使用 kubeconfig 访问 apiserver 的安全端口；

kubelet：

- 使用 kubeadm 动态创建 bootstrap token，而不是在 apiserver 中静态配置；
- 使用TLS bootstrap机制自动生成 client 和 server 证书，过期后自动轮转；
- 在 kubeletConfiguration 类型的 JSON 文件配置主要参数；
- 关闭只读端口，在安全端口 10250 接收 https 请求，对请求进行认证和授权，拒绝匿名访问和非授权访问；
- 使用 kubeconfig 访问 apiserver 的安全端口；

kube-proxy：

- 使用kubeconfig 访问 apiserver 的安全端口；
- 在KubeProxyConfiguration 类型的 JSON 文件配置主要参数；
- 使用ipvs代理模式；

集群插件：

- DNS：使用功能、性能更好的 coredns；
- Dashboard：支持登录认证；
- Metric：metrics-server，使用 https 访问 kubelet 安全端口；
- Log：Elasticsearch、Fluend、Kibana；
- Registry 镜像库：Harbor私有仓库，两个节点相互同步；

kubernetes集群部署中生成的证书文件如下：

ca-key.pem 根私钥（controller-manager配置的时候，跟上--service-account-private-key-file）
ca.pem 根证书（apiserver配置的时候，跟上--service-account-key-file）
kubernetes-key.pem 集群私钥
kubernetes.pem 集群证书
kube-proxy.pem proxy证书-node节点进行认证
kube-proxy-key.pem proxy私钥-node节点进行认证
admin.pem 管理员证书-主要用于kubectl认证
admin-key.pem 管理员私钥-主要用于kubectl认证

TLS作用：
就是对通讯加密，防止中间人窃听；同时如果证书不信任的话根本就无法与 apiserver 建立连接，更不用提有没有权限向 apiserver 请求指定内容。
RBAC作用：
RBAC 中规定了一个用户或者用户组(subject)具有请求哪些 api 的权限；在配合 TLS 加密的时候，实际上 apiserver 读取客户端证书的 CN 字段作为用户名，读取 O 字段作为用户组。

总之想要与apiserver通讯就必须采用由apiserver CA签发的证书，这样才能形成信任关系，建立TLS连接；另外可通过证书的CN、O字段来提供RBAC所需用户与用户组。

kubernetes集群会默认开启RABC（角色访问控制机制），这里提前了解几个重要概念：

- DRBC
K8S 1.6引进，是让用户能够访问K8S API资源的授权方式（不授权就没有资格访问K8S的资源）
- 用户
K8S有两种用户：User 和 Service Account。其中，User给用户使用，Service Account给进程使用，让进程有相关权限。如Dashboard就是一个进程，可以创建一个Service Account给它使用。
- 角色
Role是一系列权限的集合，例如一个Role可包含读取和列出Pod的权限（ClusterRole和Role类似，其权限范围是整个集群）
- 角色绑定
RoleBinding把角色映射到用户，从而让这些用户拥有该角色的权限（ClusterRoleBinding和RoleBinding类似，可让用户拥有ClusteRole的权限）
- Secret
Secret是一个包含少量敏感信息如密码，令牌或密钥的对象。把这些信息保存在Secret对象中，可以在这些信息被使用时加以控制，并可以减低信息泄露的风险。

二、环境初始化准备

Kubernetes集群部署过程均需要使用root账号操作，下面初始化操作在k8s的master和node节点上操作。

这里先以k8s-master01节点为例，其他节点类似操作。
   
1）主机名修改
[root@k8s-master01 ~]# hostnamectl set-hostname k8s-master01
     
如果DNS不支持解析主机名称，则需要修改/etc/hosts文件，添加主机名和IP的对应关系：
[root@k8s-master01 ~]# cat >> /etc/hosts <>/root/.bashrc
[root@k8s-master01 ~]# source /root/.bashrc
     
5) 安装依赖包
[root@k8s-master01 ~]# yum install -y epel-release
[root@k8s-master01 ~]# yum install -y conntrack ntpdate ntp ipvsadm ipset jq iptables curl sysstat libseccomp wget lsof telnet
     
关闭无关的服务
[root@k8s-master01 ~]# systemctl stop postfix && systemctl disable postfix
     
6）关闭防火墙
在每台机器上关闭防火墙，清理防火墙规则，设置默认转发策略：
[root@k8s-master01 ~]# systemctl stop firewalld
[root@k8s-master01 ~]# systemctl disable firewalld
[root@k8s-master01 ~]# iptables -F && iptables -X && iptables -F -t nat && iptables -X -t nat
[root@k8s-master01 ~]# iptables -P FORWARD ACCEPT
[root@k8s-master01 ~]# firewall-cmd --state
not running
   
7) 关闭SELinux
关闭SELinux，否则后续K8S挂载目录时可能报错 Permission denied：
[root@k8s-master01 ~]# setenforce 0
[root@k8s-master01 ~]# sed -i 's/^SELINUX=.*/SELINUX=disabled/' /etc/selinux/config
     
8) 关闭swap分区
如果开启了swap分区，kubelet会启动失败(可以通过将参数 --fail-swap-on 设置为false来忽略swap on)，故需要在每个node节点机器上关闭swap分区。
这里索性将所有节点的swap分区都关闭，同时注释/etc/fstab中相应的条目，防止开机自动挂载swap分区：
[root@k8s-master01 ~]# swapoff -a
[root@k8s-master01 ~]# sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab
     
9) 关闭dnsmasq
linux系统开启了dnsmasq后(如 GUI 环境)，将系统DNS Server设置为 127.0.0.1，这会导致docker容器无法解析域名，需要关闭它 (centos7系统可能默认没有安装这个服务)
[root@k8s-node01 ~]# systemctl stop dnsmasq
[root@k8s-node01 ~]# systemctl disable dnsmasq
     
10）加载内核模块
[root@k8s-master01 ~]# modprobe ip_vs_rr
[root@k8s-master01 ~]# modprobe br_netfilter
     
11）优化内核参数
[root@k8s-master01 ~]# cat > kubernetes.conf < 可以记录到内存或文件系统；(默认记录到内存，对应的位置为 /run/log/jounal)；
-> 可以限制占用的磁盘空间、保证磁盘剩余空间；
-> 可以限制日志文件大小、保存的时间；
-> journald 默认将日志转发给 rsyslog，这会导致日志写了多份，/var/log/messages 中包含了太多无关日志，不方便后续查看，同时也影响系统性能。
     
[root@k8s-master01 ~]# mkdir /var/log/journal           #持久化保存日志的目录
[root@k8s-master01 ~]# mkdir /etc/systemd/journald.conf.d
[root@k8s-master01 ~]# cat > /etc/systemd/journald.conf.d/99-prophet.conf < 高版本的 docker(1.13 以后) 启用了3.10 kernel实验支持的kernel memory account功能(无法关闭)，当节点压力大如频繁启动和停止容器时会导致 cgroup memory leak；
-> 网络设备引用计数泄漏，会导致类似于报错："kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 1";
     
解决方案如下：
-> 升级内核到 4.4.X 以上；
-> 或者，手动编译内核，disable CONFIG_MEMCG_KMEM 特性；
-> 或者安装修复了该问题的 Docker 18.09.1 及以上的版本。但由于 kubelet 也会设置 kmem（它 vendor 了 runc），所以需要重新编译 kubelet 并指定 GOFLAGS="-tags=nokmem"；
     
这里升级内核方法：
[root@k8s-master01 ~]# uname  -r
3.10.0-862.el7.x86_64
     
[root@k8s-master01 ~]# rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-3.el7.elrepo.noarch.rpm
     
安装完成后检查 /boot/grub2/grub.cfg 中对应内核 menuentry 中是否包含 initrd16 配置，如果没有，再安装一次！
[root@k8s-master01 ~]# yum --enablerepo=elrepo-kernel install -y kernel-lt
     
设置开机从新内核启动
[root@k8s-master01 ~]# grub2-set-default 0
     
重启机器
[root@k8s-master01 ~]# init 6
     
安装内核源文件（在升级完内核并重启机器后执行，也可以不用执行这一步。可选）:
[root@k8s-master01 ~]# yum --enablerepo=elrepo-kernel install kernel-lt-devel-$(uname -r) kernel-lt-headers-$(uname -r)
     
[root@k8s-master01 ~]# uname -r
4.4.180-2.el7.elrepo.x86_64
     
====================================================================================================================================
或者也可以采用下面升级内核的方法：
# git clone --branch v1.14.1 --single-branch --depth 1 https://github.com/kubernetes/kubernetes
# cd kubernetes
# KUBE_GIT_VERSION=v1.14.1 ./build/run.sh make kubelet GOFLAGS="-tags=nokmem"
# init 6
====================================================================================================================================
     
16) 关闭NUMA
[root@k8s-master01 ~]# cp /etc/default/grub{,.bak}
[root@k8s-master01 ~]# vim /etc/default/grub   
.........
GRUB_CMDLINE_LINUX="...... numa=off"      # 即添加"numa=0ff"内容
     
重新生成 grub2 配置文件：
# cp /boot/grub2/grub.cfg{,.bak}
# grub2-mkconfig -o /boot/grub2/grub.cfg
   
17) 变量脚本文件 （这一步很关键）
[root@k8s-master01 ~]# vim /opt/k8s/bin/environment.sh
#!/usr/bin/bash
    
# 生成 EncryptionConfig 所需的加密 key
export ENCRYPTION_KEY=$(head -c 32 /dev/urandom | base64)
    
# 集群中所有节点机器IP数组（master,node,etcd节点）
export NODE_ALL_IPS=(172.16.60.241 172.16.60.242 172.16.60.243 172.16.60.244 172.16.60.245 172.16.60.246)
# 集群中所有节点IP对应的主机名数组
export NODE_ALL_NAMES=(k8s-master01 k8s-master02 k8s-master03 k8s-node01 k8s-node02 k8s-node03)
   
# 集群中所有master节点集群IP数组
export NODE_MASTER_IPS=(172.16.60.241 172.16.60.242 172.16.60.243)
# 集群中master节点IP对应的主机名数组
export NODE_MASTER_NAMES=(k8s-master01 k8s-master02 k8s-master03)
   
# 集群中所有node节点集群IP数组
export NODE_NODE_IPS=(172.16.60.244 172.16.60.245 172.16.60.246)
# 集群中node节点IP对应的主机名数组
export NODE_NODE_NAMES=(k8s-node01 k8s-node02 k8s-node03)
   
# 集群中所有etcd节点集群IP数组
export NODE_ETCD_IPS=(172.16.60.241 172.16.60.242 172.16.60.243)
# 集群中etcd节点IP对应的主机名数组(这里是和master三节点机器共用)
export NODE_ETCD_NAMES=(k8s-etcd01 k8s-etcd02 k8s-etcd03)
   
# etcd 集群服务地址列表
export ETCD_ENDPOINTS="https://172.16.60.241:2379,https://172.16.60.242:2379,https://172.16.60.243:2379"
    
# etcd 集群间通信的 IP 和端口
export ETCD_NODES="k8s-etcd01=https://172.16.60.241:2380,k8s-etcd02=https://172.16.60.242:2380,k8s-etcd03=https://172.16.60.243:2380"
    
# kube-apiserver 的反向代理(地址端口.这里也就是nginx代理层的VIP地址
export KUBE_APISERVER="https://172.16.60.250:8443"
    
# 节点间互联网络接口名称. 这里我所有的centos7节点机的网卡设备是ens192，而不是eth0
export IFACE="ens192"
    
# etcd 数据目录
export ETCD_DATA_DIR="/data/k8s/etcd/data"
    
# etcd WAL 目录，建议是 SSD 磁盘分区，或者和 ETCD_DATA_DIR 不同的磁盘分区
export ETCD_WAL_DIR="/data/k8s/etcd/wal"
    
# k8s 各组件数据目录
export K8S_DIR="/data/k8s/k8s"
    
# docker 数据目录
export DOCKER_DIR="/data/k8s/docker"
    
## 以下参数一般不需要修改
    
# TLS Bootstrapping 使用的 Token，可以使用命令 head -c 16 /dev/urandom | od -An -t x | tr -d ' ' 生成
BOOTSTRAP_TOKEN="41f7e4ba8b7be874fcff18bf5cf41a7c"
    
# 最好使用 当前未用的网段 来定义服务网段和 Pod 网段
    
# 服务网段，部署前路由不可达，部署后集群内路由可达(kube-proxy 保证)
SERVICE_CIDR="10.254.0.0/16"
    
# Pod 网段，建议 /16 段地址，部署前路由不可达，部署后集群内路由可达(flanneld 保证)
CLUSTER_CIDR="172.30.0.0/16"
    
# 服务端口范围 (NodePort Range)
export NODE_PORT_RANGE="30000-32767"
    
# flanneld 网络配置前缀
export FLANNEL_ETCD_PREFIX="/kubernetes/network"
    
# kubernetes 服务 IP (一般是 SERVICE_CIDR 中第一个IP)
export CLUSTER_KUBERNETES_SVC_IP="10.254.0.1"
    
# 集群 DNS 服务 IP (从 SERVICE_CIDR 中预分配)
export CLUSTER_DNS_SVC_IP="10.254.0.2"
    
# 集群 DNS 域名（末尾不带点号）
export CLUSTER_DNS_DOMAIN="cluster.local"
    
# 将二进制目录 /opt/k8s/bin 加到 PATH 中
export PATH=/opt/k8s/bin:$PATH

三、创建集群中需要的CA证书和秘钥

为确保安全，kubernetes 系统各组件需要使用 x509 证书对通信进行加密和认证。CA (Certificate Authority) 是自签名的根证书，用来签名后续创建的其它证书。这里使用 CloudFlare 的 PKI 工具集 cfssl 创建所有证书。下面部署命令均在k8s-master01节点上执行，然后远程分发文件和执行命令。

1）安装cfssl工具集
[root@k8s-master01 ~]# mkdir -p /opt/k8s/work && cd /opt/k8s/work
[root@k8s-master01 work]# wget https://pkg.cfssl.org/R1.2/cfssl_linux-amd64
[root@k8s-master01 work]# mv cfssl_linux-amd64 /opt/k8s/bin/cfssl
   
[root@k8s-master01 work]# wget https://pkg.cfssl.org/R1.2/cfssljson_linux-amd64
[root@k8s-master01 work]# mv cfssljson_linux-amd64 /opt/k8s/bin/cfssljson
   
[root@k8s-master01 work]# wget https://pkg.cfssl.org/R1.2/cfssl-certinfo_linux-amd64
[root@k8s-master01 work]# mv cfssl-certinfo_linux-amd64 /opt/k8s/bin/cfssl-certinfo
   
[root@k8s-master01 work]# chmod +x /opt/k8s/bin/*
[root@k8s-master01 work]# export PATH=/opt/k8s/bin:$PATH
   
2）创建根证书 (CA)
CA 证书是集群所有节点共享的，只需要创建一个 CA 证书，后续创建的所有证书都由它签名。
2.1）创建配置文件
CA 配置文件用于配置根证书的使用场景 (profile) 和具体参数 (usage，过期时间、服务端认证、客户端认证、加密等)，后续在签名其它证书时需要指定特定场景。
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# cat > ca-config.json < ca-csr.json <>> ${node_all_ip}"
    ssh root@${node_all_ip} "mkdir -p /etc/kubernetes/cert"
    scp ca*.pem ca-config.json root@${node_all_ip}:/etc/kubernetes/cert
  done

四、部署kubectl命令行工具

kubectl 是 kubernetes 集群的命令行管理工具. kubectl 默认从 ~/.kube/config 文件读取kube-apiserver地址和认证信息，如果没有配置，执行kubectl命令时就会报错！kubectl只需要部署一次，生成的kubeconfig文件是通用的，可以拷贝到需要执行kubectl命令的节点机器，重命名为 ~/.kube/config；这里我将kubectl节点只部署到三个master节点机器上，其他节点不部署kubectl命令。也就是说后续进行kubectl命令管理就只能在master节点上操作。下面部署命令均在k8s-master01节点上执行，然后远程分发文件和执行命令。

如果没有部署kubectl工具，则执行时会报错说没有该命令：
[root@k8s-master01 ~]# kubectl get pods
-bash: kubectl: command not found
  
1）下载和分发kubectl二进制文件
二进制包下载地址：https://pan.baidu.com/s/1HUWFqKVLyxIzoX2LDQSEBg
提取密码：7kaf
[root@k8s-master01 ~]# cd /opt/k8s/work
[root@k8s-master01 work]# wget https://dl.k8s.io/v1.14.2/kubernetes-client-linux-amd64.tar.gz
[root@k8s-master01 work]# tar -xzvf kubernetes-client-linux-amd64.tar.gz
  
分发到所有使用kubectl的节点，这里只分发到三个master节点
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_master_ip in ${NODE_MASTER_IPS[@]}
do
  echo ">>> ${node_master_ip}"
  scp kubernetes/client/bin/kubectl root@${node_master_ip}:/opt/k8s/bin/
  ssh root@${node_master_ip} "chmod +x /opt/k8s/bin/*"
done
  
2) 创建admin证书和私钥
kubectl与apiserver https安全端口通信，apiserver 对提供的证书进行认证和授权。
kubectl作为集群的管理工具，需要被授予最高权限，这里创建具有最高权限的 admin 证书。
创建证书签名请求：
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# cat > admin-csr.json <>> ${node_master_ip}"
  ssh root@${node_master_ip} "mkdir -p ~/.kube"
  scp kubectl.kubeconfig root@${node_master_ip}:~/.kube/config
done

五、部署etcd集群

etcd是基于Raft的分布式key-value存储系统，由CoreOS开发，常用于服务发现、共享配置以及并发控制（如leader选举、分布式锁等）。kubernetes使用etcd存储所有运行数据。需要注意的是：由于etcd是负责存储，所以不建议搭建单点集群，如zookeeper一样，由于存在选举策略，所以一般推荐奇数个集群，如3，5，7。只要集群半数以上的结点存活，那么集群就可以正常运行，否则集群可能无法正常使用。下面部署命令均在k8s-master01节点上执行，然后远程分发文件和执行命令。

1）下载和分发etcd二进制文件
[root@k8s-master01 ~]# cd /opt/k8s/work
[root@k8s-master01 work]# wget https://github.com/coreos/etcd/releases/download/v3.3.13/etcd-v3.3.13-linux-amd64.tar.gz
[root@k8s-master01 work]# tar -xvf etcd-v3.3.13-linux-amd64.tar.gz
   
分发二进制文件到etcd集群所有节点：
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_etcd_ip in ${NODE_ETCD_IPS[@]}
  do
    echo ">>> ${node_etcd_ip}"
    scp etcd-v3.3.13-linux-amd64/etcd* root@${node_etcd_ip}:/opt/k8s/bin
    ssh root@${node_etcd_ip} "chmod +x /opt/k8s/bin/*"
  done
   
2) 创建etcd证书和私钥
创建证书签名请求：
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# cat > etcd-csr.json <>> ${node_etcd_ip}"
    ssh root@${node_etcd_ip} "mkdir -p /etc/etcd/cert"
    scp etcd*.pem root@${node_etcd_ip}:/etc/etcd/cert/
  done
   
3) 创建etcd的systemd unit模板文件
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# cat > etcd.service.template < etcd-${NODE_ETCD_IPS[i]}.service
  done
   
[root@k8s-master01 work]# ls *.service                
etcd-172.16.60.241.service  etcd-172.16.60.242.service  etcd-172.16.60.243.service
   
最好手动查看其中一个etcd节点的启动文件里的--name名称和ip是否都已修改过来了
[root@k8s-master01 work]# cat etcd-172.16.60.241.service
.......
--name=k8s-etcd01 \
.......
  --listen-peer-urls=https://172.16.60.241:2380 \
  --initial-advertise-peer-urls=https://172.16.60.241:2380 \
  --listen-client-urls=https://172.16.60.241:2379,http://127.0.0.1:2379 \
  --advertise-client-urls=https://172.16.60.241:2379 \
  --initial-cluster-token=etcd-cluster-0 \
  --initial-cluster=k8s-etcd01=https://172.16.60.241:2380,k8s-etcd02=https://172.16.60.242:2380,k8s-etcd03=https://172.16.60.243:2380 \
.......
   
配置说明：
NODE_ETCD_NAMES 和 NODE_ETCD_IPS 为相同长度的bash数组，分别为etcd集群节点名称和对应的IP；
   
分发生成的 systemd unit 文件：
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_etcd_ip in ${NODE_ETCD_IPS[@]}
  do
    echo ">>> ${node_etcd_ip}"
    scp etcd-${node_etcd_ip}.service root@${node_etcd_ip}:/etc/systemd/system/etcd.service
  done
   
配置说明： 文件重命名为 etcd.service;
   
5）启动 etcd 服务
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_etcd_ip in ${NODE_ETCD_IPS[@]}
  do
    echo ">>> ${node_etcd_ip}"
    ssh root@${node_etcd_ip} "mkdir -p ${ETCD_DATA_DIR} ${ETCD_WAL_DIR}"
    ssh root@${node_etcd_ip} "systemctl daemon-reload && systemctl enable etcd && systemctl restart etcd " &
  done
   
配置说明：
必须先创建 etcd 数据目录和工作目录;
etcd 进程首次启动时会等待其它节点的 etcd 加入集群，命令 systemctl start etcd 会卡住一段时间，为正常现象；
   
6）检查etcd服务启动结果
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_etcd_ip in ${NODE_ETCD_IPS[@]}
  do
    echo ">>> ${node_etcd_ip}"
    ssh root@${node_etcd_ip} "systemctl status etcd|grep Active"
  done
   
预期输出结果为：
>>> 172.16.60.241
   Active: active (running) since Tue 2019-06-04 19:55:32 CST; 7min ago
>>> 172.16.60.242
   Active: active (running) since Tue 2019-06-04 19:55:32 CST; 7min ago
>>> 172.16.60.243
   Active: active (running) since Tue 2019-06-04 19:55:32 CST; 7min ago
   
确保状态均为为active (running)，否则查看日志，确认原因 (可以执行"journalctl -u etcd"命令查看启动失败原因）
   
6）验证服务状态
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_etcd_ip in ${NODE_ETCD_IPS[@]}
  do
    echo ">>> ${node_etcd_ip}"
    ssh root@${node_etcd_ip} "
    ETCDCTL_API=3 /opt/k8s/bin/etcdctl \
    --endpoints=https://${node_etcd_ip}:2379 \
    --cacert=/etc/kubernetes/cert/ca.pem \
    --cert=/etc/etcd/cert/etcd.pem \
    --key=/etc/etcd/cert/etcd-key.pem endpoint health "
  done
   
预期输出结果为：
https://172.16.60.241:2379 is healthy: successfully committed proposal: took = 2.44394ms
>>> 172.16.60.242
https://172.16.60.242:2379 is healthy: successfully committed proposal: took = 7.044349ms
>>> 172.16.60.243
https://172.16.60.243:2379 is healthy: successfully committed proposal: took = 1.865713ms
   
输出均为 healthy 时表示集群服务正常。
   
7）查看当前etcd集群中的leader
在三台etcd节点中的任意一个节点机器上执行下面命令：
[root@k8s-etcd03 ~]# source /opt/k8s/bin/environment.sh
[root@k8s-etcd03 ~]# ETCDCTL_API=3 /opt/k8s/bin/etcdctl \
  -w table --cacert=/etc/kubernetes/cert/ca.pem \
  --cert=/etc/etcd/cert/etcd.pem \
  --key=/etc/etcd/cert/etcd-key.pem \
  --endpoints=${ETCD_ENDPOINTS} endpoint status
   
预期输出结果为：
+----------------------------+------------------+---------+---------+-----------+-----------+------------+
|          ENDPOINT          |        ID        | VERSION | DB SIZE | IS LEADER | RAFT TERM | RAFT INDEX |
+----------------------------+------------------+---------+---------+-----------+-----------+------------+
| https://172.16.60.241:2379 | 577381f5de0f4495 |  3.3.13 |   16 kB |     false |         2 |          8 |
| https://172.16.60.242:2379 | bf4ce221cdf39fb0 |  3.3.13 |   16 kB |     false |         2 |          8 |
| https://172.16.60.243:2379 |  3bc2e49bc639590 |  3.3.13 |   16 kB |      true |         2 |          8 |
+----------------------------+------------------+---------+---------+-----------+-----------+------------+
   
由上面结果可见，当前的leader节点为172.16.60.243

六、Flannel容器网络方案部署

kubernetes要求集群内各节点(这里指master和node节点)能通过Pod网段互联互通。flannel使用vxlan技术为各节点创建一个可以互通的Pod网络，使用的端口为UDP 8472（需要开放该端口，如公有云AWS等）。flanneld第一次启动时，从etcd获取配置的Pod网段信息，为本节点分配一个未使用的地址段，然后创建flannedl.1网络接口（也可能是其它名称，如flannel1等）。flannel将分配给自己的Pod网段信息写入/run/flannel/docker文件，docker后续使用这个文件中的环境变量设置docker0网桥，从而从这个地址段为本节点的所有Pod容器分配IP。下面部署命令均在k8s-master01节点上执行，然后远程分发文件和执行命令。

1) 下载和分发 flanneld 二进制文件
从flannel的release页面(https://github.com/coreos/flannel/releases)下载最新版本的安装包：
[root@k8s-master01 ~]# cd /opt/k8s/work
[root@k8s-master01 work]# mkdir flannel
[root@k8s-master01 work]# wget https://github.com/coreos/flannel/releases/download/v0.11.0/flannel-v0.11.0-linux-amd64.tar.gz
[root@k8s-master01 work]# tar -zvxf flannel-v0.11.0-linux-amd64.tar.gz -C flannel

分发二进制文件到集群所有节点：
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_all_ip in ${NODE_ALL_IPS[@]}
  do
    echo ">>> ${node_all_ip}"
    scp flannel/{flanneld,mk-docker-opts.sh} root@${node_all_ip}:/opt/k8s/bin/
    ssh root@${node_all_ip} "chmod +x /opt/k8s/bin/*"
  done

2) 创建 flannel 证书和私钥
flanneld 从 etcd 集群存取网段分配信息，而 etcd 集群启用了双向 x509 证书认证，所以需要为 flanneld 生成证书和私钥。
创建证书签名请求：
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# cat > flanneld-csr.json <>> ${node_all_ip}"
    ssh root@${node_all_ip} "mkdir -p /etc/flanneld/cert"
    scp flanneld*.pem root@${node_all_ip}:/etc/flanneld/cert
  done

3）向 etcd 写入集群 Pod 网段信息 （注意：本步骤只需执行一次）
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# etcdctl \
  --endpoints=${ETCD_ENDPOINTS} \
  --ca-file=/opt/k8s/work/ca.pem \
  --cert-file=/opt/k8s/work/flanneld.pem \
  --key-file=/opt/k8s/work/flanneld-key.pem \
  mk ${FLANNEL_ETCD_PREFIX}/config '{"Network":"'${CLUSTER_CIDR}'", "SubnetLen": 21, "Backend": {"Type": "vxlan"}}'

解决说明：
flanneld 当前版本 (v0.11.0) 不支持 etcd v3，故使用 etcd v2 API 写入配置 key 和网段数据；
写入的 Pod 网段 ${CLUSTER_CIDR} 地址段（如 /16）必须小于 SubnetLen，必须与 kube-controller-manager 的 --cluster-cidr 参数值一致；

4）创建 flanneld 的 systemd unit 文件
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# cat > flanneld.service << EOF
[Unit]
Description=Flanneld overlay address etcd agent
After=network.target
After=network-online.target
Wants=network-online.target
After=etcd.service
Before=docker.service

[Service]
Type=notify
ExecStart=/opt/k8s/bin/flanneld \\
  -etcd-cafile=/etc/kubernetes/cert/ca.pem \\
  -etcd-certfile=/etc/flanneld/cert/flanneld.pem \\
  -etcd-keyfile=/etc/flanneld/cert/flanneld-key.pem \\
  -etcd-endpoints=${ETCD_ENDPOINTS} \\
  -etcd-prefix=${FLANNEL_ETCD_PREFIX} \\
  -iface=${IFACE} \\
  -ip-masq
ExecStartPost=/opt/k8s/bin/mk-docker-opts.sh -k DOCKER_NETWORK_OPTIONS -d /run/flannel/docker
Restart=always
RestartSec=5
StartLimitInterval=0

[Install]
WantedBy=multi-user.target
RequiredBy=docker.service
EOF

解决说明：
mk-docker-opts.sh 脚本将分配给 flanneld 的 Pod 子网段信息写入 /run/flannel/docker 文件，后续 docker 启动时使用这个文件中的环境变量配置 docker0 网桥；
flanneld 使用系统缺省路由所在的接口与其它节点通信，对于有多个网络接口（如内网和公网）的节点，可以用 -iface 参数指定通信接口;
flanneld 运行时需要 root 权限；
-ip-masq: flanneld 为访问 Pod 网络外的流量设置 SNAT 规则，同时将传递给 Docker 的变量 --ip-masq（/run/flannel/docker 文件中）设置为 false，这样 Docker 将不再创建 SNAT 规则； Docker 的 --ip-masq 为 true 时，创建的 SNAT 规则比较“暴力”：将所有本节点 Pod 发起的、访问非 docker0 接口的请求做 SNAT，这样访问其他节点 Pod 的请求来源 IP 会被设置为 flannel.1 接口的 IP，导致目的 Pod 看不到真实的来源 Pod IP。 flanneld 创建的 SNAT 规则比较温和，只对访问非 Pod 网段的请求做 SNAT。

5）分发 flanneld systemd unit 文件到所有节点
[root@k8s-master01 work]# cd /opt/k8s/work
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_all_ip in ${NODE_ALL_IPS[@]}
  do
    echo ">>> ${node_all_ip}"
    scp flanneld.service root@${node_all_ip}:/etc/systemd/system/
  done

6）启动 flanneld 服务
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_all_ip in ${NODE_ALL_IPS[@]}
  do
    echo ">>> ${node_all_ip}"
    ssh root@${node_all_ip} "systemctl daemon-reload && systemctl enable flanneld && systemctl restart flanneld"
  done

6）检查启动结果
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_all_ip in ${NODE_ALL_IPS[@]}
  do
    echo ">>> ${node_all_ip}"
    ssh root@${node_all_ip} "systemctl status flanneld|grep Active"
  done

确保状态为 active (running)，否则查看日志，确认原因"journalctl -u flanneld"

7) 检查分配给各 flanneld 的 Pod 网段信息
查看集群 Pod 网段(/16)：
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# etcdctl \
  --endpoints=${ETCD_ENDPOINTS} \
  --ca-file=/etc/kubernetes/cert/ca.pem \
  --cert-file=/etc/flanneld/cert/flanneld.pem \
  --key-file=/etc/flanneld/cert/flanneld-key.pem \
  get ${FLANNEL_ETCD_PREFIX}/config

预期输出： {"Network":"172.30.0.0/16", "SubnetLen": 21, "Backend": {"Type": "vxlan"}}

查看已分配的 Pod 子网段列表(/24):
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# etcdctl \
  --endpoints=${ETCD_ENDPOINTS} \
  --ca-file=/etc/kubernetes/cert/ca.pem \
  --cert-file=/etc/flanneld/cert/flanneld.pem \
  --key-file=/etc/flanneld/cert/flanneld-key.pem \
  ls ${FLANNEL_ETCD_PREFIX}/subnets

预期输出：
/kubernetes/network/subnets/172.30.40.0-21
/kubernetes/network/subnets/172.30.88.0-21
/kubernetes/network/subnets/172.30.56.0-21
/kubernetes/network/subnets/172.30.72.0-21
/kubernetes/network/subnets/172.30.232.0-21
/kubernetes/network/subnets/172.30.152.0-21

查看某一 Pod 网段对应的节点 IP 和 flannel 接口地址:
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# etcdctl \
  --endpoints=${ETCD_ENDPOINTS} \
  --ca-file=/etc/kubernetes/cert/ca.pem \
  --cert-file=/etc/flanneld/cert/flanneld.pem \
  --key-file=/etc/flanneld/cert/flanneld-key.pem \
  get ${FLANNEL_ETCD_PREFIX}/subnets/172.30.40.0-21

预期输出：{"PublicIP":"172.16.60.243","BackendType":"vxlan","BackendData":{"VtepMAC":"f2:de:47:06:4b:d3"}}

解决说明：
172.30.40.0/21 被分配给节点k8s-master03（172.16.60.243）；
VtepMAC 为k8s-master03节点的 flannel.1 网卡 MAC 地址；

8）检查节点 flannel 网络信息 （比如k8s-master01节点）
[root@k8s-master01 work]# ip addr show
1: lo:  mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
2: ens192:  mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 00:50:56:ac:7c:81 brd ff:ff:ff:ff:ff:ff
    inet 172.16.60.241/24 brd 172.16.60.255 scope global ens192
       valid_lft forever preferred_lft forever
3: flannel.1:  mtu 1450 qdisc noqueue state UNKNOWN group default
    link/ether 7a:2a:36:99:75:5f brd ff:ff:ff:ff:ff:ff
    inet 172.30.232.0/32 scope global flannel.1
       valid_lft forever preferred_lft forever

注意： flannel.1 网卡的地址为分配的 Pod 子网段的第一个 IP（.0），且是 /32 的地址；

[root@k8s-master01 work]# ip route show |grep flannel.1
172.30.40.0/21 via 172.30.40.0 dev flannel.1 onlink
172.30.56.0/21 via 172.30.56.0 dev flannel.1 onlink
172.30.72.0/21 via 172.30.72.0 dev flannel.1 onlink
172.30.88.0/21 via 172.30.88.0 dev flannel.1 onlink
172.30.152.0/21 via 172.30.152.0 dev flannel.1 onlink

到其它节点 Pod 网段请求都被转发到 flannel.1 网卡；
flanneld 根据 etcd 中子网段的信息，如 ${FLANNEL_ETCD_PREFIX}/subnets/172.30.232.0-21 ，来决定进请求发送给哪个节点的互联 IP；

9）验证各节点能通过 Pod 网段互通
在各节点上部署 flannel 后，检查是否创建了 flannel 接口(名称可能为 flannel0、flannel.0、flannel.1 等)：
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_all_ip in ${NODE_ALL_IPS[@]}
  do
    echo ">>> ${node_all_ip}"
    ssh ${node_all_ip} "/usr/sbin/ip addr show flannel.1|grep -w inet"
  done

预期输出：
>>> 172.16.60.241
    inet 172.30.232.0/32 scope global flannel.1
>>> 172.16.60.242
    inet 172.30.152.0/32 scope global flannel.1
>>> 172.16.60.243
    inet 172.30.40.0/32 scope global flannel.1
>>> 172.16.60.244
    inet 172.30.88.0/32 scope global flannel.1
>>> 172.16.60.245
    inet 172.30.56.0/32 scope global flannel.1
>>> 172.16.60.246
    inet 172.30.72.0/32 scope global flannel.1

在各节点上 ping 所有 flannel 接口 IP，确保能通：
[root@k8s-master01 work]# source /opt/k8s/bin/environment.sh
[root@k8s-master01 work]# for node_all_ip in ${NODE_ALL_IPS[@]}
  do
    echo ">>> ${node_all_ip}"
    ssh ${node_all_ip} "ping -c 1 172.30.232.0"
    ssh ${node_all_ip} "ping -c 1 172.30.152.0"
    ssh ${node_all_ip} "ping -c 1 172.30.40.0"
    ssh ${node_all_ip} "ping -c 1 172.30.88.0"
    ssh ${node_all_ip} "ping -c 1 172.30.56.0"
    ssh ${node_all_ip} "ping -c 1 172.30.72.0"
  done

七、基于nginx 四层代理环境

这里采用nginx 4 层透明代理功能实现 K8S 节点( master 节点和 worker 节点)高可用访问 kube-apiserver。控制节点的 kube-controller-manager、kube-scheduler 是多实例(3个)部署，所以只要有一个实例正常，就可以保证高可用；搭建nginx+keepalived环境，对外提供一个统一的vip地址，后端对接多个 apiserver 实例，nginx 对它们做健康检查和负载均衡；kubelet、kube-proxy、controller-manager、scheduler 通过vip地址访问 kube-apiserver，从而实现 kube-apiserver 的高可用；

一、安装和配置nginx，下面操作在172.16.60.247、172.16.60.247两个节点机器上操作

1）下载和编译 nginx
[root@k8s-ha01 ~]# yum -y install gcc pcre-devel zlib-devel openssl-devel wget lsof
[root@k8s-ha01 ~]# cd /opt/k8s/work
[root@k8s-ha01 work]# wget http://nginx.org/download/nginx-1.15.3.tar.gz
[root@k8s-ha01 work]# tar -xzvf nginx-1.15.3.tar.gz
[root@k8s-ha01 work]# cd nginx-1.15.3
[root@k8s-ha01 nginx-1.15.3]# mkdir nginx-prefix
[root@k8s-ha01 nginx-1.15.3]# ./configure --with-stream --without-http --prefix=$(pwd)/nginx-prefix --without-http_uwsgi_module --without-http_scgi_module --without-http_fastcgi_module

解决说明：
--with-stream：开启 4 层透明转发(TCP Proxy)功能；
--without-xxx：关闭所有其他功能，这样生成的动态链接二进制程序依赖最小；

预期输出：
Configuration summary
  + PCRE library is not used
  + OpenSSL library is not used
  + zlib library is not used

  nginx path prefix: "/root/tmp/nginx-1.15.3/nginx-prefix"
  nginx binary file: "/root/tmp/nginx-1.15.3/nginx-prefix/sbin/nginx"
  nginx modules path: "/root/tmp/nginx-1.15.3/nginx-prefix/modules"
  nginx configuration prefix: "/root/tmp/nginx-1.15.3/nginx-prefix/conf"
  nginx configuration file: "/root/tmp/nginx-1.15.3/nginx-prefix/conf/nginx.conf"
  nginx pid file: "/root/tmp/nginx-1.15.3/nginx-prefix/logs/nginx.pid"
  nginx error log file: "/root/tmp/nginx-1.15.3/nginx-prefix/logs/error.log"
  nginx http access log file: "/root/tmp/nginx-1.15.3/nginx-prefix/logs/access.log"
  nginx http client request body temporary files: "client_body_temp"
  nginx http proxy temporary files: "proxy_temp"

继续编译和安装：
[root@k8s-ha01 nginx-1.15.3]# make && make install

2）验证编译的 nginx
[root@k8s-ha01 nginx-1.15.3]# ./nginx-prefix/sbin/nginx -v
nginx version: nginx/1.15.3

查看 nginx 动态链接的库：
[root@k8s-ha01 nginx-1.15.3]# ldd ./nginx-prefix/sbin/nginx
        linux-vdso.so.1 =>  (0x00007ffc7e0ef000)
        libdl.so.2 => /lib64/libdl.so.2 (0x00007f00b5c2d000)
        libpthread.so.0 => /lib64/libpthread.so.0 (0x00007f00b5a11000)
        libc.so.6 => /lib64/libc.so.6 (0x00007f00b5644000)
        /lib64/ld-linux-x86-64.so.2 (0x00007f00b5e31000)

由于只开启了 4 层透明转发功能，所以除了依赖 libc 等操作系统核心 lib 库外，没有对其它 lib 的依赖(如 libz、libssl 等)，这样可以方便部署到各版本操作系统中；

3）安装和部署 nginx
[root@k8s-ha01 ~]# cp /opt/k8s/work/nginx-1.15.3/nginx-prefix/sbin/nginx /opt/k8s/kube-nginx/sbin/kube-nginx
[root@k8s-ha01 ~]# chmod a+x /opt/k8s/kube-nginx/sbin/*
[root@k8s-ha01 ~]# mkdir -p /opt/k8s/kube-nginx/{conf,logs,sbin}

配置 nginx，开启 4 层透明转发功能：
[root@k8s-ha01 ~]# vim /opt/k8s/kube-nginx/conf/kube-nginx.conf
worker_processes 2;

events {
    worker_connections  65525;
}

stream {
    upstream backend {
        hash $remote_addr consistent;
        server 172.16.60.241:6443        max_fails=3 fail_timeout=30s;
        server 172.16.60.242:6443        max_fails=3 fail_timeout=30s;
        server 172.16.60.243:6443        max_fails=3 fail_timeout=30s;
    }

    server {
        listen 8443;
        proxy_connect_timeout 1s;
        proxy_pass backend;
    }
}

[root@k8s-ha01 ~]# ulimit -n 65525
[root@k8s-ha01 ~]# vim /etc/security/limits.conf     # 文件底部添加下面四行内容
* soft nofile 65525
* hard nofile 65525
* soft nproc 65525
* hard nproc 65525

4) 配置 systemd unit 文件，启动服务
[root@k8s-ha01 ~]# vim /etc/systemd/system/kube-nginx.service
[Unit]
Description=kube-apiserver nginx proxy
After=network.target
After=network-online.target
Wants=network-online.target

[Service]
Type=forking
ExecStartPre=/opt/k8s/kube-nginx/sbin/kube-nginx -c /opt/k8s/kube-nginx/conf/kube-nginx.conf -p /opt/k8s/kube-nginx -t
ExecStart=/opt/k8s/kube-nginx/sbin/kube-nginx -c /opt/k8s/kube-nginx/conf/kube-nginx.conf -p /opt/k8s/kube-nginx
ExecReload=/opt/k8s/kube-nginx/sbin/kube-nginx -c /opt/k8s/kube-nginx/conf/kube-nginx.conf -p /opt/k8s/kube-nginx -s reload
PrivateTmp=true
Restart=always
RestartSec=5
StartLimitInterval=0
LimitNOFILE=65536

[Install]
WantedBy=multi-user.target

[root@k8s-ha01 ~]# systemctl daemon-reload && systemctl enable kube-nginx && systemctl restart kube-nginx
[root@k8s-ha01 ~]# lsof -i:8443
COMMAND     PID   USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
kube-ngin 31980   root    5u  IPv4 145789      0t0  TCP localhost:pcsync-https (LISTEN)
kube-ngin 31981 nobody    5u  IPv4 145789      0t0  TCP localhost:pcsync-https (LISTEN)
kube-ngin 31982 nobody    5u  IPv4 145789      0t0  TCP localhost:pcsync-https (LISTEN)

测试下8443代理端口连通性
[root@k8s-ha01 ~]# telnet 172.16.60.250 8443
Trying 172.16.60.250...
Connected to 172.16.60.250.
Escape character is '^]'.
Connection closed by foreign host.

这是因为三个kube-apiserver服务还没有部署，即后端三个apiserver实例的6443端口还没有起来。

二、安装和配置keepalived
1）编译安装keepalived （两个节点上同样操作）
[root@k8s-ha01 ~]# cd /opt/k8s/work/
[root@k8s-ha01 work]# wget https://www.keepalived.org/software/keepalived-2.0.16.tar.gz
[root@k8s-ha01 work]# tar -zvxf keepalived-2.0.16.tar.gz
[root@k8s-ha01 work]# cd keepalived-2.0.16
[root@k8s-ha01 keepalived-2.0.16]# ./configure
[root@k8s-ha01 keepalived-2.0.16]# make && make install

[root@k8s-ha01 keepalived-2.0.16]# cp keepalived/etc/init.d/keepalived /etc/rc.d/init.d/
[root@k8s-ha01 keepalived-2.0.16]# cp /usr/local/etc/sysconfig/keepalived /etc/sysconfig/
[root@k8s-ha01 keepalived-2.0.16]# mkdir /etc/keepalived
[root@k8s-ha01 keepalived-2.0.16]# cp /usr/local/etc/keepalived/keepalived.conf /etc/keepalived/
[root@k8s-ha01 keepalived-2.0.16]# cp /usr/local/sbin/keepalived /usr/sbin/
[root@k8s-ha01 keepalived-2.0.16]# echo "/etc/init.d/keepalived start" >> /etc/rc.local

2) 配置keepalived
172.16.60.207节点上的keepalived配置内容
[root@k8s-ha01 ~]# cp /etc/keepalived/keepalived.conf /etc/keepalived/keepalived.conf.bak
[root@k8s-ha01 ~]# >/etc/keepalived/keepalived.conf
[root@k8s-ha01 ~]# vim /etc/keepalived/keepalived.conf
! Configuration File for keepalived    
   
global_defs {
notification_email {    
[email protected] 
[email protected]
}
   
notification_email_from [email protected] 
smtp_server 127.0.0.1     
smtp_connect_timeout 30   
router_id master-node    
}
   
vrrp_script chk_http_port {     
    script "/opt/chk_nginx.sh" 
    interval 2                  
    weight -5                  
    fall 2              
    rise 1                 
}
   
vrrp_instance VI_1 {   
    state MASTER   
    interface ens192     
    mcast_src_ip 172.16.60.247
    virtual_router_id 51        
    priority 101               
    advert_int 1                
    authentication {           
        auth_type PASS         
        auth_pass 1111         
    }
    virtual_ipaddress {       
        172.16.60.250
    }
  
track_script {                     
   chk_http_port                   
}
}

另一个节点172.16.60.248上的keepalived配置内容为：
[root@k8s-ha02 ~]# cp /etc/keepalived/keepalived.conf /etc/keepalived/keepalived.conf.bak
[root@k8s-ha02 ~]# >/etc/keepalived/keepalived.conf
[root@k8s-ha02 ~]# vim /etc/keepalived/keepalived.conf
! Configuration File for keepalived    
   
global_defs {
notification_email {    
[email protected] 
[email protected]
}
   
notification_email_from [email protected] 
smtp_server 127.0.0.1     
smtp_connect_timeout 30   
router_id slave-node    
}
   
vrrp_script chk_http_port {     
    script "/opt/chk_nginx.sh" 
    interval 2                  
    weight -5                  
    fall 2              
    rise 1                 
}
   
vrrp_instance VI_1 {   
    state MASTER   
    interface ens192     
    mcast_src_ip 172.16.60.248
    virtual_router_id 51        
    priority 99              
    advert_int 1                
    authentication {           
        auth_type PASS         
        auth_pass 1111         
    }
    virtual_ipaddress {       
        172.16.60.250
    }
  
track_script {                     
   chk_http_port                   
}
}

2) 配置两个节点的nginx监控脚本（该脚本会在keepalived.conf配置中被引用）
[root@k8s-ha01 ~]# vim /opt/chk_nginx.sh
#!/bin/bash
counter=$(ps -ef|grep -w kube-nginx|grep -v grep|wc -l)
if [ "${counter}" = "0" ]; then
    systemctl start kube-nginx
    sleep 2
    counter=$(ps -ef|grep kube-nginx|grep -v grep|wc -l)
    if [ "${counter}" = "0" ]; then
        /etc/init.d/keepalived stop
    fi
fi

[root@k8s-ha01 ~]# chmod 755 /opt/chk_nginx.sh

3) 启动两个节点的keepalived服务
[root@k8s-ha01 ~]# /etc/init.d/keepalived start
Starting keepalived (via systemctl):                       [  OK  ]

[root@k8s-ha01 ~]# ps -ef|grep keepalived
root      5358     1  0 00:32 ?        00:00:00 /usr/local/sbin/keepalived -D
root      5359  5358  0 00:32 ?        00:00:00 /usr/local/sbin/keepalived -D
root      5391 29606  0 00:32 pts/0    00:00:00 grep --color=auto keepalived

查看vip情况. 发现vip默认起初会在master节点上
[root@k8s-ha01 ~]# ip addr
1: lo:  mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
2: ens192:  mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 00:50:56:ac:3a:a6 brd ff:ff:ff:ff:ff:ff
    inet 172.16.60.247/24 brd 172.16.60.255 scope global ens192
       valid_lft forever preferred_lft forever
    inet 172.16.60.250/32 scope global ens192
       valid_lft forever preferred_lft forever
    inet6 fe80::250:56ff:feac:3aa6/64 scope link
       valid_lft forever preferred_lft forever

4) 测试vip故障转移
参考：https://www.cnblogs.com/kevingrace/p/6138185.html

当master节点的keepalived服务挂掉，vip会自动漂移到slave节点上
当master节点的keepliaved服务恢复后，从将vip资源从slave节点重新抢占回来（keepalived配置文件中的priority优先级决定的）
当两个节点的nginx挂掉后，keepaived会引用nginx监控脚本自启动nginx服务，如启动失败，则强杀keepalived服务，从而实现vip转移。

点击查看 Kubernetes(K8S)容器集群管理环境完整部署详细教程-中篇