本文介绍了如何在两台 ubuntu 16.04 64 bit 双核 CPU 虚拟机上从源码开始部署 KubeEdge 1.3.0 集群的过程,云端 Kubernetes 版本为 1.17.3,Golang 版本为1.13.5。本文基于 KubeEdge 1.1.0 和 KubeEdge 1.2.0 部署文章,具有一定实践参考意义。
云端:ubuntu 16.04 64 bit,用户名为 ubuntu。IP 为 192.168.0.102。
边缘端:同上,IP 为 192.168.0.140。
KubeEdge部署涉及两端:
技术总结:
1、搭建编译环境(建议自行编译源码),编译系统内存需足够大(如4GB)。
2、部署k8s,但只安装k8s master节点即可,node不需要安装。
3、编译 KubeEdge,生成证书(注:针对 kubectl logs命令而言),创建crds。
4、先运行得到配置文件,再修改。注意配置文件位置,注意系统平台框架。
5、检查主机名称,必须合规,否则注册不了。
6、先运行云端,获取 token,再修改边缘端配置。
依赖组件(含工具、编译器)及版本:
本文部署时间约为2020年5月下旬。KubeEdge目前在快速开发中,请注时效性,以官方文档为准,本文仅针对 KubeEdge 1.3.0 有效。
最权威的莫过于 KubeEdge 官方安装文档:https://docs.kubeedge.io/en/latest/。该文档从源码编译到安装,均有涉及。然作为初学者,个人认为官方的文档还不够细致。网上也有很多安装部署教程,虽然方法不同,但目的是一样的。这里根据笔者经验简述如下:
步步为营
根据官方文档安装,先产生证书,再编译源码得到云端和边缘端核心程序。再修改配置文件,最后运行。
事预则立
下载官方编译好的二进制文件(cloudcore、edgecore),或者自行编译源码得到这两个二进制文件。准备好配置文件(并做适应性修改)。然后再运行。本文采用此方式。先准备好所有的文件,并统一放置到部署工程目录。
需要注意的是,KubeEdge 官方文档只涉及 KubeEdge 有关的部署,KubeEdge 还要依赖 docker 和 kubernetes(边缘端还要依赖 mosquitto)。而这些需要实践者额外进行,为减少篇幅,本文不过多涉及,但给出部署文章链接。
相比1.2.0 版本,1.3.0版本有如下变化(仅涉及个人感兴趣部分):
1、不需要手动产生证书,程序自动产生。
2、支持 kubectl logs 命令(据说未来会支持 kubectl exec)。
3、不需要手动分发证书,边缘端自动获取。
4、云端高可用待有空闲有条件测试。
在开始之前,必须先安装 Docker 并部署k8s集群。
Docker 安装可参考这里,kubernetes 安装可参考这里。需要指出的是,kubernetes 只部署 master 即可,node 无须部署。但必须安装网络插件(此处存疑,如果不安装,状态不是 Ready)。
官方文档建议创建单独的目录存储二进制文件,如~/cmd/
,在部署 1.1.0 版本时笔者也创建目录,但新版本做了优化,笔者认为无须部署目录,为方便测试,直接在新版本生成的目录下执行程序,其目录为$GOPATH/src/github.com/kubeedge/kubeedge/_output/local/bin
。
新版本渐渐使用 keadm 部署,对于不需要了解背后原理者而言,建议使用此方式。
本文使用的 KubeEdge 是从源码编译得到。
到 https://github.com/kubeedge/kubeedge/releases 下载官方编译好的二进制。压缩包名称为 kubeedge-v1.3.0-linux-amd64.tar.gz 。
也可以通过编译源码得到,方法参考文后。
另外,除了编译好的二进制外,还需要下载源码,地址为: https://github.com/kubeedge/kubeedge 。因为部分配置文件只在仓库源码中才可找到(当然,也可以直接在 github 仓库上找到对应的文件下载)。
1、Golang 环境搭建
下载好 golang,并解压:
# mkdir ~/tools
# tar xf go1.13.5.linux-amd64.tar.gz -C ~/tools
在 ~/.bashrc 文件最后添加:
export PATH=$PATH:/home/ubuntu/tools/go/bin
export GOROOT=/home/ubuntu/kubeedge
export GOPATH=/home/ubuntu/kubeedge
执行 source ~/.bashrc 生效。验证:
# ubuntu@ubuntu:~/kubeedge$ go version
go version go1.13.5 linux/amd64
2、克隆仓库:
# git clone https://github.com/kubeedge/kubeedge.git $GOPATH/src/github.com/kubeedge/kubeedge
如果克隆速度慢,可以直接下载zip包,并解压源码到 $GOPATH/src/github.com/kubeedge/kubeedge,注意,这个目录一定是源码所在目录。
切换 1.3.0 分支:
# git checkout -b release-1.3 remotes/origin/release-1.3
3、检测 gcc 版本:
# gcc --version
gcc (Ubuntu 5.4.0-6ubuntu1~16.04.12) 5.4.0 20160609
Copyright (C) 2015 Free Software Foundation, Inc.
如果没有安装 gcc,则自行安装。
编译云端:
# cd $GOPATH/src/github.com/kubeedge/kubeedge/
# make all WHAT=cloudcore
编译边缘端:
# cd $GOPATH/src/github.com/kubeedge/kubeedge
# make all WHAT=edgecore
生成的二进制位于_output/local/bin/
目录下。
1.3.0 正式版本不需要手动生成证书,如果已经安装了旧版本,则需要清除 /etc/kubeedge/ca 和 /etc/kubeedge/certs 目录的证书。执行如下命令:
kubectl delete secret casecret -nkubeedge
kubectl delete secret cloudcoresecret -nkubeedge
如果是首次安装,忽略此步骤即可。
确认 k8s 集群正常运行,本文使用 kubeadmin 部署,其证书位于/etc/kubernetes/pki/
目录(注:生成证书脚本需要使用/etc/kubernetes/pki/ca.crt
和/etc/kubernetes/pki/ca.key
文件)。
先设置云端IP:
export CLOUDCOREIPS="192.168.0.102"
注:可同时设置多个,如:
export CLOUDCOREIPS="172.20.12.45 172.20.12.46"
生成证书:
$GOPATH/src/github.com/kubeedge/kubeedge/build/tools/certgen.sh stream
确保如下目录存在,如否创建之,否则证书无法生成:
mkdir -p /etc/kubeedge/ca
mkdir -p /etc/kubeedge/certs
注:
设置 iptables:
iptables -t nat -A OUTPUT -p tcp --dport 10350 -j DNAT --to 192.168.0.102:10003
(注:设置 NAT 端口转发)
# cd $GOPATH/src/github.com/kubeedge/kubeedge/build/crds/devices
# kubectl create -f devices_v1alpha1_devicemodel.yaml
# kubectl create -f devices_v1alpha1_device.yaml
# cd $GOPATH/src/github.com/kubeedge/kubeedge/build/crds/reliablesyncs
# kubectl create -f cluster_objectsync_v1alpha1.yaml
# kubectl create -f objectsync_v1alpha1.yaml
注:新版本的 yaml 文件有两类,在 devices 和 reliablesyncs 目录。可用kubectl get crds
查看。
新版本配置文件由 cloudcore 程序生成,执行:
# cd $GOPATH/src/github.com/kubeedge/kubeedge/_output/local/bin
# mkdir -p /etc/kubeedge/config/
# ./cloudcore --minconfig > /etc/kubeedge/config/cloudcore.yaml
注1:cloudcore --minconfig
生成最小配置,类似有cloudcore --defaultconfig
。
注2:cloudcore 默认使用的配置文件为/etc/kubeedge/config/cloudcore.yaml
。
边缘端类似,下省略。
接着修改配置文件:
# vim /etc/kubeedge/config/cloudcore.yaml
官方默认为kubeconfig: "/root/.kube/config"
,本文改为 kubeconfig: "/home/ubuntu/.kube/config"
。其它保持默认。注:具体的路径,取决于部署 k8s 时的选择,就前2个路径而言,前者一般由 root 权限运行,后者是普通权限(普通用户)运行。
新版本配置文件由 edgecore 程序生成,因此,需要在边缘端机器上执行。具体参考下文。
mqtt 只有边缘端需要。
如果边缘端为 ubuntu 系统,直接使用源安装:
# add-apt-repository ppa:mosquitto-dev/mosquitto-ppa // 添加源
# apt-get update // 更新
# apt-get install mosquitto // 安装mqtt服务端
# apt-get install mosquitto-clients // 如果需要测试,则安装mqtt客户端
另外也可以使用源码编译。
在 ubuntu 系统,安装 mosquitto 成功后会自动启动服务。由于 KubeEdge 使用多个端口,故需用配置文件。服务端添加多端口:
vim /etc/mosquitto/conf.d/port.conf
port 1883
listener 1884
此处指定 1883 和 1884 端口,从 KubeEdge 生成配置文件可知。没有指定协议,默认使用 mqtt。修改配置后需要重启:
/etc/init.d/mosquitto restart
或者手动启动:
/usr/sbin/mosquitto -d -c /etc/mosquitto/mosquitto.conf
建议使用系统级别服务,预防漏掉此步骤,导致 KubeEdge 测试失败。
可用如下命令验证服务是否正常:
mosquitto_pub -h -p 1884 -t "hello" -m "this is hello world"
如果出现Error: Connection refused
表示服务(及对应的端口)未启动。
题外话:
在嵌入式 ARM Linux 环境中,Buildroot 已包含 mosquitto,可直接勾选。此处略,根据笔者实验,Buildroot 的 mosquitto 所有配置均在文件 /etc/mosquitto/mosquitto.conf 中。使用如下命令操作:
systemctl restart mosquitto // 重启
systemctl stop mosquitto // 停止
查看节点状态:
# kubectl get node
NAME STATUS ROLES AGE VERSION
latelee-master Ready master 3m v1.17.3
此刻只有云端节点就绪。
可以另建目录运行程序,也可以在程序生成目录,此处选择后者,方便调试。
# cd $GOPATH/src/github.com/kubeedge/kubeedge/_output/local/bin
# ./cloudcore // 建议先如此,方便观察日志
也可以:
# nohup ./cloudcore > cloudcore.log 2>&1 &
如果使用系统服务方式,启动脚本为build/tools/cloudcore.service
,需修改ExecStart
为真实值。
示例如下:
[Unit]
Description=cloudcore.service
[Service]
Type=simple
Restart=always
ExecStart=/etc/kubeedge/cloudcore
[Install]
WantedBy=multi-user.target
添加服务命令:
cp build/tools/cloudcore.service /etc/systemd/system/cloudcore.service
sudo systemctl daemon-reload
sudo systemctl start cloudcore
注意,1.3版本不再需要手动生成证书,改为用 k8s secret 方式,因此,必须先运行云端,才会生成 secret(至少成功运行一次,以产生 secret),否则无法得到 token,无法配置边缘端。
前面已经准备好了文件,直接部署就方便很多。注意,需要将边缘端可执行文件拷贝到边缘机器上。方式多种,建议使用 scp 命令。前提是安装了 SSH 协议。在边缘端机器上执行拷贝(也称为分发)示例:
# mkdir -p /etc/kubeedge/config ~/kubeedge/
# cd ~/kubeedge/
# scp -r 192.168.0.102:/home/ubuntu/kubeedge/src/github.com/kubeedge/kubeedge/_output/local/bin/edgecore ~/kubeedge/
注1:此操作在边缘端机器上,非云端。假设部署工程目录为~/kubeedge
。
注2:1.3.0 版本无须手动拷贝证书,在运行边缘端时会自动从云端获取并存储在/etc/kubeedge/
目录下,从结果看,依然生成 /etc/kubeedge/ca 和 /etc/kubeedge/certs ,亦即与前面版本保持一致。
注3:如果以其它登陆用户身份拷贝,可在IP地址前加用户名,如sudo scp -r [email protected]:/etc/kubeedge/* /etc/kubeedge
。
前文已经运行了云端,会自动产生token,这里要先切换到云端机器,获取 secret,再将 tokendata 内容解码得到 token。示例如下:
# kubectl get secret tokensecret -n kubeedge -oyaml
输出:
apiVersion: v1
data:
tokendata: ZWE1NDg3YWNhYjZlMWEwNmE2OGI5OTNkOTMxNGVlMzA5OTg2YzJkM2MyOTkzMmNlNGI2NTE2MzI0NzljMDlhOC5leUpoYkdjaU9pSklVekkxTmlJc0luUjVjQ0k2SWtwWFZDSjkuZXlKbGVIQWlPakUxT1RFeE1USXhNamg5LlVoUHBBdnR6YmhMZkcycUNaZmtqX3Zoak9qbEw5VEFQdElGWkJQTlpuZ0E=
kind: Secret
...
解码:
# echo ZWE1NDg3YWNhYjZlMWEwNmE2OGI5OTNkOTMxNGVlMzA5OTg2YzJkM2MyOTkzMmNlNGI2NTE2MzI0NzljMDlhOC5leUpoYkdjaU9pSklVekkxTmlJc0luUjVjQ0k2SWtwWFZDSjkuZXlKbGVIQWlPakUxT1RFeE1USXhNamg5LlVoUHBBdnR6YmhMZkcycUNaZmtqX3Zoak9qbEw5VEFQdElGWkJQTlpuZ0E= | base64 -d
输出结果为:
ea5487acab6e1a06a68b993d9314ee309986c2d3c29932ce4b651632479c09a8.eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJleHAiOjE1OTExMTIxMjh9.UhPpAvtzbhLfG2qCZfkj_vhjOjlL9TAPtIFZBPNZngA // 注意解码后字符串没有换行,要仔细核对
再次强调,本小节在云端机器执行。
生成配置文件:
# ./edgecore --minconfig > /etc/kubeedge/config/edgecore.yaml
修改配置文件:
# vim /etc/kubeedge/config/edgecore.yaml
注意3处地方。
websocket
下的server
,默认为127.0.0.1:10000
,需改为实际云端 IP 地址,此处为192.168.0.102:10000
。podSandboxImage
,X86平台为podSandboxImage: kubeedge/pause:3.1
(默认),ARM 平台根据位数不同,可设为kubeedge/pause-arm:3.1
或ubeedge/pause-arm64:3.1
。cgroupDriver: cgroupfs
,无须改 Docker 配置。网络设备接口名称及 IP 地址,会运行上述命令时自动检测获取,无须修改(注:在一台虚拟机中,网卡为 enp0s3,但配置文件中依然为 eth0)。接上,运行边缘端核心:
# ./edgecore // 建议先如此,方便观察日志
也可以:
# nohup ./edgecore > edgecore.log 2>&1 &
如果使用系统服务方式,启动脚本为build/tools/edgecore.service
,需修改ExecStart
为真实值。
示例如下:
[Unit]
Description=edgecore.service
[Service]
Type=simple
Restart=always
ExecStart=/etc/kubeedge/edgecore
[Install]
WantedBy=multi-user.target
添加服务:
cp build/tools/edgecore.service /etc/systemd/system/edgecore.service
sudo systemctl daemon-reload
sudo systemctl start edgecore
这里再强调一次 mqtt,另起终端,运行命令:
/usr/sbin/mosquitto -d -c /etc/mosquitto/mosquitto.conf
在云端查看状态:
# kubectl get node
NAME STATUS ROLES AGE VERSION
latelee-master Ready master 24m v1.17.3
latelee-node Ready agent,edge 2m9s v1.17.1-kubeedge-v1.3.0-beta.0.49+5bfca35b2d99a5-dirty
云端和边缘端均为 Ready 状态。
尝试部署官方的 deployment:
kubectl apply -f $GOPATH/src/github.com/kubeedge/kubeedge/build/deployment.yaml
输出示例:
# kubectl get pod -owide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
nginx-deployment-77698bff7d-zf5c6 1/1 Running 0 110s latelee-node
扩容测试:
kubectl scale deployment nginx-deployment --replicas=4
预期效果:有4个pod出现,但只有1个正常运行,因为该 deployment 导出了节点端口,前面的 pod 已经占用,无法再分配。理论上,如果有4个节点,则会自动将 deployment 调度到4个节点上。输出示例:
# kubectl get pod
NAME READY STATUS RESTARTS AGE
nginx-deployment-77698bff7d-b9mlc 0/1 Pending 0 6s
nginx-deployment-77698bff7d-ddvl2 0/1 Pending 0 6s
nginx-deployment-77698bff7d-p6k8t 0/1 Pending 0 7s
nginx-deployment-77698bff7d-zf5c6 1/1 Running 0 2m27s
删除:
kubectl delete -f $GOPATH/src/github.com/kubeedge/kubeedge/build/deployment.yaml
测试小记:
ARM的部署十分简单,将 edgecore 交叉编译即可,其它与 X86 环境是一致的,这里再列一次:创建对应的目录,拷贝边缘端可执行二进制文件,启动mqtt(一般作为系统服务随系统启动而启动),运行边缘端。
安装交叉编译器:
sudo apt-get install gcc-arm-linux-gnueabihf
设置环境变量并编译:
export GOARCH=arm
export GOOS="linux"
export GOARM=7
export CGO_ENABLED=1
export CC=arm-linux-gnueabihf-gcc
export GO111MODULE=off
make all WHAT=edgecore
注:KubeEdge 已经将依赖包纳入代码仓库,直接编译即可,不需要下载额外的包,为安全,可暂时禁止 GO111MODULE。
kubeedge运行文件:
1、/etc/kubeedge/: 证书、配置文件(云边均有)。
2、/var/lib/kubeedge/: 云端有socket文件kubeedge.sock ,边缘端有数据库文件edgecore.db。
如果要完全清理kubeedge环境,上述目录需要删除。
在测试时发现的问题及解决方法。
1、
云端运行时出现:
# ./cloudcore
[address: Invalid value: "unix:///var/lib/kubeedge/kubeedge.sock": unixSocketAddress unix:///var/lib/kubeedge/kubeedge.sock dir /var/lib/kubeedge not exist , need create it]
解决:此目录保存socket文件,需要手动创建目录
mkdir -p /var/lib/kubeedge
备注:1.3.0 版本似乎无须手动创建了。
2、
云端无法获取请求的资源:
./cloudcore
...
github.com/kubeedge/kubeedge/cloud/pkg/synccontroller/synccontroller.go:162: Failed to list *v1alpha1.ObjectSync: the server could not find the requested resource (get objectsyncs.reliablesyncs.kubeedge.io)
没有执行$GOPATH/src/github.com/kubeedge/kubeedge/build/crds/reliablesyncs
目录的yaml文件,参见 2.4 小节。
3、
Cgroup 驱动不匹配:
[CGroupDriver: Invalid value: "groupfs": CGroupDriver value error]
如果 Docker 使用的驱动方式为 systemd,则需要修改 yaml 文件为 systemd,如使用 cgroupfs,Docker 也要保持一致。
4、
边缘端机器的配置文件的主机名称、IP,必须与真实主机一致。否则会注册不成功。
5、
节点注册失败:
create node LATE-LEE error: Node "LATE-LEE" is invalid: metadata.name: Invalid value: "LATE-LEE": a DNS-1123 subdomain must consist of lower case alphanumeric characters, '-' or '.', and must start and end with an alphanumeric character (e.g. 'example.com', regex used for validation is '[a-z0-9]([-a-z0-9]*[a-z0-9])?(\.[a-z0-9]([-a-z0-9]*[a-z0-9])?)*') , register node failed
主机名称不合法,必须是小写字母、数字,其它字符只能是-
或.
(下划线也不行),而且名称的开头和结尾必须是小写字母。(注:这是k8s dns命名的一个规范)。
6、
清理相关。
Failed to check the running environment: Kubelet should not running on edge node when running edgecore
一般出现于k8s和kubeedge混用情况,需要完全清理k8s方可。相似问题有:
Orphan pod: Orphaned pod "8685b805-a1c7-4687-8ce8-c77d24af5828" found, but volume paths are still present on disk
如果要重新运行edgecore,需要删除/var/lib/kubeedge/edgecore.db
。
7、
边缘端有配置 token:
Error: token are in the wrong format
需要在云端生成 token,并填写边缘端配置文件的 token 字段。
8、
mqtt 服务未运行。提示:
connect error: Network Error : dial tcp 127.0.0.1:1883: connect: connection refused
根据前文运行 mqtt。
9、
无法查看边缘端 pod 日志:
# kubectl logs nginx-deployment-77698bff7d-wmqfx
Error from server: Get https://192.168.0.140:10350/containerLogs/default/nginx-deployment-77698bff7d-zf5c6/nginx: dial tcp 192.168.0.140:10350: connect: connection refused
在边缘端查看端口:
# netstat -ntpl | grep 10350
tcp 0 0 127.0.0.1:10350 0.0.0.0:* LISTEN 5690/edgecore
该问题目前还没排查。
KubeEdge 在2020年5月中旬(即本文发表前16天)发布了1.3.0。笔者本想在发布时进行测试验证(主要想看看新特性),但宥于家庭琐事,既想研究技术又想把家庭照料得很好是两难全之事。但最终还是下定决心,利用几个深夜时间慢慢摸索,总算有了本文。