Prometheus监控Docker Swarm集群(二)
前面我讲解了对于Docker的一些监控知识以及Docker监控开源工具Weave Scope做了一个概述,以及简单安装。
同时也了解了Weave Scope的不足之处,而引出来了cAdvisor配合Prometheus来监控容器,本篇主要是针对Swarm集群的监控详细讲解;
Swarm简介
Docker Swarm 是 Docker 官方三剑客项目之一,提供 Docker 容器集群服务,是 Docker 官方对容器云生态进行支持的核心方案。
使用它,用户可以将多个 Docker 主机封装为单个大型的虚拟 Docker 主机,快速打造一套容器云平台。
Docker 1.12.0以后的版本 Swarm Mode 已经内嵌入 Docker Engine,成为了 Docker 子命令 Docker Swarm,绝大多数用户已经开始使用 Swarm Mode,Docker Engine API 已经删除 Docker Swarm。Docker 1.12 Swarm mode 已经内嵌入 Docker 引擎,成为了 docker 子命令 docker swarm。请注意与旧的 Docker Swarm 区分开来。
Swarm mode 内置 kv 存储功能,提供了众多的新特性,比如:具有容错能力的去中心化设计、内置服务发现、负载均衡、路由网格、动态伸缩、滚动更新、安全传输等。使得 Docker 原生的 Swarm 集群具备与 Mesos、Kubernetes 竞争的实力。
节点
运行 Docker 的主机可以主动初始化一个 Swarm 集群或者加入一个已存在的 Swarm 集群,这样这个运行 Docker 的主机就成为一个 Swarm 集群的节点 (node) 。
节点分为管理 (manager) 节点和工作 (worker) 节点。
管理节点用于 Swarm 集群的管理,docker swarm 命令基本只能在管理节点执行(节点退出集群命令 docker swarm leave 可以在工作节点执行)。
一个 Swarm 集群可以有多个管理节点,但只有一个管理节点可以成为 leader,leader 通过 raft 协议实现。
工作节点是任务执行节点,管理节点将服务 (service) 下发至工作节点执行。管理节点默认也作为工作节点。你也可以通过配置让服务只运行在管理节点。
来自 Docker 官网的这张图片形象的展示了集群中管理节点与工作节点的关系。
服务和任务
任务 (Task)是 Swarm 中的最小的调度单位,目前来说就是一个单一的容器。
服务 (Services) 是指一组任务的集合,服务定义了任务的属性。服务有两种模式:
- replicated services 按照一定规则在各个工作节点上运行指定个数的任务。
- global services 每个工作节点上运行一个任务
两种模式通过 docker service create 的 --mode
参数指定。
来自 Docker 官网的这张图片形象的展示了容器、任务、服务的关系。
Swarm监控方案
一、基于cAdvisor+InfluxDB+Grafana
其中cAdvisor负责数据的收集,每一台节点都部署一个 cAdvisor 服务, Influxdb负责数据的存储, Grafana负责数据的图形可视化展示。
- cAdvisor:数据收集模块
- InfluxDB:数据存储
- Grafana:图形可视化
二、基于cAdvisor+Prometheus+Grafana
通过cAdvisor将业务服务器的进行数据收集,Prometheus将数据抓取后存放到自己的时序库中,Grafana则进行图表的展现。
- cAdvisor:数据收集模块
- Prometheus 抓取cAdvisor收集的指标数据存储TSDB
- Grafana:图形可视化
初始化 Swarm 集群
安装docker-ce,如果不指定版本,会安装最新的latest版本:
Ubuntu下查看Docker-ce版本列表 apt-cache madison docker-ce
Centos查看Docker-ce版本列表 yum list docker-ce --showduplicates | sort -r
Docker-ce 版本 19.03.11~3-0~ubuntu-bionic
基础环境:
manager: 192.168.1.220
worker01: 192.168.1.221
worker02: 192.168.1.222
apt install -y apt-transport-https software-properties-common
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"
apt update
apt install docker-ce
协议端口:
TCP port: 2377 集群管理通讯
TCP and UDP port: 7946 节点之间通讯
UDP port: 4789 overlay网络流量
# 在master机器上初始化集群,运行
MASTER_IP='192.168.1.220'
docker swarm init --advertise-addr ${MASTER_IP}
# output
Swarm initialized: current node (5tk280gclbz9a4gw0k9vu9bo0) is now a manager.
To add a worker to this swarm, run the following command:
docker swarm join --token SWMTKN-1-3lc66oda2binrl7vjfdjtf34tplt7q1bg446po6fgxasx3t48f-a05742d5tpwbkbl8r37hc9p2u 192.168.1.220:2377
To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.
# 在node01 node02节点运行提示的命令加入到集群中
docker swarm join --token SWMTKN-1-3lc66oda2binrl7vjfdjtf34tplt7q1bg446po6fgxasx3t48f-a05742d5tpwbkbl8r37hc9p2u 192.168.1.220:2377
manager节点初始化集群后,都会有这样一个提示,这个的命令只是给个示例,实际命令需要根据初始化集群后的真实情况来运行。
# 在master机器上查看当前的node节点
docker node ls
root@docker-swarm-master:~# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION
mnm180i3plzk2znjmdf0ded3w * docker-swarm-master Ready Active Leader 19.03.11
if8c5iltb2tau6g4v4vcccucr docker-swarm-node01 Ready Active 19.03.11
uu3jlkirrf0d5hf8bx8c5mnqc docker-swarm-node02 Ready Active 19.03.11
监控Swarm集群
OK,Swarm集群初始化已经完成,基于cAdvisor+InfluxDB+Grafana的yaml脚本
cat docker-compose-monitor.yml
version: '3'
services:
influx:
image: influxdb
volumes:
- influx:/var/lib/influxdb
deploy:
replicas: 1
placement:
constraints:
- node.role == manager
grafana:
image: grafana/grafana
ports:
- 0.0.0.0:80:3000
volumes:
- grafana:/var/lib/grafana
depends_on:
- influx
deploy:
replicas: 1
placement:
constraints:
- node.role == manager
cadvisor:
image: google/cadvisor
hostname: '{{.Node.Hostname}}'
command: -logtostderr -docker_only -storage_driver=influxdb -storage_driver_db=cadvisor -storage_driver_host=influx:8086
volumes:
- /:/rootfs:ro
- /var/run:/var/run:rw
- /sys:/sys:ro
- /var/lib/docker/:/var/lib/docker:ro
depends_on:
- influx
deploy:
mode: global
volumes:
influx:
driver: local
grafana:
driver: local
我们这里只讲第二种,基于cAdvisor+Prometheus+Grafana的方案。
git clone https://github.com/cyancow/swarmprom.git
cd swarmprom
ADMIN_USER=admin \
ADMIN_PASSWORD=admin \
SLACK_URL=https://hooks.slack.com/services/9935226 \
SLACK_CHANNEL=devops-alerts \
SLACK_USER=alertmanager \
docker stack deploy -c docker-compose.yml mon
# output
Creating network mon_net
Creating config mon_caddy_config
Creating config mon_dockerd_config
Creating config mon_node_rules
Creating config mon_task_rules
Creating service mon_prometheus
Creating service mon_caddy
Creating service mon_dockerd-exporter
Creating service mon_cadvisor
Creating service mon_grafana
Creating service mon_alertmanager
Creating service mon_unsee
Creating service mon_node-exporter
# 查看部署的stack
docker stack ls
NAME SERVICES ORCHESTRATOR
mon 8 Swarm
# 查看部署的service
docker service ls
ID NAME MODE REPLICAS IMAGE PORTS
xnkq61woc3ag mon_alertmanager replicated 1/1 stefanprodan/swarmprom-alertmanager:v0.14.0
tzxe317tffgl mon_caddy replicated 1/1 stefanprodan/caddy:latest *:3000->3000/tcp, *:9090->9090/tcp, *:9093-9094->9093-9094/tcp
06rv2rj9oxbo mon_cadvisor global 3/3 google/cadvisor:latest
ropkluyyxora mon_dockerd-exporter global 3/3 stefanprodan/caddy:latest
29ygw9r4a92c mon_grafana replicated 1/1 stefanprodan/swarmprom-grafana:5.3.4
whqtwwmfvdjl mon_node-exporter global 3/3 stefanprodan/swarmprom-node-exporter:v0.16.0
xv19nuesymol mon_prometheus replicated 1/1 stefanprodan/swarmprom-prometheus:v2.5.0
ia2g1ayhzjf6 mon_unsee replicated 1/1 cloudflare/unsee:v0.8.0
如果想在 Swarm 部署 Portainer的话,需要在docker-compose里加入以下声明
...
services:
agent:
image: portainer/agent
volumes:
- /var/run/docker.sock:/var/run/docker.sock
- /var/lib/docker/volumes:/var/lib/docker/volumes
ports:
- target: 9001
published: 9001
protocol: tcp
mode: host
networks:
- net
deploy:
mode: global
placement:
constraints: [node.platform.os == linux]
portainer:
image: portainer/portainer
command: -H tcp://tasks.agent:9001 --tlsskipverify
ports:
- "8000:8000"
volumes:
- portainer_data:/data
networks:
- net
deploy:
mode: replicated
replicas: 1
placement:
constraints: [node.role == manager]
...
# 使用以下命令更新
docker stack deploy -c docker-compose.yml mon
部署一个服务,然后使用Prometheus监控自动发现
cat test-compose.yml
version: "3.3"
networks:
net:
driver: overlay
attachable: true
mon_net:
external: true
services:
mongo:
image: healthcheck/mongo:latest
networks:
- net
deploy:
mode: replicated
replicas: 1
placement:
constraints:
- node.role != manager
mongo-exporter:
image: forekshub/percona-mongodb-exporter:latest
networks:
- net
- mon_net
ports:
- "9216:9216"
environment:
- MONGODB_URL=mongodb://mongo:27017
deploy:
mode: replicated
replicas: 1
placement:
constraints:
- node.role == manager
# 部署
docker stack deploy -c test-compose.yml mongo
# 查看 stack 列表
docker stack ls
NAME SERVICES ORCHESTRATOR
mon 10 Swarm
mongo 2 Swarm
# 查看 service 列表
docker service ls|grep mongo
o20avg5k0lqb mongo_mongo replicated 1/1 healthcheck/mongo:latest
6atp7sl2byeu mongo_mongo-exporter replicated 1/1 forekshub/percona-mongodb-exporter:latest *:9216->9216/tcp
# 在其中一个节点查看mongo是否部署成功
docker ps -a|grep mongo
102b337589aa healthcheck/mongo:latest "docker-entrypoint.s…" 18 minutes ago Up 18 minutes (healthy) 27017/tcp mongo_mongo.1.whn157ky895refdogo4s3imrw
总结
至此对于swarm集群的监控已经讲完了,对于swarm集群里,已经植入了一些简单的rules,关于Alertmanager与Rules的具体配置,具体可以参考官方网站。
本文由博客群发一文多发等运营工具平台 OpenWrite 发布