一、Docker 监控方式
1.利用docker 的 docker stats API
命令: docker stats [容器ID/容器名称]
[root@docker ~]# docker stats --help Usage: docker stats [OPTIONS] [CONTAINER...] Display a live stream of container(s) resource usage statistics -a, --all Show all containers (default shows just running) --help Print usage --no-stream Disable streaming stats and only pull the first result
参数:-a, --all 表示查看所有容器包括已经exit状态的
--no-stream 表示仅拉取第一次的请求结果后就结束
示例:查看下某个容器的状态
[root@docker ~]# docker stats --no-stream cadvisor CONTAINER CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O cadvisor 1.48% 62.48 MB / 3.977 GB 1.57% 4.902 MB / 378 MB 18.93 MB / 0 B
从上面可以看到容器的资源使用,包括CPU、内存、内存使用率、网络入口IO、磁盘IO、及内存LIMIT。该方式比较简单明了,就像系统自带的top命令一样。
2.利用谷歌开源工具cAdvisor(官网)
创建容器,如果docker主机上没有该容器,可能需要喝杯热茶的时间(去docker hub上下载镜像,视网速)
[root@docker ~]# docker run --volume=/:/rootfs:ro --volume=/var/run:/var/run:rw --volume=/sys:/sys:ro --volume=/var/lib/docker/:/var/lib/docker:ro --publish=8080:8080 --detach=true --name=cadvisor-test google/cadvisor:latest
创建完成后,可以访问http://主机ip:8080/,如下图
3.利用独立开源项目Prometheus监控工具(官网),后续有时间会专门对其进行系统学习下。
来自官网资料:Prometheus及其一些生态系统组件的总体架构
二、本文案例开源工具介绍
1.cAdvisor (Container Advisor)该程序是由Google 开源的一个项目。提供了给使用容器的用户对其主机上运行容器的资源使用情况和性能的了解,它是一个以容器方式运行的守护进程,用来数据采集、汇聚、可视化和导出运行中容器的信息。具体来说,对于每个容器,它保留资源的隔离参数,历史资源使用,完整历史资源使用的直方图,和网络统计。此数据由机器上的容器输出。
2.InfluxDB(官网)是一个由Go编写的开源数据库,专门用于处理具有高可用性和高性能要求的时间序列数据。InfluxDB安装没有外部依赖,可以在几分钟内完成,然而它的灵活性、可扩展性足够复杂的部署。具有实时分析、历史分析、预测分析、异常检测等特点。
3.Grafana(官网)提供了一个强大而优雅的方式来创建、探索,并可以共享仪表板和数据。也是用于查询、可视化时间序列和指标的主要工具。支持的数据源有Graphite、Prometheus、Elasticsearch、InfluxDB、OpenTSDB、AWS CloudWatch等,并且在4.0及更高版本中加入了警报功能(but现在只支持一些数据源。它们包括Graphite,Prometheus,InfluxDB和OpenTSDB)。目前报警规则只有Graph面板支持,Table和Singlestat会在未来版本中出现。支持的通知方式有Email、即时通讯工具Slack、Webhook等。
三、监控部署
1.创建第一个容器influxdb
[root@docker ~]# docker run -d -p 8083:8083 -p 8086:8086 --expose 8090 --expose 8099 --name influxsrv -e PRE_CREATE_DB=cadvisor tutum/influxdb:0.13
注:默认情况下,InfluxDB使用以下网络端口:
TCP端口8083用于InfluxDB的管理面板
TCP端口8086用于通过InfluxDB的HTTP API进行客户端 - 服务器的通信
创建完成后,打开浏览器,访问http://ip:8083,默认用户名,密码是root、root,如下图
2.创建cAdvisor容器并将其link到InfluxDB容器
[root@docker ~]# docker run --volume=/:/rootfs:ro --volume=/var/run:/var/run:rw --volume=/sys:/sys:ro --volume=/var/lib/docker/:/var/lib/docker:ro --publish=8080:8080 --detach=true --link influxsrv:influxsrv --name=cadvisor google/cadvisor:v0.24.1 -storage_driver=influxdb -storage_driver_db=cadvisor -storage_driver_host=influxsrv:8086
3.创建Grafana容器并将其链接到InfluxDB容器:
docker run -d -p 3000:3000 -e INFLUXDB_HOST=localhost -e INFLUXDB_PORT=8086 -e INFLUXDB_NAME=cadvisor -e INFLUXDB_USER=root -e INFLUXDB_PASS=root --link influxsrv:influxsrv --name grafana grafana/grafana:3.1.1
4.打开浏览器,访问http://ip:3000/ Grafana界面
如有转载,请注明原文出处。飞走不可:http://www.cnblogs.com/hanyifeng/p/6233851.html
5.登录上去后,将Influxdb设置为Grafana的数据源,按照下图添加:
之后点击Add data source,add增加。信息如下:
最后保存测试连接。
6.我们使用Grafana设置我们的第一个Dashboard,并可视化来自cAdvisor的数据。
首先,添加一个Dashboard:
然后新建一个graph,如下图:
先设置Graph中的每个标题选项,如下:
General:
Title:Memory
Height:300px
Metrics:输入查询语句及选择数据源,default 已经是influxdb,可以不用设置(点击 可切换模式 )。
query 1: SELECT mean("value") FROM "memory_usage" WHERE container_name='cadvisor' AND container_name='cadvisor' AND $timeFilter GROUP BY time($interval), "container_name" fill(previous)
ALIAS BY:$tag_container_name.memory
Format as:Time series
Axes:主要修改一下Y轴的 显示单位
Left Y-->Unit:bytes、Y-Min:0
Legend:可以在图标左下方显示统计的最大、最小、及平均值等。
Display:主要修改下显示的波浪线或者点,还可以修改区域的显示深度(可以按个人喜好)
Mode Options-->Fill:4、LineWidth:2
修改设置完成后,记得点击正上面的保存按钮。完整的一个dashboard就出来了。如下图:
点击ADD ROW ,可以增加其它监控Graph、Table、Text等。剩下需要监控的如CPU、磁盘IO、网络IO。创建方式和上面基本一致,除了左Y轴那里需要注意下单位。
7.完整的几个图,以及查询语句如下:
cpu 查询:
SELECT derivative(mean("value"), 10s) FROM "cpu_usage_total" WHERE container_name='cadvisor' AND $timeFilter GROUP BY time($interval), container_name fill(previous)
网络 i/o 查询:
tx:
SELECT derivative(mean("value"), 10s)/8 FROM "tx_bytes" WHERE container_name='cadvisor' AND $timeFilter GROUP BY time($interval), container_name fill(previous)
rx:
SELECT derivative(mean("value"), 10s)/8 FROM "rx_bytes" WHERE container_name='cadvisor' AND $timeFilter GROUP BY time($interval), container_name fill(previous)
文件系统使用及limit:
fs
SELECT mean("value") FROM "fs_usage" WHERE container_name='cadvisor' AND container_name='cadvisor' AND $timeFilter GROUP BY time($interval), "container_name" fill(previous)
limit
SELECT mean("value") FROM "fs_limit" WHERE container_name='cadvisor' AND $timeFilter GROUP BY time($interval), "container_name" fill(previous)
四、总结一下
Docker 容器的监控不容忽视,毕竟里面是有业务程序在跑的,有了监控,还要有相关预警规则,及报警的处理动作,就像zabbix 一样。不知道cAdvisor监控Docker 集群有木有其它的开源技术方案,毕竟Dcoker 服务器是集群存在的。下次我找到好的技术方案,再来分享。
如果文中有错误,还望大家不吝赐教。
如有转载,请注明原文出处。飞走不可:http://www.cnblogs.com/hanyifeng/p/6233851.html
参考资料:
https://segmentfault.com/a/1190000002527178
https://www.brianchristner.io/how-to-setup-docker-monitoring/