Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU

先贴两张最终效果图

后续还有很多可以完善的地方,和MSI Afterburner对比资源占用,发现这套下来,准确度还是很高的~
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第1张图片
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第2张图片
废话不多说,开始进入正题~

所需软件及下载地址

grafana(界面)

下载地址:https://grafana.com/grafana/download?platform=windows
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第3张图片

influxDB(时序数据库) && telegraf(资源采集工具)

这部分需要VPN,否则官网可以进但是无法点击下载
下载地址: https://portal.influxdata.com/downloads/
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第4张图片
选择windows版本的
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第5张图片

nvidia-smi.exe

这是英伟达驱动自带的一个资源采集插件,一般存放于C盘,直接在本机搜索即可
进入cmd控制台,cd到该文件目录,执行nvidia-smi.exe即可查看当前GPU资源使用情况
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第6张图片

安装及启动

由于这几个程序有都ZIP压缩包,所以不需要安装,只需要解压缩好即可,启动方面我自己写了一个小的启动脚本

@echo off
cd C:\Program Files\influxdb-1.7.7_windows_amd64\influxdb-1.7.7-1\
start /MIN influxd -config influxdb.conf
cd C:\Program Files\telegraf-1.11.3_windows_amd64\telegraf
start /MIN telegraf -config telegraf.conf
cd C:\Program Files\GrafanaLabs\grafana\bin
start grafana-server.exe
exit

cd后的内容就是程序解压缩后的目录

登录界面

打开浏览器,地址栏输入http://localhost:3000,用户名admin,密码admin

创建 data sources

Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第7张图片
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第8张图片
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第9张图片

创建dashboard

Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第10张图片
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第11张图片
选择一个measurement
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第12张图片
以win_cpu举例
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第13张图片
选择WHERE后的+,选择instance,点击select tag value,可以看到每个逻辑核心,选择其中一个就是读指定逻辑核心的数据,选择Total就是读所有逻辑核心的综合数据
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第14张图片
点击field(value),选择Percent_Processor_Time,就是CPU核心使用率
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第15张图片
数据获取周期选择1s
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第16张图片
右上角查看周期选择Last 5 minutes
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第17张图片
可以看到过去5分钟内CPU总使用率
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第18张图片
下面的ALIAS BY是为该条数据起别名
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第19张图片
选择左边第2个图标,是调整曲线图的各种信息以及样式
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第20张图片
看Legend,打开如下开关
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第21张图片
第3个图标是修改该曲线图的Title以及描述信息,第4个图标是设置告警阈值
在这里插入图片描述
右上角保存
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第22张图片

监控NVIDIA GPU

主机的CPU、内存、磁盘、网络等性能数据的采集是telegraf配置文件中自带的,所以只要启动程序就可以采集到数据
NVIDIA GPU性能数据需要通过nvidia-smi.exe这个第三方插件
该插件GitHub网址:https://github.com/influxdata/telegraf/tree/master/plugins/inputs/nvidia_smi

修改telegraf配置文件

Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第23张图片
首先需要修改该文件的权限,给Users用户完全控制权限
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第24张图片
在配置文件结尾添加并保存

[[inputs.nvidia_smi]]
   bin_path = "C:\\Windows\\System32\\DriverStore\\FileRepository\\nv_dispi.inf_amd64_f155ba07b0ed3779\\nvidia-smi.exe"
   timeout = "1s"
****注意:这里的路径分隔符需要使用"\\",而不是"\"****

关掉下方telegraf的控制台并重新启动telegraf

创建一个新的曲线图,点击select measurement,现在我们可以看到gpu的性能数据了
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第25张图片
同样的,才WHERE后我们可以选择相应的tags
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第26张图片

  • computer_mode------主机GPU的运行模式
  • host------主机的hostname
  • index------显卡接入主板的PCIE端口索引号(ATX主板从上至下为0、1、2)
  • name------显卡型号
  • pastate ------GPU超频状态
  • uuid------GPU的id号(唯一标识符)

field中有很多选项,常用几种如下:

  • fan_speed------风扇转速,单位:百分比
  • memory_used------显存使用量,单位:MiB
  • temperature_gpi------GPU温度
  • utilization_gpu------GPU使用率
  • clocks_current_graphics------GPU核心频率,单位MHz
  • clocks_current_memory------显存频率,单位MHz

以显存使用举例

仪表盘样式的需要每5s刷新一次,所以建议新建dashboard,和CPU的区分开
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第27张图片
图样式选择仪表盘,Max设置显存为显存最大值,Thresholds设置显存告警阈值
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第28张图片
点击右上角dashboard设置
在这里插入图片描述
设置自动刷新周期为1s,保存
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第29张图片
设置查看周期为Last 5s
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第30张图片
选择每1秒自动刷新
Windows下的grafana+influxDB+telegraf监控主机基础资源以及NVIDIA GPU_第31张图片

你可能感兴趣的:(Windows运维,Grafana)