GPU-Nodes-Metrics 12027 设置

Grafana监控GPU

  • 1,设置`gpu_host`
  • 2,设置`GPU Utilization`
  • 3,设置GPU内存使用
  • 4,设置内存使用率

1,设置gpu_host

label_values(DCGM_FI_DEV_GPU_UTIL{job="gpu-metrics"}, instance)

GPU-Nodes-Metrics 12027 设置_第1张图片
在这里插入图片描述

2,设置GPU Utilization

  • GPU使用率
DCGM_FI_DEV_GPU_UTIL{instance=~"$hostname"}

在这里插入图片描述

3,设置GPU内存使用

  • GPU 已用内存
DCGM_FI_DEV_FB_USED{instance=~"$hostname"}
  • GPU 总内存
DCGM_FI_DEV_FB_USED{instance=~"$hostname"}+DCGM_FI_DEV_FB_FREE{instance=~"$hostname"}
  • 单位
    GPU-Nodes-Metrics 12027 设置_第2张图片

4,设置内存使用率

DCGM_FI_DEV_FB_USED{instance=~"$hostname"}/(DCGM_FI_DEV_FB_USED{instance=~"$hostname"}+DCGM_FI_DEV_FB_FREE{instance=~"$hostname"})

参考:

  1. GPU-Nodes-Metrics
  2. Grafana 里 Data(IEC) 和 Data(metric) 的区别
  3. 浅析数据单位的两种标准-Data(Metric)和Data(IEC)

你可能感兴趣的:(Prometheus)