2018-06-08 prometheus 使用过程中遇见的问题

  • 已修复 Get http://ip:port/metrics: dial tcp ip:port: socket: too many open files

  • 已修复 context deadline exceeded 原因:铁通走了电信出口, 添加铁通静态路由网段

    route add -net 122.72.0.0 netmask 255.255.0.0 gw 112.21.164.1 dev bond0

  • 已修复 msg="append failed" err="no token found" 原因:exporter 路径指定有问题, url小尾巴不对, 重启exporter 指定正确小尾巴即可

  • msg="append failed" err="WAL log samples: log series: write data/wal/001849: file already closed" 也是ulimit 的限制,通过修改系统ulimit 和 supervisor 的 openfile 限制解决问题,正在测试这种修复方案

  • prometheus 100+ cpu 原因:prometheus 下面采集节点太多,1500+, 没有问题

  • Get http://ip:port/metrics: dial tcp ip:port: connect: connection refused 机器瓦特了

  • prometheus 挂掉em端口监控不能发现,write data/wal/001849: file already closed 这个问题所有数据都不采集,但是端口没有关闭 正在想办法发现并告警

你可能感兴趣的:(2018-06-08 prometheus 使用过程中遇见的问题)