WGCLOUD运维之路:agent主机下线离线不上报数据的原因整理

wgcloud监控系统的agent主机下线问题,agent日志打印防篡改校验失败或者防篡改校验错误次数大于10次,不再上报数据

这个问题注意几点,按照顺序依次排查下

1、 server和agent的主机系统时间差不能大于15个小时,若时间差不超过15小时打印【防篡改校验错误】类似信息,忽略即可,不会有影响

2、 若是v3.3.5之前版本,server主机的9997端口(这是守护进程wgcloud-daemon-release的默认端口)要开放给agent主机,保证agent主机可以telnet通server的9997端口

若是v3.3.5或以后版本,9997端口已经不需要开放给agent主机访问

3、 修改了守护进程wgcloud-daemon-release的默认端口导致的,server配置文件和守护进程配置文件没有同步修改端口,查看修改说明

4、若是v3.3.5或之后版本,查看server本机是否能正常访问http://localhost:9997获得返回值,如:2faa233a1400201bedc199fe1d8ab393,若server主机的localhost不能使用,可以在配置文件server/config/application.yml,将配置项daemonUrl: http://localhost:9997 中的localhost改成server主机ip

5、 wgcloud-server-release.jar不要编辑修改,若编辑过,还原到安装包里的wgcloud-server-release.jar即可

6、 server和agent要保持同一个版本号

7、server端的守护进程(wgcloud-daemon-release)不要关闭,特别是Windows注意不要关闭守护进程窗口。若是Linux,守护进程可能是被kill了,查看守护进程是否还存活(ps -ef | grep wgcloud)

还有一种可能是server部署在Windows,不小心左键点击守护进程的窗口,进入编辑模式了,右击恢复就好了

如果此原因导致的话,重启server(守护进程会随着server启动)后,1小时内所有agent会陆续恢复上线,也可以手动重启agent(立即上线)

8、 server如果运行在arm、龙芯等系统,需要将守护进程wgcloud-agent-release替换为对应的版本,点击下载

9、 如果server或守护进程(wgcloud-daemon-release)长时间没有启动运行,那么当server重新启动后,agent会在1小时内陆续自动恢复上线,不用重启agent。也可以手动重启agent,会立刻恢复上线

10、 可能是agent主机ping不通server主机,或访问不到server端口,我们可以在agent主机使用ping [server主机IP]和telnet [server主机IP] 9999来测试连通性

11、如果是在docker部署 server,我们检查下是否把config/application.yml中的守护进程url中的localhost改为宿主机ip了,如下

一般需要改下,除非是docker容器内可以访问http://localhost:9997的话,那就可以不改

#守护进程访问url,server服务使用,agent不使用(一般保持默认即可)

  daemonUrl: http://localhost:9997

如下图,红色字体标识主机下线

你可能感兴趣的:(WGCLOUD运维之路:agent主机下线离线不上报数据的原因整理)