zabbix在运维方面的监控方法小结

一些经典的运维问题:

1.配置文件中有空格,导致服务端下发的域名出现问题
2.修改数据库没有备份
3.修改dnspod问题,指向了错误的IP地址
4.时间不一致,需要重新设定时区
5.启动程序必须是最新版本,如:ps -ef|grep sdk-speech-1.1.1.jar
有可能没有杀死老版本的程序
6.ssl证书更换(cdn,slb,nginx,tomcat,haproxy,upyun,qiniu)
7.域名解析,经过通用高防以后无法获取客户端的真实IP地址,获取的全部是高防的IP地址
8.每个业务应用都需要至少双实例(避免单点问题)
slb,nginx,jar,redis,mysql
9.域名证书到期时间监控
10.网络问题
4G网络连接系统没有问题,发现wifi出现连接失败的问题
原因是wifi上有,连接到了国外的服务器,同样的域名只是dnspod解析的地区不同分国内国外(国外服务器又没有添加cp的信息,导致认证失败)
11.mysql数据库utf8mb4编码,innodb数据库引擎,还有连接数,文件句柄
12.slb的安全ip添加
13.关键的域名需要判断是否解析到了正常的城市和国家(分国内、国外、港澳台线路,或者移动,联通线路等)

elk,hadoop集群的安全性,root密码,服务器权限
es的9200端口,9300端口


qps需要注意是否达到瓶颈

磁盘的吞吐量
# sar -n DEV 2 5 
Linux 2.6.32-431.11.29.el6.ucloud.x86_64 (rdp02_confluent)     12/26/2017     _x86_64_    (16 CPU)

11:17:44 PM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
11:17:46 PM        lo  41508.12  41508.12   7543.42   7543.42      0.00      0.00      0.00
11:17:46 PM      eth0   3872.08   1309.64   5181.46    183.86      0.00      

你可能感兴趣的:(zabbix在运维方面的监控方法小结)