记一次线上ES集群偶尔进程挂掉的解决

先说引起的原因

因为内存没给够,服务器有16个G内存,结果使用的是默认的1G内存

现象

刚开始偶尔出现可能3个月挂一次,手动启动就好了,后来发现半个月左右就挂一次,
统计接口一调用 就把ES卡挂了
http://127.0.0.1:9200/_cat/nodes?h=heap.max
然后我就写个监控脚本1小时监控一次ES,异常就程序重启, 并把监控结果定时发送到公司报警群
就像这样

image.png

后来两三天挂一次,我意识到这个问题需要解决一下
(可能有些人问,这不早都要解决了嘛, 因为某些原因,公司没有后端人员了,所以问题一直得不到解决)

解决办法:
在es目录下有个config文件 里面有个 jvm.options文件
编辑里面的 -Xms和-Xmx 设置为 服务器实际内存 除以二比较好 16G服务器就设置为8g
然后重启ES


image.png

错误日志:


image.png

你可能感兴趣的:(记一次线上ES集群偶尔进程挂掉的解决)