今天稍微压了了一下线上的ES集群,发现CPU 过高,线上用的是4核16G。

找到ES的进程14642,

执行 top -Hp 14642

选取其中一个过高的线程

jstack 14642 | grep -A 30 3989

发现

elasticsearch CPU过高原因查找_第1张图片

你也可以用

jstack 14642 >>jstack.out 导出数据

然后执行

jstat -gcutil 14642

发现GC正常,初步确定是CPU核数过低, CPU 处理不过来,TAKE 结果时没有数据,阻塞。

while (_size.get() == 0)
{
_notEmpty.await();
}, 此时CPU空转。

之所以用take,是因为ES有5个分片,获取数据时,要使用5个线程,得到数据后要合并数据,所以必须等到5个线程的数据都进来,才能往下走。

使用下面的命令,也可以发现一些端倪

curl -XGET "http://localhost:9200/_nodes/hot_threads?pretty"

打算先增加CPU看看结果再说。