elasticsearch字段过大导致的内存问题

    公司在搭一套代码搜索系统,存储选型为elasticsearch,三个节点每个节点8g内存,最近遇到一个很诡异的现象是es集群经常内存耗尽,表现形式是堆内存消耗90%以上并且持续进行full gc。

     因为我们集群查询qps很低所以基本排除了查询缓存的影响,所以问题肯定出在写入的时候,经过多天的排查终于发现罪魁祸首在于es文档中的某一个字段过大。由于我们要对代码源文件内容进行搜索所以es文档中有个content存储的是文件内容,但是有些开发把一些超大的自动生成的文本文件提交到了git,有些达到几M甚至几十M,对这些文件建立索引的时候content字段就会超大,由于content字段需要被搜索,所以es会对其分词并且建立倒排索引,这样一来倒排索引就很非常非常多,导致内存耗尽,所以我们在使用es的时候一定要注意控制需要被索引的字段的大小以免内存耗尽。

你可能感兴趣的:(elasticsearch字段过大导致的内存问题)