es查询大文本效率_Elasticsearch大文件检索性能提升20倍实践(干货)

少废话,直接开始。

1、大文件是多大?

ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。

项目中,有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。

比如:将《深入理解Elasticsearch》这边书导入ES,而这边书的全文内容被识别后的大小可能为3MB——5MB以上的字节。

存入ES后是一个content字段,对这个content执行全文检索&高亮显示,就存在检索效率低的问题,会耗时30S以上的时间。

这点,作为习惯了搜索引擎极速体验的用户,是不能忍的。

本文,详细记录了大文件的全文检索性能问题排查及提升实践方式。

2、问题描述

从检索症状来看:

1)翻页到1000+页(每页10条数据)以上,响应时间会比较长。

2)当遇到某些文件的时候(事后分析得知是大文件),响应时间尤其长,超过30S以上返回高亮结果。

3、问题排查与定位

步骤1: 限定返回记录条数。不提供直接访问末页的入口。

baidu,360,搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式:

通过点击上一下、下一页逐页访问。

这个从用户的角度也很好理解,搜索引擎返回的前面都是相关度最高的,也是用户最关心的信息。

Elasticsearch的默认支持的数据条数是10000条,可以通过post请求修改。

最终&#x

你可能感兴趣的:(es查询大文本效率)