领到说:小张,今天你把es的检索速度优化到一秒以内再下班!
我(心想):今天回不了家了。
领导又说:小张,你怎么一个星期都没回家了?
我:...
不想做调优的开发人员,就不是好的开发人员!
在使用elasticsearch的过程中,一定会遇到elasticsearch检索速度慢的问题,那为什么别人的就是秒级别返回结果,咱们的系统就是好多个秒才返回呢!
其中关于elasticsearch 的调优思路:包含但不限于:Nested慢查询、集群查询慢、range查询慢等问题。
每当我们得到这些类型的问题时,我们首先要深入研究两个主要方面:
我们将首先关注开发方面的问题。 我们将获得慢查询,讨论DSL查询语言,并查看有助于改进Elasticsearch查询的小型常规选项。
第一步是查看发送到群集的查询所花费的时间。 在研究如何打开慢速日志时,Elasticsearch文档可能有点不清楚,因此我将在下面展示一些示例。
默认情况下,所有版本的Elasticsearch都会关闭慢速日志,因此您必须对群集设置和索引设置进行一些更新。
这些示例适用于使用elasticsearch 6.2,但您可以在此处找到所有以前的版本。
只需将$ES_version替换为您正在使用的版本,
例如5.5版本设置官网参考:http://t.cn/E7Hq2NG。
向_cluster API发送放置请求以定义要打开的慢速日志级别:警告,信息,调试和跟踪。 (有关日志记录级别的更多信息参考:http://t.cn/E7Hqc5e。)
curl -XPUT http://localhost:$ES_PORT/_cluster/settings -H ‘Content-Type: application/json’ -d’
{
"transient" : {
"logger.index.search.slowlog" : "DEBUG",
"logger.index.indexing.slowlog" : "DEBUG"
}
}'
ES_PORT是一个持久的环境变量。
curl -XPUT http://localhost:$ES_PORT/*/_settings?pretty -H 'Content-Type: application/json' -d
'{"index.search.slowlog.threshold.query.debug": "-1",
"index.search.slowlog.threshold.fetch.debug": "-1",}'
location:/ var / log / elasticsearch / $ClusterID_index_slowlog_query
和 / var / log / elasticsearch / $ClusterID_index_slowlog_fetch。
如您所见,搜索慢速日志再次根据搜索阶段分解为单独的日志文件:获取(fetch)和查询(query)。
现在我们在日志中有结果,我们可以拉入一个条目并将其分开。
[2018-05-21T12:35:53,352][DEBUG ][index.search.slowlog.query]
[DwOfjJF] [blogpost-slowlogs][4] took[1s], took_millis[0], types[],
stats[], search_type[QUERY_THEN_FETCH], total_shards[5],
source[{"query":{"match":{"name":{"query":"hello world",
"operator":"OR","prefix_length":0,"max_expansions":50,
"fuzzy_transpositions" :true,"lenient":false,"zero_terms_query":
"NONE","boost":1.0}}},"sort":[{"price": {"order":"desc"}}]}],
在这里,您看到:
1. 日期
2. 时间戳
3. 日志级别
4. 慢速类型
5. 节点名称
6. 索引名称
7. 分片号
8. 时间花费
9. 查询的主体(_source>)
一旦我们获得了我们认为花费的时间太长的查询,我们就可以使用一些工具来分解查询:
工具1:Profile API
Profile API提供有关搜索的信息页面,并分解每个分片中发生的情况,直至每个搜索组件(match/range/match_phrase等)的各个时间。 搜索越详细,_profile输出越详细。
工具2:The Kibana profiling 工具
这与_profileAPI密切相关。 它提供了各个搜索组件的完美的可视化效果表征各个分解阶段以及各阶段查询的时间消耗。 同样,这允许您轻松选择查询的问题区域。
现在我们已经确定了一个很慢的查询,我们通过一个分析器profile来运行它。 但是,查看单个组件时间结果并未使搜索速度更快。 怎么办?
通过两个阶段(下面)了解查询的工作原理,允许您以从速度和相关性方面获得Elasticsearch最佳结果的方式重新设计查询。
获取阶段由路由节点开始,路由节点确定每个分片发送的50个(5个分片×10个结果)结果中的前10个文档。
路由节点向分片发出对前10个文档的请求。 (可能是包含最高得分文档的一个分片,或者它们可能分散在多个分片中。)
返回列表后,主节点会在查询响应的_hits部分中显示文档。
结果分数是Elasticsearch的关键。 通常,当您使用搜索引擎时,您需要最准确的结果。 例如,如果您正在搜索“苹果”,您不希望结果包括“苹果手机”。
Elasticsearch根据您提供的参数对查询结果进行评分。
虽然查询相关性不是本篇文章的重点,但重要的是在此提及,因为如果您有快速搜索需求但结果不是您要查找的结果,则整个搜索都是浪费时间。
那么,你如何加快搜索速度?
提高搜索性能的一种方法是使用过滤器。 过滤后的查询可能是您最需要的。
首先过滤是很重要的,因为搜索中的过滤器不会影响文档分数的结果,因此您在资源方面使用很少的资源来将搜索结果范围缩小到很小。
使用过滤查询,结合使用布尔匹配,您可以在评分之前搜索包含X的所有文档,或者不包含Y的所有文档。此外,可以filter是可以被缓存的。
过滤器filter查询不是加速Elasticsearch查询的唯一方法。
【from腾讯】默认情况下,ES通过一定的算法计算返回的每条数据与查询语句的相关度,并通过score字段来表征。
但对于非全文索引的使用场景,用户并不care查询结果与查询条件的相关度,只是想精确的查找目标数据。
此时,可以通过query-bool-filter组合来让ES不计算score,
并且尽可能的缓存filter的结果集,供后续包含相同filter的查询使用,提高查询效率。
filter原理推荐阅读:吃透 | Elasticsearch filter和query的不同
避免使用脚本查询来计算匹配。 推荐:建立索引时存储计算字段。
例如,我们有一个包含大量用户信息的索引,我们需要查询编号以“1234”开头的所有用户。
您可能希望运行类似“source”的脚本查询:“doc [‘num’]。value.startsWith(‘1234’)。”
此查询非常耗费资源并且会降低整个系统的速度。 合理的建议:考虑在索引时添加名为“num_prefix”的字段。
然后我们可以查询“name_prefix”:“1234”。
主要原因:
wildcard类似mysql中的like,和分词完全没有了关系。
出现错误:
用户输入的字符串长度没有做限制,导致首尾通配符中间可能是很长的一个字符串。 后果就是对应的wildcard Query执行非常慢,非常消耗CPU。
根本原因:
为了加速通配符和正则表达式的匹配速度,Lucene4.0开始会将输入的字符串模式构建成一个DFA (Deterministic Finite Automaton),带有通配符的pattern构造出来的DFA可能会很复杂,开销很大。
可能的优化方案:
ES5.x里对数值型字段做TermQuery可能会很慢。
在ES5.x+里,一定要注意数值类型是否需要做范围查询,看似数值,但其实只用于Term或者Terms这类精确匹配的,应该定义为keyword类型。
典型的例子就是索引web日志时常见的HTTP Status code。
详尽原理参考:https://elasticsearch.cn/article/446
一是:数据建模规划的时候,在Mapping节点对于仅存储、是否构建倒排索引通过enabled、index参数进行优化。
二是:_source控制返回,不必要的字段不需要返回,举例:采集的原文章详情内容页,根据需要决定是否返回。
在检索/聚合结果后,业务系统还有没有做其他复杂的操作,花费了多少时间?
这块是最容易忽视的时间耗费担当。
Elasticsearch显然更擅长检索、全文检索,其他不擅长的事情,尽量不要ES处理。比如:频繁更新、确保数据的ACID特性等操作。
区分路由节点、数据节点、候选主节点。
路由节点的主要优点
是:
1.由于路由节点减少了搜索和聚合的压力,因此数据节点上的内存压力略有降低;
2.“智能路由”——因为他们知道所有数据存在的地方,他们可以避免额外的跳跃;“智能路由”——因为他们知道所有数据存在的地方,他们可以避免额外的跳跃;
3.从架构上讲,将路由节点用作集群的访问点非常有用,因此您的应用程序无需了解详细信息。 从架构上讲,将路由节点用作集群的访问点非常有用,因此您的应用程序无需了解详细信息。
尽量将主节点与数据节点分开,因为它将减少所有群集的负载。
以下时间开始考虑专用主节点:
1.群集大小开始变得难以驾驭,可能像10个节点或更高?
2.您会看到由于负载导致集群不稳定(通常由内存压力引起,导致长GC,导致主节点暂时从集群中退出)您会看到由于负载导致集群不稳定(通常由内存压力引起,导致长GC,导致主节点暂时从集群中退出)
分离主节点的主要目的是使“主节点的职责”与负载隔离,因为高负载可能导致长GC,从而导致集群不稳定。
分离主节点后,一个高负载的集群只会影响数据节点(显然仍然不好),但能保证主节点稳定,一旦集群超载,基本上专门的主节点给你喘息的空间,而不是整个集群走向崩溃。
另外,与数据节点相比,主节点通常可以非常“轻”。几GB的RAM,中等CPU,普通磁盘等或许就能满足需求(需要根据实际业务场景权衡)。
推荐阅读:http://t.cn/E7HM4ML
搜索引擎旨在快速提供答案。 为此,他们使用的大多数数据结构必须驻留在内存中。 在很大程度上,他们假设你为他们提供了足够的记忆。 如果不是这种情况,这可能会导致问题 - 不仅仅是性能问题,还有集群的可靠性问题。
合理的堆内存大小配置建议:宿主机内存大小的一半和31GB,取最小值
推荐阅读:https://blog.csdn.net/laoyang360/article/details/79998974
shard数量过多,则批量写入/查询请求被分割为过多的子写入/子查询,导致该index的写入、查询拒绝率上升;
对于数据量较大的index,当其shard数量过小时,无法充分利用节点资源,造成机器资源利用率不高 或 不均衡,影响写入/查询的效率。对于每个index的shard数量,可以根据数据总量、写入压力、节点数量等综合考量后设定,然后根据数据增长状态定期检测下shard数量是否合理。
腾讯基础架构部数据库团队的推荐方案是:
让index压力分摊至多个节点:可通过index.routing.allocation.totalshardsper_node参数,强制限定一个节点上该index的shard数量,让shard尽量分配到不同节点上
综合考虑整个index的shard数量,如果shard数量(不包括副本)超过50个,就很可能引发拒绝率上升的问题,此时可考虑把该index拆分为多个独立的index,分摊数据量,同时配合routing使用,降低每个查询需要访问的shard数量。
——建议参考:https://blog.csdn.net/laoyang360/article/details/78080602
节点包含多个线程池,以便改进节点内线程内存消耗的管理方式。 其中许多池也有与之关联的队列,这允许保留挂起的请求而不是丢弃。
search线程——用于计数/搜索/推荐操作。 线程池类型为fixed_auto_queue_size,大小为int((available of available_ * 3)/ 2)+ 1,初始队列大小为1000。
5.X版本之后,线程池设置是节点级设置。因此,无法通过群集设置API更新线程池设置。
查看线程池的方法:
GET /_cat/thread_pool
排查一下慢查询时间点的时候,注意观察服务器的CPU, load average消耗情况,是否有资源消耗高峰,可以借助:xpack、cerbero或者elastic-hd工具查看。
当您遇到麻烦并且群集工作速度比平时慢并且使用大量CPU功率时,您知道需要做一些事情才能使其再次运行。 当Hot Threads API可以为您提供查找问题根源的必要信息。 热线程hot thread是一个Java线程,它使用高CPU量并执行更长的时间。
Hot Threads API返回有关ElasticSearch代码的哪一部分是最耗费cpu或ElasticSearch由于某种原因而被卡住的信息。
热线程使用方法:
GET /_nodes/hot_threads
回答文章开头的问题:——为什么Elasticsearch查询变得这么慢了?
和大数据量的业务场景有关,您可以通过几个简单的步骤优化查询:
1.启用慢速日志记录,以便识别长时间运行的查询
2.通过_profiling API运行已识别的搜索,以查看各个子查询组件的时间通过_profiling API运行已识别的搜索,以查看各个子查询组件的时间
3.过滤,过滤,过滤过滤,过滤,过滤
Elasticsearch优化非一朝一夕之功,需要反复研究、实践甚至阅读源码分析。
本文综合了国外、国内很多优秀的实践建议,核心点都已经实践验证可行。
欢迎大家留言讨论!
参考:
http://t.cn/E7HJaPI
http://t.cn/RQSwH4X
http://t.cn/RInoI4c