目录
1.Elasticsearch健康状态
2. 如何解决健康状态为黄色?
3. 如何解决健康状态为红色?
Elasticsearch 集群健康状态分为三种:
green:最健康得状态,说明所有的分片包括备份都可用; 这种情况Elasticsearch集群所有的主分片和副本分片都已分配, Elasticsearch集群是 100% 可用的。
yellow:基本的分片可用,但是备份不可用(或者是没有备份); 这种情况Elasticsearch集群所有的主分片已经分片了,但至少还有一个副本是缺失的。不会有数据丢失,所以搜索结果依然是完整的。不过,你的高可用性在某种程度上被弱化。如果 更多的 分片消失,你就会丢数据了。把 yellow 想象成一个需要及时调查的警告。
red:部分的分片可用,表明分片有一部分损坏。此时执行查询部分数据仍然可以查到,遇到这种情况,还是赶快解决比较好; 这种情况Elasticsearch集群至少一个主分片(以及它的全部副本)都在缺失中。这意味着你在缺少数据:搜索只能返回部分数据,而分配到这个分片上的写入请求会返回一个异常。
Elasticsearch 集群不健康时的排查思路:
1) 首先确保 es 主节点最先启动,随后启动数据节点;
2) 允许 selinux(非必要),关闭 iptables;
3) 确保数据节点的elasticsearch配置文件正确;
4) 系统最大打开文件描述符数是否够用;
5) elasticsearch设置的内存是否够用 ("ES_HEAP_SIZE"内存设置 和 "indices.fielddata.cache.size"上限设置);
6) elasticsearch的索引数量暴增 , 删除一部分索引(尤其是不需要的索引);
注意: 如下是单机单节点部署Elasticsearch, 集群状态可能为yellow, 因为单点部署Elasticsearch, 默认的分片副本数目配置为1,而相同的分片不能在一个节点上,所以就存在副本分片指定不明确的问题,所以显示为yellow。
可以通过在Elasticsearch集群上添加一个节点来解决问题,如果不想这么做,可以删除那些指定不明确的副本分片(当然这不是一个好办法)删除操作如下。
删除副本分片的办法:curl -XPUT "http://localhost:9200/_settings" -d' { "number_of_replicas" : 0 } '
节点数和备份数遵循原则:
节点数和备份数应遵循: N >= R + 1, N为节点数,R为number_of_replicas设置的值
问题描述:单机版Elasticsearch,版本6.7.0,使用head查看发现集群健康值显示黄色?
黄色表示基本的分片可用,但是备份不可用(或者是没有备份),查看es,发现主节点某个分片出现问题,变成Unassigned,例如下图dfy_index在node-1中的分片2会显示在unassigned那一排,集群状态为红色或者黄色
unssigned表示未分配副本分片的问题,在执行settings中删除副本分片的命令后, 这个问题就解决了。
原因:索引的“number_of_replicas (备份数)”为1,而节点只有1个,所以备份出来的数据没有节点可分配。
解决办法:增加节点或者删除副本把number_of_replicas设置为0,这里因为是单机,选择删除副本。
方法1:删除副本统一设置
curl -XPUT -H "Content-Type: application/json" "http://localhost:9200/_settings" -d' {"index" : { "number_of_replicas" : 0 } }'
方法2: 修改elasticsearch.yml配置文件
文件末增加(冒号之后有空格)
index.number_of_replicas: 0
如果设置单个索引设置
curl -XPUT 'localhost:9200/
现在使用head插件查看es,集群健康值显示为绿色:
集群健康值显示为red,则说明至少一个主分片分配失败, 这将导致一些数据以及索引的某些部分不再可用。遇到这种情况,还是赶快解决比较好。
原因:集群中部分节点的主分片未分配。r通常时由于某个索引的住分片为分片unassigned,只要找出这个索引的分片,手工分配即可。
如何解决 unassigned 分片问题?
方法一:删除索引——如果这个分片数据已经不可用,直接删除该分片 (即删除索引)
Elasticsearch中没有直接删除分片的接口,除非整个节点数据已不再使用,删除节点。
删除索引命令:
curl -XDELETE http://10.0.8.44:9200/索引名
方法二:是否违背节点备份原则 N >= R + 1
公式:集群中节点数量 >= 集群中所有索引的最大副本数量 +1
1) 添加节点处理,即N增大;
2) 删除副本分片,即R置为0;
curl -XPUT 'localhost:9200/
方法三:allocate重新分配分片
如果方案二仍然未解决,可以考虑重新分配分片。可能的原因:
1) 节点在重新启动时可能遇到问题。正常情况下,当一个节点恢复与群集的连接时,它会将有关其分片的信息转发给主节点,然后主节点将这分片从“未分配”转换为 "已分配/已启动"。
2) 当由于某种原因 (例如节点的存储已被损坏) 导致该进程失败时,分片可能保持未分配状态。
在这种情况下,必须决定如何继续: 尝试让原始节点恢复并重新加入集群(并且不要强制分配主分片); 或者强制使用Reroute API分配分片并重新索引缺少的数据原始数据源或备份。 如果你决定分配未分配的主分片,请确保将"allow_primary":"true"标志添加到请求中。
curl -XPOST '{ESIP}:9200/_cluster/reroute' -d '{
"commands" : [ {
"allocate" : {
"index" : "eslog1",
"shard" : 4,
"node" : "es1",
"allow_primary" : true
}
}
]
}'
现在使用head插件查看es,集群健康值显示为绿色(如果还不是,请考虑其它原因)。