ElasticSearch集群宕机总结

灾难描述:

通过错误日志分析:超长关键词模糊查询触发lucene内部错误,导致整个集群全部宕机

灾难恢复面临问题

    1. 重启整个集群
    1. 打开被close的索引
      POST */_open
    1. 查看集群健康状态
      GET _cat/health 集群状态RED
    1. 查看索引分片状态
      GET _cat/shards 商品索引2号shard主副分片全部UNASSIGNED,提供的服务的数据只有60%

灾难恢复方案

    1. 重启ElasticSearch集群
    1. 恢复UNASSIGNED分片
      elasticsearch集群索引分片丢失的处理
    1. 重建商品索引,重导全量数据(主副分片全部UNASSIGNED,分片恢复尝试无效)

灾难恢复

重建商品索引,重导全量数据

灾难总结及预防方案

    1. 换掉模糊查询或者限制其关键字长度
    1. 索引setting主副分片设置方案,主分片数量1 副分片数量2以上
    1. 建立ElasticSearch快照(每隔2小时 视需求而定)
      Elasticsearch模块功能之-快照和恢复(snapshot and restore)

你可能感兴趣的:(ElasticSearch集群宕机总结)