ELK节点损坏后恢复整理

ELK节点损坏后恢复整理

一、概述

        因为机房断电重启,重启节点无资源分配,导致elk-data-2节点无资源调度,故而启动失败。加上之前ELK处理数据过高,Redis空间过载,服务集群崩溃。

二、解决思路

1:按数据传输流程,分析数据传输失败原因;

2:在配置文件里,除去坏死节点elk-data-2,将elk-data-master补上;

3:在RDM里清除之前索引并重启Redis清空缓存;

4:修改配置文件后,重启nginx-poxyelk-data-1elk-data-master上的Logstash服务;

5:检查监控是否正常。

三、解决步骤

1:分析错误日志整理

ELK节点损坏后恢复整理_第1张图片

1)节点失效

报错:Failed to send event to Redis {:event=>#

参考:https://www.oschina.net/question/1164681_2150347

解决方法:将配置文件中elk-data-2IP地址改为elk-masterIP地址。

2Redis空间不足

报错:exception=># 'maxmemory'.>

参考:https://blog.csdn.net/ahzxj2012/article/details/70849157/

解决方法:在RDM清除旧键,重启Redis恢复。

ELK节点损坏后恢复整理_第2张图片

3)更改点后格式错误

报错:Failed to execute action {:action=>LogStash::PipelineAction::Create/pipeline_id:main, :exception=>"LogStash: :ConfigurationError"

参考:https://www.jianshu.com/p/b3b4a38bfa16

解决方法:改成正确配置即可。

 

2:更改配置文件

采集端不

推送端:elk-master

1)更改Elasticsearch配置文件并重启

2)更改Logstash配置文件并重启

ELK节点损坏后恢复整理_第3张图片

3:同步日期

nginx-proxyelk-masterelk-data-1上同步时间

ntpdate -u ntp.api.bz

 

四、检查

1检查Redis

ELK节点损坏后恢复整理_第4张图片

2检查监控日志

ELK节点损坏后恢复整理_第5张图片

3检查集群状

ELK节点损坏后恢复整理_第6张图片

4检查索引

ELK节点损坏后恢复整理_第7张图片

5检查Redis器内存使用情况

 

五、总结与展望

        本次问题主要原因是:Redis内存使用率高,加上elk-data-2节点因为资源不足、启动失败,从而导致了整个监控集群的崩溃。因时刻监控elk-redis器的内存使用情况,及清理存数据,保Redis定性。再者,可以考重新分配一台elk-data-2销毁原服器,减少集群推送的力。

你可能感兴趣的:(ELK,ELK企业应用)