大数据之LibrA数据库系统告警处理(ALM-12006 节点故障)

告警解释

Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。

当Controller可以正常接收时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

12006

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

节点业务无法提供。

可能原因

网络断连、硬件故障或操作系统执行命令缓慢。

处理步骤

检查网络是否断连、硬件是否故障或者操作系统执行名称缓慢。

  1. 打开FusionInsight Manager页面,在告警列表中,优先处理在主机管理界面,健康状态为故障的节点故障告警。
  2. 在告警详情中,查看该告警的主机地址。
  3. 使用PuTTY工具,以root用户登录主管理节点。
  4. 执行ping 故障主机IP地址命令检查故障节点是否可达。

    • 是,执行步骤 13。
    • 否,执行步骤 5。

  5. 联系网络管理员查看是否为网络故障。

    • 是,执行步骤 6。
    • 否,执行步骤 7。

  6. 修复网络故障,查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行步骤 7。

  7. 联系系统管理员查看是否节点硬件故障(CPU或者内存等)。

    • 是,执行步骤 8。
    • 否,执行步骤 13。

  8. 维修或者更换故障部件,并重启节点。查看告警列表中,该告警是否已清除。

    说明:如果节点硬件故障,请参考产品文档中《故障管理》的“应急处理 > 常见紧急故障修复 > 更换故障节点”章节进行处理。

    • 是,处理完毕。
    • 否,执行步骤 9。

  9. 当集群中上报大量的节点故障时,可能是浮动ip资源异常导致controller无法检测agent心跳。

    登录任意故障节点,查看“/var/log/Bigdata/omm/oms/ha/scriptlog/floatip.log”,查看故障出现前后1-2分钟的日志是否完整。

    完整日志为如下格式:

     

    是,执行步骤 13。

    否,执行步骤 10。

  10. 查看检测完wsNetExport后是否打印omNetExport 的检测日志或两条日志打印间隔时间超过10s或更长。

    是,执行步骤 11。

    否,执行步骤 13。

  11. 查看操作系统的“/var/log/message”,查看故障出现时间段是否有sssd频繁重启或者nscd异常信息(Redhat操作系统确认sssd信息,SUSE操作系统确认nscd信息)。

    sssd重启样例

    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Starting up

    nscd异常信息样例

    Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.92:21780: Can't contact LDAP server

    是,执行步骤 12。

    否,执行步骤 13。

  12. 排查ldapserver节点是否故障,例如业务IP不可达、网络延时过长等;若故障为阶段性,则需在故障时排查,并尝试执行top命令查看是否存在异常软件。

收集故障信息。

  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选如下节点信息,单击“确定”。

    • NodeAgent
    • Controller
    • OS

  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。

你可能感兴趣的:(大数据,数据库,网络)