Rancher的4个监控项

经过长期的生产实践,我们发现Rancher 生产环境中经常会遇到下面这4个问题。 我们整理出了这个四个问题发生的情景以及相关的监控脚本,提供给需要的朋友们。

4个监控项

  1. ipsec 监控
  2. 主机 disconnect 监控.
  3. stack unhealthy 监控
  4. stack upgraded 监控

监控项对应的脚本,以及如何部署

准备工作

  1. 获取 Rancher api:
    1. 打开 Rancher 其中一个环境.
    2. 在顶部菜单中选择 API -> Keys,点击 “高级选项” -> “添加环境API KEY”
    3. 名称统一定为 monitor .
    4. 记录下 Access Key 与 Secret Key
  2. 获取Project ID
    1. 打开 Rancher 其中一个环境.
    2. 在顶部菜单中选择 API -> Keys,点击 “高级选项”
    3. 找到 端点,比如 http://rancher.wmcloud-qa.com/v2-beta/projects/1a5 , Proeject ID 即为 1a5

1. IPSEC 监控

监控原因

实际工作中,偶尔会出现主机之间的IPSEC 通道断开,这会导致两台主机间的容器无法通信, 在生产中一旦发生该故障, 则会出现非常严重的生产事故。

注意事项

  1. 所有Rancher主机都需要部署该监控
  2. 报警策略是,输出值改变即触发 S1 报警

监控脚本

#!/bin/bash
c_id=`docker ps | grep ipsec-router | awk -F' ' '{ print $1 }'`
#echo $c_id

n=`docker exec $c_id swanctl -S | grep IKE_SAs | awk -F' ' '{ print $2 }'`
echo $n

2.主机 disconnect 监控

监控原因

很多原因会触发Rancher主机disconnect, 譬如 CPU 用满, 内存用满, 网络用满, 磁盘用满,系统load过高, CPU上下文切换过高。 一旦发生Rancher 主机 disconnect 就表明系统资源的使用已经出现严重问题, 需要运维人员手工紧急处理.

注意事项

  1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
  2. 脚本名称 prod-respool-disconnect-monitor.sh
  3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
  4. 报警策略是输出非0 即触发 S1报警

监控脚本

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=*****
RANCHER_SECRET_KEY=*****
# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/hosts" \
  | jq '.data[] |  select(.state | contains("disconnected"))'  | jq -r .hostname `


if [[ "X${list}" == "X" ]];
then 
   echo '0'
   exit 0 
else
   echo ${list}
   exit 127
fi

3. Stack unhealthy 监控

监控原因

出现Stack unhealthy 的情况很多,比如 应用程序启动失败, 对某个目录权限不足, 依赖的服务没有启动,Rancher主机故障等等。 无论哪一种情况,都表示Stack 处于非正常工作状态,需要运维人员立即进行处理。

注意事项

  1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
  2. 脚本名称 prod-respool-stack-unhealthy-monitor.sh
  3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
  4. 报警策略是输出非0 即触发 S1报警

监控脚本

#!/bin/bash

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***

# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
  | jq '.data[] |  select(.healthState != "healthy")'  | jq -r .name `


if [[ "X${list}" == "X" ]];
then 
   echo '0'
   exit 0 
else
   echo '1'
   exit 127
fi

4. Stack upgrade 状态监控

监控原因

rancher 有一个bug, 当stack处于 upgraded 状态时,如果主机重启, 处于 upgraded 状态的service 都会处于stop 状态,并且无法自动恢复。 upgraded 状态存在的意义在于方便运维进行回滚,因此在监控时,保留24小时的缓冲时间

注意事项

  1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
  2. 脚本名称 prod-respool-stack-unhealthy-monitor.sh
  3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
  4. 报警策略是输出非0 ,并且持续24小时后,即触发 S2报警

监控脚本

#!/bin/bash

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***

# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
  | jq '.data[] |  select(.state == "upgraded")'  | jq -r .name `


if [[ "X${list}" == "X" ]];
then 
   echo 0
   exit 0 
else
   echo 1
   exit 127
fi

你可能感兴趣的:(Rancher的4个监控项)