方案思路
分析
grafana支持修改配置文件关联Rabbitmq,并且使用grafana_event这个Exchange将grafana产生的事件消息分发给Rabbitmq中的队列,此处的grafana_evevnt是topic类型的Exchange。Rabbitmq根据routingKey负责将消息从exchange发送到对应绑定的queue中去,consumer只需从queue获取消息即可,工作流程大致如下图所示:
若能够将grafana产生的通知发送给Rabbitmq,之后就可以调用短信、微信等接口从消息队列中获取通知并发送,这就可以实现grafana告警对接其他的通知方式。由于目前grafana只支持将“组织创建、更新,用户创建、更新,用户注册开始、完成”事件消息发送给Rabbitmq,因此需要修改源码将通知发送给Rabbitmq。
方案
grafana每产生一条通知的时候会有将该条通知存入数据库的动作,此次方案选择在存入数据库后将这条通知抛给Rabbitmq。
实现
安装Rabbitmq
安装过程可参考Rabbitmq官方安装文档,因为本次是在Windows系统上操作的,所以以下介绍下Windows上的安装过程。
下载并安装Erlang:目前Rabbitmq3.6.x版本的需要19.X版本的Erlang,本次安装的Erlang是19.2版本的,下载OTP 19.2 Windows 64-bit Binary File,然后直接安装即可。
下载并安装Rabbitmq:下载rabbitmq-server-3.6.10.exe,然后直接安装即可。
-
添加环境变量,本次是默认安装:
在系统变量中的Path中新增%RABBITMQ_SERVER%\sbin。
启动Rabbitmq,点击“开始”,然后搜索“Rabbitmq”,双击出现的“Rabbitmq Service - start”启动服务。
开启管理插件:在Rabbitmq中的sbin目录下执行
rabbitmq-plugins enable rabbitmq_management
浏览器访问http://localhost:15672/,默认用户名:guest,密码:guest。
补充:
- 安装路径不要出现中文字符、空格等。
- 没有特殊要求最好采用默认安装。
修改grafana配置文件
在$GOPATH/src/github.com/grafana/grafana/conf/custom.ini文件中搜索“[event_publisher]”,然后改为如下图所示的样子:
保存修改并重启grafana,然后刷新Rabbitmq管理界面就可看到有1个connection,如下图:
开启Rabbitmq Trace插件
Trace是Rabbitmq用于记录每一次发送的消息,方便观察grafana抛给Rabbitmq的消息。
开启:rabbitmqctl trace_on
关闭:rabbitmqctl trace_off
具体可参考Rabbitmq Trace的使用。
新建Rabbitmq队列
在Rabbitmq管理界面点击Queues,再点击Add a new queue添加队列,只需要填上必输项即可,Name可填其他字符,如下图所示:
点击已添加的队列,进行Exchange与队列的绑定,如下如所示:
经过此步骤之后,Rabbitmq中的grafana_event Exchange会根据Routing key把匹配到的消息发送到该队列中。
修改grafana源码
$GOPATH\src\github.com\grafana\grafana\pkg\events\events.go文件中增加如下代码:
type Annotation struct {
Id int64 `json:"id"`
OrgId int64 `json:"orgId"`
DashboardId int64 `json:"dashboardId"`
PanelId int64 `json:"panelId"`
CategoryId int64 `json:"categoryId"`
RegionId int64 `json:"regionId"`
// Type ItemType `json:"type"`
Title string `json:"title"`
Text string `json:"text"`
Metric string `json:"metric"`
AlertId int64 `json:"alertId"`
UserId int64 `json:"userId"`
PrevState string `json:"prevState"`
NewState string `json:"newState"`
Epoch int64 `json:"epoch"`
Data *simplejson.Json `json:"data"`
}
$GOPATH\src\github.com\grafana\grafana\pkg\services\sqlstore\annotation.go文件中做如下改动:
import (
"bytes"
"fmt"
"strings"
//导入events
"github.com/grafana/grafana/pkg/events"
"github.com/grafana/grafana/pkg/services/annotations"
)
func (r *SqlAnnotationRepo) Save(item *annotations.Item) error {
return inTransaction(func(sess *DBSession) error {
if _, err := sess.Table("annotation").Insert(item); err != nil {
return err
}
//将Annotation作为事件发送Rabbitmq
sess.publishAfterCommit(&events.Annotation{
Id: item.Id,
OrgId: item.OrgId,
DashboardId: item.DashboardId,
PanelId: item.PanelId,
CategoryId: item.CategoryId,
RegionId: item.RegionId,
Title: item.Title,
Text: item.Text,
Metric: item.Metric,
AlertId: item.AlertId,
UserId: item.UserId,
PrevState: item.PrevState,
NewState: item.NewState,
Epoch: item.Epoch,
Data: item.Data,
})
return nil
})
}
修改源码之后要重新编译grafana后端代码,然后重启grafana。
测试
在grafana中配置告警,当触发告警后,在Rabbitmq的队列中可看到消息概览图,如下图所示:
由上图可知,当前已经有52条告警通知消息在队列中了,在Tace log中可看到相关的日志记录,如下面的两条:
这是一条OK状态(指标正常状态)的:
================================================================================
2017-07-12 3:38:41:010: Message published
Node: rabbit@LAPTOP-AQ1VQEMH
Connection: [::1]:50326 -> [::1]:5672
Virtual host: /
User: guest
Channel: 1
Exchange: grafana_events
Routing keys: [<<"INFO.Annotation">>]
Routed queues: [<<"Q1">>]
Properties: [{<<"content_type">>,longstr,<<"application/json">>}]
Payload:
{"event_type":"Annotation","priority":"INFO","timestamp":"2017-07-12T11:38:41.0089371+08:00","payload":{"id":70,"orgId":1,"dashboardId":7,"panelId":1,"categoryId":0,"regionId":0,"title":"redis_count alert","text":"OK","metric":"","alertId":4,"userId":0,"prevState":"alerting","newState":"ok","epoch":1499830720,"data":{}}}
这是一条处于alerting状态的:
================================================================================
2017-07-12 3:39:21:048: Message published
Node: rabbit@LAPTOP-AQ1VQEMH
Connection: [::1]:50326 -> [::1]:5672
Virtual host: /
User: guest
Channel: 1
Exchange: grafana_events
Routing keys: [<<"INFO.Annotation">>]
Routed queues: [<<"Q1">>]
Properties: [{<<"content_type">>,longstr,<<"application/json">>}]
Payload:
{"event_type":"Annotation","priority":"INFO","timestamp":"2017-07-12T11:39:21.0463949+08:00","payload":{"id":71,"orgId":1,"dashboardId":7,"panelId":1,"categoryId":0,"regionId":0,"title":"redis_count alert","text":"Alerting","metric":"","alertId":4,"userId":0,"prevState":"ok","newState":"alerting","epoch":1499830761,"data":{"evalMatches":[{"value":1578.9999999999998,"metric":"bosun.redis_count","tags":null}]}}}
队列中的消息为:
{"event_type":"Annotation","priority":"INFO","timestamp":"2017-07-12T11:38:41.0089371+08:00","payload":{"id":70,"orgId":1,"dashboardId":7,"panelId":1,"categoryId":0,"regionId":0,"title":"redis_count alert","text":"OK","metric":"","alertId":4,"userId":0,"prevState":"alerting","newState":"ok","epoch":1499830720,"data":{}}}
{"event_type":"Annotation","priority":"INFO","timestamp":"2017-07-12T11:39:21.0463949+08:00","payload":{"id":71,"orgId":1,"dashboardId":7,"panelId":1,"categoryId":0,"regionId":0,"title":"redis_count alert","text":"Alerting","metric":"","alertId":4,"userId":0,"prevState":"ok","newState":"alerting","epoch":1499830761,"data":{"evalMatches":[{"value":1578.9999999999998,"metric":"bosun.redis_count","tags":null}]}}}