最近项目再写采集器采集软件指标的功能,借此机会学习学习zabbix监控的一些知识。
http://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/
zabbix agent检测分为主动(agent active)和被动(agent)两种形式,主动与被动的说法均是相对于agent来讨论的。简单说明一下主动与被动的区别如下:
主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy
被动:server向agent请求获取监控项的数据,agent返回数据。
zabbix agent通信过程中的协议均基于json格式,格式如下:
1
2
|
-
"ZBXD\x01"
(
5
bytes
)
-
data
length
(
8
bytes
)
.
1
will
be
formatted
as
01
/
00
/
00
/
00
/
00
/
00
/
00
/
00
(
eight
bytes
in
HEX
,
64
bit
number
)
|
备注:为了避免内存耗尽,server限制每个通信连接最多使用128MB内存。
被动检测
server发起如下请求
1
|
<
item
key
>
\
n
|
Aegent返回如下响应数据
1
|
<
HEADER
>
<
DATALEN
>
<
DATA
>
[
\
0
<
ERROR
>
]
|
supported items通信过程
- Server打开一个TCP连接
- Server发送请求agent.ping\n
- Agent接收到请求并且响应
1 - Server处理接收到的数据1
- 关闭TCP连接
not supported items通信过程
- Server打开一个TCP连接
- Server发送请求vfs.fs.size[/nono]\n
- Agent接收请求并且返回响应数据
ZBX_NOTSUPPORTED\0Cannot obtain filesystem information: [2] No such file or directory - Server接收并处理数据, 将item的状态改为“ not supported ”
- 关闭TCP连接
主动检测
如前面所说,zabbix首先向ServerActive配置的IP请求获取active items,获取并提交active tiems数据值server或者proxy。很多同学会提出疑问:zabbix多久获取一次active items?它会根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试
获取ACTIVE ITEMS列表
Agent请求
1
2
3
4
|
<
HEADER
>
<
DATALEN
>
{
"request"
:
"active checks"
,
"host"
:
"
}
|
Server响应列表
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
<
HEADER
>
<
DATALEN
>
{
"response"
:
"success"
,
"data"
:
[
{
"key"
:
"log[/home/zabbix/logs/zabbix_agentd.log]"
,
"delay"
:
30
,
"lastlogsize"
:
0
,
"mtime"
:
0
}
,
{
"key"
:
"agent.version"
,
"delay"
:
600
,
"lastlogsize"
:
0
,
"mtime"
:
0
}
,
{
"key"
:
"vfs.fs.size[/nono]"
,
"delay"
:
600
,
"lastlogsize"
:
0
,
"mtime"
:
0
}
]
}
|
备注:获取到的items列表中的所有item属性key, delay, lastlogsize ,mtime都必须存在,获取列表的通信过程如下:
- Agent打开TCP连接(主动检测变成Agent打开)
- Agent请求items检测列表
- Server返回items列表
- Agent 处理响应
- 关闭TCP连接
- Agent开始收集数据
提交active items数据
Agent发送请求
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
<
HEADER
>
<
DATALEN
>
{
"request"
:
"agent data"
,
"data"
:
[
{
"host"
:
"
"key"
:
"agent.version"
,
"value"
:
"2.4.0"
,
"clock"
:
1400675595
,
"ns"
:
76808644
}
,
{
"host"
:
"
"key"
:
"log[/home/zabbix/logs/zabbix_agentd.log]"
,
"lastlogsize"
:
112
,
"value"
:
" 19845:20140621:141708.521 Starting Zabbix Agent [
"clock"
:
1400675595
,
"ns"
:
77053975
}
,
{
"host"
:
"
"key"
:
"vfs.fs.size[/nono]"
,
"state"
:
1
,
"value"
:
"Cannot obtain filesystem information: [2] No such file or directory"
,
"clock"
:
1400675595
,
"ns"
:
78154128
}
]
,
"clock"
:
1400675595
,
"ns"
:
78211329
}
|
Server响应数据
1
2
3
4
|
{
"response"
:
"success"
,
"info"
:
"processed: 3; failed: 0; total: 3; seconds spent: 0.003534"
}
|
备注:如果有些数据提交失败,比如host、item被删除或者禁用,agent不会尝试从新提交
主动检测提交数据过程如下:
- Agent建立TCP连接
- Agent提交items列表收集的数据
- Server处理数据,并返回响应状态
- 关闭TCP连接
在这里agent向server发送的数据是经过agent处理的数据,server拿到数据后就无需再次请求这些数据。只需存储这些数据即可。