I.总览
Cacti和Nagios的监控体系可以说是使用广泛而且支持丰富的国内外的运维人员都需要掌握的一套监控体系,这套体系的好处在于使用Cacti的强大画图和自定义画图能力,以及Nagios的可控报警。但是网上的大部分内容都是如何安装,在安装成功如何使用的方面介绍的很少,而真正开始用之后,为了工作需要就需要不断地去Cacti官网查看使用文档,或者论坛去翻别人的帖子,十分麻烦。于是我决定写一篇使用方面的手册,以让大家真正会用这套系统。
II.Cacti的使用
Cacti的常用服务器的画图大部分都是使用模板的形式做的,而Cacti安装好之后本身自带了一部分模板,这些模板虽然可用,但是支持的项目太少,于是我们要寻求更多的模板以及更优化的内容。
Cacti的官方的模板库:http://docs.cacti.net/templates
1:cacti模板的一般加载方法: 一个Cacti的模板一般有两部分组成。一部分是xml模板文件,另一部分是xml的数据收集文件,虽然这两种文件都是xml格式的,但是你可以很显而易见的就能分出它们的不同。因为它们的文件大小一点都不相似。 这个是一个windows的监控模板,我们可以简单的根据文件的大小来看。
而xml数据收集文件,则是要放在Linux上Cacti的安装目录的cacti/resource/snmp_queries中: |
2:如何在Cacti上添加一个新主机并监控相关的内容:(以添加Linux主机为例) 1.创建画图 a. 在Cacti的Web页面Console->Import Templates导入响应的xml模板文件。
e. 当主机的信息填好之后,点击Create
h. 添加好相应的模板之后点击Save。此时左上角会出现Save Successful.
2.在Graphs界面显示新添加主机。 a. 在Cacti Web界面Graph Trees中,选择相应的列(或者系统默认的Default Tree)。 |
III.Cacti的常用模板
1.Windows常用模板 Windows一般所需要监控的基本内容有: 1. CPU Use 2. Memory Use 3. Disk Size 4. Interface Traffic 为了解决基本的监控项,我们需要以下模板。 我们还需要在Windows主机上安装一个软件,以确保SNMP能发送更多的信息为我们提供数据采集:informant-std-16.exe
使用A模板来监控Windows的CPU项目
|
2.Linux常用模板 Linux与Windows监控的内容基本相同: 1. CPU Use 2. Load Average 3. Memory Usage 4. Swap Usage 5. Disk I/O 6. Disk Size 7. Interface Traffic 为了解决Linux监控内容,我们使用以下模板: A. Cacti_host_template_ucdnet_snmp_host.gz B. Cacti_graph_template_ucdnet_-_memory/swap_usage_linux.xml C. Data_query_snmp_-_get_disk_io 最终,添加完相关模板,在创建Linux主机之后,在Devices->Your Linux host ->页面下方正确添加的各种Templates如下: 在所有的Linux监控添加后的内容如下: |
3.Switch && Router的相关模板 由于市面上Switch和Router的型号众多,而不同的型号可能就需要不同的模板,不能像Windows和Linux一样进行统一,所以当你需要监控Switch和Router的时候,请Google响应的型号的模板,或者在Cacti官方的模板库中进行查找。查找之后添加的过程都大同小异,这里不再赘述。 |
IV:自定义脚本的添加以及监控
很多时候,我们需要为我们独有的环境去指定监控内容,那么如何制定呢?就可以通过自己写脚本的方式进行收集数据。这里我用一个监控QQ在线人数的例子来举例。
准备工作: 1.我们需要一个脚本,脚本的语言随意,只要在Linux的机器上能够使用运行并且有返回内容。比如我们即将使用的脚本:
此脚本运行之后输出内容为: 这个里面只有最后一行是有用的,其他的为curl的抓取信息。
|
1.创建数据输入方式
1. 在Console�C>点击Data Input Methods
2. 点击右上角的Add,添加一个新的数据获取方式
3. 点击Create,出现新的项目
4. 新的项目包括Input Fields和Output Fields,即输入内容和输出内容,输入内容其实就是向脚本传递函数,我们这个脚本不需要传递什么参数进去,于是没有,只有Output Fields。
5. 在Output Fields上点击Add,添加新的输出内容。
6. 在Field[Output]中输入我们脚本的输出项:这里我填写“QQ_Now”
7. 在Friendly Name中输入解释输出项的内容,内容随意。
8. 勾选Update RRD File后,点击Create
9. 然后查看我们整个的数据获取方式信息,点击Save,左上角应出现“Save Successful”
2.创建数据源
1. 在Console->点击Data Sources,进入数据源界面
2. 点击右上角的Add,添加新的数据源
3. 确保Data Template和Host均为None。直接点击Create
4. 在新出现的信息面板中输入相关内容
5. 点击Create,此时左上角会出现Save Successful
6. 注意系统自动给生成的RRD文件路径,确保里面不会出现连续两个反斜线的路径信息。如果出现,请手动修改为一个反斜线。如:<path_rra>/1194.rrd
7. 点击Save,看到Save Successful,则数据源创建成功。
3.创建图像
1. 选择Console�C> Graph Management,进入图像管理
2. 点击右上角的Add,添加一个新的图像
3. 选择Graph Template以及Host均为None,然后点击Create
4. Title中输入图像的名字,其他保持不变。并点击Create
5. 然后你会看到多出的Graph Items,以及中间有一个看不到图的红叉,因为这个图我们还没有定义。
6. 在Graph Items中点击Add,添加画图规则。
7. 添加完画图内容之后,点击Create/Save,返回之前的页面,接下来还要添加数据的展示内容。
8. 再次点击Graph Items中的Add,这次添加的是数据的展示,展示当前值。
9. 设置好后点击Create创建这个项目,然后按照这个方法,分别创建最大值,最小值,平均值的展示内容。
10. 添加好后内容如图。
4.将自定义好的图形,加入到Graphs面板
1. 在Cacti Web界面Graph Trees中,选择相应的列(或者系统默认的Default Tree)。
2. 进去Tree之后,点击右上角的Add,添加一个新的显示项。
3. 在Tree Item Type中选择Graph,然后在下面的Graph中选择我们刚才创建的图像。点击Create。
4. 此时,再进入Graphs界面,就可以看到在Default Tree下已经出现了我们新创建的图像。
V.Cacti问题 Q & A
1.填完Drivers信息之后显示红色的SNMP error
这是由于被监控机的SNMP设置问题,没有允许我们监控机进行监控,或者Community不匹配导致的。
Linux可以在/etc/snmp/snmpd.conf中修改/增加发送snmp的机器,以及community。
Windows可以在Snmp服务中增加允许发送snmp的机器,以及community。
2.添加完图之后,等待了无数时间图依然无法绘制,反馈给我们一个红色的X。
首先,如果你是用添加的模板创建的图,那么显示不了的话,很有可能是由于模板太老,或者模板不正确导致的。可以考虑更新作者的最新模板以重新画图。当然,如果图像的确画不出来,那么我们可以打开画图的Debug日志的方式进行排错。
进入Graph Management,在Host中选择我们画不出图的那个Host,然后点Go,这样就在下面列出了所有在这个Host中的图像列表,点击那个无法画图的列表。这就进入了我们选定主机的相关图像的设置界面,我们应该可以看到这个界面下方依然有一个红X,证明我们无法画图,所以点击右上角的“Turn on Graph Debug Mode.”来打开Debug日志,这时候,就可以看到页面下方多出了”RRD Tool Command:”的列表,里面详细的描述了RRD工具是如何为我们画图的,这都不是关键,关键是最后的RRD Tool Says:比如
这里面是RRD Tool 告诉的我们为什么它无法画图,我们可以看到我当前例子的没有画图的原因是316.rrd这个文件不存在,说明在创建的时候rrd没有正确的创建出这个文件,这就有可能是所用的模板有问题了。
在这里,这是一个很好的查看为什么没有画出图的地方,没有画出的图RRD Tool会一一的告诉我们,我们只需要根据它说的来修正,直到RRD Tool Says: OK
3.图什么的都有,但是数据都是N/A,这是要闹哪样?
这个的解决办法其实跟无法画图的解决一样,就是我们去看数据的Debug日志。
进入Data Sources,在Host中选择没有数据的Host,然后在下面的列表中选择没有数据的那个图。进入数据设置界面,然后点击右上角的“Turn on Data Source Debug mode”,然后去分析它的报错。
4.在给主机添加Data Query的监控项的时候发现里面没有获取到数据。
这时候,如果它获取不到数据,我们就无法给它画图。因为在给它创建的图的界面上显示没有内容。
这时候可以直接点击上图中的Debugging下的相关内容,直接打开Debug查看状态。
这时就可以看到反馈出得信息,比如上图,发现SNMP无法获取数据。当然也有其他的,比如MIB文件不存在。只要你仔细看它反馈出来的问题,知道问题的根源,就一定能解决。当解决了数据获取之后,可以直接点击右边的绿色的小圆圈,就刷新了数据的获取状态。
5.关于cacti下文件的权限问题。
Cacti目录中的内容权限并不统一,而且权限要求的也很少,并不像其他的比如Nagios要求的那么多。我们可以简单的保持整个Cacti目录的属主和属组都是Cacti即可。但是有两个特殊的例外:
第一个是cacti/rra目录,整个目录里的内容是RRD的画图文件自动在里面生成的。而生成之后里面文件的属主和属组到底是谁,取决最终是由哪个用户来创建的,而这个就是在Cacti的那个crontab里控制,如果我们使用的是root用户添加的crontab,那么这个rra目录中的内容属主和属组都是root。同理,如果我们的crontab是在cacti中设置的,那么rra目录中的内容属主和属组都是cacti。
第二个目录是cacti/scripts目录,这里面存的大部分都是我们自定义的脚本,一定要确保里面的脚本是cacti用户可执行的。最好的检测方法就是su到cacti用户中,进入这个目录,手动运行一下脚本,查看脚本是否成功执行。