perofu

nagios总结与基本配置模板

一、简介：

1、nagios的功能：

监控服务和主机

2、监控机（可想象为常见服务的服务器）:

安装了nagios软件的机器,对监控的数据做处理,并且提供web界面查看和管理.当然也可以对本机自身的信息进行监控.

3、被监控机（可想象为常见服务的客户端）:

安装了NRPE等客户端,根据监控机的请求执行监控,然后将结果回传给监控机.

4、Nagios定义的监控状态

nagios定义了4中监控状态,代表不同的严重级别,除了OK代表正常不用关心外,其余3种都要引起重视.如下表

状态	代码	颜色
正常	OK	绿色,
警告	WARNING	黄色,
严重	CRITICAL	红色,
未知错误	UNKOWN	深黄色

二、安装软件：

监控机：需安装的软件有nagios、nagios-plugins和apache（不做介绍）

①、nagios

./configure�Cprefix=/usr/local/nagios --enable-embedded-perl --with-httpd-conf=/usr/local/lamp/apache/conf/extra

(如果apache服务是rpm方式安装无须指定--with-httpd-conf)

make all

make install

make install-init

make install-config

make install-commandmode

make install-webconf

②、nagios-plugins（插件）

./configure --prefix=/usr/local/nagios/ --with-mysql=/usr/local/mysql --with-nagios-user=nagios --with-nagiosgroup=nagios --enable-libtap --enable-extra-opts --enable-perl-modules

make

make install

③、修改apache配置（vi httpd.conf）

ScriptAlias /nagios/cgi-bin /usr/local/nagios/sbin

Options ExecCGI

AllowOverride None

Order allow,deny

Allow from all

AuthName "Nagios Access"

AuthType Basic

AuthUserFile /usr/local/nagios/etc/htpasswd

//用于此目录访问身份验证的文件,htpasswd也可以是htpasswd.user

Require valid-user

</Directory>

Alias /nagios /usr/local/nagios/share

Options None

AllowOverride None

Order allow,deny

Allow from all

AuthName "Nagios Access"

AuthType Basic

AuthUserFile /usr/local/nagios/etc/htpasswd

//用于此目录访问身份验证的文件,htpasswd也可以是htpasswd.user

Require valid-user

</Directory>

④、增加验证用户

htpasswd -c /usr/local/nagios/etc/htpasswd 用户名

⑤、典型配置：

1)预备知识

Nagios自己定义了一套规则用于配置文件,其中最重要的概念就是”对象”----object.通俗的理解:假定我们首先定义了”性别”这个对象,它的值只可能是男,女,人妖等等,然后定义某人为一个对象,例如张三,定义张三的时候有”性别”这个属性,它的值就必须来源了之前定义的性别这个对象,要么是男是女,或者是人妖.

在Nagios里面定义了一些基本的对象,一般用到的有:

联系人	contact	出了问题像谁报告?一般当然是系统管理员了
监控时间段	timeperiod	7X24小时不间断还是周一至周五,或是自定义的其他时间段
被监控主机	host	所需要监控的服务器,当然可以是监控机自己
监控命令	command	nagios发出的哪个指令来执行某个监控,这也是自己定义的
被监控的服务	service	例如主机是否存活,80端口是否开,磁盘使用情况或者自定义的服务等

另外,多个被监控主机可以定义为一个主机组,多个联系人可以被定义为一个联系人组,多个服务还能定义成一个服务组呢.

回到上面的例子,定义张三需要之前定义的性别,我们定义一个被监控的服务,当然就要指定被监控的主机,需要监控的时间段,要用哪个命令来完成这个监控操作,出了问题向哪个联系人报告.

所有这些对象绝对多数都是需要我们手动定义的,这就是nagios的安装显得复杂的地方.其实了解了原理,做一遍之后余下的工作就是复制粘贴了.

2)修改配置文件

vi /usr/local/nagios/etc/nagios.cfg

//注意文件的路径

#cfg_file=/usr/local/nagios/etc/objects/localhost.cfg

cfg_file=/usr/local/nagios/etc/objects/hosts.cfg

cfg_file=/usr/local/nagios/etc/objects/hostgroups.cfg

cfg_file=/usr/local/nagios/etc/objects/services.cfg

cfg_file=/usr/local/nagios/etc/objects/contacts.cfg

cfg_file=/usr/local/nagios/etc/objects/contactgroups.cfg

cfg_file=/usr/local/nagios/etc/objects/timeperiods.cfg

check_external_commands=1 //允许在web界面下执行重启nagios、停止主机/服务检查等操作

command_check_interval=10s（根据自己的情况定这个命令检查时间间隔，不要太长也不要太短）。

3)修改CGI脚本控制文件cgi.cfg

(确保use_authentication=1 //验证)

//多个用户之间用逗号隔开（用户名来自htpasswd，不要添加过多）

authorized_for_system_information=nagiosadmin,用户名

authorized_for_configuration_information=nagiosadmin,用户名

authorized_for_system_commands=用户名

authorized_for_all_services=nagiosadmin,用户名

authorized_for_all_hosts=nagiosadmin,用户名

authorized_for_all_service_commands=nagiosadmin,用户名

authorized_for_all_host_commands=nagiosadmin,用户名

4）定义监控时间段,创建配置文件timeperiods.cfg

按照下面的方式简单的复制修改timeperiod_name和别名就可以创建多个时间段了.

定义了一个监控时间段,它的名称是24x7,监控的时间是每天全天24小时

define timeperiod{

timeperiod_name 24x7 //时间段的名称,这个地方不要有空格

alias 别名 //24 Hours A Day,7Days A Week

sunday 00:00-24:00

monday 00:00-24:00

tuesday 00:00-24:00

wednesday 00:00-24:00

thursday 00:00-24:00

friday 00:00-24:00

saturday 00:00-24:00

}

5）定义联系人,创建配置文件contacts.cfg

（如出现Service notification command ’…’ specified for contact ‘用户名’is not defined anywhere，请查看’…’是否在commands.cfg中定义了）

按照下面的方式简单的复制修改用户名和别名就可以创建多个联系人了.

define contact{

contact_name 用户名 //联系人的名称,这个地方不要有空格

alias 别名

service_notification_period 24x7

host_notification_period 24x7

service_notification_options w,u,c,r

host_notification_options d,u,r

service_notification_commands notify- service -by-email

host_notification_commands notify- host--by-email

email [email protected]

pager 1338757xxxx

address1 [email protected]

address2 555-555-5555

}

service_notification_period 24x7

服务出了状况通知的时间段,这个时间段就是上面在timeperiods.cfg中定义的.

host_notification_period 24x7

主机出了状况通知的时间段, 这个时间段就是上面在timeperiods.cfg中定义的

service_notification_options w,u,c,r

当服务出现w―报警(warning),u―未知(unkown),c―严重(critical),或者r―从异常情况恢复正常,在这四种情况下通知联系人.

host_notification_options d,u,r

当主机出现d―当机(down),u―返回不可达(unreachable),r―从异常情况恢复正常,在这3种情况下通知联系人

service_notification_commands notify- service -by-email

服务出问题通知采用的命令notify-by-email,这个命令是在commands.cfg中定义的,作用是给联系人发邮件.至于commands.cfg之后将专门介绍

host_notification_commands host-notify-by-email notify- host--by-email

同上,主机出问题时采用的也是发邮件的方式通知联系人

email [email protected]

很明显,联系的人email地址

pager 1338757xxxx

联系人的手机,如果支持短信的通知的话,这个就很有用了.

alias是联系人别名,address是地址意义不大.

6）下面就可以将多个联系人组成一个联系人组contactgroups.cfg

按照下面的方式简单的复制修改组名和别名就可以创建多个联系人组了.

define contactgroup{

contactgroup_name 组名

//联系人组的名称,同样不能空格

alias 别名 //别名

members 用户名

//组的成员,来自于上面定义的contacts.cfg,如果有多个联系人则以逗号相隔

}

7）定义被监控主机,创建文件hosts.cfg

按照下面的方式简单的复制修改主机名、IP和别名就可以创建多个被监控主机了.

define host{

host_name 主机名

//被监控主机的名称,最好别带空格nagios-server

alias 别名

//别名

address IP

//被监控主机的IP地址

check_command check-host-alive

//监控的命令check-host-alive,这个命令来自commands.cfg,用来监控主机是否存活

max_check_attempts 5

//检查失败后重试的次数

check_period 24x7

//检查的时间段24x7,同样来自于我们之前在timeperiods.cfg中定义的

contact_groups 组名

//联系人组,上面在contactgroups.cfg中定义的组名

notification_interval 10

//提醒的间隔,每隔10秒提醒一次

notification_period 24x7

//提醒的周期, 24x7,同样来自于我们之前在timeperiods.cfg中定义的

notification_options d,u,r

//指定什么情况下提醒,具体含义见之前contacts.cfg部分的介绍

}

8）与联系人可以组成联系人组一样,多个主机也可以组成主机组. hostgrops.cfg

按照下面的方式简单的复制修改主机组名、IP和别名就可以创建多个主机组了.

define hostgroup{

hostgroup_name 主机组名 //主机组名称

alias 别名 //别名

members 主机名

//组的成员主机,多个主机以逗号相隔,必须是上面hosts.cfg中定义的

}

下面是最关键的了,用nagios主要是监控一台主机的各种信息,包括本机资源,对外的服务等等.这些在nagios里面都是被定义为一个个的项目(nagios称之为服务,为了与主机提供的服务相区别,我这里用项目这个词),而实现每个监控项目,则需要通过commands.cfg文件中定义的命令.

例如我们现在有一个监控项目是监控一台机器的web服务是否正常, 我们需要哪些元素呢?最重要的有下面三点:首先是监控哪台机,然后是这个监控要用什么命令实现,最后就是出了问题的时候要通知哪个联系人?

9）定义监控的项目,也叫服务,services.cfg

按照下面的方式简单的复制修改主机名、命令和组名就可以创建多个服务了.

#service definition

define service{

host_name 主机名

//被监控的主机,hosts.cfg中定义的

service_description check-host-alive

//这个监控项目的描述(也可以说是这个项目的名称),可以空格,我们这里定义的是监控这个主机是不是存活

check_command check-host-alive

//所用的命令,是commands.cfg中定义的

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

//监控的时间段,是timeperiods.cfg中定义的

notification_interval 10

notification_period 24x7

//通知的时间段, ,是timeperiods.cfg中定义的

notification_options w,u,c,r

//在监控的结果是wucr时通知联系人,具体含义看前文.

contact_groups 组名

//联系人组,是contactgroups.cfg中定义的

}

10）在运行nagios之前首先做测试

/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

看到下面这些信息就说明没问题了

Total Warnings: 0

Total Errors: 0

Things look okay - No serious problems were detected during the pre-flight check

11）作为守护进程后台启动nagios

chkconfig nagios on

、etc/init.d/nagios restart

12）查看网页

登陆http://ip/nagios/

三. 使用命令和插件监控更多信息

nagios本身并没有监控的功能,所有的监控是由插件完成的,插件将监控的结果返回给nagios,nagios分析这些结果,以web的方式展现给我们,同时提供相应的报警功能(这个报警的功能也是由插件完成的)

所有的这些插件是一些实现特定功能的可执行程序,默认安装的路径是/usr/local/nagios/libexec,可以查看

这些程序都是可以独立执行的,使用方法可以通过”命令名 �Ch”来查看

例如,我们查看check_disk这个插件的用法则可以使用check_disk �Ch,如下图

[root@server1 libexec]# ./check_disk -h

check_disk (nagios-plugins 1.4.9) 1.91

This plugin checks the amount of used disk space on a mounted file system

and generates an alert if free space is less than one of the threshold values

Usage: check_disk -w limit -c limit [-p path | -x device] [-t timeout][-m] [-e] [-W limit] [-K limit] [-v] [-q] [-E]

Options:

……以下略

现在来独立执行它,例如查看根分区的使用情况,执行

[root@server1 libexec]# ./check_disk -w 10% -c 5% /

命令的含义是检查分区/的使用情况,若剩余10%以下,为警告状态(warning),5%以下为严重状态(critical),执行后我们会看到下面这条信息

DISK WARNING - free space: / 487 MB (6% inode=78%);| /=7449MB;7524;7942;0;8361

说明当前是warning的状态,空闲空间只有6%了.如果nagios收到这些状态结果就会采取报警等措施了

我们在定义某个监控项目时,所用的监控命令都是来自commands.cfg的,这和这些插件有什么关系???想到了吧,commands.cfg中定义的监控命令就是使用的这些插件.举个例子,之前我们已经不止一次用到了check-host-alive这个命令,打开commands.cfg就可以看到这个命令的定义,如下:

################################################################################

# SAMPLE HOST CHECK COMMANDS

################################################################################

# This command checks to see if a host is "alive" by pinging it

# The check must result in a 100% packet loss or 5 second (5000ms) round trip

# average time to produce a critical error.

# Note: Only one ICMP echo packet is sent (determined by the '-p 1' argument)

# 'check-host-alive' command definition

define command{

command_name check-host-alive

command_line $USER1$/check_ping -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 1

}

command_name check-host-alive

这句话的意思是定义的命令名是check-host-alive,也就是我们在services.cfg中使用的名称执行的操作是

$USER1$/check_ping -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 1

其中$USER1$是在resource.cfg文件中定义的,代表插件的安装路径.就如我们上面看到的那样$USER1$=/usr/local/nagios/libexec,至于$HOSTADDRESS$,则默认被定义为监控主机的地址.

简单的说,我们在services.cfg中定义了对dbpi执行check-host-alive命令,实际上就是执行了

/usr/local/nagios/libexec/ check_ping -H dbpi的ip地址 -w 3000.0,80% -c 5000.0,100% -p 1

实际上check-host-alive只是这一长串命令的简称而已,而在services.cfg中都是使用简称的.

在commands.cfg中定义了很多这样的命令简称.基本上我们常用的监控项目都包含了,例如ftp,http,本地的磁盘,负载等等.

我们再看一个命令,check_local_disk定义如下

# 'check_local_disk' command definition

define command{

command_name check_local_disk

command_line $USER1$/check_disk -w $ARG1$ -c $ARG2$ -p $ARG3$

}

check_local_disk实际上是执行的check_disk插件.这里的$ARG1$, $ARG2$, $ARG3$是什么意思呢?在之前我们已经提到了这个check_disk这个插件的用法,-w的参数指定磁盘剩了多少是警告状态,-c的参数指定剩多少是严重状态,-p用来指定监控路径.

在使用check-host-alive的时候,只需要在services.cfg中直接写上这个命令名check-host-alive.后面没任何的参数.而使用check_local_disk则不同,在services.cfg中这要这么写

check_local_disk!10%!5%!/

在命令名后面用!分隔出了3个参数,10%是$ARG1$的值,5%是$ARG2$的值,/ 是$ARG3$的值,

我不知道讲的是否清楚,头晕的就在后面提问哈.简单的一句话就是

services.cfg定义监控项目用某个命令

↓

这个命令必须在commands.cfg中定义

↓

定义这个命令时使用了libexec下的插件

如果命令不带$ARG1$就可以在services.cfg中直接使用,如果带了使用时就带上参数,以!将参数进行分隔

例

在上篇文章里面,我们已经增加了三个监控项目,分别监控nagios-server,dbpi,yahoon这三台主机是否存活.现在我对这三台机器分别做了如下设置

开放nagios-server的ftp

开放dbpi的ssh

开放yahoon的IIS

这篇文章里面所做的就是对这些服务进行监控,另外我们还要监控nagios-sever的根分区的使用情况.

1).监控nagios-server的ftp

编辑services.cfg 增加下面的内容,基本上就是copy上节我们定义监控主机存活的代码.略做修改.

define service{

host_name nagios-server

要监控的机器,给出机器名,注意必须是hosts.cfg中定义的

service_description check ftp

给这个监控项目起个名字吧,任意起,你自己懂就行

check_command check_ftp

所用的命令,当然必须是commands.cfg中定义了的

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

2).监控dbpi的ssh

define service{

host_name dbpi

意义同上

service_description check-ssh

意义同上

check_command check_tcp!22

ssh所用的tcp的22号端口,我就用commands中定义的check_tcp命令.至于!22的意思不用我说了吧.

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

3).监控yahoon的IIS

define service{

host_name yahoon

service_description check-http

check_command check_http

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

4).监控nagios-sever的根分区的使用情况.

define service{

host_name nagios-server

service_description check disk

check_command check_local_disk!10%!5%!/

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

修改了配置文件,当然就要重新启动了,简单的方法杀掉nagios进程,然后重新启动

/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

等几分钟,你会看到下面这张图

可以看到我的nagios-seerver上磁盘空间已经不足了,是warning.

四. 使用NRPE监控LINUX上的”本地信息”

本部分主要参考了NRPE的官方手册

例

对系统为linux的主机dbpi进行如下监控:CPU负载,磁盘容量,登陆用户数,总进程数,僵尸进程数,swap分区使用情况

书接前文,对于像磁盘容量,cpu负载这样的”本地信息”,nagios只能监测自己所在的主机,而对其他的机器则显得有点无能为力.毕竟没得到被控主机的适当权限是不可能得到这些信息的.为了解决这个问题,nagios有这样一个附加组件----NRPE.用它就可以完成对linux类型主机”本地信息”的监控.

NRPE的原理如下图

NRPE总共由两部分组成:

�C check_nrpe 插件,位于在监控主机上

�C NRPE daemon,运行在远程的linux主机上(通常就是被监控机)

按照上图,整个的监控过程如下:

当nagios需要监控某个远程linux主机的服务或者资源情况时

1.nagios会运行check_nrpe这个插件,告诉它要检查什么.

2.check_nrpe插件会连接到远程的NRPE daemon,所用的方式是SSL

3.NRPE daemon会运行相应的nagios插件来执行检查

4.NRPE daemon将检查的结果返回给check_nrpe插件,插件将其递交给nagios做处理.

注意:NRPE daemon需要nagios插件安装在远程的linux主机上,否则,daemon不能做任何的监控.

通过NRPE的检测分为两种:

1).直接检测:检测的对象是运行NRPE的那台linux主机的本地资源,原理如下图

2).间接检测:当运行nagios的监控主机无法访问到某台被监控机,但是运行NRPE的机器可以访问到时,NRPE就可以充当一个代理,将监控请求发送到被监控机

必须要说明的是,通常被监控机与监控机在同一网络内,所以这样的情况很少.下面我讲的都是直接检测.所以我们按照图示在监控主机(nagios-server)和被监控主机(dbpi,也就是图中运行NRPE的remote linux host)上安装相应的软件

① 在被监控主机上

在被监控主机上

1)增加用户

[root@dbpi root]# useradd nagios

设置密码

[root@dbpi root]# passwd nagios

2)安装nagios插件

tar -zxvf nagios-plugins-1.4.9.tar.gz

cd nagios-plugins-1.4.9

./configure

make

make install

chown nagios.nagios /usr/local/nagios

chown -R nagios.nagios /usr/local/nagios/libexec

3)安装nrpe

tar -zxvf nrpe-2.8.1.tar.gz

cd nrpe-2.8.1

./configure

输出如下

*** Configuration summary for nrpe 2.8.1 05-10-2007 ***:

General Options:

-------------------------

NRPE port: 5666

NRPE user: nagios

NRPE group: nagios

Nagios user: nagios

Nagios group: nagios

Review the options above for accuracy. If they look okay,

type 'make all' to compile the NRPE daemon and client.

可以看到NRPE的端口是5666,下一步是make all

make all

输出如下

*** Compile finished ***

If the NRPE daemon and client compiled without any errors, you

can continue with the installation or upgrade process.

Read the PDF documentation (NRPE.pdf) for information on the next

steps you should take to complete the installation or upgrade.

接下来安装NPRE插件,daemon和示例配置文件

安装check_nrpe这个插件

make install-plugin

之前说过监控机需要安装check_nrpe这个插件,被监控机并不需要,我们在这里安装它是为了测试的目的

make install-daemon #安装deamon

make install-daemon-config #安装配置文件

make install-xinetd #安装xinetd脚本

4)编辑这个脚本

vi /etc/xinetd.d/nrpe

# default: on

# description: NRPE (Nagios Remote Plugin Executor)

service nrpe

{

flags = REUSE

socket_type = stream

port = 5666

wait = no

user = nagios

group = nagios

server = /usr/local/nagios/bin/nrpe

server_args = -c /usr/local/nagios/etc/nrpe.cfg --inetd

log_on_failure += USERID

disable = no

only_from = 127.0.0.1在后面增加监控主机的地址0.111,以空格间隔

}

改后

only_from = 127.0.0.1 192.168.0.111

5)编辑/etc/services文件,增加NRPE服务

vi /etc/services

增加如下

# Local services

nrpe 5666/tcp # nrpe

6)重启xinetd服务

[root@dbpi nrpe-2.8.1]# service xinetd restart

7)查看NRPE是否已经启动

[root@dbpi nrpe-2.8.1]# netstat -at|grep nrpe

tcp 0 0 *:nrpe *:* LISTEN

[root@dbpi nrpe-2.8.1]# netstat -an|grep 5666

tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN

可以看到5666端口已经在监听了

8)测试NRPE是否则正常工作

之前我们在安装了check_nrpe这个插件用于测试,现在就是用的时候.执行

/usr/local/nagios/libexec/check_nrpe -H localhost会返回当前NRPE的版本

[root@dbpi nrpe-2.8.1]# /usr/local/nagios/libexec/check_nrpe -H localhost

NRPE v2.8.1

也就是在本地用check_nrpe连接nrpe daemon是正常的

注:为了后面工作的顺利进行,注意本地防火墙要打开5666能让外部的监控机访问

/usr/local/nagios/libexec/check_nrpe �Ch查看这个命令的用法

可以看到用法是check_nrpe �CH 被监控的主机 -c要执行的监控命令

注意:-c后面接的监控命令必须是nrpe.cfg文件中定义的.也就是NRPE daemon只运行nrpe.cfg中所定义的命令

9)查看NRPE的监控命令

cd /usr/local/nagios/etc

vi nrpe.cfg

找到下面这段话

# The following examples use hardcoded command arguments...

command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10

command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20

command[check_hda1]=/usr/local/nagios/libexec/check_disk -w 20 -c 10 -p /dev/hda1 #注，可以是任意一块设备（sda1 …）

command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z

command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200

红色部分是命令名,也就是check_nrpe 的-c参数可以接的内容,等号=后面是实际执行的插件程序(这与commands.cfg中定义命令的形式十分相似,只不过是写在了一行).也就是说check_users就是等号后面/usr/local/nagios/libexec/check_users -w 5 -c 10的简称.

上面这5行定义的命令分别是检测登陆用户数,cpu负载,hda1的容量,僵尸进程,总进程数.各条命令具体的含义见插件用法(执行”插件程序名 �Ch”)

由于-c后面只能接nrpe.cfg中定义的命令,也就是说现在我们只能用上面定义的这五条命令.我们可以在本机实验一下.执行

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_users

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_load

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_hda1

/usr/local/nagios/libexec/ check_nrpe -H localhost -c check_zombie_procs

/usr/local/nagios/libexec/ check_nrpe -H localhost -c check_total_procs

上表被标记的部分，将是用于nagios监控机上的services.cfg中的 check_command部分，格式为：

check_nrpe！check_users| check_load| check_hda1| check_zombie_procs| check_total_procs

nagios的监控主机上

之前已经将nagios运行起来了,现在要做的事情是:

�C 安装check_nrpe插件

�C 在commands.cfg中创建check_nrpe的命令定义,因为只有在commands.cfg中定义过的命令才能在services.cfg中使用

�C 创建对被监控主机的监控项目

10)安装check_nrpe插件

tar -zxvf nrpe-2.8.1.tar.gz

cd nrpe-2.8.1

./configure

make all

make install-plugin

只运行这一步就行了,因为只需要check_nrpe插件

11)测试：

监控机使用check_nrpe与被监控机(192.168.0.100)运行的nrpedaemon之间的通信.

[root@server1 nrpe-2.8.1]# /usr/local/nagios/libexec/check_nrpe -H 192.168.0.100

NRPE v2.8.1

看到已经正确返回了NRPE的版本信息,说明一切正常.

12)在commands.cfg中增加对check_nrpe的定义

vi /usr/local/nagios/etc/commands.cfg(确定是在nagios.cfg定义的)

在最后面增加如下内容

########################################################################

# NRPE COMMAND

########################################################################

# 'check_nrpe ' command definition

define command{

command_name check_nrpe

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

}

意义如下

command_name check_nrpe

定义命令名称为check_nrpe,在services.cfg中要使用这个名称.

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

这是定义实际运行的插件程序.这个命令行的书写要完全按照check_nrpe这个命令的用法.不知道用法的就用check_nrpe �Ch查看

-c后面带的$ARG1$参数是传给nrpe daemon执行的检测命令,之前说过了它必须是nrpe.cfg中所定义的那5条命令中的其中一条.在services.cfg中使用check_nrpe的时候要用!带上这个参数

下面就可以在services.cfg中定义对dbpi主机cpu负载的监控

define service{

host_name dbpi

被监控的主机名,这里注意必须是linux且运行着nrpe,而且必须是hosts.cfg中定义的

service_description check-load

监控项目的名称

check_command check_nrpe!${9中的红色部分}（check_load）

监控命令是check_nrpe,是在commands.cfg中定义的,带的参数是check_load,是在nrpe.cfg中定义的

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

像这样将其余四个监控项目加进来.

之前我们说过了,今天还有一个任务是要监控dbpi的swap使用情况.但是很遗憾,在nrpe.cfg中默认没有定义这个监控功能的命令.怎么办?手动在nrpe.cfg中添加,也就是自定义NRPE命令.

现在我们要监控swap分区,如果空闲空间小于20%则为警告状态―warning;如果小于10%则为严重状态―critical.我们可以查得需要使用check_swap插件,完整的命令行应该是下面这样.

/usr/local/nagios/libexec/check_swap -w 20% -c 10%

13）在被监控机上增加check_swap命令的定义

在被监控机上增加check_swap命令的定义

vi /usr/local/nagios/etc/nrpe.cfg

增加下面这一行

command[check_swap]=/usr/local/nagios/libexec/check_swap -w 20% -c 10%

我们知道check_swap现在就可以作为check_nrpe的-c的参数使用了

修改了配置文件,当然要重启.但是

如果你是以独立的daemon运行的nrpe,那么需要手动重启.

如果你是在xinetd或者inetd下面运行的,则不需要.

由于我们是xinetd下运行的,所以不需要重启服务

14）在监控机上增加这个监控项目

define service{

host_name dbpi

service_description check-swap

check_command check_nrpe!check_swap

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

所有的配置文件已经修改好了,现在重启nagios.杀掉nagios进程,然后再重启.等上一会你就可以看到下面这个画面了

基本上nagios的主要功能就有这些,nagios的使用关键在于如何活用那些丰富的插件.nagios可以说是一个对于linux/unix环境支持十分好的程序.对于被监控主机是windows系列相关的文章比较少.我就专门花一章来讲述.

有了下一篇,大家就可以功德圆满了.

写到这里,有几个我在安装和使用的几个小知识点,也可以说是小问题附在此处,欢迎大家批评指教.一般的附录都是在文章最后,可下一篇是windows相关了,与我要说的这几个问题没什么联系正所谓打铁趁热,我就在这里一气呵成,大家也容易看.

五、如何监控windows系统的”本地信息”

细心的朋友可能注意到了,在nagios的libexec下有check_nt这个插件,它就是用来检查windows机器的服务的,其功能类似于上一章讲的check_nrpe.不过还需要搭配另外一个软件NSClient,它则类似于NRPE

NSClient的原理如下图

可以看到,NSClient与nrpe最大的区别就是:

被监控机上安装有nrpe,并且还有插件,最终的监控是由这些插件来进行的.当监控主机将监控请求发给nrpe后,nrpe调用插件来完成监控.

NSClient则不同,被监控机上只安装NSClient,没有任何的插件.当监控主机将监控请求发给NSClient后,NSClient直接完成监控,所有的监控是由NSClient完成的.

这也说明了NSClient的一个很大的问题,不灵活,没有可扩展性.它只能完成自己本身包含的监控操作,不能由一些插件来扩展.好在NSClient已经做的不错了,基本上可以完全满足我们的监控需要.

1)安装NSClient

①从http://sourceforge.net/projects/nscplus下载NSClient++-0.2.7.zip

解压为C:\NSClient++

打开cmd 切换到C:\NSClient++

执行nsclient++ /install进行安装

执行nsclient++ SysTray 注意大小写,这一步是安装系统托盘,时间稍微有点长

②软件安装

NSCP-0.4.0.183-Win32.msi,按一般windows软件进行安装，即可

2)在运行里面输入services.msc打开”服务”

看到下图就说明NSClient服务已经安装上了

双击打开,点”登录”标签,在”允许服务与桌面交互”前打勾

3)编辑NSClient++下的NSC.ini文件

将 [modules]部分的所有模块前面的注释都去掉,除了CheckWMI.dll和RemoteConfiguration.dll这两个

在[Settings]部分设置'password'选项来设置密码,作用是在nagios连接过来时要求提供密码.这一步是可选的。

将[Settings]部分'allowed_hosts'选项的注释去掉,并且加上运行nagios的监控主机的IP.我改为如下这样allowed_hosts=127.0.0.1/32,192.168.0.111 以逗号相隔.这个地方是支持子网的,如果写成192.168.0.0/24则表示该子网内的所有机器都可以访问.如果这个地方是空白则表示所有的主机都可以连接上来.注意是[Settings]部分的,因为[NSClient]部分也有这个选项.

必须保证[NSClient]的'port'选项并没有被注释,并且它的值是'12489',这是NSClient的默认监听端口

在CMD中执行nsclient++ /start启动服务,注意所在目录是C:\NSClient++

这时在桌面右下角的系统托盘处会出现一个黄色的M字样的图标（有的没有）

查看服务

已经正常启动了.注意服务默认设的是”自动”,也就是说是开机自动启动的.

在cmd里面执行netstat �Can可以看到已经开始监听tcp的12489端口了

这样外部就可以访问了吗?错!防火墙也要打开tcp的12489端口,否则nagios检查此服务的时候会报socket 超时错误.是critical哦!后果很十分严重啊.我就犯了这个错误,所以特别强调一下.

这样被监控机的配置就搞定了,它就等待nagios发出某个监控请求,然后它执行请求将监控的结果发回到nagios监控主机上.

4)对监控主机的配置

接下来就是要配置监控主机了.与之前的nrpe的过程类似,在监控主机上做的就3件事情

1.安装监控windows的插件(已经默认安装了,check_nt)

2.定义命令

3.定义要监控的项目

5）定义命令

vi /usr/local/nagios/etc/commands.cfg

增加下面的内容(注意:可能已有了，有就修改)

########################################################################

# 2007.9.6 add by yahoon

# CHECK_NT

# check windows hosts info

########################################################################

define command{

command_name check_nt

command_line $USER1$/check_nt -H $HOSTADDRESS$ -p 12489 -v $ARG1$ $ARG2$

}

如果NSClient设置了连接需要密码,则应写成如下格式

$USER1$/check_nt -H $HOSTADDRESS$ -p 12489 -s PASSWORD -v $ARG1$ $ARG2$

具体含义参考check_nt命令的用法

6）增加监控项目

vi /usr/local/nagios/etc/services.cfg

下面这个服务是监控NSClient的版本

define service{

host_name yahoon

service_description check-version

check_command check_nt!CLIENTVERSION

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

同样的可以增加如下服务(为了篇幅,我只给出最关键的check_command这一项)

1)监控windows服务器运行的时间

check_command check_nt!UPTIME

2)监控Windows服务器的CPU负载,如果5分钟超过80%则是warning,如果5分钟超过90%则是critical

check_command check_nt!CPULOAD!-l 5,80,90

3)监控Windows服务器的内存使用情况,如果超过了80%则是warning,如果超过90%则是critical.

check_command check_nt!MEMUSE!-w 80 -c 90

4)监控Windows服务器C:\盘的使用情况,如果超过80%已经使用则是warning,超过90%则是critical

check_command check_nt!USEDDISKSPACE!-l c -w 80 -c 90

注:-l后面接的参数用来指定盘符

5)监控Windows服务器D:\盘的使用情况,如果超过80%已经使用则是warning,超过90%则是critical

check_command check_nt!USEDDISKSPACE!-l d -w 80 -c 90

6)监控Windows服务器的W3SVC服务的状态,如果服务停止了,则是critical

check_command check_nt!SERVICESTATE!-d SHOWALL -l W3SVC

7)监控Windows服务器的Explorer.exe进程的状态,如果进程停止了,则是critical

check_command check_nt!PROCSTATE!-d SHOWALL -l Explorer.exe

7）重启nagios服务来生效,等一会就可以查看页面了

(红色的错误是因为我刚把ftp给关了,等会启动就好了)发现有三个服务的颜色是深黄色,状态是UNKNOWN,后面的信息是NSClient - ERROR: PDH Collection thread not running

这问题有点莫明其妙,因为大部分的新增服务都已经可以正常运行了,不要紧,把这句话放到goole里面一看,原来是由于操作系统语言的问题,好像NSClient默认支持的语言并不多.具体信息参考下面这两个页面

http://trac.nakednuns.org/nscp/ticket/54

http://www.meulie.net/portal_plugins/forum/forum_viewtopic.php?8636

查看NSClient的日志C:\NSClient++下的nsclient.log,里面信息如下

2007-09-06 10:38:35: error:.\PDHCollector.cpp:69: Getting counter info...

2007-09-06 10:38:35: error:.\PDHCollector.cpp:97: Detected language: 0x0804 but it could not be found in: counters.defs

2007-09-06 10:38:35: error:.\PDHCollector.cpp:98: You need to manually configure performance counters!

注意红色部分,说是需要我手动配置.按照它的说明打开counters.defs文件,查看一下里面的内容,很容易就知道该怎么改了.结合上面的错误信息知道0x0804是当前系统语言”简体中文”的代码,推测系统文件和变量应该与原始的英文版都一样,复制文件里面"English US"那部分内容,再做修改就行.我在counters.defs的最后加上了如下的内容:

[0x0804]

Description = "Chinese"

NT4_SystemTotalProcessorTime = "\System\% Total Processor Time"

NT4_SystemSystemUpTime = "\System\System Up Time"

NT4_MemoryCommitLimit = "\Memory\Commit Limit"

NT4_MemoryCommitByte = "\Memory\Committed Bytes"

W2K_SystemTotalProcessorTime = "\Processor(_total)\% Processor Time"

W2K_SystemSystemUpTime = "\System\System Up Time"

W2K_MemoryCommitLimit = "\Memory\Commit Limit"

W2K_MemoryCommitByte = "\Memory\Committed Bytes"

OK,再等一会看页面,发现没变化,看来这样依样画葫芦不行啊…不甘心,看看日志,再次打开nsclient.log发现里面的内容没变.新修改的那部分根本就没起作用?至少也应该像之前那样报个ERROR才对啊?修改配置文件之后要干嘛???重启服务!!!!

在mmc里面重启NSClient服务,如下图右击对应的服务选”重新启动”

查看日志,内容如下

2007-09-06 12:32:37: error:.\PDHCollector.cpp:69: Getting counter info...

2007-09-06 12:32:37: error:.\PDHCollector.cpp:119: Attempting to open counter...

2007-09-06 12:32:38: error:.\PDHCollector.cpp:122: Counters opend...

看起来没什么问题(里面的error是引导符,开发这个程序的人下次该换换,正确了就不该是erorr了嘛),这边看起来没问题了,可还是要等页面正常才放心.耐心的等一会,得到了下面的页面.

后记:

罗唆一句,官方文档是最好的教程.大家可以看到我的所有操作,大部分都是按照官方文档一步步配置的.而且按照它配置出来的也就基本满足需要了.了解了整个过程和原理,就可以自己加加减减做修改满足自己的个性需求,出了问题不要紧,查文档,用google,达到活学活用也不是难事.

还是那句话,知道了原理,一切就都简单了.

最后针对nagios提炼几个要点

对于插件要注意使用方法,多用”命令名 �Ch”看看

修改了配置文件要重启服务生效

碰到问题google一下,别忘记了查看日志

附录:

1.重启nagios的方法

之前我说重启nagios的时候都是用的杀进程的方式,其实也可以不这么做.如果在安装nagios的时候安装了启动脚本就可以使用/etc/init.d/nagios restart 还可以带的参数有stop, start,status

如果报错了,有可能是脚本里面的路径设置错误,解决办法

vi /etc/init.d/nagios

将prefix=/usr/local/nagiosaa改为安装的目录/etc/init.d/nagios

注:在nagios安装的时候说是将脚本安装到了/etc/rc.d/init.d,其实这和/etc/init.d是一个目录

2.不以xinetd的方式运行nrpe

因为我们按照nrpe的安装文档安装下来,nrpe是在xinetd下面运行的,个人比较喜欢像nagios那样以单独的daemon来运行.这样比较好控制.

方法:

编辑 /etc/services将nrpe注释掉

# Local services

#nrpe 5666/tcp # nrpe

编辑 nrpe.cfg,增加监控主机的地址

# NOTE: This option is ignored if NRPE is running under either inetd or xinetd

allowed_hosts=127.0.0.1,192.168.0.111

注意两个地址以逗号隔开

以单独的daemon启动nrpe

[root@dbpi etc]# /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

查看

[root@dbpi etc]# ps -ef|grep nrpe

nagios 22125 1 0 14:04 ? 00:00:00 [nrpe]

[root@dbpi nagios]# netstat -an|grep 5666

tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN

说明已经正常启动了

在/etc/rc.d/rc.local里面加入下面一行就实现开机启动nrpe了

/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg �Cd

同理要开机运行nagios就在/etc/rc.d/rc.local里面增加下面这行

/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

3.有关于check_load的用法及意义

这个插件是用来检测系统当前的cpu负载,使用的方法为

check_load [-r] -w WLOAD1,WLOAD5,WLOAD15 -c CLOAD1,CLOAD5,CLOAD15

在unix里面负载的均值通常表示是1分钟,5分钟,15分钟内平均有多少进程处于等待状态.

例如check_load -w 15,10,5 -c 30,25,20这个命令的意义如下

当1分钟多于15个进程等待,5分钟多于10个,15分钟多于5个则为warning状态

当1分钟多于30个进程等待,5分钟多于25个,15分钟多于20个则为critical状态

详见：http://my.oschina.net/pero/blog/87214

你可能感兴趣的:(监控,nagios)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
如何在电商平台上使用API接口数据优化商品价格 weixin_43841111 api 数据挖掘人工智能 python java 大数据前端爬虫
利用API接口数据来优化电商商品价格是一个涉及数据收集、分析、策略制定以及实时调整价格的过程。这不仅能提高市场竞争力，还能通过精准定价最大化利润。以下是一些关键步骤和策略，用于通过API接口数据优化电商商品价格：1.数据收集竞争对手价格监控：使用API接口（如Scrapy、BeautifulSoup等工具结合Python进行网页数据抓取，或使用专门的API服务如PriceIntelligence、
网关gateway学习总结猪猪365 学习总结学习总结
一微服务概述:微服务网关就是一个系统!通过暴露该微服务的网关系统,方便我们进行相关的鉴权,安全控制,日志的统一处理,易于监控的相关功能!实现微服务网关技术都有哪些呢?1nginx:nginx是一个高性能的http和反向代理web的服务器,同事也提供了IMAP/POP3/SMTP服务.他可以支撑5万并发链接,并且cpu,内存等资源消耗非常的低,运行非常的稳定!2Zuul:Zuul是Netflix公司
Java面试笔记记录6 今天背八股了吗 java 面试笔记
1.Spring是什么？特性？有哪些模块？Spring是一个轻量级、非入侵式的控制反转Ioc和面向切面AOP的框架。特性：1.Ioc和DISpring的核心就是一个大的工厂容器，可以维护所有对象的创建和依赖关系，Spring工厂用于生成Bean，并且管理Bean的生命周期，实现高内聚低耦合的设计理念。2.AOP编程Spring提供面向切面编程，可以方便实现对程序进行权限拦截、运行监控等切面功能。3
sentinel 不显示项目_Sentinel相关问题记录 weixin_39840606 sentinel 不显示项目
SentinelFAQ整理Sentinel承接阿里巴巴近10年双十一大促流量的核心场景，以流量为切入点，从流量控制、熔断降级、系统负载保护等多个维度保护服务的稳定性。其提供丰富的应用场景支持、完备的监控能力、易用的拓展点。Note:中文文档请见此处。热点问题1、Q:dashboard不展示监控问题如何排查？dashboard是一个单独启动的控制台，引入sentinel的应用是一个客户端。它们各自有
Sentinel 眼泪落在琴弦 springcloud java java
Sentinel（服务熔断降级限流）1.引入spring-cloud-starter-alibaba-sentinel2.下载sentinel服务器3.配置application地址信息4.在控制台调整参数【默认所以流控设置保存在内存中，重启失效】5.想实时监控需每个微服务导入actuator，并配置application暴露所有端口6.自定义sentinel流控返回数据7.配置sentinel类
Sentinel实时监控不展示问题朱杰jjj sentinel sentinel
问题官方插件Endpoint支持，可以实时统计出SpringBoot的健康状况和请求的调用信息在使用Endpoint特性之前需要在Maven中添加spring-boot-starter-actuator依赖，并在配置中允许Endpoints的访问。SpringBoot1.x中添加配置management.security.enabled=false。暴露的endpoint路径为/sentinelS
Python和MATLAB及C++信噪比导图(算法模型) 亚图跨际算法交叉知识 Python 视频图像修复模数转换信号链噪音频谱计算量化周期性视觉刺激高斯噪声的矩形脉冲心率失常检测算法
要点视频图像修复模数转换中混合信号链噪音测量频谱计算和量化周期性视觉刺激脑电图高斯噪声的矩形脉冲总谐波失真周期图功率谱密度各种心率失常检测算法胶体悬浮液跟踪检测计算交通监控摄像头图像噪音计算Python信噪比信噪比是科学和工程中使用的一种测量方法，用于比较所需信号水平与背景噪声水平。信噪比定义为信号功率与噪声功率之比，通常以分贝表示。高于1:1（大于0dB）的比率表示信号大于噪声。信噪比是影响处理
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
php服务器状态监测,PHP网站状态在线监控源码傲雪吟霜白如冰 php服务器状态监测
在网上找的一个在线监控源码，比较简单，但是功能也略有不足，例如如果网站挂了就按照监控频率一直发邮件提示，网站恢复之后不会发邮件通知；不能直接填写要监控的网址或者某一页面，适合监控大量的网站或者vps、服务器。最新使用感受：没有发送邮件限制，我设置监控频率是一个小时，一天没管就把邮箱塞满了。如果服务器恢复的话不会专门发邮件提醒。如果只是监控几个站的话有很多免费的监控网站可以使用，只是使用数量上有限制
php状态监控源码,PHP服务器状态监控实现程序江子星 php状态监控源码
*/header('Content-type:text/html;charset=utf-8');include'./smtp/class.smtp.php';include'./smtp/class.phpmailer.php';functionsendmail($subject='',$body=''){date_default_timezone_set('Asia/Shanghai');//
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
STM32 如何生成随机数千千道 STM32 stm32 单片机物联网
目录一、引言二、STM32随机数发生器概述三、工作原理1.噪声源2.线性反馈移位寄存器（LFSR）3.数据寄存器（RNG_DR）4.监控和检测电路：5.控制和状态寄存器6.生成流程四、使用方法1.使能随机数发生器2.读取随机数3.错误处理五、注意事项1.随机数的质量2.安全性3.性能考虑六、总结一、引言在嵌入式系统开发中，随机数的生成常常是一个重要的需求。无论是用于加密、模拟、游戏还是其他需要不确
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数 aehrutktrjk langchain python
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数引言在LangChain中，回调（Callbacks）是一种强大的机制，允许开发者在运行过程中监控和干预各种操作。本文将深入探讨如何为Runnable对象添加回调函数，这对于调试、日志记录和性能监控等任务至关重要。我们将通过实际的代码示例来演示这一过程，并讨论一些常见的应用场景和最佳实践。理解Callback机制
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
省钱快报真实可信吗？揭秘其与品牌商家合作、用户评价和数据加密措施！优惠券高省
在众多省钱平台中，省钱快报备受用户关注。本文将重点探讨省钱快报的安全性，评估其提供的服务是否可靠，并对高省app官方邀请码（000018）进行有效性验证，为用户提供更多信息和保障。一、省钱快报的安全性分析省钱快报作为一个提供省钱信息和返利服务的平台，一直关注用户数据的安全。该平台采取了多重安全措施，包括数据加密、账户认证、交易监控等，保障用户信息的安全性。此外，平台与品牌商家建立合作关系，确保提供
数字化供应链架构、全景管理、全流程贯通整体解决方案：供应链管理就是利用管理工具、IT技术将企业引入外部资源的过程精细化、标准化管理，实现高效益低成本运营。数字化建设方案数字化转型数据治理主数据数据仓库智能制造数字工厂制造业数字化转型工业互联网供应链数字仓储智慧物流智慧仓储物流园区架构大数据
数字化供应链架构、全景管理、全流程贯通方案数字化供应链架构、全景管理、全流程贯通方案项目背景与目标供应链管理现状及挑战数字化供应链架构概念及优势全景管理与全流程贯通目标预期成果与效益智能管理机制建设需求预测与智能分析应用合同管理智能化提升举措仓储管理自动化和机器人技术应用物流配送优化策略周边系统整合与数据贯通现有系统梳理及评估报告数据接口标准制定和实施计划流程对接和数据交互机制设计监控和报警机制完
【监控告警】02-Promtheus的学习之路 Kearey. 监控告警微服务网关学习方法
prometheus采用的是拉模式为主，推模式为辅的方式采集数据。Prometheus作为一个指标系统天生就不是精确的——由于指标本身就是稀疏采样的，事实上所有的图表和警报都是”估算”，我们也就不必太纠结于图表和警报的对应性，能够帮助我们发现问题解决问题就是一个好监控系统。当然，有时候我们也得证明这个警报确实没问题，那可以看一眼`ALERTS`指标。`ALERTS`是Prometheus在警报计算
snmp v2 trap搭建监控端小黑要上天 snmp linux 服务器 centos 运维 snmp
1.基础环境配置为了防止防火墙及selinux等的影响，需关闭防火墙及selinux等，具体参考：Linux常规基础配置_linux基础配置-CSDN博客2.安装snmpyum源配置，具体参考：Linux常规基础配置_linux基础配置-CSDN博客snmp安装命令：yuminstall-ynet-snmpnet-snmp-utils[root@kibana~]#yuminstall-ynet-s
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
什么是埋点测试，app埋点测试怎么做？自动化测试老司机自动化测试软件测试测试工程师功能测试 appium 测试工具单元测试 postman 软件测试自动化测试
前言埋点测试是指在应用程序或网站中预设检查点，收集程序运行时的数据，以便于后续对程序进行性能分析或故障排查。埋点测试通常用于监控和追踪用户在软件产品中的行为，以收集有关用户体验、功能使用情况和潜在问题的数据。这些数据对于软件产品的优化和改进至关重要，有助于开发人员了解用户需求和产品存在的问题，从而制定针对性的改进方案。App埋点测试是一种基于数据采集的增长分析方法，旨在通过在App代码中埋点来记录
基于Prometheus和Grafana的现代服务器监控体系构建 golove666 运维 prometheus grafana 服务器
构建一个基于Prometheus和Grafana的现代服务器监控体系涉及多个步骤。以下是大体的流程和步骤说明：1.Prometheus监控系统Prometheus是一个开源的系统监控和报警工具，专门设计用于抓取时间序列数据。1.1Prometheus的安装Docker安装Prometheusdockerrun-d--name=prometheus-p9090:9090prom/prometheus
Java高并发编程详解系列-Balking设计模式 nihui123 高并发设计模式 java 编程语言
导语在实际操作中当某个线程因为发现其他线程正在进行相同的工作而放弃即将开始的任务，这种情况就被称为是Balking模式，Balking英文的意思是犹豫。在多个线程监控某个共享变量，A线程监控到共享变量发生变化后立即触发某个动作，但是这个这个时候发现了B线程也对该变量开始了行动，这个时候A变量就放弃了准备工作。下面就来详细的讲解一下关于Balking模式什么是Balking模式在餐厅吃饭的时
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
【Kubernetes】常见面试题汇总（十三） summer.335 Kubernetes kubernetes 容器云原生
目录39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？40.简述Kuberneteskubelet的作用？41.简述Kuberneteskubelet监控Worker节点资源是使用什么组件来实现的？39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？KubernetesScheduler根据如下两种调度算法将Po
服务器运维小技巧（二）——如何进行监控告警 baiolkdnhjaio 网络安全
服务器运维难度高的原因，很大程度是因为服务器一旦出现问题，生产环境的业务就会受到严重影响，极有可能带来难以承担的后果。因此这份工作要求工程师保持高要求的服务质量，能够快速响应问题，及时解决问题。但是“及时”的这一点很难做到，需要通过优化工作流程、建立预警系统，搭建自动化等行为快速响应。今天主要介绍如何通过服务器运维工具搭建监控预警的手段来辅助缩短响应时间。首先打开牧云主机管理助手，进入系统设置界面
为什么需要DDos高防服务器呢？ 666IDCaaa ddos 服务器网络
在当今信息化快速发展的时代，网络安全问题显得尤为重要。DDoS攻击是一种耗尽系统资源的攻击方式，可以导致正常服务请求无法得到响应。这种攻击不仅影响用户体验，还可能导致企业声誉受损、经济损失以及客户流失等严重后果。因此，选择有效的DDoS高防服务对于保护网络安全至关重要。DDoS高防服务可以通过云端清洗集群、数据库监控牵引系统等技术进行有效的削弱。这些技术能够识别并过滤恶意流量，确保正常用户能够顺利
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C