Nagios远程监控软件的安装与配置详解

转自http://netsecurity.51cto.com/art/200706/48728_2.htm

作为系统管理员，我最担心那些重要的在线系统在我不知情的情况下停机或者停止网络服务，而且那些发生故障的服务或主机有时候可能要好长一段时间才知道。尤其是遇到节假日，系统管理员就很紧张。要改变这种被动局面，这里我推荐网络监控软件Nagios，个人认为它最大的好处是可以发故障报警短信—只要Nagios监控的对象发生故障，系统就会自动发送短信到手机上。下面摘录Nagios官方网站的描述：

Nagios is an open source host, service and network monitoring program. 
Who uses it? Lots of people, including many big companies and organizations

Nagios是一个用来监控主机、服务和网络的开放源码软件，很多大的公司或组织都在使用它。

在我来到现在这个机构之前，已经有一个Netsaint(nagios的老版本)在监控那些在线服务器，但是不完善，后来我立了一个项，部署了新的监控平台nagios把所有的在线服务器都监控起来了；到目前为止，监控了413个主机和754个服务。

虽然Nagios十分受用，但配置起来确是麻烦，根据其读音我给它取可一个中文名-难够死。基于这样的原因，我将尽可能详细地向大家讲述我用Nagios的过程以及心得，希望对初学者有所帮助。

安装所需软件

一、安装Nagios

Nagios可以运行在各种版本的linux及主流的unix环境，我试过的环境有Redhat linux,Centos,Debian等。在实际的运维中，我是以centos 4来部署nagios的。安装完操作系统之后，需要把多余的服务都关掉，只留sshd这个服务。

然后用wget下载源码包nagios-2.6.tar.gz和httpd-2.2.0.tar.gz。接下来先分别安装软件，过程如下：
1、解压nagios. tar zxvf nagios-2.6.tar.gz
2、配置nagios. cd nagios ; ./configure –prefix=/usr/local/nagios
3、编译nagios. make all
4、安装nagios。与别的软件安装稍有不同，nagios的安装要好几步才能完成。第一步执行make install安装主要的程序、CGI及HTML文件，第二步执行 make install-commandmode 给外部命令访问nagios配置文件的权限，第三步执行 make install-config 把配置文件的例子复制到nagios的安装目录。按照安装向导的提示，其实这里还有一个 make install-init的步骤，它的作用是把nagios做成一个运行脚本，使nagios随系统开机启动，这是一个很方便的措施。但本人是一个喜欢把问题简化的人，没有执行这样的操作。
5、验证程序是否被正确安装。切换目录到安装路径（这里是/usr/local/nagios）,看是否存在 etc、bin、 sbin、 share、 var这五个目录，如果存在则可以表明程序被正确的安装到系统了。后表是五个目录功能的简要说明：

bin	Nagios执行程序所在目录，这个目录只有一个文件nagios
etc	Nagios配置文件位置，初始安装完后，只有几个*.cfg-sample文件
sbin	Nagios Cgi文件所在目录，也就是执行外部命令所需文件所在的目录
Share	Nagios网页文件所在的目录
Var	Nagios日志文件、spid 等文件所在的目录

二、安装nagios的插件

没有插件，nagios将什么作用也没有，插件也是nagios扩展功能的强大武器，除了下载常用的插件外，我们还可以根据实际要求编写自己的插件。Nagios的插件nagios-plugins-1.4.5在www.nagios.org上可以找到，接着我们用wget下载它。

注意：插件与nagios之间的版本关联不大，不一定非得用nagios-plugins-1.4.5这个版本。下载完成后，安装它是很简单的：先执行配置 ./configure –prefix=/usr/local/nagios ,接着编译安装 make ; make install即可。

这里需要说明一下的是在配置过程指定的安装路径是/usr/local/nagios，而不是/usr/local/nagios-plus,安装完成后，将在目录/usr/local/nagios生成目录libexec（里面有很多文件），这正是nagios所需要的。

三、安装web服务器apache

Web服务不是nagios所必须的，但是如果nagios没有web，查看监控对象的对象将是非常费事和没有趣味的事情（只有通过查看nagios的日志来判断状态）。我不愿干特无聊的事，所以就花少许时间把web安装一下。

在unix/linux世界，apache是web服务器的首选对象，其下载网站为www.apache.org 。建议下载源码。因为我们不需要很复杂的web功能，因此简单的执行一下几个步骤就可以正确的把apache安装到系统：
1、解包、配置：tar zxvf httpd-2.2.0.tar.gz ; cd httpd-2.2.0 ; ./configure –prefix=/usr/local/apache 。
2、编译安装： make ; make install 。
安装完成后，执行命令 ./usr/local/apache/bin/apachectl –t 检查一下apache是否正确安装。

配置前的处理

最主要的工作是创建nagios用户及其束组，让nagios的运行用户为nagios而不是root。再把目录/usr/local/nagios的属主设置为nagios，以保证系统的安全。Nagios可以以root用户运行，但并不推荐这样做。用下面的步骤来完成上述过程：

1、添加系统帐户nagios: useradd nagios 就很容易的把用户和组nagios添加到系统。有的类型的linux发行版添加用户和组要麻烦一些-需要要添加组，然后再执行 useradd –g nagios nagios这样的操作。在实际的运用场景，nagios用户并没有必要作为系统用户来登录linux系统，因此可以不必设置nagios的用户密码，甚至可以把nagios用户的登录shell设置成/bin/false。

2、更改目录属组：chown –R nagios.nagios /usr/local/nagios 。请注意，有的unix/linux的版本用户和属组分隔符号不是“.”,可能会是这样的形式 chown –R nagios:nagios /usr/local/nagios 。

3、sendmail。看看sendmail是否正常运行？我们需要使用sendmail来发送故障报警信息，所以这个包必须能够正常工作。Sendmail分为服务器和客户端两部分，有2种发送报警邮件的方式：
（1）nagios所在的机器通过sendmail客户端程序把邮件发送到专门的邮件服务器，再由邮件服务器把消息发送到用户邮箱。
（2）邮件客户端和服务器端就用nagios所在系统sendmail。第一种方式用起来非常规范，但更麻烦，例如需要做地址解析、修改邮件服务器的配置；另外还有一个问题-它还依赖别的系统，增加了故障点和复杂度。第二种方法十分简单，只需启动sendmail服务即可，而且它不再依赖于别的系统和服务。在我工作的实际场景，这两种方法都使用，用专门的邮件服务器会有发送延迟的情况（因为邮件服务器要处理很多其他用户邮件的收发）；而直接用sendmail做服务器和客户端就异常简单和方便了。非常幸运的是，几乎所有的linux/unix发行版都默认安装sendmail，费了这么多笔墨，其实就做一个动作-把sendmail服务运行起来。

4、手机短信发送工具。我现在的公司是sp，有自己的短信通道，直接把发送短信的客户端程序sms_send拷贝到目录/usr/local/bin/下。如果没有短信下发的网关通道，那怎么办呢？网络上有很多短信发送的客户端程序，很有名的就是smsclient,把它下载下来，解包后安装。不要忘记购买手机modem和手机卡，modem只支持SIM卡而不支持cdma。

安装完smsclient软件和硬件modem后，测试一下是否正常。如果没有modem又怎么办？办法还是有的：让你的手机号可以接受邮件，这需要你去营业厅开通这项功能。短信报警功能是最有用的功能，我们不可能成天盯着监视屏幕，也不可能成天接受电子邮件，但我们的手机却可以24小时在线，只要被监控对象发生故障，马上就可以收到故障报警短信。

以前，我很怕放长假，因为最担心关键的设备或服务在假期出故障而自己不知道，所以放假就变成了值班；想必很多网络管理员都有类似的经历。在我动手部署nagios以前，曾经在网上搜索关于nagios配置的文章，发现绝大部分都没有介绍使用手机短信这个方便的功能，真是遗憾呀！再次，强烈建议启用nagios的短信故障报警功能。

配置

配置是nagios最复杂的部分，它涉及到多个文件的配置，为了方便描述，这里逐个的进行配置。

一、apache 配置
我们分两个步骤来完成这个配置。第一步是修改apache的配置文件httpd.conf,这里的文件路径是/usr/local/apache/conf/httpd.conf 。把apache的运行用户[1]和运行组改成nagios,往下把下面的行追加到文件httpd.conf的末尾：

#setting for nagios

ScriptAlias /nagios/cgi-bin /usr/local/nagios/sbin

     //Cgi文件所在目录

    AuthType Basic

    Options ExecCGI

    AllowOverride None

    Order allow,deny

    Allow from all

    AuthName "Nagios Access"

    AuthUserFile /usr/local/nagios/etc/htpasswd  //验证文件路径

    Require valid-user



Alias /nagios /usr/local/nagios/share

   //nagios页面文件目录

    AuthType Basic

    Options None

    AllowOverride None

    Order allow,deny

    Allow from all

    AuthName "nagios Access"

    AuthUserFile /usr/local/nagios/etc/htpasswd  //验证文件路径

    Require valid-user

上述文本块的作用是对nagios的目录进行用户验证，只有合法的授权用户才可以访问nagios的页面文件。第二步是生成用户验证文件：只要执行命令 /usr/local/apache/bin/htpasswd–c /usr/local/nagios/etc/htpasswd sery ，就会生成web的合法访问用户sery；命令交互执行，需要输入2次密码，然后就在文件/usr/local/nagios/etc/htpasswd写入一行-第一个字段是刚生成的用户名，第二个是加密后的密码，如果还要添加更多的用户，执行命令 htpasswd 就不需要选项 “-c”,否则就会覆盖所有已经生成的行。

配置完成后，执行/usr/local/apache/bin/apachctl –t 检查apache配置文件是否有语法错误，无误后用/usr/local/apache/bin/apachctl start & 把apache启动，然后从另外的机器的浏览器输入nagios 的访问地址（如：http://ip/nagios），如果正常，将出现下图的登录验证窗口等待用户输入：

输入用htpasswd创建的用户名和密码测试一下，没有问题的话，进行下一步配置操作。

二、nagios配置

刚安装完成的nagios，其配置文件的目录是/usr/local/nagios/etc，下图是其etc目录的文件：

先把这些文件改名，如 cgi.cfg-sample改成cgi.cfg ，用命令cp cgi.cfg-sample cgi.cfg …依样把余下的几个*.cfg-sample都复制成*.cfg文件。从nagios2.6版开始，不用修改配置文件localhost.cfg就可以直接运行../bin/nagios –v nagios.cfg验证程序是否能正常运行(nagios2.5及以前版本的最小运行的配置文件是minimal.cfg，但需要修改这个文件多处才能验证成功)。

当然，我们不能指望这个最小的配置文件能够满足实际的需求，因此，需要对现有的配置文件进行修改，其次增加自定义的一些配置文件。这里，我们分两步进行：先修改配置文件再增添自定义文件。

1、修改配置文件
Nagios的主配置文件是nagios.cfg，我们就从这个文件开始修改。用vi编辑nagios.cfg，注释行 #cfg_file=/usr/local/nagios/etc/localhost.cfg[2],然后把下面几行的注释去掉：

cfg_file=/usr/local/nagios/etc/contactgroups.cfg  //联系组配置文件路径

cfg_file=/usr/local/nagios/etc/contacts.cfg       //联系人配置文件路径

cfg_file=/usr/local/nagios/etc/hostgroups.cfg     //主机组配置文件路径

cfg_file=/usr/local/nagios/etc/hosts.cfg          //主机配置文件路径

cfg_file=/usr/local/nagios/etc/services.cfg       //服务配置文件路径

cfg_file=/usr/local/nagios/etc/timeperiods.cfg    //监视时段配置文件路径

改check_external_commands=0为check_external_commands=1 这行的作用是允许执行在web界面下重启nagios、停止主机/服务检查等操作。把command_check_interval的值从默认的1改成command_check_interval=10s（根据自己的情况定这个命令检查时间间隔，不要太长也不要太短）。主配置文件要改的基本上就是这些，通过上面的修改，发现/usr/local/nagios/etc并没有文件hosts.cfg等一干文件，怎么办？稍后手动创建它们。
第二个要修改的配置文件是cgi.cfg,它的作用是控制相关cgi脚本。

先确保use_authentication=1。曾看过不少的文章，都是建议把use_authentication的值设置成”0”来取消验证，这是一个十分糟糕的想法。接下来修改default_user_name=sery ,再后面的修改在下表列出：

authorized_for_system_information=nagiosadmin,sery 

authorized_for_configuration_information=nagiosadmin,sery

authorized_for_system_commands=sery  //多个用户之间用逗号隔开

authorized_for_all_services=nagiosadmin,sery

authorized_for_all_hosts=nagiosadmin,sery

authorized_for_all_service_commands=nagiosadmin,sery

authorized_for_all_host_commands=nagiosadmin,sery

那么上述用户名打那里来的呢？是执行命令 /usr/local/apache/bin/htpasswd –c /usr/local/nagios/etc/htpasswd sery 所生成的，这个要注意，不能随便加没有存在的验证用户，为了安全起见，不要添加过多的验证用户。

第3个修改的配置文件是misccommands.cfg,这个文件的主要功能是用来发送报警短信和报警邮件，对其的修改如下所示：

#host-notify-by-sms   //发送短信报警

define command {

       command_name      host-notify-by-sms

       command_line      /usr/local/bin/sms_send "Host $HOSTSTATE$
alert for $HOSTNAME$! on '$DATETIME$' " $CONTACTPAGER$

       }



#service notify by sms  //发送短信报警

define command {

       command_name     service-notify-by-sms

       command_line     /usr/local/bin/sms_send "'$HOSTADDRESS$'
$HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$" $CONTACTPAGER$

       }

主机和服务的邮件报警通知已经在文件中，不须更改。也可以把短信和邮件报警通知这些配置块写到文件commands.cfg中，效果是一样的。

2、增加新的配置文件
先创建简单的配置文件timeperiods.cfg，其内容如下：

define timeperiod{

        timeperiod_name 24x7

        alias           24 Hours A Day, 7 Days A Week

        sunday          00:00-24:00

        monday          00:00-24:00

        tuesday         00:00-24:00

        wednesday       00:00-24:00

        thursday        00:00-24:00

        friday          00:00-24:00

        saturday        00:00-24:00

        }

这个文件的定义明晰易懂，不多做说明。另建议7X24小时监控。
第二个手动创建的配置文件是 contacts.cfg,其格式如下：

define contact {

        contact_name         sa    //不要有空格

        alias                system administrator

        service_notification_period    24x7

        host_notification_period       24x7

        service_notification_options   w,u,c,r

        host_notification_options       d,u,r

        service_notification_commands  service-notify-by-sms,service-

notify-by-email  //这个命令读配置文件miscommands.cfg

        host_notification_commands     host-notify-by-email,host-noti

fy-by-sms      //这个命令读配置文件miscommands.cfg

        email                          [email protected]

        pager                          13333333333 //手机号，收报警短信

        }     //不要把这个符号写掉了



define contact {

        contact_name         sery

        alias                system administrator

        service_notification_period    24x7

        host_notification_period       24x7

        service_notification_options   w,u,c,r

        host_notification_options       d,u,r

        service_notification_commands  service-notify-by-sms,service-

notify-by-email

        host_notification_commands     host-notify-by-email,host-noti

fy-by-sms

        email                         [email protected]

        pager                          13312345678

        }

上面的文件定义了2个联系人，如果有更多联系人的话，照这个格式在后面追加即可。服务通知选项（service_notification_options）与主机通知选项（host_notification_options）的几个选项在这里说明一下：w-warning , u-unknown,c-critical,r-recovery;d-down,u-unreachable,注意一下，主机报警和服务报警有些差异。

紧接着的第三个手动创建的配置文件是contactgroups.cfg文件，这个文件是依照上一个文件contacts.cfg来的,contactgroups文件相对简单一些，其格式如下：

define contactgroup {

        contactgroup_name    sagroup  //不要用空格

        alias                system administrator group

        members              sa,sery  //本例有2个成员

}

多个成员之间用逗号做分界符，如果有更多的联系组，就依相同的格式在文件中追加余下的组。
关键的角色终于登场，这就是配置文件hosts.cfg。下面是我定义的两个主机的基本样式：

#define monitor  host



#################################################################

# Wangjing IDC servers                                          #

#################################################################

define host {

       host_name                  nagios-server

       alias                      nagios server

       address                    61.x..x.49

       contact_groups             sagroup //多个联系组用逗号分隔，
数据来源于contactgroups.cfg

       check_command              check-host-alive

       max_check_attempts         5

       notification_interval      10    //值可调，大小什么值合适需自己测定

       notification_period        24x7

       notification_options        d,u,r

       }



define host {

       host_name                  24-25

       alias                      server 24-25

       address                    202.X.24.25

       contact_groups             sagroup

       check_command             check-host-alive //down机就发报警通知

       max_check_attempts         5

       notification_interval      10

       notification_period        24x7

       notification_options        d,u,r

       }

更多的主机依此格式逐个追加进来。小技巧，如果是连续的ip段，最好自己写个脚本生成hosts.cfg文件，为了以后维护方便，尽可能在文件中使用易读的注释（如本例# Wangjing IDC servers #）。

再一个重量级的配置文件是services.cfg,没有这个文件，什么监控也没用。下面给出一个样式文件：

#service definition



##############################################################

#  Wangjing IDC servers service for host-live                #

##############################################################

define service {

        host_name        nagios-server  //来源：hosts.cfg

        service_description   check-host-alive

        check_period          24x7

        max_check_attempts    4

        normal_check_interval 3

        retry_check_interval  2

        contact_groups        sagroup  //来源：contactgroups.cfg

        notification_interval   10

        notification_period     24x7

        notification_options    w,u,c,r

        check_command           check-host-alive  //检查主机是否存活

        }

define service {

        host_name        74-210

        service_description   check_tcp 80

        check_period          24x7

        max_check_attempts    4

        normal_check_interval 3

        retry_check_interval  2

        contact_groups        sagroup

        notification_interval   10

        notification_period     24x7

        notification_options    w,u,c,r

        check_command      check_tcp!80 //检查tcp 80端口服务是否正常

        }

书写时要注意的是，check_tcp与要监控的服务端口之间要用”!”做分隔符。如果服务太多，以应该考虑用脚本来生成。
主机组配置文件hostgroups.cfg，这是一个可选的项目，它建立在文件hosts之上，其格式如下：

define hostgroup {

         hostgroup_name  sa-servers

         alias           sa servers

         members         nagios-server,24-25,24-26  //用逗号间隔多个主机

         }

多个主机组依上面的格式逐个追加上去。后面给一个主机组的截图。

千辛万苦，终于把这些配置给做好保存，现在几乎有点迫不及待了，运行程序/usr/local/nagios –v /usr/local/nagios/etc/nagios.cfg来检查所有配置文件的正确性。如果十分幸运的话，运行完毕将在输出尾部出现：

Total Warnings: 0

Total Errors:   0



Things look okay - No serious problems were detected during the pre-flight check

这样的情况，大功告成；但我却没有这么幸运，修改了好多个地方才成功。不过值得庆幸的是，这个校验的错误报告时非常有用的（不象有的系统的帮助文档中看不中用）。看我故意设置的一个错误产生的输出：

[root@netmonitor nagios]# bin/nagios -v etc/nagios.cfg



Nagios 2.5

Copyright (c) 1999-2006 Ethan Galstad (http://www.nagios.org)

Last Modified: 07-13-2006

License: GPL



Reading configuration data...



Error: Could not find any host matching 'nagios-server'

Error: Could not expand member hosts specified in hostgroup 
(config file '/usr/local/nagios/etc/hostgroups.cfg', starting on line 2)

………………………

它告诉我配置文件在什么位置产生错误（实际上我故意在配置文件里加了一个注释符号来测试）。验证通过以后，就可以执行命令/usr/local/nagios –d /usr/local/nagios/etc/nagios.cfg 把nagios作为守护进程。然后用ps –aux | grep nagios 看进程是否处于运行状态。到这一步，nagios服务基本上算是配置完毕。做hosts.cfg、services.cfg等配置时，可以运用一些小技巧来减少出错的概率：如先定义少许的主机、服务，待校验无误后再追加。

验收

用浏览器输入nagios所在服务器的ip及目录，如http://61.135.X..X/nagios，再输验证所需的用户名和密码，就可点击页面右边的相关连接来查看各种状态。关掉某个被nagios监控主机的服务或者拔掉某个服务器的网线，等几分钟，点击超连接“Service Detail”观察页面状态看是否有红色的醒目的报警出现。

一会儿，就会收到报警短信和报警邮件，然后在把测试所有的服务开启或把拔下来的网线查上去，片刻后，网页里的红色报警表格消失，手机短信或邮件通知故障恢复。如果你的情况也这样，那么真正大功告成。
Nagios的功能十分强大，在我的项目里，因为我的需求不同而尽可能的简化了nagios而没有使用代理、多更多插件等功能，在一个不超过1000个服务器的网络规模里，它工作得很好。如果有更多的服务器，建议使用mysql数据来管理监控对象。在部署nagios的过程中，我多很多选项作了取舍，更详细的情况请参照官方的文档。

你可能感兴趣的:(nagios)

Nagios安装部署全攻略 weixin_34109408 memcached php 操作系统
概述：公司的生产机器一共有12台，2台LVS(主备)、2台nginx、2台tomcat、1台后台服务器(nginx_tomcat)、3台mysql(主+备+异地灾备)、1台图片服务器、2台memcached.可以看出网站的架构就是基于高可用的原理的，每个层面都做了主备、系统的PV不高，对于并发布，高性能没有那么苛求，对于系统安全、稳定有较高要求，前期已经对系统做了各种日志分析，WAF配置，漏洞扫面
zabbix监控MySQL lu9up zabbix mysql 数据库
1PMP介绍PMP（percona-monitoring-pluggins）是高质量的mysql监控组件，以模板、插件和脚本的形式提供我们去应用。可以将企业级MySQL功能添加到现有的本地监控解决方案中，支持如Nagios、Cacti和Zabbix等热门解决方案。更详细介绍请阅读官方文档第三章【TEMPLATESFORZABBIX】：Percona-Monitoring-Plugins-1.1.8
vulnhub靶机midwest-v1.0.1 himobrinehacken vulnhub 安全系统安全网络安全
下载地址：https://download.vulnhub.com/midwest/midwest-v1.0.1.ova主机发现目标144端口扫描服务扫描漏洞扫描访问web咯改一下host接下来用wpscan看一下用户名接下来看一下密码能不能出来扫的时候顺便看了一下网站目录nagios401了那就是又这个东东被拦截了这玩意又是一个waf好好好密码估计是出不来了再用域名扫一下这个也是一样的，只能访问
源码部署zabbix监控详细步骤 Mr Sean zabbix 监控类
由于实际工作中所需要监控的服务器数量之大，人工监控耗时耗力，基于这种情况寻找可用于监控的服务器的开源软件，有三款推荐软件可使用：Cacti、Nagios、Zabbix三款软件各自的特点如下：Cacti:基于SNMP协议的监控软件,强大的绘图能力Nagios:基于Agent监控,强大的状态查验与报警机制,插件极多,自己写监控脚本潜入到Nagios非常方便.Zabbix:基于多种监控机制,支持分布式监
Hack The Box-Monitored 0415i HTB靶场合集网络服务器运维 linux web http
端口扫描&信息收集使用nmap对ip进行扫描nmap10.10.11.248开放了22、80、389、443端口使用dirsearch对网站目录进行扫描dirsearch-u10.10.11.248发现一个/nagios的网页，尝试访问发现需要用户名和密码，这里没有用户名密码，先继续下一步将ip和域名加入到hosts文件中后，访问ipecho'10.10.11.248nagios.monitore
htb monitored root方式其中的一种（仅作记录）春猿火 linux
快下班时候审出来的，目前root的第5种方式nagios@monitored:~$cat/usr/local/nagiosxi/scripts/backup_xi.sh#!/bin/bash##CreatesaFullBackupofNagiosXI#Copyright(c)2011-2020NagiosEnterprises,LLC.Allrightsreserved.#BASEDIR=$(di
Linux运维日常使用软件和技能寻宝记_楠哥
运维工程师使用的运维平台和工具包括：Web服务器：apache、tomcat、nginx、lighttpd监控：nagios、ganglia、cacti、zabbix自动部署：ansible、sshpt、salt配置管理：puppet、cfengine负载均衡：lvs、haproxy、nginx传输工具：scribe、flume备份工具：rsync、wget数据库：mysql、oracle、sql
持续运维与监控 Michaelzh
运维的趋势，挑战，事件管理，流程管理运维权限管理开源运维平台云上IAM监控开源监控方案zabbix+短信、邮件、微信、钉钉告警普罗米修斯(容器)Nagiosopen-falconzenoss监控对象服务器、虚拟机监控数据库监控中间件监控容器监控云上监控云上自带服务，例如AWS的cloudwatch+SNS、阿里云的云监控+短信服务等告警消息分级，人性化监控系统运维可视化开源技术grafana云上服
开源监控服务一瞥：Prometheus、Grafana、Zabbix、Nagios、Icinga和Open-Falcon CodeArtisanX 开源监控
前言随着信息技术的发展，监控服务在维护系统稳定性和性能方面变得越来越重要。本文将比较一些流行的开源监控服务，以帮助你选择适合你需求的解决方案。监控服务对比监控服务特点优势不足性能扩展性安全性Prometheus-多维度数据模型-监控容器化环境的强大工具-需要单独设置存储后端-查询性能较高，适用于大规模环境-可通过分布式部署进行横向扩展-支持基于HTTPS的数据传输，提供基本认证-支持服务发现自动发
nagios部署记录 shaoqiu.wu linux centos 运维
nagios主程序部署前期准备工作#关闭防火墙systemctlstopfirewalld#关闭防火墙开启自启systemctldisablefirewalldvi/etc/sysconfig/selinuxSELINUX=disabled#重启#换源cd/etc/yum.repos.d/#备份源mvCentOS-Base.repoCentOS-Base.repo.bak#下载阿里源curl-o/
pnp4nagios 配置 nagios nextflying java 前端服务器
/root/software/pnp4nagios-0.6.26/sample-config/nagios.cfg-sample.in/root/software/pnp4nagios-0.6.26/sample-config/misccommands.cfg-sample.in/root/software/pnp4nagios-0.6.26/sample-config/nagios.cfg-sa
nagios php-fpm,nagios平台从apache迁移到nginx weixin_39907762 nagios php-fpm
nginx的性能远远优于apache，但由于nagios的web界面中包含php和c-cgi程序，因此需要两套fcgi管理工具(并非必须)和两套解释器(必须)。php用php-cgi跑就可以，c-cgi我选用fcgiwrap。下面介绍安装/配置步骤。php-fpm：是为PHP打的一个FastCGI管理补丁，可以平滑变更php.ini配置而无需重启php-cgiSpawn-fcgi：是lighttp
《高性能Linux服务器构建实战》笔记 SkTj
系统安全、故障排查、自动化运维、集群架构1、账号安全，安装完后可以删除的账号：adm,lp,sync,shutdown,halt,news,uucp,operator,games,gopher禁用登录功能：usermod-s/sbin/nologinnagios2、关闭不需要的服务:anacronauditdautofsavahi-daemonavahi-dnsconfdbluetoothcpus
L2tp客户端 jameslord makefile nagios linux ubuntu file 服务器
root@ubuntu:~/download/backfire$lsfeeds/packages/net/xd/feeds里面放了很多Makefile，编译时怎么没把xd编译出来呢?filesMakefilepatchesREADMEroot@ubuntu:~/download/backfire$lsdl/|grepxfeeds/packages/admin/nagios/Makefilenagi
16、Mysql用户工具 geek-wmy Mysql高性能学习 mysql 数据库 java 后端面试
接口工具MysqlWorkbenchSQLyogphpMyAdminAdminer命令行工具集PerconaToolkitMaatkitandAspersaTheopenarkkitMysqlWorkbench工具集SQL实用集common_schemamysql-sr-libMysqlUDF库MysqlForge监测工具开源的监控工具NagiosZabbixZenossHypericHQOpen
k8s实战之部署Prometheus+Grafana可视化监控告警平台诸葛钢铁云 K8S
写在前面之前部署web网站的时候，架构图中有一环节是监控部分，并且搭建一套有效的监控平台对于运维来说非常之重要，只有这样才能更有效率的保证我们的服务器和服务的稳定运行，常见的开源监控软件有好几种，如zabbix、Nagios、open-flcon还有prometheus,每一种有着各自的优劣势，感兴趣的童鞋可以自行百度，但是与k8s集群监控，相对于而已更加友好的是Prometheus，今天我们就看
《中小银行运维架构：解密与实战》李丙洋_2021 hotwater99 #运维运维
目录传统IT基础架构IT基础设施网络架构灾备架构运维日常系统监控基础设施层监控系统层监控应用层监控业务层监控用户体验层监控事件管理事件管理流程事件应急处理事件管理制度及分级事件管理优化运维标准化域名化安全基线基础运行环境标准化操作系统中间件运行规范中间件编码规范网络标准化数据库标准化立体化监控体系监控体系流行监控系统NagiosGangliaZabbixOpen-FalconPrometheusE
分布式下有哪些好用的监控组件？小小哭包分布式解决方案分布式监控组件
在之前的内容中，分析了分布式系统下的线上服务监控的常用指标，那么在实际开发中，如何收集各个监控指标呢？线上出现告警之后，又如何快速处理呢？本文我们就来看下这两个问题。常用监控组件目前分布式系统常用的监控组件主要有OpenFalcon、Nagios、Zabbix、CAT等，下面一起来看看这几款组件的应用及相关特性。好钢要用在刀刃上，由于各类监控组件的应用和配置更偏向基础运维，所以本课时的目的是希望你
监控系统看这一篇就够了！Zabbix、Prometheus等常见监控教程开源Linux zabbix prometheus 运维大数据
监控俗称「第三只眼」，几乎是我们每天都会打交道的系统，俗话说：无监控、不运维，监控的地位不言而喻，尤其是在运维自动化时代，传统运维、DevOps，亦或是SRE，监控都是一项必备的技能。我们先来认识一下主流的开源监控系统，Zabbix、Open-Falcon、Prometheus等，今天就简单介绍一下【Zabbix】【Prometheus】【Cacti】【Nagios】【Garafana】等5种主流
Nagios NRPE安装（官方文档）瑷护你
NagiosNRPE官方文档1、安装并启动xinetd服务yuminstallxinetd-ysystemctlstartxinetd2、下载nrpe源码文件wgethttps://github.com/NagiosEnterprises/nrpe/releases/download/nrpe-3.2.1/nrpe-3.2.1.tar.gz3、编译安装tarxzfnrpe-3.2.1.tar.gz
grafana zabbix 模板_Zabbix+Grafana打造高逼格监控系统执行机器人 grafana zabbix 模板
目录正文第一章zabbix监控的意义1.1为什么要监控业务安全性的保障系统的保障产品持续性的运行1.2监控的内容1.3zabbix的选择性[x]纯命令监控太局限性[x]监控三剑客(Nagios、zabbix、Cacti)[x]可及时发现故障，并在故障恢复的第一时间得到通知[x]灵活运用，包括zabbix的阈值定义，自动发现，API接口，触发动作等功能1.4zabbix的工作组件及告警流程数据采集：
Zabbix 6.0 详细基础介绍 Stars.Sky Zabbix zabbix
目录一、如何选择自己的运维监控平台1.1常用的开源运维监控工具1.1.1Cacti1.1.2Nagios1.1.3Ganglia1.1.4Centreon1.1.5Grafana1.1.6Prometheus1.1.7Zabbix1.2监控工具选型经验1.2.1中小企业传统监控选择Zabbix1.2.2云原生监控选择Prometheus二、Zabbix版本发布与安装需求2.1Zabbix版本发布计
Ambari 基本架构 cpuCode Ambari ambari 架构前端 hadoop 大数据
Ambari利用了已有的优秀开源软件，并结合起来:agent端，采用了puppet管理节点在web端，采用ember.js作为前端MVC框架和NodeJS相关工具，用handlebars.js作为页面渲染引擎，在CSS/HTML方面还用了Bootstrap框架在Server端，采用了Jetty、Spring、JAX-RS等同时利用了Ganglia、Nagios的分布式监控能力Ambari框架采用的
从零开始运维之旅：如何监控你的 Windows？ weixin_30347335 操作系统运维
小弟乃刚刚踏入运维圈的资深小白一枚，正所谓完事开头难，公司里怕我把生产系统搞坏就让我先在测试环境上先练练手。巧的是测试环境又是我熟悉的Windows环境，心中窃喜啊。但问题随之而来，运维从何下手呢。同事正巧解囊相助，告诉我可以先从监控开始多了解下系统的性能参数等数据。这时有一种拨开云雾见光明的感觉啊，哈哈。不过选择什么来监控呢。向大神们用的Zabbix和Nagios这等开源神器我这入门小弟暂时也不
一个用于监控Dell PowerEdge服务器硬件状态的nagios/icinga插件 weixin_34032827 运维开发工具 awk
一个用于监控DellPowerEdge服务器硬件状态的nagios/icinga插件手头有几台dell服务器，分别是PE2850和PER710，想把硬件状态监控加入icinga中，但是网上提供的大多是依赖dellopenmanager的snmp服务，用起来有些不对劲，自己对snmp所知较少，尤其是那些OID，一大串数字，不知道具体代表什么。前几天发现openmanager自带的命令omreport
nagios 监控dell设备（网上相关内容较少，特意留档）王Sir_yt nagios 运维
#创作灵感#记录工作实践、项目复盘错误信息：a.Unabletogetstatusinformationduetotechnicalissues.b.DellEMCdevicediscoveryisinprogress...Error:EmptyorInvalidPassphraseisconfiguredc.Error:Pathnotconfiguredforthemacro$OMINAGIOS
lightOps（一个轻量级运维管理系统）软件研发漫谈工具运维运维监控监控系统
lightOps（轻量级运维管理系统）源码地址https://gitee.com/joshho/lightOps需求背景在开发过程中修改数据库数据或表结构，但是在上线时需要将变动的sql脚本刷到N个表结构相同的库中，如何方便的更新过去？如果你只需要监控相关系统URL的状态，但是zabbix、nagios的安装又太复杂，怎么办？如果你想监控相关服务器的端口状态，又不想用zabbix、nagios怎么
MySQL数据的备份与导入 tangpy
备份：mysqldump-uroot-p--all-databases>all.sql#备份所有库表mysqldump-uroot-pnagios>nagios.sql#备份nagios库导入：需要先创建nagios库才能导入：usenagios;sourcenagios.sql;#导入备份的所有数据或者在外面执行：[root@VM_36_201_centos~]mysql-uroot-pnagi
Prometheus监控服务-上程序源~ 监控服务器运维网络
目录一、监控介绍1、cacti2、Nagios3、Zabbix4、Prometheus二、运维监控平台设计思路三、prometheus监控体系1、系统层监控(需要监控的数据）2、中间件及基础设施类监控3、应用层监控4、业务层监控5、Prometheus支持通过三种抓取类型6、安装Prometheus四、Prometheus工作流程一、监控介绍1、cactiCacti(英文含义为仙人掌）是一套基于P
企业级 Zabbix 监控大不牛 linux 云计算
一、监控介绍1.你用过哪些监控软件？2.zabbix和nagios的区别3.zabbix和nagios、cacti、ganglia有什么区别4.zabbix的好处5.zabbix的监控流程6.常见监控项使用SNMP协议获取主机CPU、内存、磁盘、网卡流量等数据. 用脚本将获取到的SNMP数据存入数据库中,然后再使用一种名为MRTG的软件根据获取的数据绘制图表来分析数据的变化。MRTG(
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l