远程监控软件Nagios的安装与配置详解

作为系统管理员，我最担心那些重要的在线系统在我不知情的情况下停机或者停止网络服务，而且那些发生故障的服务或主机有时候可能要好长一段时间才知道。尤其是遇到节假日，系统管理员就很紧张。要改变这种被动局面，这里我推荐网络监控软件Nagios，个人认为它最大的好处是可以发故障报警短信—只要 Nagios监控的对象发生故障，系统就会自动发送短信到手机上。Nagios官方网站的描述为：

Nagios是一个用来监控主机、服务和网络的开放源码软件，很多大的公司或组织都在使用它。

在我来到现在这个机构之前，已经有一个Netsaint(nagios的老版本)在监控那些在线服务器，但是不完善，后来我立了一个项，部署了新的监控平台nagios把所有的在线服务器都监控起来了；到目前为止，监控了413个主机和754个服务。

虽然Nagios十分受用，但配置起来确是麻烦，根据其读音我给它取可一个中文名-难够死。基于这样的原因，我将尽可能详细地向大家讲述我用Nagios的过程以及心得，希望对初学者有所帮助。

安装所需软件

一、安装Nagios

Nagios可以运行在各种版本的linux及主流的unix环境，我试过的环境有Redhat linux,Centos,Debian等。在实际的运维中，我是以centos 4来部署nagios的。安装完操作系统之后，需要把多余的服务都关掉，只留sshd这个服务。

然后用wget下载源码包nagios-2.6.tar.gz和httpd-2.2.0.tar.gz。接下来先分别安装软件，过程如下：
1、解压nagios. tar zxvf nagios-2.6.tar.gz
2、配置nagios. cd nagios ; ./configure –prefix=/usr/local/nagios
3、编译nagios. make all
4、安装nagios。与别的软件安装稍有不同，nagios的安装要好几步才能完成。第一步执行make install安装主要的程序、CGI及HTML文件，第二步执行 make install-commandmode 给外部命令访问nagios配置文件的权限，第三步执行 make install-config 把配置文件的例子复制到nagios的安装目录。按照安装向导的提示，其实这里还有一个 make install-init的步骤，它的作用是把nagios做成一个运行脚本，使nagios随系统开机启动，这是一个很方便的措施。但本人是一个喜欢把问题简化的人，没有执行这样的操作。
5、验证程序是否被正确安装。切换目录到安装路径（这里是/usr/local/nagios）,看是否存在 etc、bin、 sbin、 share、 var这五个目录，如果存在则可以表明程序被正确的安装到系统了。下面是五个目录功能的简要说明：

bin： Nagios执行程序所在目录，这个目录只有一个文件nagios
etc： Nagios配置文件位置，初始安装完后，只有几个*.cfg-sample文件
sbin： Nagios Cgi文件所在目录，也就是执行外部命令所需文件所在的目录
Share： Nagios网页文件所在的目录
Var： Nagios日志文件、spid 等文件所在的目录

二、安装nagios的插件

没有插件，nagios将什么作用也没有，插件也是nagios扩展功能的强大武器，除了下载常用的插件外，我们还可以根据实际要求编写自己的插件。Nagios的插件nagios-plugins-1.4.5在www.nagios.org上可以找到，接着我们用wget下载它。

注意：插件与nagios之间的版本关联不大，不一定非得用nagios-plugins-1.4.5这个版本。下载完成后，安装它是很简单的：先执行配置 ./configure –prefix=/usr/local/nagios ,接着编译安装 make ; make install即可。

这里需要说明一下的是在配置过程指定的安装路径是/usr/local/nagios，而不是/usr/local/nagios-plus,安装完成后，将在目录/usr/local/nagios生成目录libexec（里面有很多文件），这正是nagios所需要的。

三、安装web服务器apache

Web服务不是nagios所必须的，但是如果nagios没有web，查看监控对象的对象将是非常费事和没有趣味的事情（只有通过查看nagios的日志来判断状态）。我不愿干特无聊的事，所以就花少许时间把web安装一下。

在unix/linux世界，apache是web服务器的首选对象，其下载网站为www.apache.org 。建议下载源码。因为我们不需要很复杂的web功能，因此简单的执行一下几个步骤就可以正确的把apache安装到系统：
1、解包、配置：tar zxvf httpd-2.2.0.tar.gz ; cd httpd-2.2.0 ; ./configure –prefix=/usr/local/apache 。
2、编译安装： make ; make install 。
安装完成后，执行命令 ./usr/local/apache/bin/apachectl –t 检查一下apache是否正确安装。

配置前的处理

最主要的工作是创建nagios用户及其束组，让nagios的运行用户为nagios而不是root。再把目录/usr/local /nagios的属主设置为nagios，以保证系统的安全。Nagios可以以root用户运行，但并不推荐这样做。用下面的步骤来完成上述过程：

1、添加系统帐户nagios: useradd nagios 就很容易的把用户和组nagios添加到系统。有的类型的linux发行版添加用户和组要麻烦一些-需要要添加组，然后再执行 useradd –g nagios nagios这样的操作。在实际的运用场景，nagios用户并没有必要作为系统用户来登录linux系统，因此可以不必设置nagios的用户密码，甚至可以把nagios用户的登录shell设置成/bin/false。

2、更改目录属组：chown –R nagios.nagios /usr/local/nagios 。请注意，有的unix/linux的版本用户和属组分隔符号不是“.”,可能会是这样的形式 chown –R nagios:nagios /usr/local/nagios 。

3、sendmail。看看sendmail是否正常运行？我们需要使用sendmail来发送故障报警信息，所以这个包必须能够正常工作。Sendmail分为服务器和客户端两部分，有2种发送报警邮件的方式：
（1）nagios所在的机器通过sendmail客户端程序把邮件发送到专门的邮件服务器，再由邮件服务器把消息发送到用户邮箱。
（2）邮件客户端和服务器端就用nagios所在系统sendmail。第一种方式用起来非常规范，但更麻烦，例如需要做地址解析、修改邮件服务器的配置；另外还有一个问题-它还依赖别的系统，增加了故障点和复杂度。第二种方法十分简单，只需启动sendmail服务即可，而且它不再依赖于别的系统和服务。在我工作的实际场景，这两种方法都使用，用专门的邮件服务器会有发送延迟的情况（因为邮件服务器要处理很多其他用户邮件的收发）；而直接用 sendmail做服务器和客户端就异常简单和方便了。非常幸运的是，几乎所有的linux/unix发行版都默认安装sendmail，费了这么多笔墨，其实就做一个动作-把sendmail服务运行起来。

4、手机短信发送工具。我现在的公司是sp，有自己的短信通道，直接把发送短信的客户端程序sms_send拷贝到目录/usr/local /bin/下。如果没有短信下发的网关通道，那怎么办呢？网络上有很多短信发送的客户端程序，很有名的就是smsclient,把它下载下来，解包后安装。不要忘记购买手机modem和手机卡，modem只支持SIM卡而不支持cdma。

安装完smsclient软件和硬件modem后，测试一下是否正常。如果没有modem又怎么办？办法还是有的：让你的手机号可以接受邮件，这需要你去营业厅开通这项功能。短信报警功能是最有用的功能，我们不可能成天盯着监视屏幕，也不可能成天接受电子邮件，但我们的手机却可以24小时在线，只要被监控对象发生故障，马上就可以收到故障报警短信。

以前，我很怕放长假，因为最担心关键的设备或服务在假期出故障而自己不知道，所以放假就变成了值班；想必很多网络管理员都有类似的经历。在我动手部署nagios以前，曾经在网上搜索关于nagios配置的文章，发现绝大部分都没有介绍使用手机短信这个方便的功能，真是遗憾呀！再次，强烈建议启用 nagios的短信故障报警功能。

配置

配置是nagios最复杂的部分，它涉及到多个文件的配置，为了方便描述，这里逐个的进行配置。

一、apache 配置
我们分两个步骤来完成这个配置。第一步是修改apache的配置文件httpd.conf,这里的文件路径是/usr/local/apache /conf/httpd.conf 。把apache的运行用户[1]和运行组改成nagios,往下把下面的行追加到文件httpd.conf的末尾：

     #setting for nagios

     ScriptAlias /nagios/cgi-bin /usr/local/nagios/sbin

     //Cgi文件所在目录

    AuthType Basic

    Options ExecCGI

    AllowOverride None

    Order allow,deny

    Allow from all

    AuthName "Nagios Access"

    AuthUserFile /usr/local/nagios/etc/htpasswd  //验证文件路径

    Require valid-user



     Alias /nagios /usr/local/nagios/share

   //nagios页面文件目录

    AuthType Basic

    Options None

    AllowOverride None

    Order allow,deny

    Allow from all

    AuthName "nagios Access"

    AuthUserFile /usr/local/nagios/etc/htpasswd  //验证文件路径

    Require valid-user

上述文本块的作用是对nagios的目录进行用户验证，只有合法的授权用户才可以访问nagios的页面文件。第二步是生成用户验证文件：只要执行命令 /usr/local/apache/bin/htpasswd –c /usr/local/nagios/etc/htpasswd sery ，就会生成web的合法访问用户sery；命令交互执行，需要输入2次密码，然后就在文件/usr/local/nagios/etc/htpasswd 写入一行-第一个字段是刚生成的用户名，第二个是加密后的密码，如果还要添加更多的用户，执行命令 htpasswd 就不需要选项 “-c”,否则就会覆盖所有已经生成的行。

配置完成后，执行/usr/local/apache/bin/apachctl –t 检查apache配置文件是否有语法错误，无误后用/usr/local/apache/bin/apachctl start & 把apache启动，然后从另外的机器的浏览器输入nagios 的访问地址（如：http://ip/nagios），如果正常，将出现登录验证窗口等待用户输入。

输入用htpasswd创建的用户名和密码测试一下，没有问题的话，进行下一步配置操作。

二、nagios配置

刚安装完成的nagios，其配置文件的目录是/usr/local/nagios/etc，下图是其etc目录的文件：

先把这些文件改名，如 cgi.cfg-sample改成cgi.cfg ，用命令cp cgi.cfg-sample cgi.cfg …依样把余下的几个*.cfg-sample都复制成*.cfg文件。从nagios2.6版开始，不用修改配置文件localhost.cfg就可以直接运行../bin/nagios –v nagios.cfg验证程序是否能正常运行(nagios2.5及以前版本的最小运行的配置文件是minimal.cfg，但需要修改这个文件多处才能验证成功)。

当然，我们不能指望这个最小的配置文件能够满足实际的需求，因此，需要对现有的配置文件进行修改，其次增加自定义的一些配置文件。这里，我们分两步进行：先修改配置文件再增添自定义文件。

1、修改配置文件
Nagios的主配置文件是nagios.cfg，我们就从这个文件开始修改。用vi编辑nagios.cfg，注释行 #cfg_file=/usr/local/nagios/etc/localhost.cfg[2],然后把下面几行的注释去掉：

cfg_file=/usr/local/nagios/etc/contactgroups.cfg  //联系组配置文件路径

cfg_file=/usr/local/nagios/etc/contacts.cfg       //联系人配置文件路径

cfg_file=/usr/local/nagios/etc/hostgroups.cfg     //主机组配置文件路径

cfg_file=/usr/local/nagios/etc/hosts.cfg          //主机配置文件路径

cfg_file=/usr/local/nagios/etc/services.cfg       //服务配置文件路径

cfg_file=/usr/local/nagios/etc/timeperiods.cfg    //监视时段配置文件路径

改check_external_commands=0为check_external_commands=1 这行的作用是允许执行在web界面下重启nagios、停止主机/服务检查等操作。把command_check_interval的值从默认的1改成 command_check_interval=10s（根据自己的情况定这个命令检查时间间隔，不要太长也不要太短）。主配置文件要改的基本上就是这些，通过上面的修改，发现/usr/local/nagios/etc并没有文件hosts.cfg等一干文件，怎么办？稍后手动创建它们。
第二个要修改的配置文件是cgi.cfg,它的作用是控制相关cgi脚本。

先确保use_authentication=1。曾看过不少的文章，都是建议把use_authentication的值设置成”0”来取消验证，这是一个十分糟糕的想法。接下来修改default_user_name=sery ,再后面的修改在下表列出：

authorized_for_system_information=nagiosadmin,sery

authorized_for_configuration_information=nagiosadmin,sery

authorized_for_system_commands=sery  //多个用户之间用逗号隔开

authorized_for_all_services=nagiosadmin,sery

authorized_for_all_hosts=nagiosadmin,sery

authorized_for_all_service_commands=nagiosadmin,sery

authorized_for_all_host_commands=nagiosadmin,sery

那么上述用户名打那里来的呢？是执行命令 /usr/local/apache/bin/htpasswd –c /usr/local/nagios/etc/htpasswd sery 所生成的，这个要注意，不能随便加没有存在的验证用户，为了安全起见，不要添加过多的验证用户。

第3个修改的配置文件是misccommands.cfg,这个文件的主要功能是用来发送报警短信和报警邮件，对其的修改如下所示：

#host-notify-by-sms   //发送短信报警

define command {

       command_name      host-notify-by-sms

       command_line      /usr/local/bin/sms_send "Host $HOSTSTATE$alert for $HOSTNAME$! on '$DATETIME$' " $CONTACTPAGER$

       }



#service notify by sms  //发送短信报警

define command {

       command_name     service-notify-by-sms

       command_line     /usr/local/bin/sms_send "'$HOSTADDRESS$'$HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$" $CONTACTPAGER$

       }

主机和服务的邮件报警通知已经在文件中，不须更改。也可以把短信和邮件报警通知这些配置块写到文件commands.cfg中，效果是一样的。

2、增加新的配置文件
先创建简单的配置文件timeperiods.cfg，其内容如下：

define timeperiod{

        timeperiod_name 24x7

        alias           24 Hours A Day, 7 Days A Week

        sunday          00:00-24:00

        monday          00:00-24:00

        tuesday         00:00-24:00

        wednesday       00:00-24:00

        thursday        00:00-24:00

        friday          00:00-24:00

        saturday        00:00-24:00

        }

这个文件的定义明晰易懂，不多做说明。另建议7X24小时监控。
第二个手动创建的配置文件是 contacts.cfg,其格式如下：

define contact {

        contact_name         sa    //不要有空格

        alias                system administrator

        service_notification_period    24x7

        host_notification_period       24x7

        service_notification_options   w,u,c,r

        host_notification_options       d,u,r

        service_notification_commands  service-notify-by-sms,service-notify-by-email  //这个命令读配置文件miscommands.cfg

        host_notification_commands     host-notify-by-email,host-notify-by-sms      //这个命令读配置文件miscommands.cfg

        email                          [email protected]

        pager                          13333333333 //手机号，收报警短信

        }     //不要把这个符号写掉了



define contact {

        contact_name         sery

        alias                system administrator

        service_notification_period    24x7

        host_notification_period       24x7

        service_notification_options   w,u,c,r

        host_notification_options       d,u,r

        service_notification_commands  service-notify-by-sms,service-notify-by-email

        host_notification_commands     host-notify-by-email,host-notify-by-sms

        email                         [email protected]

        pager                          13312345678

        }

上面的文件定义了2个联系人，如果有更多联系人的话，照这个格式在后面追加即可。服务通知选项（service_notification_options）与主机通知选项（host_notification_options）的几个选项在这里说明一下：w-warning , u-unknown,c-critical,r-recovery;d-down,u-unreachable,注意一下，主机报警和服务报警有些差异。

紧接着的第三个手动创建的配置文件是contactgroups.cfg文件，这个文件是依照上一个文件contacts.cfg来的,contactgroups文件相对简单一些，其格式如下：

define contactgroup {

        contactgroup_name    sagroup  //不要用空格

        alias                system administrator group

        members              sa,sery  //本例有2个成员

}

多个成员之间用逗号做分界符，如果有更多的联系组，就依相同的格式在文件中追加余下的组。
关键的角色终于登场，这就是配置文件hosts.cfg。下面是我定义的两个主机的基本样式：

#define monitor  host



#################################################################

# Wangjing IDC servers                                          #

#################################################################

define host {

       host_name                  nagios-server

       alias                      nagios server

       address                    61.x..x.49

       contact_groups             sagroup //多个联系组用逗号分隔，数据来源于contactgroups.cfg

       check_command              check-host-alive

       max_check_attempts         5

       notification_interval      10    //值可调，大小什么值合适需自己测定

       notification_period        24x7

       notification_options        d,u,r

       }



define host {

       host_name                  24-25

       alias                      server 24-25

       address                    202.X.24.25

       contact_groups             sagroup

       check_command             check-host-alive //down机就发报警通知

       max_check_attempts         5

       notification_interval      10

       notification_period        24x7

       notification_options        d,u,r

       }

更多的主机依此格式逐个追加进来。小技巧，如果是连续的ip段，最好自己写个脚本生成hosts.cfg文件，为了以后维护方便，尽可能在文件中使用易读的注释（如本例# Wangjing IDC servers #）。

再一个重量级的配置文件是services.cfg,没有这个文件，什么监控也没用。下面给出一个样式文件：

#service definition



##############################################################

#  Wangjing IDC servers service for host-live                #

##############################################################

define service {

        host_name        nagios-server  //来源：hosts.cfg

        service_description   check-host-alive

        check_period          24x7

        max_check_attempts    4

        normal_check_interval 3

        retry_check_interval  2

        contact_groups        sagroup  //来源：contactgroups.cfg

        notification_interval   10

        notification_period     24x7

        notification_options    w,u,c,r

        check_command           check-host-alive  //检查主机是否存活

        }

define service {

        host_name        74-210

        service_description   check_tcp 80

        check_period          24x7

        max_check_attempts    4

        normal_check_interval 3

        retry_check_interval  2

        contact_groups        sagroup

        notification_interval   10

        notification_period     24x7

        notification_options    w,u,c,r

        check_command      check_tcp!80 //检查tcp 80端口服务是否正常

        }

书写时要注意的是，check_tcp与要监控的服务端口之间要用”!”做分隔符。如果服务太多，以应该考虑用脚本来生成。
主机组配置文件hostgroups.cfg，这是一个可选的项目，它建立在文件hosts之上，其格式如下：

define hostgroup {

         hostgroup_name  sa-servers

         alias           sa servers

         members         nagios-server,24-25,24-26  //用逗号间隔多个主机

         }

多个主机组依上面的格式逐个追加上去。

千辛万苦，终于把这些配置给做好保存，现在几乎有点迫不及待了，运行程序/usr/local/nagios –v /usr/local/nagios/etc/nagios.cfg来检查所有配置文件的正确性。如果十分幸运的话，运行完毕将在输出尾部出现：

Total Warnings: 0

Total Errors:   0



Things look okay - No serious problems were detected during the pre-flight check

这样的情况，大功告成；但我却没有这么幸运，修改了好多个地方才成功。不过值得庆幸的是，这个校验的错误报告时非常有用的（不象有的系统的帮助文档中看不中用）。看我故意设置的一个错误产生的输出：

[root@netmonitor nagios]# bin/nagios -v etc/nagios.cfg



Nagios 2.5

Copyright (c) 1999-2006 Ethan Galstad (http://www.nagios.org)

Last Modified: 07-13-2006

License: GPL



Reading configuration data...



Error: Could not find any host matching 'nagios-server'

Error: Could not expand member hosts specified in hostgroup (config file '/usr/local/nagios/etc/hostgroups.cfg', starting on line 2)

………………………

它告诉我配置文件在什么位置产生错误（实际上我故意在配置文件里加了一个注释符号来测试）。验证通过以后，就可以执行命令/usr/local /nagios –d /usr/local/nagios/etc/nagios.cfg 把nagios作为守护进程。然后用ps –aux | grep nagios 看进程是否处于运行状态。到这一步，nagios服务基本上算是配置完毕。做hosts.cfg、services.cfg等配置时，可以运用一些小技巧来减少出错的概率：如先定义少许的主机、服务，待校验无误后再追加。

验收

用浏览器输入nagios所在服务器的ip及目录，如http://61.135.X..X/nagios，再输验证所需的用户名和密码，就可点击页面右边的相关连接来查看各种状态。关掉某个被nagios监控主机的服务或者拔掉某个服务器的网线，等几分钟，点击超连接“Service Detail”观察页面状态看是否有红色的醒目的报警出现。

一会儿，就会收到报警短信和报警邮件，然后在把测试所有的服务开启或把拔下来的网线查上去，片刻后，网页里的红色报警表格消失，手机短信或邮件通知故障恢复。如果你的情况也这样，那么真正大功告成。
Nagios的功能十分强大，在我的项目里，因为我的需求不同而尽可能的简化了nagios而没有使用代理、多更多插件等功能，在一个不超过1000个服务器的网络规模里，它工作得很好。如果有更多的服务器，建议使用mysql数据来管理监控对象。在部署nagios的过程中，我多很多选项作了取舍，更详细的情况请参照官方的文档。

转自：http://netsecurity.51cto.com/art/200706/48728.htm

你可能感兴趣的:(nagios)

Nagios安装部署全攻略 weixin_34109408 memcached php 操作系统
概述：公司的生产机器一共有12台，2台LVS(主备)、2台nginx、2台tomcat、1台后台服务器(nginx_tomcat)、3台mysql(主+备+异地灾备)、1台图片服务器、2台memcached.可以看出网站的架构就是基于高可用的原理的，每个层面都做了主备、系统的PV不高，对于并发布，高性能没有那么苛求，对于系统安全、稳定有较高要求，前期已经对系统做了各种日志分析，WAF配置，漏洞扫面
zabbix监控MySQL lu9up zabbix mysql 数据库
1PMP介绍PMP（percona-monitoring-pluggins）是高质量的mysql监控组件，以模板、插件和脚本的形式提供我们去应用。可以将企业级MySQL功能添加到现有的本地监控解决方案中，支持如Nagios、Cacti和Zabbix等热门解决方案。更详细介绍请阅读官方文档第三章【TEMPLATESFORZABBIX】：Percona-Monitoring-Plugins-1.1.8
vulnhub靶机midwest-v1.0.1 himobrinehacken vulnhub 安全系统安全网络安全
下载地址：https://download.vulnhub.com/midwest/midwest-v1.0.1.ova主机发现目标144端口扫描服务扫描漏洞扫描访问web咯改一下host接下来用wpscan看一下用户名接下来看一下密码能不能出来扫的时候顺便看了一下网站目录nagios401了那就是又这个东东被拦截了这玩意又是一个waf好好好密码估计是出不来了再用域名扫一下这个也是一样的，只能访问
源码部署zabbix监控详细步骤 Mr Sean zabbix 监控类
由于实际工作中所需要监控的服务器数量之大，人工监控耗时耗力，基于这种情况寻找可用于监控的服务器的开源软件，有三款推荐软件可使用：Cacti、Nagios、Zabbix三款软件各自的特点如下：Cacti:基于SNMP协议的监控软件,强大的绘图能力Nagios:基于Agent监控,强大的状态查验与报警机制,插件极多,自己写监控脚本潜入到Nagios非常方便.Zabbix:基于多种监控机制,支持分布式监
Hack The Box-Monitored 0415i HTB靶场合集网络服务器运维 linux web http
端口扫描&信息收集使用nmap对ip进行扫描nmap10.10.11.248开放了22、80、389、443端口使用dirsearch对网站目录进行扫描dirsearch-u10.10.11.248发现一个/nagios的网页，尝试访问发现需要用户名和密码，这里没有用户名密码，先继续下一步将ip和域名加入到hosts文件中后，访问ipecho'10.10.11.248nagios.monitore
htb monitored root方式其中的一种（仅作记录）春猿火 linux
快下班时候审出来的，目前root的第5种方式nagios@monitored:~$cat/usr/local/nagiosxi/scripts/backup_xi.sh#!/bin/bash##CreatesaFullBackupofNagiosXI#Copyright(c)2011-2020NagiosEnterprises,LLC.Allrightsreserved.#BASEDIR=$(di
Linux运维日常使用软件和技能寻宝记_楠哥
运维工程师使用的运维平台和工具包括：Web服务器：apache、tomcat、nginx、lighttpd监控：nagios、ganglia、cacti、zabbix自动部署：ansible、sshpt、salt配置管理：puppet、cfengine负载均衡：lvs、haproxy、nginx传输工具：scribe、flume备份工具：rsync、wget数据库：mysql、oracle、sql
持续运维与监控 Michaelzh
运维的趋势，挑战，事件管理，流程管理运维权限管理开源运维平台云上IAM监控开源监控方案zabbix+短信、邮件、微信、钉钉告警普罗米修斯(容器)Nagiosopen-falconzenoss监控对象服务器、虚拟机监控数据库监控中间件监控容器监控云上监控云上自带服务，例如AWS的cloudwatch+SNS、阿里云的云监控+短信服务等告警消息分级，人性化监控系统运维可视化开源技术grafana云上服
开源监控服务一瞥：Prometheus、Grafana、Zabbix、Nagios、Icinga和Open-Falcon CodeArtisanX 开源监控
前言随着信息技术的发展，监控服务在维护系统稳定性和性能方面变得越来越重要。本文将比较一些流行的开源监控服务，以帮助你选择适合你需求的解决方案。监控服务对比监控服务特点优势不足性能扩展性安全性Prometheus-多维度数据模型-监控容器化环境的强大工具-需要单独设置存储后端-查询性能较高，适用于大规模环境-可通过分布式部署进行横向扩展-支持基于HTTPS的数据传输，提供基本认证-支持服务发现自动发
nagios部署记录 shaoqiu.wu linux centos 运维
nagios主程序部署前期准备工作#关闭防火墙systemctlstopfirewalld#关闭防火墙开启自启systemctldisablefirewalldvi/etc/sysconfig/selinuxSELINUX=disabled#重启#换源cd/etc/yum.repos.d/#备份源mvCentOS-Base.repoCentOS-Base.repo.bak#下载阿里源curl-o/
pnp4nagios 配置 nagios nextflying java 前端服务器
/root/software/pnp4nagios-0.6.26/sample-config/nagios.cfg-sample.in/root/software/pnp4nagios-0.6.26/sample-config/misccommands.cfg-sample.in/root/software/pnp4nagios-0.6.26/sample-config/nagios.cfg-sa
nagios php-fpm,nagios平台从apache迁移到nginx weixin_39907762 nagios php-fpm
nginx的性能远远优于apache，但由于nagios的web界面中包含php和c-cgi程序，因此需要两套fcgi管理工具(并非必须)和两套解释器(必须)。php用php-cgi跑就可以，c-cgi我选用fcgiwrap。下面介绍安装/配置步骤。php-fpm：是为PHP打的一个FastCGI管理补丁，可以平滑变更php.ini配置而无需重启php-cgiSpawn-fcgi：是lighttp
《高性能Linux服务器构建实战》笔记 SkTj
系统安全、故障排查、自动化运维、集群架构1、账号安全，安装完后可以删除的账号：adm,lp,sync,shutdown,halt,news,uucp,operator,games,gopher禁用登录功能：usermod-s/sbin/nologinnagios2、关闭不需要的服务:anacronauditdautofsavahi-daemonavahi-dnsconfdbluetoothcpus
L2tp客户端 jameslord makefile nagios linux ubuntu file 服务器
root@ubuntu:~/download/backfire$lsfeeds/packages/net/xd/feeds里面放了很多Makefile，编译时怎么没把xd编译出来呢?filesMakefilepatchesREADMEroot@ubuntu:~/download/backfire$lsdl/|grepxfeeds/packages/admin/nagios/Makefilenagi
16、Mysql用户工具 geek-wmy Mysql高性能学习 mysql 数据库 java 后端面试
接口工具MysqlWorkbenchSQLyogphpMyAdminAdminer命令行工具集PerconaToolkitMaatkitandAspersaTheopenarkkitMysqlWorkbench工具集SQL实用集common_schemamysql-sr-libMysqlUDF库MysqlForge监测工具开源的监控工具NagiosZabbixZenossHypericHQOpen
k8s实战之部署Prometheus+Grafana可视化监控告警平台诸葛钢铁云 K8S
写在前面之前部署web网站的时候，架构图中有一环节是监控部分，并且搭建一套有效的监控平台对于运维来说非常之重要，只有这样才能更有效率的保证我们的服务器和服务的稳定运行，常见的开源监控软件有好几种，如zabbix、Nagios、open-flcon还有prometheus,每一种有着各自的优劣势，感兴趣的童鞋可以自行百度，但是与k8s集群监控，相对于而已更加友好的是Prometheus，今天我们就看
《中小银行运维架构：解密与实战》李丙洋_2021 hotwater99 #运维运维
目录传统IT基础架构IT基础设施网络架构灾备架构运维日常系统监控基础设施层监控系统层监控应用层监控业务层监控用户体验层监控事件管理事件管理流程事件应急处理事件管理制度及分级事件管理优化运维标准化域名化安全基线基础运行环境标准化操作系统中间件运行规范中间件编码规范网络标准化数据库标准化立体化监控体系监控体系流行监控系统NagiosGangliaZabbixOpen-FalconPrometheusE
分布式下有哪些好用的监控组件？小小哭包分布式解决方案分布式监控组件
在之前的内容中，分析了分布式系统下的线上服务监控的常用指标，那么在实际开发中，如何收集各个监控指标呢？线上出现告警之后，又如何快速处理呢？本文我们就来看下这两个问题。常用监控组件目前分布式系统常用的监控组件主要有OpenFalcon、Nagios、Zabbix、CAT等，下面一起来看看这几款组件的应用及相关特性。好钢要用在刀刃上，由于各类监控组件的应用和配置更偏向基础运维，所以本课时的目的是希望你
监控系统看这一篇就够了！Zabbix、Prometheus等常见监控教程开源Linux zabbix prometheus 运维大数据
监控俗称「第三只眼」，几乎是我们每天都会打交道的系统，俗话说：无监控、不运维，监控的地位不言而喻，尤其是在运维自动化时代，传统运维、DevOps，亦或是SRE，监控都是一项必备的技能。我们先来认识一下主流的开源监控系统，Zabbix、Open-Falcon、Prometheus等，今天就简单介绍一下【Zabbix】【Prometheus】【Cacti】【Nagios】【Garafana】等5种主流
Nagios NRPE安装（官方文档）瑷护你
NagiosNRPE官方文档1、安装并启动xinetd服务yuminstallxinetd-ysystemctlstartxinetd2、下载nrpe源码文件wgethttps://github.com/NagiosEnterprises/nrpe/releases/download/nrpe-3.2.1/nrpe-3.2.1.tar.gz3、编译安装tarxzfnrpe-3.2.1.tar.gz
grafana zabbix 模板_Zabbix+Grafana打造高逼格监控系统执行机器人 grafana zabbix 模板
目录正文第一章zabbix监控的意义1.1为什么要监控业务安全性的保障系统的保障产品持续性的运行1.2监控的内容1.3zabbix的选择性[x]纯命令监控太局限性[x]监控三剑客(Nagios、zabbix、Cacti)[x]可及时发现故障，并在故障恢复的第一时间得到通知[x]灵活运用，包括zabbix的阈值定义，自动发现，API接口，触发动作等功能1.4zabbix的工作组件及告警流程数据采集：
Zabbix 6.0 详细基础介绍 Stars.Sky Zabbix zabbix
目录一、如何选择自己的运维监控平台1.1常用的开源运维监控工具1.1.1Cacti1.1.2Nagios1.1.3Ganglia1.1.4Centreon1.1.5Grafana1.1.6Prometheus1.1.7Zabbix1.2监控工具选型经验1.2.1中小企业传统监控选择Zabbix1.2.2云原生监控选择Prometheus二、Zabbix版本发布与安装需求2.1Zabbix版本发布计
Ambari 基本架构 cpuCode Ambari ambari 架构前端 hadoop 大数据
Ambari利用了已有的优秀开源软件，并结合起来:agent端，采用了puppet管理节点在web端，采用ember.js作为前端MVC框架和NodeJS相关工具，用handlebars.js作为页面渲染引擎，在CSS/HTML方面还用了Bootstrap框架在Server端，采用了Jetty、Spring、JAX-RS等同时利用了Ganglia、Nagios的分布式监控能力Ambari框架采用的
从零开始运维之旅：如何监控你的 Windows？ weixin_30347335 操作系统运维
小弟乃刚刚踏入运维圈的资深小白一枚，正所谓完事开头难，公司里怕我把生产系统搞坏就让我先在测试环境上先练练手。巧的是测试环境又是我熟悉的Windows环境，心中窃喜啊。但问题随之而来，运维从何下手呢。同事正巧解囊相助，告诉我可以先从监控开始多了解下系统的性能参数等数据。这时有一种拨开云雾见光明的感觉啊，哈哈。不过选择什么来监控呢。向大神们用的Zabbix和Nagios这等开源神器我这入门小弟暂时也不
一个用于监控Dell PowerEdge服务器硬件状态的nagios/icinga插件 weixin_34032827 运维开发工具 awk
一个用于监控DellPowerEdge服务器硬件状态的nagios/icinga插件手头有几台dell服务器，分别是PE2850和PER710，想把硬件状态监控加入icinga中，但是网上提供的大多是依赖dellopenmanager的snmp服务，用起来有些不对劲，自己对snmp所知较少，尤其是那些OID，一大串数字，不知道具体代表什么。前几天发现openmanager自带的命令omreport
nagios 监控dell设备（网上相关内容较少，特意留档）王Sir_yt nagios 运维
#创作灵感#记录工作实践、项目复盘错误信息：a.Unabletogetstatusinformationduetotechnicalissues.b.DellEMCdevicediscoveryisinprogress...Error:EmptyorInvalidPassphraseisconfiguredc.Error:Pathnotconfiguredforthemacro$OMINAGIOS
lightOps（一个轻量级运维管理系统）软件研发漫谈工具运维运维监控监控系统
lightOps（轻量级运维管理系统）源码地址https://gitee.com/joshho/lightOps需求背景在开发过程中修改数据库数据或表结构，但是在上线时需要将变动的sql脚本刷到N个表结构相同的库中，如何方便的更新过去？如果你只需要监控相关系统URL的状态，但是zabbix、nagios的安装又太复杂，怎么办？如果你想监控相关服务器的端口状态，又不想用zabbix、nagios怎么
MySQL数据的备份与导入 tangpy
备份：mysqldump-uroot-p--all-databases>all.sql#备份所有库表mysqldump-uroot-pnagios>nagios.sql#备份nagios库导入：需要先创建nagios库才能导入：usenagios;sourcenagios.sql;#导入备份的所有数据或者在外面执行：[root@VM_36_201_centos~]mysql-uroot-pnagi
Prometheus监控服务-上程序源~ 监控服务器运维网络
目录一、监控介绍1、cacti2、Nagios3、Zabbix4、Prometheus二、运维监控平台设计思路三、prometheus监控体系1、系统层监控(需要监控的数据）2、中间件及基础设施类监控3、应用层监控4、业务层监控5、Prometheus支持通过三种抓取类型6、安装Prometheus四、Prometheus工作流程一、监控介绍1、cactiCacti(英文含义为仙人掌）是一套基于P
企业级 Zabbix 监控大不牛 linux 云计算
一、监控介绍1.你用过哪些监控软件？2.zabbix和nagios的区别3.zabbix和nagios、cacti、ganglia有什么区别4.zabbix的好处5.zabbix的监控流程6.常见监控项使用SNMP协议获取主机CPU、内存、磁盘、网卡流量等数据. 用脚本将获取到的SNMP数据存入数据库中,然后再使用一种名为MRTG的软件根据获取的数据绘制图表来分析数据的变化。MRTG(
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那