Linux系统运维中的监控工作(监控的重要性)

监控概述
    在这一部分会简单介绍下监控的重要性,为什么要做监控,需要监控哪些对象,以及如何规划一个监控平台等。要知道我们需要做什么,怎么做,做完后的结果是什么。对于监控后报警信息的处理不在本文探讨范围呢,相关问题请在论坛或者知道讨论。

监控的重要性
    单单从“监控”两个字来谈,范围之广可以涵盖我们生活的方方面面,我们生活和工作中处处可见视频监控的摄像机;机房中的电压电流监控、干湿计、温度计;值班室的网络监控,网站流量监控等等都是监控的范畴。但本文仅仅讲解和计算机网络有关的监控,主要针对我们生产应用的服务器性能和应用服务状态的监控,以及服务器或者网络设备上的网络流量监控。监控的重要性?
大家想想以下情况的发生:
从应用层来角度来看:你公司业务的WEB 服务器拒绝连接了?客户无法给你们的邮箱发邮件了?论坛的大量用户无法登陆?DNS 无法正常解析?机房流量超过购买的带宽限制了?数据库服务器宕机了,用户无法写入数据了?我想上面的任何一个问题出现的话,对我们的业务造成的影响都是巨大的。从服务器、应用和网络设备的角度来看:目前服务器的CPU 负载多少,一天中那个时刻负载高,一个月中哪一天服务器CPU 的负载比较高?磁盘的使用率是多少?网卡的进口和出口流量?内存的使用率是多少?目前的磁盘I/O,是否考虑更换转速更快的磁盘?Apache 的连接数目前是多少,最大是多少?缓存服务器的缓存命中率是多少? MySQL Replication 是否同步?即使同步了,主从库数据是否一致?Oracle 的Redo log 切换是否频繁,是否需要增加日志组?DBWR 进程默认一个够用吗?数据库表空间的使用率?RMAN 备份是否成功?路由器或者交换机有什么错误日志......?如果继续写下去,我想可以出一本书,专门来写监控对象,因为太多太多了,不同的公司,不同的应用,就会增加更多需要监控的对象。通过上面列举的比较常见的问题,我想,监控的重要性就不言而喻了。我们如何及时的获得这些应用的运行状态信息,在出现问题时能够及时知道,这就是监控要做的事情。

监控的对象?似乎没有确切的答案,在上一节讲解监控重要性所列举的内容,就是需要监控的对象。简单的说,监控的对象就是一切你想知道的状态的一个集合。通常情况下,我们可以将监控对象这么来分:
1.服务器监控,主要监控服务器如:CPU 负载、内存使用率、磁盘使用率、登陆用户数、进程状态、网卡状态等。
2.应用程序监控,主要监控该应用程序的服务状态,吞吐率和响应时间,因为不同应用需要监控的对象不同,这里不一一列举。
3.数据库监控,只所以把数据库监控单独列出来,足以说明它的重要性,一般监控数据库状态,数据库表或者表空间的使用情况,是否有死锁,错误日志,性能信息等等。
4.网络监控,主要监控当前的网络状况,网络流量等。
以上四条应该算是最基本的,也是保证网站正常运行必须要知道的几点内容,这样才能实现我们常说的“运筹帷幄之中,决胜千里之外”。

前两段,介绍了监控的重要性,并了解了我们需要监控哪些内容,当然在开始之前,我们要知道有哪些工具和方法可以进行监控工作。
    目前监控工具多如牛毛,针对不同的行业,针对不同的应用,针对不同的服务都有很多监控工具。有客户端的监控和浏览器的监控,本书只讲解基于Linux 平台的开源监控工具。
    Linux 平台下的监控方法基本上可以分为两种,第一种是通过外部检测命令或者代理程序获得被监控主机的相关状态,代表工具:Nagios、Munin、Ganglia。第二种是通过SNMP 协议来实现对服务器和网络设备的监控工作,代表工具:Cacti。其中Nagios 可以使用check_snmp 命令,或者自己写脚本来使用SNMP 协议获取数据。
    细心的朋友可以发现,从开始我们就用“平台”两个字,之所以把一个软件称之为“平台”足以说明其强大性,通过软件本身功能再加上自己的扩展,我们可以通过该软件监控我们日常工作中所有需要监控的对象。

 

 

什么是Nagios
    Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

功能介绍
Nagios 可以监控的功能有:
1、监控网络服务(SMTP、POP3、HTTP、NNTP、PING等); 2、监控主机资源(处理器负荷、磁盘利用率等);
3、简单地插件设计使得用户可以方便地扩展自己服务的检测方法;
4、并行服务检查机制;
5、具备定义网络分层结构的能力,用"parent"主机定义来表达网络主机间的关系,这种关系可被用来发现和明 晰主机宕机或不可达状态;
6、当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);
7、具备定义事件句柄功能,它可以在主机或服务的事件发生时获取更多问题定位;
8、自动的日志回滚;
9、可以支持并实现对主机的冗余监控;
10、可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等;

你可能感兴趣的:(工作,linux,职场,监控,休闲)