监控知识点概述

今天学习了zabbix监控,赵班长首先在宏观层面给我们介绍了一下监控,以前我认识监控是有局限性的,以为监控就是监控工具,下面整理下听课笔记
一、课程大纲
      监控概述
      业务监控
      网络监控
      应用监控
      单机监控
      分布式监控zabbix
二、详解
      监控概述

      业务监控
            业务指标-->流量分析-->舆论监控
      网络监控
            我们需要知道全国不同地区访问我们网站的情况,Smokeping是一款不错的监控网络状态的开源工具
      应用监控
            Apache、Nginx、Memcached、Redis等
      单机监控
            硬件、CPU、Memory、IO(Disk IO、Network IO)、CPU调度、上下文切换、运行队列、CPU使用率
      分布式监控zabbix

1、Apache状态监控

    http.conf:
    include conf/extra/http-info.conf
    <Location /server-status>
        SetHandler server-status
        Order deny,allow
        Deny from all
        Allow from 124.192.129.162
    </Location>
    ExtendedStatus ON
    <Location /server-info>
        SetHandler server-info
        Order deny,allow
        Deny from all
        Allow from 124.192.129.162
    </Location>

2、Nginx状态监控

    server{
        server_name 127.0.0.1
        location /nginx_status{
            stub_status on;
            access_log off;
            allow 127.0.0.1;
            deny all;
        }
    }

    Active connections :当前Nginx正处理的活动连接数
    serveraccepts handled requests :总共处理了$1个连接,成功创建$2次握手(证明中间没有失败的),总共处理了$3个请求
    Reading :nginx当前读取到客户端的Header信息数。
    writing :nginx当前返回给客户端的Header信息数。
    waiting :开启keep-alive的情况下,这个值等于active-(reading+writing),意思就是Nginx已经处理完正在等候下一次请求指令的驻留连接。

3、监控阀值的设定指标
     Run Queues -每个处理器应该运行队列不超过1-3个线程,例子:一个双核处理器应该运行队列不要超过6个线程。

     CPU Utiliation -如果一个CPU被充分使用,利用率分类之间均衡的比例应该是
        65%-70% User Time
        30%-35% System Time
        0%-5%   ldle Time
     Context Switches -上下文切换的数目直接关系到CPU的使用率,如果CPU利用率保持在上述均衡状态时,大量的上下文切换是正常的。

4、不同厂商物理机带的监控接口
    DELL IDRAC
    iDRAC又称为Integrated Dell Remote Access Controller,也就是集成戴尔远程控制卡,这是戴尔服务器的独有功能,iDRAC卡相当于是附加在服务器上的一计算机,可以实现一对一的服务器远程管理与监控,通过与服务器主板上的管理芯片BMC进行通信,监控与管理服务器的硬件状态信息。它拥有自己的系统和IP地址,与服务器上的OS无关。是管理员进行远程访问和管理的利器,戴尔服务器集成了iDRAC控制卡,我们就可以扔掉价格昂贵的KVM设备了。
    参看:http://server.yesky.com/113/33312613.shtml
    HP   ILO
    参看:http://wangchunhai.blog.51cto.com/225186/837529
    IBM  IMM
    参看:http://vdisk.weibo.com/s/aVo-nnanM7SWt

5、监控一台机器时,考虑流程
    1、确定业务类型
    2、熟悉监控指标
    3、确定性能基准线
    4、使用工具--获取数据--展示--设置阀值--触发报警--告警通知--通知升级。


6、RRDTool
    RRDtool不是一个监控软件,而是一个能对时系数据进行高性能记录检索和图形展现的开源库。不少监控软件都使用了RRDtool,所以有必要了解一下RRDtool。
    RRDtool之所以叫RRD(Round Robin Database) Tool,是因其存储数据的方式而得名。可以讲其想象成一个固定大小的环形存储空间,每插入一条记录,当前位置指针向前移动一下,指针移动一圈后覆盖之前的数据。这种结构使得RRD的大小不会扩张,因此也就不需要维护,特别适合性能数据采集的场景。
    RRDtool的功能有两个,一是作为时系数据的存储引擎,二是将存储的时系数据按不同要求绘制成png图片。

7、 性能数据的采集
      RRDtool或RDB可以解决性能数据的存储问题,但这些性能数据从哪收集呢?数据采集的方法很自由,常用的方法大概可以归纳为以下几种:

      1)代理(agent)
       一个专门收集性能数据的东西,一般是运行于被监控机器上的某个Deamon。代理采集数据然后传给监控服务器,那么代理又是如何得到数据的呢?无非是调用OS API,执行某个命令或者脚本。因为一般可以定制代理调用的脚本,所以代理采集数据的能力也是可以自由定制的。
      2)远程协议
      用于管理的共通协议SNMP,IMPI。或者常用的服务协议,http,ftp,ftp等。或是可以远程执行命令的协议telnet和ssh。只要设置好相应的参数就可以透过网络实施远程监视了。
      3)定制脚本
     有些管理系统上可以配置用于监控的定制脚本。有了定制脚本就可以自由扩展监控对象了。
     下面介绍监控相关的共通协议SNMP和IMPI。
8、SNMP
     SNMP全称是Simple Network Management Protocol,SNMP的目标是管理互联网Internet上众多厂家生产的软硬件平台。被管理的系统上运行一个叫做代理者(agent)的软件元件,通过SNMP向管理系统报告。代理者和管理系统之间通信的方式有两种,一种是管理系统向代理者询问一个具体的参数值(比如:你产生了多少ICMP不可达差错),另一种是代理者向管理系统主动报告有某些重要事情发生(比如:一个网口掉线了)。
    关于代理者和管理系统之间的交互,SNMP定义了5种报文
    1)get-request:从代理处提取一个或多个参数值
    2)get-next-request:从代理处提取一个或多个参数的下一个参数值
    3)set-request:设置代理的一个或多个参数值
    4)get-response:返回的一个或多个参数值。它是1)~3)的响应。
    5)trap:代理主动发出报文,通知管理系统某些事情发生。

    在SNMP体系中由代理提供,由管理系统查询和设置的信息集合称之为MIB(管理信息库)。MIB中的信息通过OID(对象标示符识别),比如:1.3.6.1.2.1.1.1.0。关于OID的定义可参照相关RFC。比如:
    http://www.ietf.org/rfc/rfc1907.txt
    标准中也有给厂商预留的OID(1.3.6.1.4.1),这样厂商可以在此OID下面进行扩展。
    很多网络设备都内置SNMP代理,这样外面的监控服务器可以通过SNMP协议获取信息。对于普通的服务器,可以通过安装一个snmp代理软件提供snmp信息。比如:
    安装和运行snmp代理

[root@zabbix ~]# yum install net-snmp
[root@zabbix ~]# /etc/init.d/snmpd start

    通过SNMP查看系统描述

[root@zabbix ~]# snmpget -v2c -c public localhost 1.3.6.1.2.1.1.1.0
SNMPv2-MIB::sysDescr.0 = STRING: Linux zabbix 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64
或者
[root@zabbix ~]# snmpget -v2c -c public localhost iso.org.dod.internet.mgmt.mib-2.system.sysDescr.0
SNMPv2-MIB::sysDescr.0 = STRING: Linux zabbix 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64
或者
[root@zabbix ~]# snmpget -v2c -c public localhost sysDescr.0
SNMPv2-MIB::sysDescr.0 = STRING: Linux zabbix 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64

    参考:
    http://avery-leo.iteye.com/blog/379076
    http://www.cnblogs.com/aspx-net/p/3554044.html

9、IPMI
     IPMI(Intelligent Platform Management Interface)即智能平台管理接口是使硬件管理具备“智能化”的新一代通用接口标准。用户可以利用 IPMI 监视服务器的物理特征,如温度、电压、电扇工作状态、电源供应以及机箱入侵等。Ipmi 最大的优势在于它是独立于 CPU BIOS 和 OS 的,所以用户无论在开机还是关机的状态下,只要接通电源就可以实现对服务器的监控。

     要使用IPMI,服务器硬件本身必须提供对ipmi的支持。大多数厂商的服务器都支持IPMI,但并不是所有服务器都支持,所以应该先通过产品手册或在BIOS中确定服务器是否支持ipmi。如果你用的PC机或者虚拟机那肯定没戏了。

      通过ipmitool,可以本地或远程经由impi获取机器信息或控制机器。比如:
      # ipmitool -I lan -H 服务器地址 -U root -P 密码 power status
      # ipmitool -I lan -H 服务器地址 -U root -P 密码 power reset  (硬重启)

      参考:http://qa.blog.163.com/blog/static/1901470022013690328217/

10、zabbix
       zabbix和nagios一样是功能全面的监控软件。但是比nagios更加好用,图形能力更强,所以面临nagios和zabbix二选一的时候建议zabbix。

       zabbix的数据采集支持Zabbix agent,ICMP,SNMP,IPMI,http,ssh,定制脚本等
       发现问题自动告警
       数据展示盒配置设置全部统一的WEB GUI管理
       支持分布式部署
       支持模板和自动发现功能可以轻松的在大规模环境下部署

你可能感兴趣的:(监控知识点概述)