浅析IT运维监控技术

随着网络的快速发展,各大运营商们由于业务的多样性部署了数以万计的IT设备,其设备类别、厂家、型号繁杂,仅仅靠现场运维团队人工巡检不仅不能满足业务需求,还加重了人工成本,因此需要一套成熟的面向大型数据中心的IT监控系统来支撑日常运维工作。

一、什么是IT运维监控

通常我们将IT设备分类为:主机、数通、存储、系统、数据库,中间件等,此外还包括虚拟化、云化以及物联网的的一些设备,而IT运维监控是指一种通过技术手段收集IT设备的指标来保证系统以及业务正常运行的管理软件。

二、IT运维监控分类

1、基于监控指标的描述对象可分为硬件级监控和系统级监控:

(1)硬件级监控:主要采集设备的一些固件信息(厂商、大小、序列号等)以及工作状态指标(温度、转速、电压、在位状态等)。

(2)系统级监控:主要采集操作系统、中间件、应用的一些运行信息(CPU、内存、磁盘利用率等)。

2、基于监控指标的采集方式可分为带外指标监控和带内指标监控:

(1)带外指标监控:通过专门的硬件管理接口,采集带外监控指标。

(2)带内指标监控:通过在监控对象部署插件或者网络协议来采集带内监控指标。

三、常用监控技术

1、带外采集

(1)IPMI监控

独立在操作系统之外运行的一套管理系统,依赖于特殊的硬件模块,即使业务操作系统未加载或宕机,依然可以工作。由于IPMI协议制定相对简单,各个厂商在标准上扩展了很多实用的功能,但是扩展的功能缺少统一标准,采集命令和解析规则大多不通用,增加了监控方的采集难度。

常用的一些命令包括:ipmitool…fru、ipmitool…sdr、ipmcget、show等。此外还可以通过SSH协议登录到IPMI管理操作系统中执行采集指令。

(2)RedFish

由于IPMI较差的扩展性和本身存在的安全隐患,IPMI也在2015年公布2.0 v1.1标准后,不再更新,被RedFish永久代替,Intel也宣布不再维护。RedFish是一种基于HTTPs服务的管理标准。具有安全、高可扩展管理(Scalable)、人类可读数据界面(Human readable data)、基于现有硬件可实现等特性。

2、带内采集

(1)Agent监控

Agent监控是通过在被监控对象上部署一套插件来监控系统各项指标。Agent可自主完成指标采集和简单分析后再将结果传送给server端,降低了服务端的数据处理工作量和性能要求。主要用于对虚拟机和数据库的采集。由server代理采集中心的任务分发与节点控制,通过分布式架构,实现便捷的横向扩展采集能力。

(2)SNMP协议

SNMP协议主要是针对网络设备的一种采集技术,跟IPMI一样,各个厂商型号的设备对于MIB库的支持和扩展都有较大差别,不同指标的定义也会提升监控的难度。

(3)SSH /Telnet协议

通过SSH /Telnet协议连接到被监控设备,再执行采集命令或运行脚本并传输运行结果到监控端实现监控,这种方式灵活度较大,但存在一定的操作安全隐患。

四、总结

IT运维监控技术有效缓解了IT系统数量多、系统复杂度高等问题,大大提高了运维工作人员的工作效率。未来,IT运维监控技术势必会与AI技术相融合,借助AI技术实现运维智能化、高效化和高质量发展。

你可能感兴趣的:(运维,安全)