1.Nmon简介
Nmon (Nigel’s Monitor)是由IBM 提供、免费监控 AIX 系统与 Linux 系统资源的工具。该工具可将服务器系统资源耗用情况收集起来并输出一个特定的文件,并可利用 excel 分析工具(nmon analyser)进行数据的统计分析。
1.1 软件特性
nmon 工具可以在一个屏幕上显示所有重要的性能优化信息,并动态地对其进行更新。这个高效的工具可以工作于任何哑屏幕、telnet 会话、甚至拨号线路。另外,它不会消耗大量的 CPU 周期,通常低于百分之二(在更新的计算机上,其 CPU 使用率将低于百分之一)。nmon使用哑屏幕,在屏幕上对数据进行显示,并且每隔两秒钟对其进行更新。用户可以很容易地将这个时间间隔更改为更长或更短的时间段。如果拉伸窗口,并在 X Windows、VNC、PuTTY 或类似的窗口中显示这些数据,nmon 工具可以同时输出大量的信息。
nmon 工具还可以将相同的数据捕获到一个文本文件,便于以后对报告进行分析和绘制图形。输出文件采用电子表格的格式 (.csv)。
目前nmon已开源,以sourceforge为根据地,网址是http://nmon.sourceforge.net。
1.2 软件组成
Nmon使用需要nmon工具和nmonanalyser分析程序两者配合使用。nmon工具生成性能数据文件,然后monanalyser以nmon生成的数据文件作为输入,输出为Excel电子表格,并自动地生成相应的图形,使得我们能够直观地观察OS性能(CPU、IO和内存等)的变化过程。
1.3 运行环境nmon 工具运行于: • AIX及LINUX
nmon 工具大约每六个月更新一次,或者在可用的新的操作系统发布版中对其进行更新。
1.4 软件功能
nmon 工具可以为 AIX 和 Linux 性能专家提供监视和分析性能数据的功能,其中包括:
• CPU 使用率
• 内存使用情况
• 内核统计信息和运行队列信息
• 磁盘 I/O 速度、传输和读/写比率
• 文件系统中的可用空间
• 磁盘适配器
• 网络 I/O 速度、传输和读/写比率
• 页面空间和页面速度
• CPU 和 AIX 规范
• 消耗资源最多的进程
• IBM HTTP Web 缓存
• 用户自定义的磁盘组
• 计算机详细信息和资源
• 异步 I/O,仅适用于 AIX
• 工作负载管理器 (WLM),仅适用于 AIX
• IBM TotalStorage® Enterprise Storage Server® (ESS) 磁盘,仅适用于 AIX
• 网络文件系统 (NFS)
• 动态 LPAR (DLPAR) 更改,仅适用于面向 AIX 或 Linux 的 pSeries p5 和 OpenPower
1.5 软件获取
nmon工具和nmonanalyser工具都可以在IBM的Wike页面上下载到。
- Nmon下载:
在AIX5.3-09和6.1-02及以后的版本中,nmon工具默认已经安装,对于老的操作系统版本,可以到如下地址下载安装:http://www.ibm.com/developerworks/wikis/download/attachments/53871937/newer_nmon4aix12e.tar.gz?version=1
将软件包上传到主机,解压到部署目录即可,可以看到压缩包里是一些文件,如下:
其实nmon就是shell脚本,nmon文件运行时调用其他的文件,生成性能数据,这个工具运行时也是通过执行nmon脚本接受参数。
- Nmonanalyser下载:
位置:可从可从IBM Wiki上下载
http://www-941.haw.ibm.com/collaboration/wiki/display/Wikiptype/nmonanalyser
下载页面如下:
例如下载V3.3版本的Nmonanalyser。
2. Nmon使用2.1 安装软件配置定时任务
- 用root用户登录系统,建立目录:
mkdir -p /home/backupfile/sys/data/nmondata
- 创建nmon工具运行脚本文件
vi /home/backupfile/sys/tools/nmon/nmon.sh
在nmon.sh文件中加入以下内容,nmon命令的路径根据具体情况修改,系统默认安装用/usr/bin/nmon
/usr/bin/nmon -fT -s 120 -c 720 -F /home/backupfile/sys/data/nmondata
/batch_hostname_aix_date +%Y%m%d%H%M.txt
其中各参数表示:
-f 按标准格式输出文件:_YYYYMMDD_HHMM.nmon
-m 切换到路径去保存日志文件
-s 每隔n秒抽样一次,这里为120
-c 取出多少个抽样数量,这里为720,即监控=720(120/60/60)=24小时
根据小时计算这个数字的公式为:c=h3600/s,比如要监控10小时,每隔120秒采样一次,则c=10*3600/120=300
该命令启动后,会在nmon所在目录下生成监控文件,并持续写入资源数据,直至720个监控点收集完成——即监控1天,这些操作均自动完成,无需手工干预,测试人员可以继续完成其他操作。如果想停止该监控,需要通过“#ps –ef|grep nmon”查询进程号,然后杀掉该进程以停止监控。
- 使用以下命令确保nmon.sh文件具有可执行权限;
chmod +x /home/backupfile/sys/tools/nmon/nmon.sh
- 启动nmon,添加crontab item;
crontab -e
在末尾添加一行
0 0 * * * /home/backupfile/sys/tools/nmon/nmon.sh
- 如需停止nmon,注释crontab item;
crontab -e
注释nmon脚本任务
0 0 * * * /home/backupfile/sys/tools/nmon/nmon.sh
- 如需检查nmon输出数据,查看/home/backupfile/sys/data/nmondata目录下输出
ls -l /home/backupfile/sys/data/nmondata;
nmon开始运行后,每天在/home/backupfile/sys/data/nmondata下产生一个文件,文件名包含日期如batch_hostname_aix_201408152359.txt;
nmon数据文件定期备份定期清理
2.2 运行界面
- 运行/usr/bin/nmon,便可进入nmon的监控界面,如下图:
- 键入“c”查看系统CPU使用情况
- 键入“m”查看系统内存使用情况
- 键入“d”查看系统磁盘I/O情况
- 键入“h”查看帮助信息
2.3 使用方法
在完成配置后,只需要“/usr/bin/nmon”命令即可运行程序,通过一些快捷键调取关心的系统资源指标进行显示,如按键“C”可以查看CPU相关信息;按键“D”可以查看磁盘信息;按键“T”可以查看系统的进程信息;“M”对应内存、“N”对应网络等等,完整的快捷键对应内容可以通过帮助(按键 “H”)查看,可以显示Linux系统CPU、内存、进程信息,包括了CPU的用户、系统、等待和空闲状态值,可用内存、缓存大小以及进程的CPU消耗等详细指标。
该种方式显示信息实时性强,能够及时掌握系统承受压力下的运行情况,每颗CPU利用率是多少、内存使用多少、网络流量多少、磁盘读写……这些数据均是实时刷新,一目了然。
3. Nmon监控结果介绍3.1 生成结果文件
通过后台监控和定期监控,我们可以得到扩展名为nmon的监控文件(文件名和扩展名可以根据实际需求修改,但nmon analyser只能打开扩展名为csv和nmon的文件),这些文件记录着系统资源的数据,需要配合分析工具(nmon analyser)进行解读。
从服务器上取下生成结果文件/home/backupfile/sys/data/nmondat/batch_wn1cpcglddb1002_aix_1608240000.txt到本机,并修改扩展名为batch_wn1cpcglddb1002_aix_1608240000.nmon。
打开nmon_analyser.zip 包下的nmon analyser v33g.xls 文件,点击Analyse nomn data按钮,选择之前get下来的batch_wn1cpcglddb1002_aix_1608240000.nmon文件。
生成分析结果文件batch_wn1cpcglddb1002_aix_1608240000.xlsx,并生成统计图,直观显示系统资源情况。
3.2 主要性能参数介绍
系统汇总(对应excel标签的‘SYS_SUMM’):其中蓝线为cpu占有率变化情况;粉线为磁盘IO的变化情况。
磁盘读写情况汇总(对应excel标签的‘DISK_SUMM’):其中蓝色为磁盘读的速率KB/sec;紫色为磁盘写的速率KB/sec。
内存情况汇总(对应excel标签的‘MEM’): 曲线表示内存剩余量(MB)
3.3 页面介绍简单介绍生成结果的各个页面:
- 系统汇总页面:对应标签页(SYS_SUMM)
页面显示项主要有主机名,执行日期,系统cpu使用情况(蓝线),系统I/O情况(粉红线),其中坐标左纵轴为系统cpu(user%+sys%)使用率,横轴为运行时长(下图为一个小时),右纵轴为系统磁盘传输(Disk xfers),坐标下侧为统计信息:系统I/O情况(一个周期内的平均值、最大值、出现最大值的时间),系统CPU使用情况
注释:
如果系统CPU有IO wait存在,说明可能IO或内存方面存在瓶颈,其中主要导致IO Wait的主要原因如下:
内存不够而引起频繁的的数据交换,导致数据存取存在交换空间的 I/O瓶颈
硬盘数据分布不合理
- 系统信息:标签页(AAA)
页面信息主要包括:执行命令,主机CPU数(4),操作系统内核版本信息,主机名等信息。
- 系统详细信息:标签页(BBBP)
页面信息主要包括:操作系统版本,主机磁盘信息,主机CPU型号、主频信息,内存信息,网卡信息等。
- CPU使用情况:标签页(LPAR,CPU_ALL,CPU_SUMM,CPU001,CPU002,CPU003,CPU004…)
主机CPU使用情况汇总以及单颗CPU的运行情况。
- 磁盘读写情况汇总:标签页(DISK_SUMM,DISKBSIZE,DISKBUSY,DISKREAD,DISKWRITE,DISKXFER)
磁盘的读、写及I/O统计信息,系统各磁盘分区的读写情况。其中DISKBUSY页主要反映系统本地磁盘使用,DISK_SUMM包括本地和存储(ESS, EMC, FASt及HDS)上所有磁盘使用情况。
- 内存使用情况:标签页(MEM)
系统内存空闲、使用,swap、cached等统计信息。
- 系统网络情况:标签页(NET,NETPACKET)
反映系统的网络运行情况,系统各个网络适配器读写的数据包数
- 系统进程:标签页(PROC)
反映系统运行线程及等待切换的线程平均数。其中RunQueue - 每个处理器应该运行队列不超过1-3个线程。
- 页式调度:标签页(PAGE)
记录系统(AIX)页式调度的情况。这一栏主要记录系统换页(paging)情况和页面扫描:自由比率(page scan:free ratio)。其中系统换页频率应该不大于5次/秒,而当页面扫描:自由比率持续大于4时,需要重点关注下系统内存和分页空间的使用情况
说明:
大量的内存交换操作会极大地影响系统的性能,尤其是在当数据库文件创建在文件系统上时(JFS and JFS2)。在这种情况下经常访问的数据,即在SGA中存在,也同样在文件的缓存中存在。这种相同的数据在内存中缓存两次的情况,会降低内存的使用效率,从而使内存频繁进行交换操作,造成系统的I/O瓶颈,降低整个系统的性能。
- 采集时间:标签页(ZZZZ)
记录nmon工具采集系统信息的时间点。
4.Nmon监控常见现象和产生原因
性能下降(Performance Degradation),主要是指系统的性能随时间而逐渐下降(这里假定在系统性能下降的过程中系统的负载状况没有明显变化)。系统运行过程中占用的CPU或内存随时间增加也属于广义的性能下降问题。
在生产环境中,通常由终端客户最先感觉到并报告性能下降问题。所以狭义的性能下降问题主要是指系统运行指标随时间变化,比如吞吐率随时间下降或页面响应时间随时间上升,或者两者兼而有之。
下面列举一些引起性能下降问题的原因:
应用程序资源使用问题。主要是内存使用问题,即由于应用服务器的内存碎片问题或内存泄漏问题,导致垃圾回收的开销随时间增大。也有可能是因为磁盘临时文件积累造成磁盘访问开销增大。
应用程序设计问题。由于应用程序的设计存在可扩展性或可靠性问题,导致运行开销随时间或业务对象的积累而增大。
数据库访问问题。该问题又可以分为许多类型,如调优参数问题、表结构或索引设计问题、垃圾数据问题等。其共同特点是导致应用程序利用特定操作访问数据库的开销随时间而增大。
服务器软件资源使用问题。虽然可能性很小,但是应用服务器、数据库服务器等服务器程序也是软件程序,也有可能存在性能下降问题。这些服务器程序在自身测试过程中可能遗漏了某些性能问题,而在用户特定的执行状况下触发了这些问题,结果导致这些服务器程序使用的操作系统资源泄漏而出现性能下降问题。
测试用例设计问题。性能测试中有可能发现一些“假”的性能下降问题。比如测试用例设计时假设在测试执行过程中系统负载保持恒定,但实际的测试用例实现导致系统负载或特定页面的处理内容随时间增多,也可能导致测试工具的测试报告中出现性能下降问题。