任何系统的性能分析以及分布式负载平衡策略的执行,需要首先了解当前系统的资源使用情况。
从资源角度进行划分,可以把资源分为如下4类:
1)处理器资源,CPU
2)内存资源,Memory,从广义概念上讲,这还包括Swap\Cache\Buffer等
3)磁盘资源,Disk
4) 网络资源,Network IO,从广义概念上讲,还要考虑上层网络交换机的带宽和交换机之间的带宽。
1、CPU分析
CPU分析常用的工具top。
2、内存分析
内存分析最常用的工具有free、vmstat等。
一般内存的分析要分成两个层次来进行:
1)系统层面上。free可以查看当前系统的内存使用状况,用来分析机器的内存整体使用状况。
Linux内核为了获取更好的性能,总会尽可能地使用空余内存作为系统Cache,从上图可以看到有23G的系统Cache,对于读多写少的应用而言,这个数据是正常的。
vmstat是一个可以实时查看当前CPU、内存、swap使用的情况,该命令是系统监控与分析的一个常用工具。
- procs:标识了当前有多少进程正在等待执行,由此来判断是否因为资源紧张而造成进程的流程运行。r标示了有多少个进程等待获得CPU访问权限,b代表了有多少个进程处于Sleep状态。一般而言,r b都为0,如果出现b>0的情况,往往是CPU资源不足的一个信号,此时,或许有大量的IO吞吐的应用在执行,或者运行的process消耗了太多的CPU时间片。
- memory: 标识了系统的内存使用状况。具体数值与free命令类似。
- swap:标识了系统的swap的使用的情况,si代表了当前有多少数据从swap区域被置换到内存区域,so代表有多少数据从内存区域被换入到swap。如果系统出现频繁的出现swap换入换出的状况,会影响到系统的性能。
- io:标识了磁盘的读写的活跃情况。bi每秒读block的个数,bo每秒写block的个数,上图中,可以看到当前系统会有较多的写磁盘操作。
- System:in代表每秒系统中断的个数,包括来自于System Clock的中断;cs代表系统上下文切换的次数。
- CPU:us代表用于处理用户态任务的百分比,sy kernel相关的任务占用的百分比,id 空闲状态的百分比,wa:等待IO的百分比。根据经验,id低于40%表示当前系统处于比较繁忙的状态,wa如果较大往往会造成procs中r的值升高。
另外,vmstat -m 会打印slab信息,在Linux Kernel2.2版本引进了slab allocation的分配方式,从而可以更快速的掌握当前系统的内存分配状况。所有的应用程序内存的使用,最终都会映射成对应Cache下的slab空间,因此,通过可以分析出当前系统的内存开辟的分布情况。
跟进一步,我们来看一下在Linux Kernel中内存的原理。在内核中,内存是按照Pages进行组织的,内存分为三类:
1)Read Pages,这部分内存是从disk读取出来的,且在内存中没有做任何修改的数据,常见的形式,如:以Read形式打开的文件、执行的Binary、或者加载的Library等。Linux会尽可能按照需要把数据导入内存,因此,在大部分情况下我们使用free命令看到的Cache部分的内存总会比较大。当内存开始变得短缺时,内核会开始从Cache的数据进行淘汰。
2)Dirty Pages,Kernel修改的内存的数据,并需要写回磁盘的数据。系统进程pdflush就是执行该操作。一旦系统的内存变得短缺,系统进程kswapd会写这些page到磁盘。
3)Anonymous Pages,还有一部分的数据,并没有与一个文件或者设备相对应,但是它存在于一个进程内部。例如:我们在程序中使用的Map结构存储的应用的数据之类的。在内存紧张的时候,kswapd进程会将这些内存写入swap区域,以保证系统的内存空间。
高级一点的内存分析工具有:
pcat、memdump、htop。
pcat可以dump出某个process的内存镜像。在某些特殊的情况下,我们无法分析应用的性能的瓶颈的时候,可以使用该工具。配合strings,可以查看进程里都有那些数据,这可以在一定程度上降低被hang住的程序丢失数据的影响。注意pcat基本会打印全部的内存镜像,所以生成的文件较大。
memdump会打印出系统整个内存镜像。
htop是一个类似与top,但功能更加强大的工具,可以实现对各种系统参数的分析。
优化策略与补充:
1)对于性能要求比较高,同时机器物理内存足够使用的情况下,建议关闭swap分区。如果有ssd的情况下,可以使用ssd空间挂载swap分区。
2)对于JAVA进程,除了使用以上介绍的工具进行profiling之外,还要注意GC的影响,目前根据使用的情况来看,如果使用CMS老生代垃圾回收器,对于IO压力比较高的应用来,不要把CMSInitiatingOccupancyFraction的值设置超过70,一般来看设置在50~60之间比较合适。
3、磁盘分析
目前常用磁盘分析工具有:iostat、iotop、lsof、sar
iostat分析当前系统的整体的读写吞吐。
iotop可以定位io吞吐比较大的进程。
lsof可以查看某个pid下操作的文件。
使用iostat分析随机读还是随机写应用
使用/sbin/hdparm -t /dev/sda测试磁盘/dev/sda的读速度
优化策略:
1)分离系统盘成为独立的volumn。这样做,避免因为应用程序的误操作,造成系统盘的IO过重从而导致系统不可用。上次我们线上Hadoop出现的一次故障,就是因为Hadoop的用户日志数据与系统的根目录属于同一个volumn(有关概念可参考http://en.wikipedia.org/wiki/Logical_Volume_Manager_%28Linux%29),由于用户的maptask频繁写log,造成系统盘的io util长时间处于100%,从而造成节点响应速度变慢。
2) 如果是搭建具有容错特性的系统,尽可能使用单盘Raid0。这样设置的好处是在磁盘故障时造成的影响较小,而且容易监控。
目前,很多系统都是用SSD来提升系统的性能,作为ssd来说,它的物理特性决定了在高速的同时,有更高出现故障的风险,因此,合理的监控可以有利于系统的维护。
诊断标准:
ssd_badblock -d /dev/$ssd_id bad_block的概率超过0.006%就认为有问题,
ssd_bitflip -d /dev/$item 出现unrecoverable的个数大于0,认为出现了问题。
4、网络分析
常用工具:
netstat获取网络使用的信息,这里
nload:获得上行(ongoing)和下行(incoming)的实时网络数据,包含从nload收集到目前为止出现的Max、Min、Average、Current、以及累计的流量。
这个工具适用于获取当前节点的网络流量状况,并由此判断节点的网络负载压力。
如果是网卡是千兆容量,1000Mbps,实际上,如果发现Curr的值超过1000M或者Max超过1000M,或者Avg的值在750M以上,此时配合其它节点ping操作确认该影响。下图就是借助多窗口管理器tmux同时查看nload和ping的状态。
以端口提供的服务,需要跟踪端口上相关连接的状态,例如,我们通过ThriftServer对外提供服务,出现了很多的CLOSE_WAIT状态的连接,经过分析,是由于客户端没有正常关闭对应的handler造成的。如果不及时关闭该链接,会造成因为端口上的连接数过多引起的访问故障。
另外,网络状况需要配合使用ethtool、/sbin/ifconfig 来查看网卡传输数据的情况,尤其查看丢包、错误包的情况,避免因为硬件问题造成的网络服务质量下降的现象。
通过以上的分析,可以确认是否因为网络流量拥塞造成的应用服务性能下降,因为如果网卡长时间处于饱和状态运行,虽然网络协议栈可以保证数据传输的可靠性,但是以Network-IO Intensive的应用就会出现瓶颈,例如Hadoop作业、需要高吞吐的数据库等。目前,这种问题的优化方案是:
1)在应用层面增加数据压缩,降低网络传输的开销。(例如hadoop/hbase 使用lzo压缩)
2)在网络架构上,可以通过网卡bonding。绑定两个千兆网卡,可以增加到2000Mbps的流量,会在很大程度上缓解压力。
3)尝试使用异步模式。根据有些应用的特征,事件驱动模型和异步策略可以实现IO复用,在一定程度上控制网络传输的效率,缓解负载的压力。Linux asynchronous I/O可以参考 http://www.ibm.com/developerworks/linux/library/l-async/
总结:系统性能分析的实践方法是一个涉及多个领域的知识积累,下图表示了一个系统分析的Trace方法。
From Binospace, post 系统性能分析的实践方法
文章的脚注信息由WordPress的wp-posturl插件自动生成