上期我们讲到LoaRunner性能测试probe监控,这期我们讲LoaRunner性能测试Tomcat调优。
Tomcat调优
在对Tomcat进行调优之前,需要对Tomcat的结构体系有一个清楚的了解,这对调优起到至关重要的作用,Tomcat结构体系图,如图所示。
Hardware(硬件):关于硬件方面影响性能的主要包括:
CPU、内存网络I/O和文件I/O;
OS(操作系统):多处理机操作系统
(SMP:Symmetric Multi-Processing)和线程支持情况会影响性能;
JVM:JVM的版本、分配可使用内存值和GC内存回归机制会影响性能;
Tomcat:Tomcat的版本对其性能也会有影响,最近的版本在这方面就做了很大的改进。
Database(数据库):数据库允许的并发连接数、数据库连接池和缓存都会影响性能;
关于Tomcat调优主要包括JVM调优、Tomcat配置、连接器配置和APR配置。
JVM调优
虚拟机中的共划分为三个代:
年轻代(Young Generation)
年老代(Old Generation)
持久代(Permanent Generation)
如图所示。其中持久代主要存放的是Java类的类信息,与垃圾收集器需要收集的Java对象关系不大,而年轻代和年老代的划分是对垃圾收集影响比较大的。
年轻代
所有新生成的对象首先都是放在年轻代,年轻代的目标是尽可能快速的收集掉那些生命周期短的对象,年轻代分三个区:一个Eden区、两个Survivor区。大部分对象在Eden区中生成,当Eden区满时,还存活的对象将被复制到Survivor区(两个中的一个),当这个Survivor区满时,此区的存活对象将被复制到第二个Survivor区,当第二Survivor也满了的时候,从第一个Survivor区复制过来的并且此时还存活的对象,将被复制“年老区(Tenured)”。
需要注意,Survivor的两个区是对称的,没先后关系,所以同一个区中可能同时存在从Eden复制过来的对象,和从前一个Survivor复制过来的对象,而复制到年老区的只有从第一个Survivor的对象。而且,Survivor区总有一个是空的,同时,根据程序需要,Survivor区是可以配置为多个的(多于两个),这样可以增加对象在年轻代中的存在时间,减少被放到年老代的可能。
年老代
在年轻代中经历了多次垃圾回收后仍然存活的对象,就会被放到年老代中,因此,可以认为年老代中存放的都是一些生命周期较长的对象。
持久代
用于存放静态文件,如Java类、方法等,持久代对垃圾回收没有显著影响,但是有些应用可能动态生成或者调用一些class,如Hibernate等,在这种时候需要设置一个比较大的持久代空间来存放这些运行过程中新增的类,持久代大小通过-XX:MaxPermSize=进行设置。
J2SE平台有一个优点,即对内存进行分配和进行垃圾收集,然而如果垃圾收集出现瓶颈,那么就必须修改GC的相关参数,进而来提高性能。如果一个对象在程序运行时长时间不被使用,那么将该对象视为垃圾对象,最简单的垃圾收集算法是遍历每个可达的对象,任何遗留的对象即为垃圾对象,算法所花费的时间与当前活动对象数量的多少成正比,所以对于大型项目来说,需要限制其活动的对象。
从J2SE1.2开始,虚拟机使用分代收集垃圾的算法来收集,早期的垃圾收集会检查每个对象堆,但分代收集则是利用一些经验检查大多数应用程序,以尽量减少回收未使用对象(“垃圾”)的工作需要,其最重要的原则是弱代假设,即认为大多数对象生存的时间是比较短的。
一个典型对象生存期如图所示。
横坐标X轴表示以字节为单位所分配对象的生存期,纵坐标Y轴表示当前生存的对象,以字节为单位。
由于对象进行了分代处理
因此垃圾回收区域、时间也不一样,GC有两种类型:ScavengeGC和FullGC。
ScavengeGC
一般情况下,当新对象生成,并且在Eden申请空间失败时
就会触发ScavengeGC,对Eden区域进行GC,清除非存活对象,并且把尚且存活的对象移动到Survivor区,然后整理Survivor的两个区。这种方式的GC是对年轻代的Eden区进行,不会影响到年老代,因为大部分对象都是从Eden区开始的,同时Eden区不会分配的很大,所以Eden区的GC会频繁进行,因此,一般在这里需要使用速度快、效率高的算法,使Eden能尽快空闲出来。
FullGC
对整个堆进行整理,包括Young、Tenured和Perm,FullGC因为需要对整个对象进行回收,所以比ScavengeGC要慢,因此应该尽可能减少FullGC的次数,在对JVM调优的过程中,很大一部分工作就是对于FullGC的调节,以下原因可能导致FullGC:
年老代(Tenured)被写满;
持久代(Perm)被写满;
System.gc()被显示调用;
上一次GC之后Heap的各域分配策略动态变化;
串行收集器
用单线程处理所有垃圾回收工作,因为无需多线程交互,所以效率比较高。但是,也无法使用多处理器的优势,所以此收集器适合单处理器机器。
当然,此收集器也可以用在小数据量(100M左右)情况下的多处理器机器上,可以使用-XX:+UseSerialGC打开,串行收集器如图所示。
并行收集器
对年轻代进行并行垃圾回收,因此可以减少垃圾回收时间,一般在多线程多处理器机器上使用,使用-XX:+UseParallelGC打开,并行收集器在Java SE6.0中进行了增强,可以对年老代进行并行收集。如果年老代不使用并发收集的话,默认是使用单线程进行垃圾回收,因此会制约扩展能力。
使用-XX:+UseParallelOldGC打开,并发收集器如图所示。
使用-XX:ParallelGCThreads=设置并行垃圾回收的线程数,此值可以设置与机器处理器数量相等。
此收集器可以进行如下配置:
最大垃圾回收暂停:指定垃圾回收时的最长暂停时间
通过-XX:MaxGCPauseMillis=指定。
单位为毫秒,如果指定了此值的话,堆大小和垃圾回收相关参数会进行调整以达到指定值,设定此值可能会减少应用的吞吐量。
吞吐量:吞吐量为垃圾回收时间与非垃圾回收时间的比值
通过-XX:GCTimeRatio=来设定
公式为1/(1+N)
例如,-XX:GCTimeRatio=19时,表示5%的时间用于垃圾回收,默认情况为99,即1%的时间用于垃圾回收。
并发收集器
可以保证大部分工作都并发进行,垃圾回收只暂停很少的时间,此收集器适合对响应时间要求比较高的中、大规模应用。
使用-XX:+UseConcMarkSweepGC打开,并发收集器如图所示。
并发收集器主要减少年老代的暂停时间,在应用不停止的情况下使用独立的垃圾回收线程,跟踪可达对象,在每个年老代垃圾回收周期中,在收集初期并发收集器会对整个应用进行简短的暂停,在收集中还会再暂停一次,第二次暂停会比第一次稍长,在此过程中多个线程同时进行垃圾回收工作。
并发收集器使用处理器换来短暂的停顿时间,在一个N个处理器的系统上,并发收集部分使用K/N个可用处理器进行回收,一般情况下1<=K<=N/4。
在只有一个处理器的主机上使用并发收集器,设置为incremental mode模式也可获得较短的停顿时间。
浮动垃圾:由于在应用运行的同时进行垃圾回收,所以有些垃圾可能在垃圾回收进行完成时产生,这样就造成了“Floating Garbage”,这些垃圾需要在下次垃圾回收周期时才能回收掉,所以,并发收集器一般需要20%的预留空间用于这些浮动垃圾。
Concurrent Mode Failure:并发收集器在应用运行时进行收集,所以需要保证堆在垃圾回收的这段时间有足够的空间供程序使用,否则,垃圾回收还未完成,堆空间先满了,这种情况下将会发生“并发模式失败”,此时整个应用将会暂停,进行垃圾回收。
启动并发收集器:因为并发收集在应用运行时进行收集,所以必须保证收集完成之前有足够的内存空间供程序使用,
否则会出现“Concurrent Mode Failure”
通过设置
-XX:CMSInitiatingOccupancyFraction=
指定还有多少剩余堆时开始执行并发收集。
综上所述,串行处理器一般适用于数据量比较小(100M左右),单处理器下并且对响应时间无要求的应用;并行处理器只适用于“对吞吐量有高要求”、多CPU、对应用响应时间无要求的中、大型应用,如后台处理、科学计算,但垃圾收集过程中消耗的响应时间可能较长;并发处理器适用于“对响应时间有高要求”、多CPU、对应用响应时间有较高要求的中、大型应用,如Web服务器/应用服务器、电信交换、集成开发环境。
所以在JVM调优过程中关于代的大小设置至关重要,关于代中堆结构如图所示。
年轻代的设置很关键,JVM中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)、系统的可用虚拟内存、系统的可用物理内存。32位系统下,一般限制在1.5G~2G,64位操作系统对内存没有限制,在Windows Server 2003系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。
如以下设置:
java -Xmx3550m -Xms3550m -Xmn2g –Xss128k
-Xmx3550m:设置JVM最大可用内存为3550M。
-Xms3550m:设置JVM初始化时内存为3550M,此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。
-Xmn2g:设置年轻代大小为2G,整个堆大小=年轻代大小+年老代大小+持久代大小,持久代一般固定大小为64m,所以增大年轻代后,将会减小年老代大小,此值对系统性能影响较大,Sun官方推荐配置为整个堆的3/8。
-Xss128k:设置每个线程的堆栈大小。
JDK5.0以后每个线程堆栈大小为1M,以前每个线程堆栈大小为256K,在相同物理内存下,减小这个值能生成更多的线程,但是操作系统对一个进程内的线程数还是有限制的,不能无限生成,经验值在3000~5000左右。
Java -Xmx3550m -Xms3550m
-Xss128k -XX:NewRatio=4 -XX:SurvivorRatio=4 -XX:MaxPermSize=16m -XX:MaxTenuringThreshold=0
-XX:NewRatio=4:设置年轻代(包括Eden和两个Survivor区)与年老代的比值(除去持久代)。设置为4,则年轻代与年老代所占比值为1:4,年轻代占整个堆栈的1/5
-XX:SurvivorRatio=4:设置年轻代中Eden区与Survivor区的大小比值,设置为4,则两个Survivor区与一个Eden区的比值为2:4,一个Survivor区占整个年轻代的1/6
-XX:MaxPermSize=16m:设置持久代最大内存值为16M。
-XX:MaxTenuringThreshold=0:设置垃圾最大年龄,如果设置为0的话,则年轻代对象不经过Survivor区,直接进入年老代,对于年老代比较多的应用,可以提高效率,如果将此值设置为一个较大值,则年轻代对象会在Survivor区进行多次复制,这样可以增加对象再年轻代的存活时间,增加在年轻代即被回收的概率。
回收器方面,JVM提供了三种选择:串行收集器、并行收集器、并发收集器,但是串行收集器只适用于小数据量的情况,所以这里的选择主要针对并行收集器和并发收集器。默认情况下,JDK5.0以前都是使用串行收集器,如果想使用其他收集器需要在启动时加入相应参数,JDK5.0以后,JVM会根据当前系统配置进行判断。
如以下吞吐量优先的并行收集器设置:
java -Xmx3800m -Xms3800m -Xmn2g -Xss128k -XX:+UseParallelGC -XX:ParallelGCThreads=20
-XX:+UseParallelGC:选择垃圾收集器为并行收集器,此配置仅对年轻代有效,即上述配置下,年轻代使用并发收集,而年老代仍旧使用串行收集。
-XX:ParallelGCThreads=20:配置并行收集器的线程数,即同时多少个线程一起进行垃圾回收。此值最好配置与处理器数目相等。
java -Xmx3550m -Xms3550m -Xmn2g -Xss128k -XX:+UseParallelGC -XX:ParallelGCThreads=20 -XX:+UseParallelOldGC
-XX:+UseParallelOldGC:配置年老代垃圾收集方式为并行收集,JDK6.0支持对年老代并行收集。
java -Xmx3550m -Xms3550m -Xmn2g -Xss128k -XX:+UseParallelGC -XX:MaxGCPauseMillis=100
-XX:MaxGCPauseMillis=100:设置每次年轻代垃圾回收的最长时间,如果无法满足此时间,JVM会自动调整年轻代大小,以满足此值。
n java -Xmx3550m -Xms3550m -Xmn2g -Xss128k -XX:+UseParallelGC -XX:MaxGCPauseMillis=100 -XX:+UseAdaptiveSizePolicy
-XX:+UseAdaptiveSizePolicy:设置此选项后,并行收集器会自动选择年轻代区大小和相应的Survivor区比例,以达到目标系统规定的最低相应时间或者收集频率等,此值建议使用并行收集器。
如以下响应时间优先的并发收集器设置:
java -Xmx3550m -Xms3550m
-Xmn2g -Xss128k
-XX:ParallelGCThreads=20
-XX:+UseConcMarkSweepGC -XX:+UseParNewGC
-XX:+UseConcMarkSweepGC:设置年老代为并发收集。
测试中配置这个以后,-XX:NewRatio=4的配置失效了,但具体原因不详,所以,此时年轻代大小最好用-Xmn设置。
-XX:+UseParNewGC:设置年轻代为并行收集,可与CMS(Concurrent Mark-Sweep Collector)收集同时使用,JDK5.0以上版本,JVM会根据系统配置自行设置,所以无需再设置此值。
java -Xmx3550m -Xms3550m
-Xmn2g -Xss128k
-XX:+UseConcMarkSweepGC
-XX:CMSFullGCsBeforeCompaction=5 -XX:+UseCMSCompactAtFullCollection
-XX:CMSFullGCsBeforeCompaction:
由于并发收集器不对内存空间进行压缩、整理。
所以运行一段时间以后会产生“碎片”使得运行效率降低
此值设置运行多少次GC以后对内存空间进行压缩、整理。
-XX:+UseCMSCompactAtFullCollection:打开对年老代的压缩,可能会影响性能,但是可以消除碎片。