1. 垃圾回收算法
垃圾回收算法包括引用计数算法、标记整理、标记复制、标记清除。
1). 引用计数算法
引用计数算法的原理是给每个对象添加一个引用计数,如果有对象指向它引用计数加一,如果没有指向引用计数为0,这种引用计数为0的就是不可达的对象,可以被GC。该算法计算引用计数的时候伴随加减法,性能较差;最为严重的是循环引用会导致内存泄漏。python使用引用计数算法。
2). 标记复制算法
内存空间被分成两块儿,任何时间只有一块儿被使用,在GC的时候将被标记的对象复制到另一块儿内存空间,然后清除之前使用的那块儿,交换两块儿内存的角色。缺点是浪费内存空间(始终有一块儿内存是闲置的),而且此算法不适合long-live的对象,因为这会造成大量object的复制从而导致性能问题。
现代垃圾回收器中的分代收集算法中的新生代(young generation)就是使用这种算法,因为新生代的对象被assume是“朝生夕死”的,大量创建而且生命周期短暂(weak generational hypothesis)。
3). 标记整理算法
标记可达对象,将可达对象整理压缩到内存一端的连续地址,然后清除所有边界外的内存空间。缺点是效率不高(复制成本高),适合存活多垃圾少的老年代GC。
4). 标记清除算法
先标记可达对象,清除不可达对象。缺点是效率低,伴随GC产生大量的内存碎片(segmentation)从而导致内存空间的浪费。
5). JVM采用的算法
此处只是介绍JVM算法的实现思想。具体实现根据垃圾回收器的不同又有所不同。JVM采用的GC方法主要是“分代收集算法”。
标记阶段:JVM采用跟搜索算法,建立若干跟对象(GC Roots),如果某个对象从跟对象不可达,垃圾回收阶段就会被GC清理。GC Roots包括:JVM stack中的引用对象,Method Area中的类静态属性引用的对象,方法区/常量引用的对象,本地方法栈的引用对象。
分代收集(Generational Collection)算法:Heap分成两部分:Old Generation默认占2/3,和Young Generation默认占1/3 (此比例可以通过--XX:NewRatio=old/young来指定); Young Generation又分成Eden默认占8/10,From Survivor默认占1/10,和To Survivor默认占1/10(可以通过--XX:SurvivorRatio=8:1:1来指定)。任何时间只有Eden & From Survivor被使用,新生对象在Eden区域分配内存。GC分为Minor GC和Full/Major GC,Minor GC负责Young区的垃圾回收,Full GC则负责整个heap的垃圾回收。Minor GC采用标记复制算法,每标记一次该对象的age加一,如果age超过某阀值(通过-XX:MaxTenuningThredshold来指定阀值)就将该对象移入Old Generation;被标记的对象从Eden & From Survivor复制到To Survivor,然后清理Eden区域和From Survivor区域,交换From Survivor和To Survivor的角色。Full GC针对Old Generation采用标记清除算法,会产生内存碎片,而且Full GC大量占用CPU而且stop-the-world时间较长,所以应尽量避免Full GC。
如果Eden & From Survivor内存不够,则在Old Generation分配。对于大对象的创建,直接在Old Generation为其分配内存空间。
2. 垃圾回收器
GC自动管理应用的动态内存请求(dynamic memory allocation requests)。此篇文章介绍的是Java HotSpot garbage collectors,HotSpot采用了分代清除(generational scavenging)和Aging的方法,利用多线程并发,并且对old generation实现压缩的GC。
垃圾回收器在HotSpot主要有Serial Collector,Parallel Collector和Garbage-first(G1) Collector。Serial Collector和Parallel Collector的heap空间的分配基本一致:Old Generation和Young Generation,而Young Generation又分为三部分:一个Eden区,和两个Survivor区。但是G1对应的heap空间分配方式就有所不同了,这个之后介绍G1的时候详细介绍。
对于一台机器,JVM会根据以下条件决定是否属于server-class machine:a). 2+处理器(physical processors);b). 2+GB的物理内存(physical memory)。对于server-class machines,以下GC参数将会被默认设置:a). G1 Collector; b). 初始化1/64的内存空间做为heap;c). 最大heap空间大小设置为1/4的物理内存大小;d). 采用C1和C2的分层编译器。而对于client-class machines,单线程的serial collector会被默认采用。
与垃圾回收器密切相关的参数有三个:Maximun Pause-time Goal, Throughput Goal, Footprint(heap大小)。垃圾回收器会根据前两个参数自动去调整一些参数,比如调整指定了在某范围值的heap大小,去达到前两个Goal。停顿时间的目标优先,停顿时间目标达到后再去调整以争取系统吞吐量尽量接近吞吐量的目标值。
1). Serial Collector
单线程的垃圾回收器,相比多线程的回收器不需要线程之间的数据同步和上下文切换,在线程数很少的机器上更高效。所以此收集器适合单线程的machine,或者多线程但是application所需的heap大小不超过100MB的时候。
2). Parallel Collector
或者叫thoughput collector,是Serial Collector的多线程版本。Parallel收集器适合medium-sized到large-sized范围数据量的应用。
3). The Mostly Concurrent Collector
并发收集器有两个:Concurrent Mark Sweep (CMS) Collector和Garbage-First (G1) Collector。G1是CMS的替代品,也就是说CMS已经不被推荐使用(deprecated)了。
G1是一个分代的(generational), 递增的(incremental), 并行的(parallel), 部分并发的(mostly concurrent), 暂停app的(stop the world), 和排空的(evacuating)的垃圾收集器。分代就是依旧分old和young(young依旧分eden和survivor),递增的意思是将GC的过程分成多个steps,部分并发的意思是不是整个GC过程都是并发执行的。下面首先介绍一下G1对应的Heap的分区策略:如下图说示,G1的时候heap的虚拟内存被分为等大小的区域(region),region是内存分配(allocation)和回收(reclamation)的单元。每当有内存分配请求,内存管理器分配一个region,并把这个region赋给old或者young的generation,然后将这个region返回给应用来为对象分配内存空间。可以看到有的区域是多个region的合并,那些是old generation区域里的大对象(大对象在创建的时候GC会自动在old generation为其分配内存),对这些大对象会分配连续的多个regions。
下面介绍一下G1的垃圾回收流程:如图,主要分两部分Young-only和Space Reclamation。图中小蓝点代表young-only collection,大蓝点代表Initial mark,两个黄点分别代表Remark和Cleanup,粉点代表Space Reclamation。其中Remark和Cleanup会造成stop-the-world。从图中可以看出G1的回收机制是递增的(incrementally),这样可以在达到目标停顿时间(pause time objective)的同时尽量提高系统的吞吐量(throughput)。
整个GC流程先以图中左边的多个young-only collection开始,这个阶段的工作是将age达到阈值的object移到老年区(术语叫Aging)。如果老年区占heap的比例超过阈值(Initiating heap occupancy percent, IHOP),则触发Initial Mark,这个阶段开始标记(marking)工作(利用Snapshot At The Beginning,SATB算法),并不定时做young-only的aging工作。标记工作阶段随着Remark到来而结束,Remark是做一些global reference processing(根据reference的类型做的一些处理,类型包括strong, soft, weak和phantom)和class unloading(指卸载没有对应live object的classes以及class loaders)的工作,在这些过程中收集活体相关的信息(liveness info),用来作为在Cleanup的阶段调整G1参数进行自动优化的依据。Cleanup包含回收空的regions,和决定是否启动space reclamation。Space Reclamation包含年轻代和老年代的回收工作,结束于当G1认为继续执行该阶段作出的努力不值得(并不会释放足够的内存空间)的时候,Space Reclamation结束后开始下一个Young-only。
如果GC期间有OutOfMemory的异常则会导致G1执行Stop-the-World的Full GC操作,Full GC是一项很耗时的操作,应尽量避免或者少执行。
3. GC优化相关参数
选择collector:
-XX:+UseSerialGC,-XX:+UseParallelGC,-XX:+UseG1GC
区域大小设定:
-XX:NewRatio=
-XX:NewSize 最小young generation大小;-XX:MaxNewSize 最大young generation大小
-XX:SurvivorRatio= 设定survivor的大小,eden:survivor=1:n
区域收缩&扩展:
-XX:MaxHeapFreeRatio=
-XX:MinHeapFreeRatio=
-XX:ShrinkHeapInSteps
GC调节的辅助参数,app的GC优化目标:
-XX:MaxGCPauseMillis=
-XX:GCTimeRatio=n 设定GC吞吐量目标,time(gc)/time(app)=1/(1+n)
-Xms=
G1专有参数设置:
-XX:G1UseAdaptiveIHOP 是否启用Adaptive IHOP,就是对IHOP的自动调节
-XX:InitiatingHeapOccupancyPercent 指定老年代占整个heap的百分比例大小
-XX:G1HeapRegionSize 指定region的大小,默认值由G1提供
-XX:G1EagerReclaimHumongousObjects 指定除了Cleanup和FullGC阶段,任何阶段都可以执行老年代大对象的清理工作
-XX:G1NewSizePercent 新生代初始大小百分比
-XX:G1MaxNewSizePercent 新生代最大大小百分比
-XX:G1HeapWastePercent
-XX:G1HeapReservePercent
-XX:G1MixedGcCountTarget
-XX:G1MixedGCLiveThresholdPercent
-XX:+G1EnableStringDeduplication
其他参数:
-XX:ParallelGCThreads 指定并行工作的线程数
-XX:ConcGCThreads 指定并发工作的线程数,默认是并行工作线程数的1/4
参数后续补充和完善中......