性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪

前言

分布式系统的性能指标,广义来讲,可能有多个方面,比如吞吐量(TPS)、高可用(几个9)、低延时(RT)、客户体验(PV/UV)、数据一致性、可扩展性、容错性等。狭义来讲,我们常用业务吞吐量(TPS)来表达系统性能。即:在满足一定客户体验前提下,在一定机器资源环境下,系统所能够承载的最大业务处理能力,通常用每秒处理的事务数TPS来表示。

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第1张图片

而除了在出现问题的时候去进行解决,更多的是防患于未然,在平时的开发过程中稍微的注意一下,可能会避免后期很多的事情

 

今天文章主要从两个方面讲解:性能优化的50个细节和如何定位性能问题

性能优化的50个细节

1. 尽量在合适的场合使用单例

使用单例可以减轻加载的负担,缩短加载的时间,提高加载的效率,但并不是所在地方都适用于单例

 

简单来说,单例主要适用于以下三个方面:

 

  1. 控制资源的使用,通过线程同步来控制资源的并发访问;
  2. 控制实例的产生,以达到节约资源的目的;
  3. 控制数据共享,在不建立直接关联的条件下,让多个不相关的进程或线程之间实现通信。

 

2. 尽量避免随意使用静态变量

当某个对象被定义为static变量所引用,那么GC通常是不会回收这个对象所占有的内存,如:

publicclassA{
 privatestaticB b =newB();
}

 

此时静态变量 b 的生命周期与A类同步,如果A类不会卸载,那么b对象会常驻内存,直到程序终止。

 

3. 尽量避免过多过常地创建Java对象

尽量避免在经常调用的方法,循环中new对象,由于系统不仅要花费时间来创建对象,而且还要花时间对这些对象进行垃圾回收和处理

 

在我们可以控制的范围内,最大限度地重用对象,最好能用基本的数据类型或数组来替代对象。

 

4. 尽量使用final修饰符

带有final修饰符的类是不可派生的。在JAVA核心API中,有许多应用final的例子,例如java、lang、String,为String类指定final防止了使用者覆盖length()方法。

 

另外,如果一个类是final的,则该类所有方法都是final的。java编译器会寻找机会内联(inline)所有的final方法(这和具体的编译器实现有关),此举能够使性能平均提高50%。

 

如:让访问实例内变量的getter/setter方法变成”final:简单的getter/setter方法应该被置成final,这会告诉编译器,这个方法不会被重载,所以,可以变成”inlined”,例子:

classMAF{
 publicvoidsetSize(intsize){
  _size = size;
 }
 privateint_size;
}

更正
classDAF_fixed{
 finalpublicvoidsetSize(intsize){
  _size = size;
 }
 privateint_size;
}

 

5. 尽量使用局部变量

调用方法时传递的参数以及在调用中创建的临时变量都保存在栈(Stack)中,速度较快;其他变量,如静态变量、实例变量等,都在堆(Heap)中创建,速度较慢。

 

6. 尽量处理好包装类型和基本类型两者的使用场所

虽然包装类型和基本类型在使用过程中是可以相互转换,但它们两者所产生的内存区域是完全不同的

 

基本类型数据产生和处理都在栈中处理,包装类型是对象,是在堆中产生实例。在集合类对象,有对象方面需要的处理适用包装类型,其他的处理提倡使用基本类型。

 

7. 慎用synchronized,尽量减小synchronize的方法

都知道,实现同步是要很大的系统开销作为代价的,甚至可能造成死锁,所以尽量避免无谓的同步控制。

 

synchronize方法被调用时,直接会把当前对象锁了,在方法执行完之前其他线程无法调用当前对象的其他方法。

 

所以,synchronize的方法尽量减小,并且应尽量使用方法同步代替代码块同步。

 

9. 尽量不要使用finalize方法

实际上,将资源清理放在finalize方法中完成是非常不好的选择

 

由于GC的工作量很大,尤其是回收Young代内存时,大都会引起应用程序暂停,所以再选择使用finalize方法进行资源清理,会导致GC负担更大,程序运行效率更差。

 

10. 尽量使用基本数据类型代替对象

Stringstr="hello";

上面这种方式会创建一个“hello”字符串,而且JVM的字符缓存池还会缓存这个字符串;

Stringstr=newString("hello");

此时程序除创建字符串外,str所引用的String对象底层还包含一个char[]数组,这个char[]数组依次存放了h,e,l,l,o

 

11. 多线程在未发生线程安全前提下应尽量使用HashMap、ArrayList

HashTable、Vector等使用了同步机制,降低了性能。

 

12. 尽量合理的创建HashMap

当你要创建一个比较大的hashMap时,充分利用这个构造函数

 

public HashMap(int initialCapacity, float loadFactor);

 

避免HashMap多次进行了hash重构,扩容是一件很耗费性能的事

 

在默认中initialCapacity只有16,而loadFactor是 0.75,需要多大的容量,你最好能准确的估计你所需要的最佳大小,同样的Hashtable,Vectors也是一样的道理。

 

13. 尽量减少对变量的重复计算

 

如:

for(inti=0;i 
  

 

应该改为:

for(inti=0,len=list.size();i 
  

并且在循环中应该避免使用复杂的表达式,在循环中,循环条件会被反复计算,如果不使用复杂表达式,而使循环条件值不变的话,程序将会运行的更快。

 

14. 尽量避免不必要的创建

如:

A a =newA();
if(i==1){
 list.add(a);
}

 

应该改为:

if(i==1){
A a =newA();
 list.add(a);
}

 

15. 尽量在finally块中释放资源

程序中使用到的资源应当被释放,以避免资源泄漏,这最好在finally块中去做。不管程序执行的结果如何,finally块总是会执行的,以确保资源的正确关闭。

 

16. 尽量使用移位来代替'a/b'的操作

"/"是一个代价很高的操作,使用移位的操作将会更快和更有效

如:

intnum = a /4;
intnum = a /8;

 

应该改为:

intnum = a >>2;
intnum = a >>3;

 

但注意的是使用移位应添加注释,因为移位操作不直观,比较难理解。

 

17.尽量使用移位来代替'a*b'的操作

同样的,对于'*'操作,使用移位的操作将会更快和更有效

如:

intnum = a *4;
intnum = a *8;

 

应该改为:

intnum = a <<2;
intnum = a <<3;

 

18. 尽量确定StringBuffer的容量

StringBuffer 的构造器会创建一个默认大小(通常是16)的字符数组。

 

在使用中,如果超出这个大小,就会重新分配内存,创建一个更大的数组,并将原先的数组复制过来,再丢弃旧的数组。

 

在大多数情况下,你可以在创建 StringBuffer的时候指定大小,这样就避免了在容量不够的时候自动增长,以提高性能。如:

StringBufferbuffer=newStringBuffer(1000);

 

19. 尽量早释放无用对象的引用

大部分时,方法局部引用变量所引用的对象会随着方法结束而变成垃圾,因此,大部分时候程序无需将局部,引用变量显式设为null。例如:

 

Java代码

Publicvoidtest(){
 Objectobj =newObject();
 ……
 Obj =null;
}

 

上面这个就没必要了,随着方法test()的执行完成,程序中obj引用变量的作用域就结束了。

 

但是如果是改成下面:

 

Java代码

Publicvoidtest(){
 Objectobj =newObject();
 ……
 Obj =null;
 //执行耗时,耗内存操作;或调用耗时,耗内存的方法
 ……
}

 

这时候就有必要将obj赋值为null,可以尽早的释放对Object对象的引用。

 

20. 尽量避免使用二维数组

二维数据占用的内存空间比一维数据多得多,大概10倍以上。

 

21. 尽量避免使用split

除非是必须的,否则应该避免使用split,split由于支持正则表达式,所以效率比较低

 

如果是频繁的几十,几百万的调用将会耗费大量资源,如果确实需要频繁的调用split,可以考虑使用apache的StringUtils.split(string,char),频繁split的可以缓存结果

 

22. ArrayList & LinkedList

一个是线性表,一个是链表,一句话,随机查询尽量使用ArrayList,ArrayList优于LinkedList,LinkedList还要移动指针,添加删除的操作LinkedList优于ArrayList,ArrayList还要移动数据

 

不过这是理论性分析,事实未必如此,重要的是理解好2者的数据结构,对症下药。

 

23. 尽量使用System.arraycopy ()代替通过来循环复制数组

System.arraycopy() 要比通过循环来复制数组快的多。

 

24. 尽量缓存经常使用的对象

尽可能将经常使用的对象进行缓存,可以使用数组,或HashMap的容器来进行缓存,但这种方式可能导致系统占用过多的缓存,性能下降

 

推荐可以使用一些第三方的开源工具,如EhCache,Oscache进行缓存,他们基本都实现了FIFO/FLU等缓存算法。

 

25. 尽量避免非常大的内存分配

有时候问题不是由当时的堆状态造成的,而是因为分配失败造成的。分配的内存块都必须是连续的,而随着堆越来越满,找到较大的连续块越来越困难。

 

26. 慎用异常

当创建一个异常时,需要收集一个栈跟踪(stack track),这个栈跟踪用于描述异常是在何处创建的。

 

构建这些栈跟踪时需要为运行时栈做一份快照,正是这一部分开销很大。

 

当需要创建一个 Exception 时,JVM 不得不说:先别动,我想就您现在的样子存一份快照,所以暂时停止入栈和出栈操作。栈跟踪不只包含运行时栈中的一两个元素,而是包含这个栈中的每一个元素。

 

如果您创建一个 Exception ,就得付出代价,好在捕获异常开销不大,因此可以使用 try-catch 将核心内容包起来。

 

从技术上讲,你甚至可以随意地抛出异常,而不用花费很大的代价。招致性能损失的并不是 throw 操作——尽管在没有预先创建异常的情况下就抛出异常是有点不寻常。

 

真正要花代价的是创建异常,幸运的是,好的编程习惯已教会我们,不应该不管三七二十一就抛出异常。异常是为异常的情况而设计的,使用时也应该牢记这一原则。

 

27. 尽量重用对象

特别是String对象的使用中,出现字符串连接情况时应使用StringBuffer代替,由于系统不仅要花时间生成对象,以后可能还需要花时间对这些对象进行垃圾回收和处理。因此生成过多的对象将会给程序的性能带来很大的影响。

 

28. 不要重复初始化变量

默认情况下,调用类的构造函数时,java会把变量初始化成确定的值,所有的对象被设置成null,整数变量设置成0,float和double变量设置成0.0,逻辑值设置成false。

 

当一个类从另一个类派生时,这一点尤其应该注意,因为用new关键字创建一个对象时,构造函数链中的所有构造函数都会被自动调用。

 

这里有个注意,给成员变量设置初始值但需要调用其他方法的时候,最好放在一个方法。比如initXXX()中,因为直接调用某方法赋值可能会因为类尚未初始化而抛空指针异常,如:public int state = this.getState()。

 

29. 在java+Oracle的应用系统开发中,java中内嵌的SQL语言应尽量使用大写形式,以减少Oracle解析器的解析负担。

 

30. 在java编程过程中,进行数据库连接,I/O流操作,在使用完毕后,及时关闭以释放资源。因为对这些大对象的操作会造成系统大的开销。

 

31. 过分的创建对象会消耗系统的大量内存,严重时,会导致内存泄漏

 

因此,保证过期的对象的及时回收具有重要意义。JVM的GC并非十分智能,因此建议在对象使用完毕后,手动设置成null。

 

32. 在使用同步机制时,应尽量使用方法同步代替代码块同步。

 

33. 不要在循环中使用Try/Catch语句,应把Try/Catch放在循环最外层

Error是获取系统错误的类,或者说是虚拟机错误的类。不是所有的错误Exception都能获取到的,虚拟机报错Exception就获取不到,必须用Error获取。

 

34. 通过StringBuffer的构造函数来设定它的初始化容量,可以明显提升性能

StringBuffer的默认容量为16,当StringBuffer的容量达到最大容量时,它会将自身容量增加到当前的2倍+2,也就是2*n+2。

 

无论何时,只要StringBuffer到达它的最大容量,它就不得不创建一个新的对象数组,然后复制旧的对象数组,这会浪费很多时间。

 

所以给StringBuffer设置一个合理的初始化容量值,是很有必要的!

 

35. 合理使用java.util.Vector

Vector与StringBuffer类似,每次扩展容量时,所有现有元素都要赋值到新的存储空间中。

 

Vector的默认存储能力为10个元素,扩容加倍

 

vector.add(index,obj) 这个方法可以将元素obj插入到index位置,但index以及之后的元素依次都要向下移动一个位置(将其索引加 1)。除非必要,否则对性能不利。

 

同样规则适用于remove(int index)方法,移除此向量中指定位置的元素。将所有后续元素左移(将其索引减 1)。返回此向量中移除的元素。

 

所以删除vector最后一个元素要比删除第1个元素开销低很多。删除所有元素最好用removeAllElements()方法。

 

如果要删除vector里的一个元素可以使用 vector.remove(obj);而不必自己检索元素位置,再删除,如int index = indexOf(obj);vector.remove(index)。

 

38. 不用new关键字创建对象的实例

用new关键词创建类的实例时,构造函数链中的所有构造函数都会被自动调用。

 

但如果一个对象实现了Cloneable接口,我们可以调用它的clone()方法。clone()方法不会调用任何类构造函数。

 

下面是Factory模式的一个典型实现:

publicstaticCreditgetNewCredit(){
 returnnewCredit();
}

 

改进后的代码使用clone()方法:

privatestaticCredit BaseCredit =newCredit();
publicstaticCredit getNewCredit() {
 return(Credit)BaseCredit.clone();
}

 

39. 不要将数组声明为:public static final

 

40. HaspMap的遍历

Map paraMap =newHashMap();

for(Entry entry : paraMap.entrySet()) {
 StringappFieldDefId = entry.getKey();
 String[] values = entry.getValue();
}

 

利用散列值取出相应的Entry做比较得到结果,取得entry的值之后直接取key和value。

 

41. array(数组)和ArrayList的使用

array 数组效率最高,但容量固定,无法动态改变,ArrayList容量可以动态增长,但牺牲了效率。

 

42. 单线程应尽量使用 HashMap, ArrayList,除非必要,否则不推荐使用HashTable,Vector,它们使用了同步机制,而降低了性能。

 

43. StringBuffer,StringBuilder的区别在于:java.lang.StringBuffer 线程安全的可变字符序列。一个类似于String的字符串缓冲区,但不能修改。

 

StringBuilder与该类相比,通常应该优先使用StringBuilder类,因为它支持所有相同的操作,但由于它不执行同步,所以速度更快。

 

为了获得更好的性能,在构造StringBuffer或StringBuilder时应尽量指定它的容量。当然如果不超过16个字符时就不用了。

 

相同情况下,使用StringBuilder比使用StringBuffer仅能获得10%~15%的性能提升,但却要冒多线程不安全的风险。综合考虑还是建议使用StringBuffer。

 

44. 尽量使用基本数据类型代替对象。

 

45. 使用具体类比使用接口效率高,但结构弹性降低了,但现代IDE都可以解决这个问题。

 

46. 考虑使用静态方法,如果你没有必要去访问对象的外部,那么就使你的方法成为静态方法。它会被更快地调用,因为它不需要一个虚拟函数导向表。

 

这同时也是一个很好的实践,因为它告诉你如何区分方法的性质,调用这个方法不会改变对象的状态。

 

47. 应尽可能避免使用内在的GET,SET方法。

 

48.避免枚举,浮点数的使用。

 

以下举几个实用优化的例子:

一、避免在循环条件中使用复杂表达式

在不做编译优化的情况下,在循环中,循环条件会被反复计算,如果不使用复杂表达式,而使循环条件值不变的话,程序将会运行的更快。

 

例子:

importjava.util.Vector;
classCEL{
 voidmethod(Vectorvector){
 for(inti =0; i  
  

 

更正:

classCEL_fixed{
 voidmethod(Vectorvector){
 intsize =vector.size ();
 for(inti =0; i < size; i++)
 // ...
 }
}

 

二、为'Vectors' 和 'Hashtables'定义初始大小

JVM为Vector扩充大小的时候需要重新创建一个更大的数组,将原原先数组中的内容复制过来,最后,原先的数组再被回收。可见Vector容量的扩大是一个颇费时间的事。

 

通常,默认的10个元素大小是不够的。你最好能准确的估计你所需要的最佳大小。例子:

importjava.util.Vector;
publicclassDIC{
 publicvoidaddObjects(Object[] o){
  // if length > 10, Vector needs to expand
  for(inti =0; i< o.length;i++) {
   v.add(o);// capacity before it can add more elements.
  }
 }
 publicVector v =newVector();// no initialCapacity.
}

 

更正:

自己设定初始大小。

publicVector v =newVector(20);
publicHashtable hash =newHashtable(10);

 

三、在finally块中关闭Stream

程序中使用到的资源应当被释放,以避免资源泄漏。这最好在finally块中去做。不管程序执行的结果如何,finally块总是会执行的,以确保资源的正确关闭。

 

四、使用'System.arraycopy ()'代替通过来循环复制数组

例子:

publicclassIRB{
 voidmethod(){
  int[] array1 =newint[100];
  for(inti =0; i < array1.length; i++) {
   array1 [i] = i;
  }
  int[] array2 =newint[100];
  for(inti =0; i < array2.length; i++) {
   array2 [i] = array1 [i];// Violation
  }
 }
}

 

更正:

publicclassIRB{
 voidmethod(){
  int[] array1 =newint[100];
  for(inti =0; i < array1.length; i++) {
   array1 [i] = i;
  }
  int[] array2 =newint[100];
  System.arraycopy(array1,0, array2,0,100);
 }
}

 

五、让访问实例内变量的getter/setter方法变成”final”

简单的getter/setter方法应该被置成final,这会告诉编译器,这个方法不会被重载,所以,可以变成”inlined”,例子:

 

classMAF{
 publicvoidsetSize(intsize){
  _size = size;
 }
 privateint_size;
}

 

更正:

classDAF_fixed{
 finalpublicvoidsetSize(intsize){
  _size = size;
 }
 privateint_size;
}

 

六、对于常量字符串,用'String' 代替 'StringBuffer'

常量字符串并不需要动态改变长度。

 

例子:

publicclassUSC{
 Stringmethod(){
  StringBuffer s =newStringBuffer ("Hello");
  String t = s +"World!";
  returnt;
 }
}

 

更正:把StringBuffer换成String,如果确定这个String不会再变的话,这将会减少运行开销提高性能。

 

七、在字符串相加的时候,使用 ' ' 代替 " ",如果该字符串只有一个字符的话

 

例子:

publicclassSTR{
 publicvoidmethod(String s){
  Stringstring= s +"d"// violation.
  string="abc"+"d"// violation.
 }
}

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第2张图片

publicclassSTR{
 publicvoidmethod(String s){
  Stringstring= s +"d"// violation.
  string="abc"+"d"// violation.
 }
}

 

更正:

将一个字符的字符串替换成' '

publicclassSTR{
 publicvoidmethod(String s){
  Stringstring= s +'d'
  string="abc"+'d'
 }
}

 

以上仅是Java方面编程时的性能优化,性能优化大部分都是在时间、效率、代码结构层次等方面的权衡,各有利弊

如何定位性能问题

接下来就是如何去定位性能问题了,只有准确定位了,才能具体的去进行解决啊,但是其实大家都知道,性能出现问题其实真的不算多,就像一个读者说的,ThreadLocal出现内存泄漏,我至今没有遇到过,其实包括笔者自己遇到的性能问题也不多,但是要居安思危,在平时准备好,当问题出现时才不会出现问题,我们模拟下常见的几个Java性能故障,来学习怎么去分析和定位

既然是定位问题,肯定是需要借助工具,所以肯定需要提前学习一些性能调优的工具

top命令

top命令是我们最常用的Linux命令之一,它可以实时的显示当前正在执行的进程的CPU使用率,内存使用率等系统信息。top -Hp pid 可以查看线程的系统资源使用情况。

vmstat命令

vmstat是一个指定周期和采集次数的虚拟内存检测工具,可以统计内存,CPU,swap的使用情况,它还有一个重要的常用功能,用来观察进程的上下文切换。字段说明如下:

  • r: 运行队列中进程数量(当数量大于CPU核数表示有阻塞的线程)
  • b: 等待IO的进程数量
  • swpd: 使用虚拟内存大小
  • free: 空闲物理内存大小
  • buff: 用作缓冲的内存大小(内存和硬盘的缓冲区)
  • cache: 用作缓存的内存大小(CPU和内存之间的缓冲区)
  • si: 每秒从交换区写到内存的大小,由磁盘调入内存
  • so: 每秒写入交换区的内存大小,由内存调入磁盘
  • bi: 每秒读取的块数
  • bo: 每秒写入的块数
  • in: 每秒中断数,包括时钟中断。
  • cs: 每秒上下文切换数。
  • us: 用户进程执行时间百分比(user time)
  • sy: 内核系统进程执行时间百分比(system time)
  • wa: IO等待时间百分比
  • id: 空闲时间百分比

pidstat命令

pidstat 是 Sysstat 中的一个组件,也是一款功能强大的性能监测工具,top 和 vmstat 两个命令都是监测进程的内存、CPU 以及 I/O 使用情况,而 pidstat 命令可以检测到线程级别的。pidstat命令线程切换字段说明如下:

  • UID :被监控任务的真实用户ID。
  • TGID :线程组ID。
  • TID:线程ID。
  • cswch/s:主动切换上下文次数,这里是因为资源阻塞而切换线程,比如锁等待等情况。
  • nvcswch/s:被动切换上下文次数,这里指CPU调度切换了线程。

jstack命令

jstack是JDK工具命令,它是一种线程堆栈分析工具,最常用的功能就是使用 jstack pid 命令查看线程的堆栈信息,也经常用来排除死锁情况。

jstat 命令

它可以检测Java程序运行的实时情况,包括堆内存信息和垃圾回收信息,我们常常用来查看程序垃圾回收情况。常用的命令是jstat -gc pid。信息字段说明如下:

  • S0C:年轻代中 To Survivor 的容量(单位 KB);
  • S1C:年轻代中 From Survivor 的容量(单位 KB);
  • S0U:年轻代中 To Survivor 目前已使用空间(单位 KB);
  • S1U:年轻代中 From Survivor 目前已使用空间(单位 KB);
  • EC:年轻代中 Eden 的容量(单位 KB);
  • EU:年轻代中 Eden 目前已使用空间(单位 KB);
  • OC:老年代的容量(单位 KB);
  • OU:老年代目前已使用空间(单位 KB);
  • MC:元空间的容量(单位 KB);
  • MU:元空间目前已使用空间(单位 KB);
  • YGC:从应用程序启动到采样时年轻代中 gc 次数;
  • YGCT:从应用程序启动到采样时年轻代中 gc 所用时间 (s);
  • FGC:从应用程序启动到采样时 老年代(Full Gc)gc 次数;
  • FGCT:从应用程序启动到采样时 老年代代(Full Gc)gc 所用时间 (s);
  • GCT:从应用程序启动到采样时 gc 用的总时间 (s)。

jmap命令

jmap也是JDK工具命令,它可以查看堆内存的初始化信息以及堆内存的使用情况,还可以生成dump文件来进行详细分析。查看堆内存情况命令jmap -heap pid。

mat内存工具

MAT(Memory Analyzer Tool)工具是eclipse的一个插件(MAT也可以单独使用),它分析大内存的dump文件时,可以非常直观的看到各个对象在堆空间中所占用的内存大小、类实例数量、对象引用关系、利用OQL对象查询,以及可以很方便的找出对象GC Roots的相关信息。下载地址可以点击这里

模拟环境准备

基础环境jdk1.8,采用SpringBoot框架来写几个接口来触发模拟场景,首先是模拟CPU占满情况

CPU占满

模拟CPU占满还是比较简单,直接写一个死循环计算消耗CPU即可。

 		/**
     * 模拟CPU占满
     */
    @GetMapping("/cpu/loop")
    public void testCPULoop() throws InterruptedException {
        System.out.println("请求cpu死循环");
        Thread.currentThread().setName("loop-thread-cpu");
        int num = 0;
        while (true) {
            num++;
            if (num == Integer.MAX_VALUE) {
                System.out.println("reset");
            }
            num = 0;
        }

    }
复制代码

请求接口地址测试curl localhost:8080/cpu/loop,发现CPU立马飙升到100%

通过执行top -Hp 32805 查看Java线程情况

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第3张图片

执行 printf '%x' 32826 获取16进制的线程id,用于dump信息查询,结果为 803a。最后我们执行jstack 32805 |grep -A 20 803a来查看下详细的dump信息。

 

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第4张图片

 

这里dump信息直接定位出了问题方法以及代码行,这就定位出了CPU占满的问题。

内存泄露

模拟内存泄漏借助了ThreadLocal对象来完成,ThreadLocal是一个线程私有变量,可以绑定到线程上,在整个线程的生命周期都会存在,但是由于ThreadLocal的特殊性,ThreadLocal是基于ThreadLocalMap实现的,ThreadLocalMap的Entry继承WeakReference,而Entry的Key是WeakReference的封装,换句话说Key就是弱引用,弱引用在下次GC之后就会被回收,如果ThreadLocal在set之后不进行后续的操作,因为GC会把Key清除掉,但是Value由于线程还在存活,所以Value一直不会被回收,最后就会发生内存泄漏。

/**
     * 模拟内存泄漏
     */
    @GetMapping(value = "/memory/leak")
    public String leak() {
        System.out.println("模拟内存泄漏");
        ThreadLocal localVariable = new ThreadLocal();
        localVariable.set(new Byte[4096 * 1024]);// 为线程添加变量
        return "ok";
    }
复制代码

我们给启动加上堆内存大小限制,同时设置内存溢出的时候输出堆栈快照并输出日志。

java -jar -Xms500m -Xmx500m -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/heapdump.hprof -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:/tmp/heaplog.log analysis-demo-0.0.1-SNAPSHOT.jar

启动成功后我们循环执行100次,for i in {1..500}; do curl localhost:8080/memory/leak;done,还没执行完毕,系统已经返回500错误了。查看系统日志出现了如下异常:

java.lang.OutOfMemoryError: Java heap space
复制代码

我们用jstat -gc pid 命令来看看程序的GC情况。

很明显,内存溢出了,堆内存经过45次 Full Gc 之后都没释放出可用内存,这说明当前堆内存中的对象都是存活的,有GC Roots引用,无法回收。那是什么原因导致内存溢出呢?是不是我只要加大内存就行了呢?如果是普通的内存溢出也许扩大内存就行了,但是如果是内存泄漏的话,扩大的内存不一会就会被占满,所以我们还需要确定是不是内存泄漏。我们之前保存了堆 Dump 文件,这个时候借助我们的MAT工具来分析下。导入工具选择Leak Suspects Report,工具直接就会给你列出问题报告。

 

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第5张图片

这里已经列出了可疑的4个内存泄漏问题,我们点击其中一个查看详情。

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第6张图片

这里已经指出了内存被线程占用了接近50M的内存,占用的对象就是ThreadLocal。如果想详细的通过手动去分析的话,可以点击Histogram,查看最大的对象占用是谁,然后再分析它的引用关系,即可确定是谁导致的内存溢出。

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第7张图片

上图发现占用内存最大的对象是一个Byte数组,我们看看它到底被那个GC Root引用导致没有被回收。按照上图红框操作指引,结果如下图:

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第8张图片

我们发现Byte数组是被线程对象引用的,图中也标明,Byte数组对象的GC Root是线程,所以它是不会被回收的,展开详细信息查看,我们发现最终的内存占用对象是被ThreadLocal对象占据了。这也和MAT工具自动帮我们分析的结果一致。

死锁

死锁会导致耗尽线程资源,占用内存,表现就是内存占用升高,CPU不一定会飙升(看场景决定),如果是直接new线程,会导致JVM内存被耗尽,报无法创建线程的错误,这也是体现了使用线程池的好处。

 ExecutorService service = new ThreadPoolExecutor(4, 10,
            0, TimeUnit.SECONDS, new LinkedBlockingQueue(1024),
            Executors.defaultThreadFactory(),
            new ThreadPoolExecutor.AbortPolicy());
   /**
     * 模拟死锁
     */
    @GetMapping("/cpu/test")
    public String testCPU() throws InterruptedException {
        System.out.println("请求cpu");
        Object lock1 = new Object();
        Object lock2 = new Object();
        service.submit(new DeadLockThread(lock1, lock2), "deadLookThread-" + new Random().nextInt());
        service.submit(new DeadLockThread(lock2, lock1), "deadLookThread-" + new Random().nextInt());
        return "ok";
    }

public class DeadLockThread implements Runnable {
    private Object lock1;
    private Object lock2;

    public DeadLockThread(Object lock1, Object lock2) {
        this.lock1 = lock1;
        this.lock2 = lock2;
    }

    @Override
    public void run() {
        synchronized (lock2) {
            System.out.println(Thread.currentThread().getName()+"get lock2 and wait lock1");
            try {
                TimeUnit.MILLISECONDS.sleep(2000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            synchronized (lock1) {
                System.out.println(Thread.currentThread().getName()+"get lock1 and lock2 ");
            }
        }
    }
}
复制代码

我们循环请求接口2000次,发现不一会系统就出现了日志错误,线程池和队列都满了,由于我选择的当队列满了就拒绝的策略,所以系统直接抛出异常。

java.util.concurrent.RejectedExecutionException: Task java.util.concurrent.FutureTask@2760298 rejected from java.util.concurrent.ThreadPoolExecutor@7ea7cd51[Running, pool size = 10, active threads = 10, queued tasks = 1024, completed tasks = 846]
复制代码

通过ps -ef|grep java命令找出 Java 进程 pid,执行jstack pid 即可出现java线程堆栈信息,这里发现了5个死锁,我们只列出其中一个,很明显线程pool-1-thread-2锁住了0x00000000f8387d88等待0x00000000f8387d98锁,线程pool-1-thread-1锁住了0x00000000f8387d98等待锁0x00000000f8387d88,这就产生了死锁。

Java stack information for the threads listed above:
===================================================
"pool-1-thread-2":
        at top.luozhou.analysisdemo.controller.DeadLockThread2.run(DeadLockThread.java:30)
        - waiting to lock <0x00000000f8387d98> (a java.lang.Object)
        - locked <0x00000000f8387d88> (a java.lang.Object)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
        at java.lang.Thread.run(Thread.java:748)
"pool-1-thread-1":
        at top.luozhou.analysisdemo.controller.DeadLockThread1.run(DeadLockThread.java:30)
        - waiting to lock <0x00000000f8387d88> (a java.lang.Object)
        - locked <0x00000000f8387d98> (a java.lang.Object)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
        at java.lang.Thread.run(Thread.java:748)
          
 Found 5 deadlocks.
复制代码

线程频繁切换

上下文切换会导致将大量CPU时间浪费在寄存器、内核栈以及虚拟内存的保存和恢复上,导致系统整体性能下降。当你发现系统的性能出现明显的下降时候,需要考虑是否发生了大量的线程上下文切换。

 @GetMapping(value = "/thread/swap")
    public String theadSwap(int num) {
        System.out.println("模拟线程切换");
        for (int i = 0; i < num; i++) {
            new Thread(new ThreadSwap1(new AtomicInteger(0)),"thread-swap"+i).start();
        }
        return "ok";
    }
public class ThreadSwap1 implements Runnable {
    private AtomicInteger integer;

    public ThreadSwap1(AtomicInteger integer) {
        this.integer = integer;
    }

    @Override
    public void run() {
        while (true) {
            integer.addAndGet(1);
            Thread.yield(); //让出CPU资源
        }
    }
}
复制代码

这里我创建多个线程去执行基础的原子+1操作,然后让出 CPU 资源,理论上 CPU 就会去调度别的线程,我们请求接口创建100个线程看看效果如何,curl localhost:8080/thread/swap?num=100。接口请求成功后,我们执行`vmstat 1 10,表示每1秒打印一次,打印10次,线程切换采集结果如下:

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
101  0 128000 878384    908 468684    0    0     0     0 4071 8110498 14 86  0  0  0
100  0 128000 878384    908 468684    0    0     0     0 4065 8312463 15 85  0  0  0
100  0 128000 878384    908 468684    0    0     0     0 4107 8207718 14 87  0  0  0
100  0 128000 878384    908 468684    0    0     0     0 4083 8410174 14 86  0  0  0
100  0 128000 878384    908 468684    0    0     0     0 4083 8264377 14 86  0  0  0
100  0 128000 878384    908 468688    0    0     0   108 4182 8346826 14 86  0  0  0
复制代码

这里我们关注4个指标,r,cs,us,sy。

r=100,说明等待的进程数量是100,线程有阻塞。

cs=800多万,说明每秒上下文切换了800多万次,这个数字相当大了。

us=14,说明用户态占用了14%的CPU时间片去处理逻辑。

sy=86,说明内核态占用了86%的CPU,这里明显就是做上下文切换工作了。

我们通过top命令以及top -Hp pid查看进程和线程CPU情况,发现Java线程CPU占满了,但是线程CPU使用情况很平均,没有某一个线程把CPU吃满的情况。

PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                            
 87093 root      20   0 4194788 299056  13252 S 399.7 16.1  65:34.67 java 
复制代码
 PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND                                                                             
 87189 root      20   0 4194788 299056  13252 R  4.7 16.1   0:41.11 java                                                                                
 87129 root      20   0 4194788 299056  13252 R  4.3 16.1   0:41.14 java                                                                                
 87130 root      20   0 4194788 299056  13252 R  4.3 16.1   0:40.51 java                                                                                
 87133 root      20   0 4194788 299056  13252 R  4.3 16.1   0:40.59 java                                                                                
 87134 root      20   0 4194788 299056  13252 R  4.3 16.1   0:40.95 java 
复制代码

结合上面用户态CPU只使用了14%,内核态CPU占用了86%,可以基本判断是Java程序线程上下文切换导致性能问题。

我们使用pidstat命令来看看Java进程内部的线程切换数据,执行pidstat -p 87093 -w 1 10,采集数据如下:

11:04:30 PM   UID       TGID       TID   cswch/s nvcswch/s  Command
11:04:30 PM     0         -     87128      0.00     16.07  |__java
11:04:30 PM     0         -     87129      0.00     15.60  |__java
11:04:30 PM     0         -     87130      0.00     15.54  |__java
11:04:30 PM     0         -     87131      0.00     15.60  |__java
11:04:30 PM     0         -     87132      0.00     15.43  |__java
11:04:30 PM     0         -     87133      0.00     16.02  |__java
11:04:30 PM     0         -     87134      0.00     15.66  |__java
11:04:30 PM     0         -     87135      0.00     15.23  |__java
11:04:30 PM     0         -     87136      0.00     15.33  |__java
11:04:30 PM     0         -     87137      0.00     16.04  |__java
复制代码

根据上面采集的信息,我们知道Java的线程每秒切换15次左右,正常情况下,应该是个位数或者小数。结合这些信息我们可以断定Java线程开启过多,导致频繁上下文切换,从而影响了整体性能。

为什么系统的上下文切换是每秒800多万,而 Java 进程中的某一个线程切换才15次左右?

系统上下文切换分为三种情况:

1、多任务:在多任务环境中,一个进程被切换出CPU,运行另外一个进程,这里会发生上下文切换。

2、中断处理:发生中断时,硬件会切换上下文。在vmstat命令中是in

3、用户和内核模式切换:当操作系统中需要在用户模式和内核模式之间进行转换时,需要进行上下文切换,比如进行系统函数调用。

Linux 为每个 CPU 维护了一个就绪队列,将活跃进程按照优先级和等待 CPU 的时间排序,然后选择最需要 CPU 的进程,也就是优先级最高和等待 CPU 时间最长的进程来运行。也就是vmstat命令中的r。

那么,进程在什么时候才会被调度到 CPU 上运行呢?

  • 进程执行完终止了,它之前使用的 CPU 会释放出来,这时再从就绪队列中拿一个新的进程来运行
  • 为了保证所有进程可以得到公平调度,CPU 时间被划分为一段段的时间片,这些时间片被轮流分配给各个进程。当某个进程时间片耗尽了就会被系统挂起,切换到其它等待 CPU 的进程运行。
  • 进程在系统资源不足时,要等待资源满足后才可以运行,这时进程也会被挂起,并由系统调度其它进程运行。
  • 当进程通过睡眠函数 sleep 主动挂起时,也会重新调度。
  • 当有优先级更高的进程运行时,为了保证高优先级进程的运行,当前进程会被挂起,由高优先级进程来运行。
  • 发生硬件中断时,CPU 上的进程会被中断挂起,转而执行内核中的中断服务程序。

结合我们之前的内容分析,阻塞的就绪队列是100左右,而我们的CPU只有4核,这部分原因造成的上下文切换就可能会相当高,再加上中断次数是4000左右和系统的函数调用等,整个系统的上下文切换到800万也不足为奇了。Java内部的线程切换才15次,是因为线程使用Thread.yield()来让出CPU资源,但是CPU有可能继续调度该线程,这个时候线程之间并没有切换,这也是为什么内部的某个线程切换次数并不是非常大的原因。

总结

本文模拟了常见的性能问题场景,分析了如何定位CPU100%、内存泄漏、死锁、线程频繁切换问题。分析问题我们需要做好两件事,第一,掌握基本的原理,第二,借助好工具。本文也列举了分析问题的常用工具和命令,希望对你解决问题有所帮助。当然真正的线上环境可能十分复杂,并没有模拟的环境那么简单,但是原理是一样的,问题的表现也是类似的,我们重点抓住原理,活学活用,相信复杂的线上问题也可以顺利解决。

觉得文章写的还不错的,麻烦老铁点赞+关注支持一下,后期会不断更新技术好文,不迷路

需要更多资料的,关注公众号:Java架构师联盟,每日更细技术好文

性能调优都在谈,但是你真的明白吗?还是来看清华大佬教你如何既亡羊补牢又未雨绸缪_第9张图片

你可能感兴趣的:(调优,java)