String源码分析2 字符串拼接

有关String的源码分析,可以查看一下我的前一篇文章:String源码分析

要理解String的拼接过程,先要理解以下几个概念

1.不可变的String


我们总是说String对象是不可变的,那到底是什么导致不可变?
首先谈一谈Java的机制,String在编译阶段会把已知的字面量放在常量池中,详细可以参考Java-常量池

在String源码分析里可以看到,String实质是一个char数组,初始化字符串有两种方式:

String a = "java";
String b = new String("java");

当使用=赋值的时候,相当于把String的变量指java常量池中的"java";
而使用new赋值的时候则会在java堆中重新分配空间存放"java"。
无论是以上哪种方式生成的字符串,在生成结束后都是一个已知长度的char数组。大家都知道,数组的长度是不可改变的。

当String变量重新赋值的时候,实则是将变量指向java常量池的另一个制,又或者是在java堆中重新分配空间存放。
而String类中每一个看起来会修改String值的方法,实际上都是创建了一个全新的String对象,则新的char数组,以包含修改后的字符串内容。

因此说,String是不可变的。

2.重载“+”


在Java中,唯一被重载的运算符就是用于String的“+”与“+=”。除此之外,Java不允许程序员重载其他的运算符。

public class StringTest {
    String a = "abc";
    String b = "mongo";
    String info = a + b + 47;
}

String对象是不可变的,所以在上述的代码过程中可能会是这样工作的:
1. "abc" + "mongo" 创建新的String对象abcmongo;
2. "abcmongo" + "47" 创建新的String对象abcmongo47;
3. 引用info 指向最终生成的String。
但是这种方式会生成一大堆需要垃圾回收的中间对象,性能相当糟糕。

编译器的优化处理

Compiled from "StringTest.java"
public class StringTest {
  java.lang.String a;

  java.lang.String b;

  java.lang.String info;

  public StringTest();
    Code:
       0: aload_0
       1: invokespecial #12                 // Method java/lang/Object."":
()V
       4: aload_0
       5: ldc           #14                 // String abc
       7: putfield      #16                 // Field a:Ljava/lang/String;
      10: aload_0
      11: ldc           #18                 // String mongo
      13: putfield      #20                 // Field b:Ljava/lang/String;
      16: aload_0
      17: new           #22                 // class java/lang/StringBuilder
      20: dup
      21: aload_0
      22: getfield      #16                 // Field a:Ljava/lang/String;
      25: invokestatic  #24                 // Method java/lang/String.valueOf:(
Ljava/lang/Object;)Ljava/lang/String;
      28: invokespecial #30                 // Method java/lang/StringBuilder."<
init>":(Ljava/lang/String;)V
      31: aload_0
      32: getfield      #20                 // Field b:Ljava/lang/String;
      35: invokevirtual #33                 // Method java/lang/StringBuilder.ap
pend:(Ljava/lang/String;)Ljava/lang/StringBuilder;
      38: bipush        47
      40: invokevirtual #37                 // Method java/lang/StringBuilder.ap
pend:(I)Ljava/lang/StringBuilder;
      43: invokevirtual #40                 // Method java/lang/StringBuilder.to
String:()Ljava/lang/String;
      46: putfield      #44                 // Field info:Ljava/lang/String;
      49: return
}

反编译以上代码会发现,编译器自动引入了StringBuilder类。
编译器创建了一个StringBuilder对象,并调用StringBuilder.append()方法,最后调用toString()生成结果,从而避免中间对象的性能损耗。

编译器优化String对象的连接,而下面这种情况会直接连接作为常量。

public class StringTest {
    String info = "Andy" + "24" + "Developer";
}
Compiled from "StringTest.java"
public class StringTest {
  java.lang.String info;

  public StringTest();
    Code:
       0: aload_0
       1: invokespecial #10                 // Method java/lang/Object."":
()V
       4: aload_0
       5: ldc           #12                 // String abcmongo47
       7: putfield      #14                 // Field info:Ljava/lang/String;
      10: return
}

3.编译器的优化是有限度的


  • 性能较低的代码
public void  implicitUseStringBuilder(String[] values) {
   String result = "";
   for (int i = 0 ; i < values.length; i ++) {
       result += values[i];
   }
   System.out.println(result);
 }
public void implicitUseStringBuilder(java.lang.String[]);
Code:
  0: ldc           #11                 // String 
  2: astore_2
  3: iconst_0
  4: istore_3
  5: iload_3
  6: aload_1
  7: arraylength
  8: if_icmpge     38
 11: new           #5                  // class java/lang/StringBuilder
 14: dup
 15: invokespecial #6                  // Method java/lang/StringBuilder."":()V
 18: aload_2
 19: invokevirtual #7                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
 22: aload_1
 23: iload_3
 24: aaload
 25: invokevirtual #7                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
 28: invokevirtual #8                  // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
 31: astore_2
 32: iinc          3, 1
 35: goto          5
 38: getstatic     #9                  // Field java/lang/System.out:Ljava/io/PrintStream;
 41: aload_2
 42: invokevirtual #10                 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
 45: return

其中8: if_icmpge 3835: goto 5构成了一个循环。

8: if_icmpge 38的意思是如果(i < values.length的相反结果)成立,则跳到第38行(System.out)。

35: goto 5则表示直接跳到第5行。

但是这里面有一个很重要的就是StringBuilder对象创建发生在循环之间,也就是意味着有多少次循环会创建多少个StringBuilder对象,这样明显性能较低。

  • 性能较高的代码
public void explicitUseStringBuider(String[] values) {
   StringBuilder result = new StringBuilder();
   for (int i = 0; i < values.length; i ++) {
       result.append(values[i]);
   }
 }
public void explicitUseStringBuider(java.lang.String[]);
Code:
  0: new           #5                  // class java/lang/StringBuilder
  3: dup
  4: invokespecial #6                  // Method java/lang/StringBuilder."":()V
  7: astore_2
  8: iconst_0
  9: istore_3
 10: iload_3
 11: aload_1
 12: arraylength
 13: if_icmpge     30
 16: aload_2
 17: aload_1
 18: iload_3
 19: aaload
 20: invokevirtual #7                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
 23: pop
 24: iinc          3, 1
 27: goto          10
 30: return

从上面可以看出,13: if_icmpge 3027: goto 10构成了一个loop循环,而0: new #5位于循环之外,所以不会多次创建StringBuilder.

综上,循环体中需要尽量避免隐式或者显式创建StringBuilder。

不过有种特殊情况,当final修饰的变量发生连接动作时,虚拟机会进行优化,将表达式结果直接赋值给目标变量:

public class StringTest {
    public static void main(String[] args) {
        final String a = "hello ";
        final String b = "world";
        String c = a + b;
        String d = "hello world";
    }
}

编译后字节码如下:

String源码分析2 字符串拼接_第1张图片

4.StringBuilder


连接符号 "+" 本质
在上文讨论后得知,字符串变量(非final修饰)通过 "+" 进行拼接,在编译过程中会转化为StringBuilder对象的append操作,注意是编译过程,而不是在JVM中。

性能问题
StringBuilder内部维护了一个char[]类型的value,用来保存通过append方法添加的内容,通过 new StringBuilder()初始化时,char[]的默认长度为16,如果append第17个字符,会发生什么?

void expandCapacity(int minimumCapacity) {
    int newCapacity = value.length * 2 + 2;
    if (newCapacity - minimumCapacity < 0)
        newCapacity = minimumCapacity;
    if (newCapacity < 0) {
        if (minimumCapacity < 0) // overflow
            throw new OutOfMemoryError();
        newCapacity = Integer.MAX_VALUE;
    }
    value = Arrays.copyOf(value, newCapacity);
}

如果value的剩余容量,无法添加全部内容,则通过expandCapacity(int minimumCapacity)方法对value进行扩容,其中minimumCapacity = 原value长度 + append添加的内容长度。

你可能感兴趣的:(String源码分析2 字符串拼接)