有关String的源码分析,可以查看一下我的前一篇文章:String源码分析
要理解String的拼接过程,先要理解以下几个概念
1.不可变的String
我们总是说String对象是不可变的,那到底是什么导致不可变?
首先谈一谈Java的机制,String在编译阶段会把已知的字面量放在常量池中,详细可以参考Java-常量池
在String源码分析里可以看到,String实质是一个char数组,初始化字符串有两种方式:
String a = "java";
String b = new String("java");
当使用=赋值的时候,相当于把String的变量指java常量池中的"java";
而使用new赋值的时候则会在java堆中重新分配空间存放"java"。
无论是以上哪种方式生成的字符串,在生成结束后都是一个已知长度的char数组。大家都知道,数组的长度是不可改变的。
当String变量重新赋值的时候,实则是将变量指向java常量池的另一个制,又或者是在java堆中重新分配空间存放。
而String类中每一个看起来会修改String值的方法,实际上都是创建了一个全新的String对象,则新的char数组,以包含修改后的字符串内容。
因此说,String是不可变的。
2.重载“+”
在Java中,唯一被重载的运算符就是用于String的“+”与“+=”。除此之外,Java不允许程序员重载其他的运算符。
public class StringTest {
String a = "abc";
String b = "mongo";
String info = a + b + 47;
}
String对象是不可变的,所以在上述的代码过程中可能会是这样工作的:
1. "abc" + "mongo" 创建新的String对象abcmongo;
2. "abcmongo" + "47" 创建新的String对象abcmongo47;
3. 引用info 指向最终生成的String。
但是这种方式会生成一大堆需要垃圾回收的中间对象,性能相当糟糕。
编译器的优化处理
Compiled from "StringTest.java"
public class StringTest {
java.lang.String a;
java.lang.String b;
java.lang.String info;
public StringTest();
Code:
0: aload_0
1: invokespecial #12 // Method java/lang/Object."":
()V
4: aload_0
5: ldc #14 // String abc
7: putfield #16 // Field a:Ljava/lang/String;
10: aload_0
11: ldc #18 // String mongo
13: putfield #20 // Field b:Ljava/lang/String;
16: aload_0
17: new #22 // class java/lang/StringBuilder
20: dup
21: aload_0
22: getfield #16 // Field a:Ljava/lang/String;
25: invokestatic #24 // Method java/lang/String.valueOf:(
Ljava/lang/Object;)Ljava/lang/String;
28: invokespecial #30 // Method java/lang/StringBuilder."<
init>":(Ljava/lang/String;)V
31: aload_0
32: getfield #20 // Field b:Ljava/lang/String;
35: invokevirtual #33 // Method java/lang/StringBuilder.ap
pend:(Ljava/lang/String;)Ljava/lang/StringBuilder;
38: bipush 47
40: invokevirtual #37 // Method java/lang/StringBuilder.ap
pend:(I)Ljava/lang/StringBuilder;
43: invokevirtual #40 // Method java/lang/StringBuilder.to
String:()Ljava/lang/String;
46: putfield #44 // Field info:Ljava/lang/String;
49: return
}
反编译以上代码会发现,编译器自动引入了StringBuilder类。
编译器创建了一个StringBuilder对象,并调用StringBuilder.append()方法,最后调用toString()生成结果,从而避免中间对象的性能损耗。
编译器优化String对象的连接,而下面这种情况会直接连接作为常量。
public class StringTest {
String info = "Andy" + "24" + "Developer";
}
Compiled from "StringTest.java"
public class StringTest {
java.lang.String info;
public StringTest();
Code:
0: aload_0
1: invokespecial #10 // Method java/lang/Object."":
()V
4: aload_0
5: ldc #12 // String abcmongo47
7: putfield #14 // Field info:Ljava/lang/String;
10: return
}
3.编译器的优化是有限度的
- 性能较低的代码
public void implicitUseStringBuilder(String[] values) {
String result = "";
for (int i = 0 ; i < values.length; i ++) {
result += values[i];
}
System.out.println(result);
}
public void implicitUseStringBuilder(java.lang.String[]);
Code:
0: ldc #11 // String
2: astore_2
3: iconst_0
4: istore_3
5: iload_3
6: aload_1
7: arraylength
8: if_icmpge 38
11: new #5 // class java/lang/StringBuilder
14: dup
15: invokespecial #6 // Method java/lang/StringBuilder."":()V
18: aload_2
19: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
22: aload_1
23: iload_3
24: aaload
25: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
28: invokevirtual #8 // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
31: astore_2
32: iinc 3, 1
35: goto 5
38: getstatic #9 // Field java/lang/System.out:Ljava/io/PrintStream;
41: aload_2
42: invokevirtual #10 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
45: return
其中8: if_icmpge 38
和 35: goto 5
构成了一个循环。
8: if_icmpge 38
的意思是如果(i < values.length的相反结果)成立,则跳到第38行(System.out)。
35: goto 5
则表示直接跳到第5行。
但是这里面有一个很重要的就是StringBuilder对象创建发生在循环之间,也就是意味着有多少次循环会创建多少个StringBuilder对象,这样明显性能较低。
- 性能较高的代码
public void explicitUseStringBuider(String[] values) {
StringBuilder result = new StringBuilder();
for (int i = 0; i < values.length; i ++) {
result.append(values[i]);
}
}
public void explicitUseStringBuider(java.lang.String[]);
Code:
0: new #5 // class java/lang/StringBuilder
3: dup
4: invokespecial #6 // Method java/lang/StringBuilder."":()V
7: astore_2
8: iconst_0
9: istore_3
10: iload_3
11: aload_1
12: arraylength
13: if_icmpge 30
16: aload_2
17: aload_1
18: iload_3
19: aaload
20: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
23: pop
24: iinc 3, 1
27: goto 10
30: return
从上面可以看出,13: if_icmpge 30
和27: goto 10
构成了一个loop循环,而0: new #5位于循环之外,所以不会多次创建StringBuilder.
综上,循环体中需要尽量避免隐式或者显式创建StringBuilder。
不过有种特殊情况,当final修饰的变量发生连接动作时,虚拟机会进行优化,将表达式结果直接赋值给目标变量:
public class StringTest {
public static void main(String[] args) {
final String a = "hello ";
final String b = "world";
String c = a + b;
String d = "hello world";
}
}
编译后字节码如下:
4.StringBuilder
连接符号 "+" 本质
在上文讨论后得知,字符串变量(非final修饰)通过 "+" 进行拼接,在编译过程中会转化为StringBuilder对象的append操作,注意是编译过程,而不是在JVM中。
性能问题
StringBuilder内部维护了一个char[]类型的value,用来保存通过append方法添加的内容,通过 new StringBuilder()初始化时,char[]的默认长度为16,如果append第17个字符,会发生什么?
void expandCapacity(int minimumCapacity) {
int newCapacity = value.length * 2 + 2;
if (newCapacity - minimumCapacity < 0)
newCapacity = minimumCapacity;
if (newCapacity < 0) {
if (minimumCapacity < 0) // overflow
throw new OutOfMemoryError();
newCapacity = Integer.MAX_VALUE;
}
value = Arrays.copyOf(value, newCapacity);
}
如果value的剩余容量,无法添加全部内容,则通过expandCapacity(int minimumCapacity)方法对value进行扩容,其中minimumCapacity = 原value长度 + append添加的内容长度。