JDK 6 和 JDK 7 中 substring 的原理及区别

substring() 的作用

substring(int beginIndex, int endIndex) 方法截取字符串并返回其 [beginIndex, endIndex - 1] 范围内的内容。

String x = "abcdef";
x = x.substring(1, 3);
System.out.println(x);

输出内容:

bc

调用 substring() 时发生了什么?

你可能知道,因为 x 是不可变的,当使用 x.substring(1,3)x 赋值的时候,它会指向一个全新的字符串:

JDK 6 和 JDK 7 中 substring 的原理及区别_第1张图片

然而,这个图不是完全正确的表示堆中发生的事情。因为在 jdk6 和 jdk7 中调用 substring 时发生的事情并不一样。

JDK 6 中的 substring

String 是通过字符数组实现的。在 jdk 6 中,String 类包含三个成员变量:char value[]int offsetint count。他们分别用来存储真正的字符数组,数组的第一个位置索引以及字符串中包含的字符个数。

当调用 substring 方法的时候,会创建一个新的 string 对象,但是这个 string 的值仍然指向堆中的同一个字符数组。这两个对象中只有 count 和 offset 的值是不同的。

JDK 6 和 JDK 7 中 substring 的原理及区别_第2张图片

下面是证明上述观点的 Java 源码中的关键代码:

//JDK 6
String(int offset, int count, char value[]) {
    this.value = value;
    this.offset = offset;
    this.count = count;
}

public String substring(int beginIndex, int endIndex) {
    //check boundary
    return new String(offset + beginIndex, endIndex - beginIndex, value);
}

JDK 6 中的 substring 导致的问题

如果你有一个很长很长的字符串,但是当你使用 substring 进行切割的时候你只需要很短的一段。这可能导致性能问题,因为你需要的只是一小段字符序列,但是你却引用了整个字符串(因为这个非常长的字符数组一直在被引用,所以无法被回收,就可能导致内存泄露)。在 JDK 6 中,一般用以下方式来解决该问题,原理其实就是生成一个新的字符串并引用他。

x = x.substring(x, y) + ""

JDK 7 中的 substring

上面提到的问题,在 jdk 7 中得到解决。在 jdk 7 中,substring 方法会在堆内存中创建一个新的数组。

JDK 6 和 JDK 7 中 substring 的原理及区别_第3张图片

Java 源码中关于这部分的主要代码如下:

//JDK 7
public String(char value[], int offset, int count) {
    //check boundary
    this.value = Arrays.copyOfRange(value, offset, offset + count);
}

public String substring(int beginIndex, int endIndex) {
    //check boundary
    int subLen = endIndex - beginIndex;
    return new String(value, beginIndex, subLen);
}

总结

在 JDK 6 中,substring() 的做法是,用一个字符数组来表示现存的字符串,然后给这个字符数组提供一个“窗口”,但实际并没有创建一个新的字符数组。要创建一个新的字符串对象由新的字符串数组表示的话,你需要加上一个空字符串,如下所示:

str.substring(m, n) + ""

这会创建一个新的字符数组,用来表示新的字符串。这种方法会让你的代码更快,因为垃圾收集器会收集不用的长字符串,而仅保存要使用的子字符串。

在 JDK 7 中,substring() 会创建新的字符数组,而不是使用现存的字符数组。

你可能感兴趣的:(JDK 6 和 JDK 7 中 substring 的原理及区别)