0.前言
字符串分割是日常开发中常见的需求。实际中,我们也没少被String中的split函数挖坑。在commons-lang3中,有一个StringUtils类,里面有很多对字符串进行操作的方法,其中就有split方法。现在我们就将String里的split与StringUtils.split分别拿出来做一下对比。
1.先看代码
首先为了了解这些split方法的不同,我们先来看个简单的demo。二话不说,先上代码。
import org.apache.commons.lang3.StringUtils
object StrTest {
def test() = {
val raw = "a,,b,,c,ddd,,,"
val res1 = raw.split(",")
val res2 = StringUtils.split(raw, ",")
val res3 = StringUtils.splitPreserveAllTokens(raw, ",")
printArray(res1)
printArray(res2)
printArray(res3)
}
def main(args: Array[String]): Unit = {
test()
}
def printArray(array: Array[String]) = {
println("the length of array is: " + array.length)
for(i <- 0 until array.length) {
println(i + ": " + array(i))
}
println()
}
}
这段代码里用到了三个跟split相关的方法:java.lang.String
里的split方法, StringUtils
里的split与splitPreserveAllTokens方法。
那么这三个方法的不同在哪里?先看代码的输出结果:
the length of array is: 6
0: a
1:
2: b
3:
4: c
5: ddd
the length of array is: 4
0: a
1: b
2: c
3: ddd
the length of array is: 9
0: a
1:
2: b
3:
4: c
5: ddd
6:
7:
8:
2.String.split中需要注意的问题
可以看出上面三个split方法得到的结果都不尽相同。那为什么会这样呢?我们结合源码来一一分析。
首先我们来看String.split的方法原型。
public String[] split(String regex)
由此可见,split方法传入的是一个正则表达式。注意,参数regex是个正则表达式!所以,如果分隔符是正则表达式里的特殊字符,就需要打起十二分注意了。例如下面的例子:
String[] aa = "aaa|bbb|ccc".split("|"); //这样是不行的,得不到想要的结果
String[] aa = "aaa|bbb|ccc".split("\\|"); //这样才能得到正确的结果
另外我们看为什么最后三个逗号也得不到预期的结果,主要是因为源码里有这么一部分代码:
int resultSize = list.size();
if (limit == 0) {
while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
resultSize--;
}
}
由这段代码克制,当list最后一个元素的长度为0的时候,resultSize做了--的操作!(其实我也不明白JDK里为什么要这么干。。。)
3.StringUtils中的split方法
StringUtils中的split方法采用的也是KMP算法。由最前面的结果可以看出,StringUtils进行split的时候,会将结果中所有的空字符串过滤掉!当然如果是空格的话是不会过滤掉的。
4.StringUtils中的splitPreserveAllTokens方法
实际工作中做数据预处理的时候,经常会存在有些字段空缺的情况。但是即使这些字段空缺,我们也是需要保证分割得到的数组中包含空缺字段的,显然此时String.split方法与StringUtils.split都不能满足我们上面的需求。这个时候,就需要splitPreserveAllTokens出马了。
先看看StringUtils中split方法跟splitPreserveAllTokens方法的源码:
public static String[] split(String str, String separatorChars) {
return splitWorker(str, separatorChars, -1, false);
}
public static String[] splitPreserveAllTokens(String str, String separatorChars) {
return splitWorker(str, separatorChars, -1, true);
}
private static String[] splitWorker(String str, String separatorChars, int max, boolean preserveAllTokens)
由此可见,split与splitPreserveAllTokens方法都是调用的splitWorker方法,唯一的区别就是在调用splitWorker的时候,preserveAllTokens这个标志符,一个为false,另外一个为true,所以最后得出的结果不一样!
对于我们日常做数据的ETL清洗来说,因为经常存在有字段值为空的情况,所以我们尽量使用splitPreserveAllTokens方法为好!