String.split与StringUtils.split对比

0.前言

字符串分割是日常开发中常见的需求。实际中,我们也没少被String中的split函数挖坑。在commons-lang3中,有一个StringUtils类,里面有很多对字符串进行操作的方法,其中就有split方法。现在我们就将String里的split与StringUtils.split分别拿出来做一下对比。

1.先看代码

首先为了了解这些split方法的不同,我们先来看个简单的demo。二话不说,先上代码。

import org.apache.commons.lang3.StringUtils

object StrTest {

    def test() = {
        val raw = "a,,b,,c,ddd,,,"
        val res1 = raw.split(",")
        val res2 = StringUtils.split(raw, ",")
        val res3 = StringUtils.splitPreserveAllTokens(raw, ",")
        printArray(res1)
        printArray(res2)
        printArray(res3)
    }

    def main(args: Array[String]): Unit = {
        test()
    }

    def printArray(array: Array[String]) = {
        println("the length of array is: " + array.length)
        for(i <- 0 until array.length) {
            println(i + ": " + array(i))
        }
        println()
    }
}

这段代码里用到了三个跟split相关的方法:java.lang.String里的split方法, StringUtils里的split与splitPreserveAllTokens方法。

那么这三个方法的不同在哪里?先看代码的输出结果:

the length of array is: 6
0: a
1: 
2: b
3: 
4: c
5: ddd

the length of array is: 4
0: a
1: b
2: c
3: ddd

the length of array is: 9
0: a
1: 
2: b
3: 
4: c
5: ddd
6: 
7: 
8: 

2.String.split中需要注意的问题

可以看出上面三个split方法得到的结果都不尽相同。那为什么会这样呢?我们结合源码来一一分析。
首先我们来看String.split的方法原型。

public String[] split(String regex)

由此可见,split方法传入的是一个正则表达式。注意,参数regex是个正则表达式!所以,如果分隔符是正则表达式里的特殊字符,就需要打起十二分注意了。例如下面的例子:

String[] aa = "aaa|bbb|ccc".split("|");  //这样是不行的,得不到想要的结果
String[] aa = "aaa|bbb|ccc".split("\\|");  //这样才能得到正确的结果 

另外我们看为什么最后三个逗号也得不到预期的结果,主要是因为源码里有这么一部分代码:

            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }

由这段代码克制,当list最后一个元素的长度为0的时候,resultSize做了--的操作!(其实我也不明白JDK里为什么要这么干。。。)

3.StringUtils中的split方法

StringUtils中的split方法采用的也是KMP算法。由最前面的结果可以看出,StringUtils进行split的时候,会将结果中所有的空字符串过滤掉!当然如果是空格的话是不会过滤掉的。

4.StringUtils中的splitPreserveAllTokens方法

实际工作中做数据预处理的时候,经常会存在有些字段空缺的情况。但是即使这些字段空缺,我们也是需要保证分割得到的数组中包含空缺字段的,显然此时String.split方法与StringUtils.split都不能满足我们上面的需求。这个时候,就需要splitPreserveAllTokens出马了。
先看看StringUtils中split方法跟splitPreserveAllTokens方法的源码:

    public static String[] split(String str, String separatorChars) {
        return splitWorker(str, separatorChars, -1, false);
    }

    public static String[] splitPreserveAllTokens(String str, String separatorChars) {
        return splitWorker(str, separatorChars, -1, true);
    }

    private static String[] splitWorker(String str, String separatorChars, int max, boolean preserveAllTokens) 

由此可见,split与splitPreserveAllTokens方法都是调用的splitWorker方法,唯一的区别就是在调用splitWorker的时候,preserveAllTokens这个标志符,一个为false,另外一个为true,所以最后得出的结果不一样!

对于我们日常做数据的ETL清洗来说,因为经常存在有字段值为空的情况,所以我们尽量使用splitPreserveAllTokens方法为好!

你可能感兴趣的:(String.split与StringUtils.split对比)