String的trim()方法不能去除的空格(ASCII码160)

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

JAVA 去除前后空格

String trim 方法去除

String space = " 这是空格 ";
//content 的字符串是: " 这是空格 " (肉眼看,前后都有空格),
//这里是为了达到我们的效果,让 看起来就跟普通空格一样
String content = StringEscapeUtils.unescapeHtml4(space);
//trim1 的结果是" 这是空格" (最前面还是有一个空格,后面没有了)
String trim1 = content.trim();

因为trim方法只能去除 普通的空格,也就是ASCII码中32的空格。而  的ASCII码是160

//content 是 " 这是空格 "(第一个空格是 )
char[] chars = content.toCharArray();
for (char c : chars) {
    System.out.println(((int) c));
}

得到的结果:

160
36825
26159
31354
26684
32

trim 方法实现

 public String trim() {
        int len = value.length;
        int st = 0;
        char[] val = value;    /* avoid getfield opcode */

        while ((st < len) && (val[st] <= ' ')) {
            st++;
        }
        while ((st < len) && (val[len - 1] <= ' ')) {
            len--;
        }
        return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
}

只看它的判断逻辑就可以了。它就是判断当前char的ASCII码 是不是比普通的空格(ASCII码为32)ASCII码小。如果是就进入截取去除的范围。

从ASCII码对照表可以看到,比空格(ASCII码为32)的ASCII码小的有下面这些:

String的trim()方法不能去除的空格(ASCII码160)_第1张图片

String的trim()方法不能去除的空格(ASCII码160)_第2张图片

所以trim方法,能去除的不只只是空格,还有上面这些。

 

// ' ' 就是普通空格
val[len - 1] <= ' '

  这种html空格是去除不了的。

 

解决问题方法

 

匹配替代法

String s = content.replaceAll("\u00A0", "");

00A0是16进制,它的10进制就是160

这样就能把  替换掉了。

 

StringUtils.normalizeSpace()

可用使用Apache commons 工具包中的 StringUtils.normalizeSpace() 方法

它把特殊的空格替代成普通的空格(不知道这样表述对不对)

public class StringUtils {
    ...省略
    private static final Pattern WHITESPACE_PATTERN = Pattern.compile("(?: |\\u00A0|\\s|[\\s&&[^ ]])\\s*");

    public static String normalizeSpace(String str) {
        return str == null ? null : WHITESPACE_PATTERN.matcher(trim(str)).replaceAll(" ");
    }
}

从上面的方法实现可以看出,也是通过匹配替换的方式处理的,但这工具能处理更多种空白符。而且不用我们自己手写正则。

 

总结

在处理一些跟html、xml、Word(Word处理时也是转成xml或者html之类的)等有关的字符串时,要有这种意识,处理的字符串中可能会包含html转义符。

使用一些String工具类,可以提高工作效率和减少一点BUG。

 

 

转载于:https://my.oschina.net/isaac21/blog/1794528

你可能感兴趣的:(java,移动开发,大数据)