2019独角兽企业重金招聘Python工程师标准>>>
JAVA 去除前后空格
String trim 方法去除
String space = " 这是空格 ";
//content 的字符串是: " 这是空格 " (肉眼看,前后都有空格),
//这里是为了达到我们的效果,让 看起来就跟普通空格一样
String content = StringEscapeUtils.unescapeHtml4(space);
//trim1 的结果是" 这是空格" (最前面还是有一个空格,后面没有了)
String trim1 = content.trim();
因为trim方法只能去除 普通的空格,也就是ASCII码中32的空格。而 的ASCII码是160
//content 是 " 这是空格 "(第一个空格是 )
char[] chars = content.toCharArray();
for (char c : chars) {
System.out.println(((int) c));
}
得到的结果:
160
36825
26159
31354
26684
32
trim 方法实现
public String trim() {
int len = value.length;
int st = 0;
char[] val = value; /* avoid getfield opcode */
while ((st < len) && (val[st] <= ' ')) {
st++;
}
while ((st < len) && (val[len - 1] <= ' ')) {
len--;
}
return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
}
只看它的判断逻辑就可以了。它就是判断当前char的ASCII码 是不是比普通的空格(ASCII码为32)ASCII码小。如果是就进入截取去除的范围。
从ASCII码对照表可以看到,比空格(ASCII码为32)的ASCII码小的有下面这些:
所以trim方法,能去除的不只只是空格,还有上面这些。
// ' ' 就是普通空格
val[len - 1] <= ' '
这种html空格是去除不了的。
解决问题方法
匹配替代法
String s = content.replaceAll("\u00A0", "");
00A0是16进制,它的10进制就是160
这样就能把 替换掉了。
StringUtils.normalizeSpace()
可用使用Apache commons 工具包中的 StringUtils.normalizeSpace() 方法
它把特殊的空格替代成普通的空格(不知道这样表述对不对)
public class StringUtils {
...省略
private static final Pattern WHITESPACE_PATTERN = Pattern.compile("(?: |\\u00A0|\\s|[\\s&&[^ ]])\\s*");
public static String normalizeSpace(String str) {
return str == null ? null : WHITESPACE_PATTERN.matcher(trim(str)).replaceAll(" ");
}
}
从上面的方法实现可以看出,也是通过匹配替换的方式处理的,但这工具能处理更多种空白符。而且不用我们自己手写正则。
总结
在处理一些跟html、xml、Word(Word处理时也是转成xml或者html之类的)等有关的字符串时,要有这种意识,处理的字符串中可能会包含html转义符。
使用一些String工具类,可以提高工作效率和减少一点BUG。