处理数据中的空格问题

任务需求:数据预处理阶段,需要剔除标题中前后的空格

考虑因素:

1、全角转半角

2、160号空格要注意,先转化或删除

3、使用trim()删除前后


代码:

1、全角转半角

 /**
         * 全角转半角
         * @param input String.
         * @return 半角字符串
         */
        public static String ToDBC(String input) {
                 char c[] = input.toCharArray();
                 for (int i = 0; i < c.length; i++) {
                   if (c[i] == '\u3000') {
                     c[i] = ' ';
                   } else if (c[i] > '\uFF00' && c[i] < '\uFF5F') {
                     c[i] = (char) (c[i] - 65248);
                   }
                 }
            String returnString = new String(c);
            
                 return returnString;
        }

2、title.replaceAll("\\u00A0", " ")

3、title.trim()

你可能感兴趣的:(NLP)