Java将英文句子分解为单词

类及方法选择

Java中substring方法可以分解字符串,返回的是原字符串的一个子字符串。如果要讲一个字符串分解为一个一个的单词或者标记,可以使用StringTokenizer。
有两个方法常用:
1.hasMoreTokens()。这个方法和hasMoreElements()方法的用法是一样的,只是StringTokenizer为了实现Enumeration接口而实现的方法,从StringTokenizer的声明可以看到:class StringTokenizer implements Enumeration。
2.nextToken()。这个方法和nextElement()方法的用法是一样的,返回此 StringTokenizer 的下一个标记。
使用String.spilt()方法时,效率没有StringTokenizer高,并且只是单一字符串的分割。因此使用StringTokenizer更好。

代码示例

String text = tweet.getText();
StringTokenizer st = new StringTokenizer(text," ,?.!:\"\"''\n#");
List wordList = new ArrayList<>();
while (st.hasMoreElements()) {
    wordList.add(st.nextToken().toLowerCase());
}

你可能感兴趣的:(Java将英文句子分解为单词)