Java中如何从字符串中剔除特定单词

ebce08c3ba50b9a2b0aa801b079943b4.gif

1. 概述

本文将讨论多种从字符串中移除stopwords(停用词汇)的方法。从文本中去除不需要的或禁止的单词,比如用户发布的评论。
我们将使用一个轮询、Collection.removeAll()、正则表达式。最后会使用java-microbenchmark-harness会对比这几个方法的性能。

2. 加载stopwords

首先从文本文件加载stopwords。
准备一个文件,english_stopwords.txt,里面包括准备禁用的词汇,比如I、she、he、the。
首先用Files.readAllLines()加载到List中。

@BeforeClass
public static void loadStopwords() throws IOException {
    stopwords = Files.readAllLines(Paths.get("english_stopwords.txt"));
}

3.手动剔除stopwords

第一个解决方案,通过遍历每个词汇来判断其是否为stopwords:

@Test
public void whenRemoveStopwordsManually_thenSuccess() {
    String original = "The quick brown fox jumps over the lazy dog"; 
    String target = "quick brown fox jumps lazy dog";
    String[] allWords = original.toLowerCase().split(" ");
 
    StringBuilder builder = new StringBuilder();
    for(String word : allWords) {
        if(!stopwords.contains(word)) {
            builder.append(word);
            builder.append(' ');
        }
    }
     
    String result = builder.toString().trim();
    assertEquals(result, target);
}

4.使用Collection.removeAll()

第二个解决方案,使用Collection.removeAll()来一次性解决问题。

@Test
public void whenRemoveStopwordsUsingRemoveAll_thenSuccess() {
    ArrayList allWords = 
      Stream.of(original.toLowerCase().split(" "))
            .collect(Collectors.toCollection(ArrayList::new));
    allWords.removeAll(stopwords);
 
    String result = allWords.stream().collect(Collectors.joining(" "));
    assertEquals(result, target);
}

5.使用正则表达式

最后,为stopwords创建正则表达式,用正则表达式来替换stopwords。

@Test
public void whenRemoveStopwordsUsingRegex_thenSuccess() {
    String stopwordsRegex = stopwords.stream()
      .collect(Collectors.joining("|", "\\b(", ")\\b\\s?"));
 
    String result = original.toLowerCase().replaceAll(stopwordsRegex, "");
    assertEquals(result, target);
}

The resulting stopwordsRegex will have the format “\b(he|she|the|…)\b\s?”. In this regex, “\b” refers to a word boundary, to avoid replacing “he” in “heat” for example, while “\s?” refers to zero or one space, to delete the extra space after replacing a stopword.
stopwordsRegex最后的形式是:\b(he|she|the|…)\b\s?。 \b:匹配一个单词边界,避免出现替换了heat中的he的情况。 \s?:意味0或1个空格。这样stopword如果还有多余的空格,也会被匹配上。被匹配上,就意味着会在下面的代码中被替换掉。

6 性能比较

我们来看一下最佳性能的方法。
首先,设置benchmark。使用一个足够大的文本文件作为要剔除stopwords的字符串的来源:shakespeare-hamlet.txt。

@Setup
public void setup() throws IOException {
    data = new String(Files.readAllBytes(Paths.get("shakespeare-hamlet.txt")));
    data = data.toLowerCase();
    stopwords = Files.readAllLines(Paths.get("english_stopwords.txt"));
    stopwordsRegex = stopwords.stream().collect(Collectors.joining("|", "\\b(", ")\\b\\s?"));
}

然后创建benchmark方法,首先使用removeManually():

@Benchmark
public String removeManually() {
    String[] allWords = data.split(" ");
    StringBuilder builder = new StringBuilder();
    for(String word : allWords) {
        if(!stopwords.contains(word)) {
            builder.append(word);
            builder.append(' ');
        }
    }
    return builder.toString().trim();
}

然后,使用removeAll()

@Benchmark
public String removeAll() {
    ArrayList allWords = 
      Stream.of(data.split(" "))
            .collect(Collectors.toCollection(ArrayList::new));
    allWords.removeAll(stopwords);
    return allWords.stream().collect(Collectors.joining(" "));
}

最后使用replaceRegex()

@Benchmark
public String replaceRegex() {
    return data.replaceAll(stopwordsRegex, "");
}

看一下测试结果:

Benchmark                           Mode  Cnt   Score    Error  Units
removeAll                           avgt   60   7.782 ±  0.076  ms/op
removeManually                      avgt   60   8.186 ±  0.348  ms/op
replaceRegex                        avgt   60  42.035 ±  1.098  ms/op

看上去,removeAll是最快的,正则方式的replaceRegex最慢。

7 结论

本文测试了3种从字符串中剔除stopwords的方式,
示例代码见github

编译:https://www.baeldung.com/java-string-remove-stopwords

你可能感兴趣的:(Java中如何从字符串中剔除特定单词)