【Java】jieba分词对象

结巴分词(java版) jieba-analysis

引言

首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴
分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词。
不过由于huaban已经没有再对java版进行维护,所以我自己对项目进行了开发。除了结巴分词(java版)所保留的原项目针对搜索引擎分词的功能(cut~forindex~、cut~forsearch~),我加入了tfidf的关键词提取功能,并且实现的效果和python的jieba版本的效果一模一样!

导入依赖

<dependency>
  <groupId>com.huaban</groupId>
  <artifactId>jieba-analysis</artifactId>
  <version>1.0.2</version>
</dependency>

使用方法

    public static void main(String[] args) {
        //用法:
        JiebaSegmenter jiebaSegmenter = new JiebaSegmenter();
        String s1="我的宿舍:位于河南省,新乡市牧野区,建设东区46号,河南师范大学,东校区,东16号学生公寓";
        List<String> strings = jiebaSegmenter.sentenceProcess(s1);
        for (String s:strings){
            System.out.println(s);
        }
//        实操:
        System.out.println(new JiebaSegmenter().sentenceProcess("我的宿舍:位于河南省,新乡市牧野区,建设东区46号,河南师范大学,东校区,东16号学生公寓"));
    }

控制台结果展示

【Java】jieba分词对象_第1张图片
改进
虽然我们完整的把句子分成了单词和文字,但是我们并没有达到我们想要的结果,因为jieba并没有把标点符号(±*/!!??)给去掉

思路1,可以把所有的标点符号都replace掉【有点麻烦,而且需要考虑周全】,即

s1.replace(",","").replace("+","").replace("-","").replace("*","").replace("/","")
...;

思路2:用正则表达式,把所有的标点符号全部去除

s1.replaceAll("[\\pP‘’“”]", "")

改进效果

//        思路1:
        System.out.println(new JiebaSegmenter().sentenceProcess(s1.replace(",", "").replace("+", "").replace("-", "").replace("*", "").replace("/", "").replace("!", "").replace("?", "").replace(",", "").replace("?", "").replace("!", "").replace(";", "").replace("‘", "").replace(":", "").replace("”", "")));

//        思路2:
        System.out.println(new JiebaSegmenter().sentenceProcess(s1.replaceAll("[\\pP‘’“”]", "")));

在这里插入图片描述
可以看到:效果一样,而正则表达式事半功倍

你可能感兴趣的:(Java,IDEA,大数据,java,大数据,spring)