SpringBoot 2.x整合IKAnalyzer中文分词

废话不多说,直接上代码。

SpringBoot 2.x整合IKAnalyzer中文分词_第1张图片

1、pom.xml

 
            com.janeluo
            ikanalyzer
            2012_u6
 

2、ik配置

IKAnalyzer.cfg.xml




    IK Analyzer 扩展配置
    
    local.dic;
    
    stop.dic;

local.dic

中国太平
中国太平洋

stop.dic

的
好
了

3、测试程序

package com.example.ik;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.List;

public class IKAnalyzerUtil {

    public static List<String> cut(String msg) throws IOException {
        StringReader sr=new StringReader(msg);
        IKSegmenter ik=new IKSegmenter(sr, true);
        Lexeme lex=null;
        List<String> list=new ArrayList<>();
        while((lex=ik.next())!=null){
            list.add(lex.getLexemeText());
        }
        return list;
    }
    
    public static void main(String[] args) throws IOException {
        String text="中国太平成立九十周年了!";
        List<String> list=IKAnalyzerUtil.cut(text);
        System.out.println(list);
    }
}

执行结果

加载扩展词典:local.dic
加载扩展停止词典:stop.dic
[中国太平, 成立, 九十周年]

SpringBoot 2.x整合IKAnalyzer中文分词_第2张图片

你可能感兴趣的:(自然语言处理,SpringBoot,2.x学习笔记)