Maven管理jar包的springBoot项目使用Hanlp自定义词典分词

因项目需要,使用到了Hanlp中文分词,该分词工具分词效果挺好,这里对于分词效果不展开赘述。虽然官方自带的分词词典可以满足大部分的日常分词需求,但是对于某些特殊需求就显得比较吃力,这里就需要用到自定义词典分词。

因为我是Maven管理jar包的项目,而自定义词典分词需要将自定义的词典加入下载好的词典包data文件夹下,因此直接用maven引入jar包则无法实现自定义分词(因为即便开启了”用户词典“,仍然是动态加载的官方词典库),所以这里需要自己手动将hanlp的jar放入项目中,流程如下:

1. 点击File->Project Structure->Modules

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第1张图片

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第2张图片

注:这里只需要Hanlp-1.7.2.jar就行。然后点击”OK“!

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第3张图片

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第4张图片

也可在项目中看到刚刚手动导入的jar包:

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第5张图片

 

至此,Maven管理jar包的项目手动导入jar包已成功完成(完成本步骤后切记不可再在pom.xml文件中引入Hanlp的依赖,否则刚刚导入的jar包会不起作用)。

接下来将下载好的 hanlp.properties文件复制在项目resources目录下(最好放在resources目录下,否则可能会出现加载不到该配置文件的问题,本人踩坑!!!) 

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第6张图片

只需修改hanlp.properties文件内的 root="刚刚下载好的data文件夹的上一级目录"  即可,这里data可以放在其他地方,也可一同放在resources目录下,我的项目是将data文件夹放在了resources目录下,所以下方我的root=""修改如下:(如果是放其他地方,一定要将路径写准确)

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第7张图片

然后在代码中”开启用户词典“

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第8张图片

 

 然后将自定义的词典my_dict.txt放在该位置:

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第9张图片

然后修改hanlp.properties文件

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第10张图片

注:分号”;“后空一格代表与前边的文件在同一路径下,因为其他的词典没用到,我这里没有配置其他的词典

自定义的词典格式:自定义的名称  词性 频次如图所示:

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第11张图片

 运行效果(未加入词典时:)

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第12张图片

运行效果(加入词典时:)

Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第13张图片 

注:若自定义词典不生效,可以先将如下文件删除,再运行即可

 Maven管理jar包的springBoot项目使用Hanlp自定义词典分词_第14张图片

至此,完结!!! 

 

你可能感兴趣的:(intellij-idea,maven,jar,spring)