coreseek添加新词库

coreseek添加新词库

coreseek使用mmseg作为分词工具,默认的词库是有限的,我们需要为mmseg增加自定义词,用来丰富词库,实现更加精准的搜索服务。本文介绍如何自定义mmseg词,并通过脚本和mmseg命令导入词库。

1、下载搜狗词库
搜狗词库下载地址:http://pinyin.sogou.com/dict/

2、然后通过以下工具 把搜狗词库scel转txt/mmseg
https://www.toolnb.com/tools/scelto.html

3、将多个词库txt文本文件合并为一个文件

新建一个文本文档,文本中输入如下代码:

copy *.txt unigram.txt
将文本文档的扩展名改为bat,如“merge.bat”。

双击运行merge.bat,会将所有以.txt结尾的文件合并到unigram.txt中


4、生成uni.lib最终词库
用cmd命令行进入bin文件夹,里面有个mmseg.exe 程序
cd E:\..\coreseek-3.2.14-win32\coreseek-3.2.14-win32\bin
unigram.txt也放入这个文件夹
在cmd中运行以下命令

mmseg -u unigram.txt

将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件,
将该文件改名为uni.lib,
完成词典的构造。

需要注意的是,unigram.txt需要预先准备,并且编码格式必须为UTF-8编码。

 

  5. 测试新词库能否正解分词。在C:\coreseek\bin下新建文本文件test.txt。输入要测试的关键词。 例如:四季服装网中大面料辅料,然后保存。当中一定要包含你新加进词库的某个关键词。例如四季服装网是我新加的 关键词。然后在刚才的命令行下执行mmseg -d C:\coreseek\bin test.txt>result.txt .执行完后打开新生产 的结果文件result.txt .如果看到分词结果类似四季服装网/x 中大/x 面料/x 辅料/x 的话证明词库已正确生成, 如果看到新关键词被分切开如: 四/x 季/x 服/x 装/x网/x 中大/x 面料/x 辅料/x的话就说明新的词库并不正确。 要检查一下哪里出错了,重新生产。

  6. 再把得到的uni.lib复制到C:\coreseek\etc覆盖原文件就大功告成了

 

把uni.lib放回uni.lib所在目录


 

你可能感兴趣的:(coreseek,coreseek)