coreseek 自定义词库(一)

中文搜索中,首先是了解了 coreseek( lucene,你也可以看一下xunsearch,不过xunsearch 快不支持修订了 ), coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果,所以需要自己定义分词库。

1.你可以到搜狗或者其它的输入法中获取到相应的词库,比如:使用
四十万汉语大词库,搜狗下载下来是 scel 格式

2.系在一个工具,将他转换成 txt 格式 ,并且一定要使用 utf8 编码。比如使用:深蓝词库转换

3.在linux中找到安装coreseek的时候安装的分词mmseg目录,将我们转换的txt格式的词典转换成mmseg支持的格式

比如:在命令行下运行    /usr/local/mmseg3/bin/mmseg -u test.txt   会生成:test.
txt.uni
然后将  
test. txt.uni 命名为  uni.lib  
再将 uni.lib 移动到
/usr/local/mmseg3/etc 目录下面
3.重新进行分词,即可



如果有什么错误,请与我交流联系:[email protected]
也可以博客给我留言



你可能感兴趣的:(linux,coreseek,中文搜索)