[solr] solr5.5.2配置结巴分词工具

 

为什么选择结巴分词

  • 分词效率高
  • 词料库构建时使用的是jieba (python)

结巴分词Java版本

  • 下载
git clone https://github.com/huaban/jieba-analysis
  • 编译
  1. cd jieba-analysis

  2. mvn install

  • 注意
如果mvn版本较高,需要修改pom.xml文件,在plugins前面增加 

     或者直接下载jieba-analysis-1.0.2.jar:链接:https://pan.baidu.com/s/1kt3wE7v-hdrM_04asLyFGg  密码:boda

 

solr tokenizer版本

  • https://github.com/sing1ee/analyzer-solr (solr 5)编译
./gladlew build

集成到solr

拷贝上面两个jar包到solr的目录下:server/solr-webapp/webapp/WEB-INF/lib

你可能感兴趣的:(MachineLP成长记,solr安装结巴分词)