给LUKE增加word分词器

word分词是一个Java实现的分布式中文分词组件

 

1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)

2、下载并解压Java中文分词组件word-1.0-bin.zip

3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹,用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar,将当前文件夹里面除了.jar、.bat、.html文件外的其他所有文件拖到lukeall-4.0.0-ALPHA.jar里面 

4、执行命令 java  -jar  lukeall-4.0.0-ALPHA.jar 启动luke,在Search选项卡的Analysis里面就可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器了

5、在Plugins选项卡的Available analyzers found on the current classpath里面也可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器


下载已经集成好的Luke插件:

lukeall-4.0.0-ALPHA-with-word-1.0.jar (适用于lucene4.0.0)

lukeall-4.10.3-with-word-1.2.jar(适用于lucene4.10.3)

如下图所示:

 给LUKE增加word分词器_第1张图片 

给LUKE增加word分词器_第2张图片

给LUKE增加word分词器_第3张图片

你可能感兴趣的:(搜索,Nutch,word,word分词,网络爬虫,luke)