为Nutch 1.0添加JE中文分词

为Nutch 1.0添加JE中文分词
文章来源网络 属于java 分类 电脑编程网整理 20091223
简介:这是为Nutch 1.0添加JE中文分词的详细页面,介绍了和java,有关的知识,加入收藏请按键盘ctrl+D,谢谢大家的观看!要查看更多有关信息,请点击此处
先下载Nutch 1.0的源文件:
svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0
更改查询语法解析部分:
改变tokenize的方式(原来为中文单字识别)
modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”line 130:
| >
change to:
| )+ >
run “javacc”
cd nutch-1.0/src/java/org/apache

你可能感兴趣的:(为Nutch 1.0添加JE中文分词)