Lucene4.9基础学习第四步

前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行,这个包同时更新。



package com.wfc.lucene_1;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;

public class Test_1 {

	public static void main(String[] args)throws Exception {  
        //下面这个分词器,是经过修改支持同义词的分词器  
		StandardAnalyzer analyzer=new StandardAnalyzer(Version.LUCENE_4_9);  
String text="三劫散仙是一个菜鸟";  
TokenStream ts=analyzer.tokenStream("field", new StringReader(text));  
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);  
ts.reset();//重置做准备  
while(ts.incrementToken()){  
  System.out.println(term.toString());  
}  
ts.end();//  
ts.close();//关闭流  
}  
}



                                   Lucene4.9基础学习第四步_第1张图片



关于分词的知识有很多,以后补充过来。

你可能感兴趣的:(Lucene4.9基础学习第四步)