我用的是NetBeans的编程软件,首先建立一个java项目Luence.java,项目配置如下图:
程序如下:
package paodingtest;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
/**
*
* @author Administrator
*/
public class LuenceTest {
/**
* @param args the command line arguments
*/
public static void main(String[] args) throws IOException {
// TODO code application logic here
Analyzer analyzer=new StandardAnalyzer();//标准过滤停用次
//Analyzer analyzer = new SimpleAnalyzer();//简单地过滤空格和符号
//Analyzer analyzer = new CJKAnalyzer();//中文进行两字两字拆分,英文和StandardAnalyzer功能一样
//Analyzer analyzer = new WhitespaceAnalyzer();//过滤空格
//Analyzer analyzer = new ChineseAnalyzer();//拆分每个字符,过滤符号(即把一句话拆分成一个一个汉字,不显示符号)
TokenStream tokenStream=analyzer.tokenStream(" ",new StringReader("关于lucene实现中文分词的简单例子"));
Token token=new Token();
while(null!=tokenStream.next(token))
System.out.print(token.term()+"|");
System.out.println();
}
}
运行结果如下:
run:
关|于|lucene|实|现|中|文|分|词|的|简|单|例|子|
成功生成(总时间:0 秒)