lucene分词

1.Analyzer里面有个重要的方法,就是
  public abstract TokenStream tokenStream(String fieldName, Reader reader);

    一个TokenStream是用来走访Token的iterator(迭代器),TokenStream类里面保存分词后的所有Token,里面有个最重要的方法就是next();方法,返回下一个Token。
public abstract class TokenStream {

 public abstract Token next() throws IOException;

 public void close() throws IOException {}

}


一个Tokenizer,is-a TokenStream(派生自TokenStream),其输入为Reader

public abstract class Tokenizer extends TokenStream {

 protected Reader input;

 protected Tokenizer() {}

 protected Tokenizer(Reader input) {

    this.input = input;

 }

 public void close() throws IOException {

    input.close();

 }

}




一个TokenFilter is–a TokenStream(派生自TokenStream),其义如名就是用来完成对TokenStream的过滤操作,譬如去StopWords,将Token变为小写等。

public abstract class TokenFilter extends TokenStream {

 protected TokenStream input;

 protected TokenFilter() {}

 protected TokenFilter(TokenStream input) {

    this.input = input;

 }

 public void close() throws IOException {

    input.close();

 }

}



一个Analyzer就是一个TokenStream工厂

public abstract class Analyzer { 

 public TokenStream tokenStream(String fieldName, Reader reader)

 {

        return tokenStream(reader);

 }

 public TokenStream tokenStream(Reader reader)

 {

        return tokenStream(null, reader);

 }

}





1.每个词条就是一个Token。Token类就是记录这些词条的原始信息的。
3.Tokenizer继承于TokenStream。
4.

你可能感兴趣的:(java,Lucene)