Lucene的切词 analysis包

Lucene的切词 analysis包

在搜索引擎中,切词语是一个重要的部分,其中包括专有名词的提取、词的分割、词的格式化等等。
TokenStream 类几乎是所有这些类的基类
有两个需要被子类实现的方法Token next() 和 close()
首先来看analysis包,这个包主要是提供一些简单的词汇化处理
Tokenizer结尾的类是将要处理的字符串进行分割成Token流,而根据分割的依据的又产生了以下几个Tokenizer类
首先Tokenizer类是所有以Tokenizer结尾的类的基
然后是CharTokenizer,所有的以Tokenizer结尾的类都是从这个类继承的
这个类中有一个抽象方法
  protected abstract boolean isTokenChar(char c);
另外一个需要被子类覆写的方法
  protected char normalize(char c) {};
是对单个字符进行处理的方法譬如说将英文字母全部转化为小写

还有一个变量
protected Reader input;
这个读取器是这些类所处理的数据的   数据源
输入一个Reader ,产生一个Token流


这个方法是是否进行切分的依据,依次读取char流,然后用这个方法对每个char进行检测,如果返回false则将预先存储在
词汇缓冲区中的char数组作为一个Token返回
LetterTokenizer :
      protected boolean isTokenChar(char c) {
              return Character.isLetter(c);
      }
WhitespaceTokenizer:
      protected boolean isTokenChar(char c) {
              return !Character.isWhitespace(c);
      } 
LowerCaseTokenizer extends LetterTokenizer:
protected char normalize(char c) {
      return Character.toLowerCase(c);
   }

   在构造函数中调用super(in);进行和 LetterTokenizer同样的操作,但是在词汇化之前所有的词都转化为小写了
 
然后是以Filter结尾的类,这个类簇主要是对已经词汇化的Token流进行进一步的处理
 输入是Token流 , 输出仍然是Token流。
TokenFilter extends TokenStream  是所有这些类的父类
protected TokenStream input;
在TokenFilter 中有一个TokenStream 变量,是Filter类簇处理的数据源,而Filter类簇又是继承了TokenStream 类的
有一个public final Token next()方法,这个方法以TokenStream.next()产生的Token流 为处理源,产生的仍然是Token流
只不过中间有一些处理的过程
LowerCaseFilter:将所有的Token流的转化为小写
     t.termText = t.termText.toLowerCase();
StopFilter:过滤掉一些停止词,这些停止词由构造函数指定
     for (Token token = input.next(); token != null; token = input.next())
      if (!stopWords.contains(token.termText))
        return token;


比较一下Tokenizer类簇和Filter类簇,可以知道
Tokenizer类簇主要是对输入的Reader流,实际上是字符流按照一定的规则进行分割,产生出Token流
其输入是字符串的Reader流形式,输出是Token流

Filter类簇主要是对输入的Token流进行更进一步的处理,如去除停止词,转化为小写
主要为一些格式化操作。
由于Filter类簇的输入输出相同,所以可以嵌套几个不同的Filter类,以达到预期的处理目的。
前一个Filter类的输出作为后一个Filter类的输入
而Tokenizer类簇由于输入输出不同,所以不能嵌套







你可能感兴趣的:(Lucene的切词 analysis包)