Lucene分词器结构

标准分词器的三部分结构

 

1.构建器

 

 

从无参数---有参数---文件读入参数---reader流输入参数等各种构建器(加载停用词表)

 

 

2.Filters

各个filters逐个过滤

 

如:

StandarFilters  --->  LowerCaseFilter ---> StopFilter(带有一个stop words表的过滤器)

 

 

 

3.返回

返回一个TokenStream对象

 

这个Token流可以输出或写入文件

你可能感兴趣的:(Lucene分词器结构)