Lucene 的知识

创建索引的过程:

  1. 索引原文件(Document)
  2. 将原文档传给分词组件(Tokenzer)
1.分割单词
2.去除标点
3.停用词过滤

3.将词元(Token)传给语言组件(Linguistic Processor)

1.变为小写Cars->cars
2.将单词缩为词根cars->car
  1. 将单词(Term)传给索引组件(Indexer)
1.创建词典
2.按字典排序
3.合并相同的词成为文档倒排的链表

索引信息

Document Frequene:有几个文档出现了这个词
Frequene:该文档一共出现了几次这个词

搜索过程

  1. 用户输入语句
  2. 对输入语句进行语法分析(QueryParser)
1.识别关键词(And Or2.分词组件
3.语言组件
4.得到语法树
  1. 根据索引得到符合语法树的文档
  2. 对结果排序
1.Term Frequene(词频)
2.Document Frequene(该文档包含的Term数量)
3.相关性得分的计算(余弦向量相似度算法)
MMapDirectory继承自FSDirectory,针对jre至今没解决的Mmap close不回收空间(直至full gc才回收)的bug,lucene用hack方式回收(仅对sun jam)(线上目前还是出现这个问题,是什么情况,得确认一下)。其中64位linux下chunk是1G,MMAP之后返回ByteBuffer数组,其IndexInput类是MMapIndexInput。

FSDirectory有三种实现,SimpleFSDirectory,NIOFSDirectory,MMapDirectory,open默认仅对64位,sunjdk,windows或linux或sun os使用MMapDirectory,否则如windows则是SimpleFSDirectory,不然就使用NIOFSDirectory。RAMDirectory只对小索引好,大索引会出现频繁gc。CompoundFileDirectory仅可读不可写,这暗示cvs中的内容经过一层合并,效率必然慢,包括cfs和cfe文件,del文件不包括。对应合并操作的是在CompoundFileWriter中,NRTCachingDirectory提供一个RAMDIrectory做一个delegate的cache,用于nrt search,适合改动少,但实时性高的场景。
Field.Store.YES:存储字段值(未分词前的字段值) 
Field.Store.NO:不存储,存储与索引没有关系 
Field.Store.COMPRESS:压缩存储,用于长文本或二进制,但性能受损 
Field.Index.ANALYZED:分词建索引 
Field.Index.ANALYZED_NO_NORMS:分词建索引,但是Field的值不像通常那样被保存,而是只取一个byte,这样节约存储空间 
Field.Index.NOT_ANALYZED:不分词且索引 
Field.Index.NOT_ANALYZED_NO_NORMS:不分词建索引,Field的值去一个byte保存 

TermVector表示文档的条目(由一个Document和Field定位)和它们在当前文档中所出现的次数 
Field.TermVector.YES:为每个文档(Document)存储该字段的TermVector 
Field.TermVector.NO:不存储TermVector 
Field.TermVector.WITH_POSITIONS:存储位置 
Field.TermVector.WITH_OFFSETS:存储偏移量 
Field.TermVector.WITH_POSITIONS_OFFSETS:存储位置和偏移量

优化

//有效提高效率,下次插入生效,默认16M
config.setRAMBufferSizeMB(256);
//缓存中文档的数目,不足时写入磁盘
config.setMaxBufferedDocs(200);
//强制合并段,提高检索速度
writer.forceMerge(5);

你可能感兴趣的:(Lucene 的知识)