1.分割单词
2.去除标点
3.停用词过滤
3.将词元(Token)传给语言组件(Linguistic Processor)
1.变为小写Cars->cars
2.将单词缩为词根cars->car
1.创建词典
2.按字典排序
3.合并相同的词成为文档倒排的链表
Document Frequene:有几个文档出现了这个词
Frequene:该文档一共出现了几次这个词
1.识别关键词(And Or)
2.分词组件
3.语言组件
4.得到语法树
1.Term Frequene(词频)
2.Document Frequene(该文档包含的Term数量)
3.相关性得分的计算(余弦向量相似度算法)
MMapDirectory继承自FSDirectory,针对jre至今没解决的Mmap close不回收空间(直至full gc才回收)的bug,lucene用hack方式回收(仅对sun jam)(线上目前还是出现这个问题,是什么情况,得确认一下)。其中64位linux下chunk是1G,MMAP之后返回ByteBuffer数组,其IndexInput类是MMapIndexInput。
FSDirectory有三种实现,SimpleFSDirectory,NIOFSDirectory,MMapDirectory,open默认仅对64位,sunjdk,windows或linux或sun os使用MMapDirectory,否则如windows则是SimpleFSDirectory,不然就使用NIOFSDirectory。RAMDirectory只对小索引好,大索引会出现频繁gc。CompoundFileDirectory仅可读不可写,这暗示cvs中的内容经过一层合并,效率必然慢,包括cfs和cfe文件,del文件不包括。对应合并操作的是在CompoundFileWriter中,NRTCachingDirectory提供一个RAMDIrectory做一个delegate的cache,用于nrt search,适合改动少,但实时性高的场景。
Field.Store.YES:存储字段值(未分词前的字段值)
Field.Store.NO:不存储,存储与索引没有关系
Field.Store.COMPRESS:压缩存储,用于长文本或二进制,但性能受损
Field.Index.ANALYZED:分词建索引
Field.Index.ANALYZED_NO_NORMS:分词建索引,但是Field的值不像通常那样被保存,而是只取一个byte,这样节约存储空间
Field.Index.NOT_ANALYZED:不分词且索引
Field.Index.NOT_ANALYZED_NO_NORMS:不分词建索引,Field的值去一个byte保存
TermVector表示文档的条目(由一个Document和Field定位)和它们在当前文档中所出现的次数
Field.TermVector.YES:为每个文档(Document)存储该字段的TermVector
Field.TermVector.NO:不存储TermVector
Field.TermVector.WITH_POSITIONS:存储位置
Field.TermVector.WITH_OFFSETS:存储偏移量
Field.TermVector.WITH_POSITIONS_OFFSETS:存储位置和偏移量
//有效提高效率,下次插入生效,默认16M
config.setRAMBufferSizeMB(256);
//缓存中文档的数目,不足时写入磁盘
config.setMaxBufferedDocs(200);
//强制合并段,提高检索速度
writer.forceMerge(5);