往文档添加域,跟重建索引二者是什么关系?
Lucene和数据库之间的第二个主要的区别是,Lucene要求你在进行索引操作时简单化或反向规格化原始数据。
结合Tika框架从各种格式的文件中提取文本信息
倒排索引
索引段
索引段的格式细节是什么样的
如果需要通过Term类删除单个文档,需要确认在每个文档中都已索引过对应的Field类,还需要确认所有域值都是唯一的,这样才能将这个文档单独找出来删除。
必须是已经索引过的,才能找出来。上面的意思是说这个文档的所有域值都是唯一的,这样才能单独找出来,没有重复的;其实还有一种办法,可以对这个域进行任意命名(通常用ID命名),该域需要被索引成未被分析的域以保证分析器不会将它分解成语汇单元。然后利用该域来删除对应文档。
索引成分析的域和未被分析的域有什么区别?
如果你的文档是从Web服务器中抓取的,一个检测文档内容是否改变的方法是找到改变后的ETag HTTP文件头。如果该头与你上次索引文档的对应头不一致,则说明文档内容已发生变化,并且你需要在索引中更新该文档。
删除旧文档,添加新文档,这个看不懂源代码
什么是倒排索引?
Index.ANALYZED
Index.NOT_ANALYZED
Index.ANALYZED_NO_NORMS
Index.NOT_ANALYZED_NO_NORMS
Index.NO
Store.YES
Store.NO
不理解
不理解
用于排序的域必须是进行索引的,而且每个对应文档必须包含一个语汇单元等等。
未完待续。。。。。。