看看lucene各个文件和作用:
fnm文件图
fdt fsv文件图
tvx tvd tvf文件图
注意:.tvx,.tvd,.tvf这三个文件不是必须的,
当新建立的文档有Field.TermVector.WITH_POSITIONS_OFFSETS这个的时候才会创建。.tvx,.tvd,.tvf这些文件提供的是term在filed中的位置和频率信息。这个是正向的,就是知道一个文档包含哪些哪些term,以及这些term的频率和位置信息。 和tis,tii是相反的。tis是根据一个term,知道这个term在哪个文档。
包含正向信息的文件有:
segments_N 保存了此索引包含多少个段,每个段包含多少篇文档。
XXX.fnm 保存了此段包含了多少个域,每个域的名称及索引方式。
XXX.fdx,XXX.fdt 保存了此段包含的所有文档,每篇文档包含了多少域,每个域保
存了那些信息。
XXX.tvx,XXX.tvd,XXX.tvf 保存了此段包含多少文档,每篇文档包含了多少域,每
个域包含了多少词,每个词的字符串,位置等信息。
包含反向信息的文件有:
XXX.tis,XXX.tii 保存了词典(Term Dictionary),也即此段包含的所有的词按字典顺序
的排序。
XXX.frq 保存了倒排表,也即包含每个词的文档ID 列表。
XXX.prx 保存了倒排表中每个词在包含此词的文档中的位置。