Lucene(10):Lucene相关度排序

1 什么是相关度排序

Lucene对查询关键字和索引文档的相关度进行打分,得分高的就排在前边。

1.1 如何打分

Lucene是在用户进行检索时实时根据搜索的关键字计算出来的,分两步:

  • 计算出词(Term)的权重
  • 根据词的权重值,计算文档相关度得分。

1.2 什么是词的权重

明确索引的最小单位是一个Term(索引词典中的一个词),搜索也是要从Term中搜索,再根据Term找到文档,Term对文档的重要性称为权重,影响Term权重有两个因素:

  • Term Frequency (tf): 指此Term在此文档中出现了多少次。tf 越大说明越重要。 词(Term)在文档中出现的次数越多,说明此词(Term)对该文档越重要,如“Lucene”这个词,在文档中出现的次数很多,说明该文

你可能感兴趣的:(Lucene,lucene,全文检索,java)