通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。
在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。
(复杂的请看相关文档)。
tf:是查询的词在文档中出现的次数的平方根
idf:表示反转文档频率,观察了一下所有的文档都一样,所以那就没什么用处,不会起什么决定作用。
boost:激励因子,可以通过setBoost方法设置,需要说明的通过field和doc都可以设置,所设置的值会同时起作用
lengthNorm:是由搜索的field的长度决定了,越长文档的分值越低。
具体说明:
用IndexSearch.explain(query,docId)可以查看score的评分信息,如当我们用"美女"在description这个field里面搜索时,信息如下:
引用
1.446873 = (MATCH) fieldWeight(description:美女 in 5134), product of:
1.0 = tf(termFreq(description:美女)=1)
5.787492 = idf(docFreq=599, maxDocs=72000)
0.25 = fieldNorm(field=description, doc=5134)
第一行表示总得分:document(docId=5134)的score为1.446873,它由下面的三个值相乘得来:1.446873 = 1.0 * 5.787492 × 0.25
第二行表示项频率:在document(docId=5134)description这个filed中共出现了1个"美女"关键词,1.0是由根号1算出来的。
第三行表示反转文档频率:含有"美女"关键词的document共有599个,总的document有72000,5.787492是由
ln(72000/(599+ 1) )+ 1.0 =ln(72000) -ln(600) +1 = 5.787492
第四行表示域的加权长度因子:fieldNorm = fieldboost / sqrt(fieldlength),其中fieldlength为keywords这个field的token(分词)数量