第七章 一个完整搜索系统中的评分计算

7.1快速评分及排序

思想:把查询向量看成是1,<1,1,1,..>,这样的话,计算query和文档d的余弦相似度时,只需要累加文档d的权重即可

7.1.1 非精确的返回前k偏文档的方法

思想:1)先找一个文档集合A;条件是包含很多和前k偏文档得分相近的文档;K<|A|< 2)返回集合A中的得分最高的前K篇文档;

7.1.2 索引去除技术

思想:
1)在倒排中查询字典时,词项idf值超过一定阀值的文档被留下;小于阀值的文档将忽略掉。自己考虑好处?
2)只留下包含多个查询词项的文档;

这样的话,可以把倒排索引中的很多拉链数据过滤掉。也就是所说的索引去除技术;

7.1.3 胜者表

champion list (同义:fancy list ; top doc)

思想: 对于词典中的每个词项term,预先计算前r个最高权重的文档; 使用时,也就是这些文档参与相似度计算;

7.1.4 静态得分和排序

static quality score: 静态质量得分 简称:静态得分

7.1.5影响度排序

7.1.6 簇剪枝法

你可能感兴趣的:(第七章 一个完整搜索系统中的评分计算)