【NLP】检索模型与排序

向量空间模型:将文章使用特征向量来表示,对于文章可以使用一些特征来表达;同样的对于用户输入的query也可以使用特征向量来表示;最后使用cos函数就可以得到query和文档的相似性。
一篇文章的的特征向量可以使用tf-idf(词频-逆文档频率)来计算。

向量空间的不足:对于长文本不利。由于长文本除了包含相关词之外还包含其他的词因此其相关词的权重相对较小,因此会造成长文本与query的相似性较弱。

概率检索模型:okapi BM25
 

 

 

来自:

《这就是搜索引擎--核心技术详解》
第5章 检索模型与搜索排序  p99----p..

你可能感兴趣的:(NLP)