最大边界相关法(Maximal Marginal Relevance)的总结

MMR(Maximal Marginal Relevance)是一种重新确定文档序值的方法。

具体公式如下:

最大边界相关法(Maximal Marginal Relevance)的总结_第1张图片

由上述公式可以看出sim(Q,di)代表的是di的相关性,而sim(di,dj)代表的是di的冗余性;

而MMR的核心,即在权衡这两种性质,即redundancy=cost,relevance=benefit

具体重定序的算法如下:

最大边界相关法(Maximal Marginal Relevance)的总结_第2张图片

解释:

为了得到最初的k个文档,可以采用其他比较简单的信息检索方法(IR),如普通法,分段法,追溯法等,这样得到起始的K个文档,即总的文档集;

再从中选择与Query最接近的一篇文档,标记为第一个文档,然后将其从K个文档中去掉,作为有序集合,即R;

然后对于文档集中所有的文档使用MMR公式,找出使得MMR最大的文档,加入有序集合;

如此往复,重新确定出文档的序值。


MMR公式中我们需要调节k和lamda的参数。


最后附上一个参考的链接,关于做摘要的,有用

http://www.doc88.com/p-899907882157.html

你可能感兴趣的:(查询扩展,查询扩展,算法,文档)