直接优化信息检索的指标是信息检索的一大方向。主要包含两类方法,一类是将IR指标作为上界进行优化;另一类是使用平滑函数近似表示IR指标进行优化。
提出了一个优化框架来直接优化IR指标,可以有效避免下列3个问题
top k个doc中相关doc的比例
两级相关性判断的标准,位置平均的p@k
所有query的ap均值
NDCG@k是多级相关性评估标准的IR评估指标
直接优化1-ap的上界
直接优化1-ndcg的上界
AdaRank设定为指数函数,该函数可以设定为1-ap、1-ndcg的上界
SoftRank将随机性引入相关性分数来平滑ndcg指标
为针对指标M的预期度量(测试度量),为针对指标M的经验度量(训练度量),具体公式表示如下:
如果排序函数空间F不复杂,并且IR度量M(q, f) 在函数空间 F 上一致有界,则训练
学习排序算法的效率M(f)一致收敛于测试效率M(f)。
对ndcg、map、p@k其范围为[0,1]之间,IR度量M(q, f)在函数空间上是一致有界的
测试效率和最佳测试效率有上界,表述如下:
当query量足够大时,直接优化排序指标是最佳的优化方式
像DCG无界的指标,不满足理论1的一致有界条件,代理函数不能保证取得较好的效果。
两个理论只在大样本条件下成立
代理函数和IR指标的关系没有论证,无法保证直接优化的方式优于其他方式
X为q的一系列doc,x为X中的一个,f为x的排序打分函数,x的分数记为,其表述如下:
根据可以得到一个排序,根据label会有一个原始的相关度排序r(x),和r(x)之间可以通过IR指标进行度量,公式化表示如下:
重定义中的位置函数和截断函数均不可导
位置可视为排序分的产出,位置和截断函数均不连续可导
用逻辑回归函数表示指示函数
sigmiod函数预测为0的部分
逻辑函数是sigmoid函数的特例,其他的sigmiod函数也满足要求
用平滑函数替代后的位置表示
位置近似表示和真实表示几乎接近
截断函数为两个分数的差值,可以将位置的差值直接进行sigmiod,引入截断函数表示后的ap指标表示如下所示:
指标函数使其变得连续可微,简单的优化方法就能直接进行优化,使其最大。
正值最小差距表示
理论3:给定一个包含n个doc集的X,当时,近似位置表示可以以如下精度接近真实位置表示
当很大时,位置表示和近似位置表示接近
理论3证明
理论4:给定一个包含n个doc集的X,当时,近似位置表示接近真实位置表示的精度在如下区间中
理论5:误差时,近似ap度量和真实ap度量精度上界如下:
理论6:ndcg度量的精度上界如下所示:
直接指标优化表现良好,近似指标精度高,能达到同等的效果。
理论7:近似度量在测试集上的表现和最优表现有上界
采用LETOR5数据集来进行实验结果验证,LETOR上的TD2003 (50个query,每个对应1000个doc)和 TD2004(75个query,每个对应1000个doc,2个相关性等级(相关/不相关),44维query-doc对特征表示)去测试ApproxAP算法。LETOR上的OHSUMED(106个query,16,140个query-doc pair样本,3个相关性档位(完全相关、部分相关、不相关),25维特征表示)被用来去测试ApproxNDCG算法。
IR指标近似和真实IR指标之间的差距,AP、NDCG指标之间差距公式表示
固定超参=10,ap error随超参变化的曲线图
=100时,近似IR指标估计和真实指标估计准确率高达98%
固定超参=100,ap error随超参变化的曲线图
ndcg度量精度和精度随超参变化的曲线
ndcg和ap能得出一样的结论
approxAP和AdaRank.MAP、SVMmap结果对比,AdaRank.MAP从论文中引用,SVMmap结果为论文作者提供参数跑出
NDCG@n指标在SoftRank、 AdaRank.NDCG 、 ApproxNDCG中的表现分别为0.6680, 0.6589 、 0.6698。
不同位置的表现,3种算法随位置的变化曲线如下:
选择哪个指标更加合适?
论文中给出,只有两个相关性等级时,使用MAP指标比较合适;当有多个相关性档位时,选择NDCG指标比较合适。
在训练时,就M指标,直接优化M指标是否比直接优化M'指标更好?
如果指标M'包含了M,优化M'可能比优化M更好
在TD2003数据集上approxAP和approxNDCG表现相当,在TD2004数据集上approxAP较approxNDCG表现好。直接优化M指标是否比直接优化M'指标无法定论,还有待调研论证。
此paper为直接优化IR指标提供了理论依据;在一定条件下,直接优化IR指标是合理的;直接优化指标可能是排序学习最优的方法之一。
提出了基于位置IR指标直接优化的整体框架,核心思想在于使用排序分近似表述IR指标。主要有3个优点,1)近似估计法简单通用;2) 许多现有技术可以直接用于优化,且优化本身是与测量无关的;3)设置合理的参数可以获得较高的近似逼近。以ap和ndcg为例,展示了如何优化框架,在公开数据集上验证了理论分析的正确性和有效性。
https://arxiv.org/pdf/2102.07831.pdf NeuralNDCG
排序学习-4.ApproxNDCG与NeuralNDCG - 知乎
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-2008-164.pdf ApproxNDCG