IRGAN:大一统信息检索模型的博弈竞争

2017年SIGIR一篇满分论文,论文链接: https://arxiv.org/abs/1705.10513
作者: 汪军 张伟楠等
主要思想:把gan用在信息检索上面,一个生成模型,一个判别对抗模型

摘要

统一了两大学术派理论:计算一个文档跟query的相关性,辨别query跟文档对的相关性;提出了一个最大最小理论来优化这两个模型,判别模型从标记数据以及未标记数据挖掘数据来指导生成模型;生成模型作为判别模型的攻击者,生成比较复杂的例子数据,用对抗的方式最小化判别模型;得到的结论有1、生成模型从判别模型的信号里面学会了调整相关分布2、判别模型通过利用生成模型的未标记数据取得了更好的文档排序预估。结果证明有显著的提高高大23.96% 在precision@5,并且MAP上提升15.5%跟各种基线例如web search,item推荐

一、简单介绍

一个传统的信息检索是给一个query提供一组list的排序,有很广泛的应用从文本检索 web搜索到推荐系统,问答系统,个人广告等,对应到信息检索理论以及模型有两种学术观点。一种观点是有一种潜在的随机的生成过程在文档以及query之间,在传统文件检索,相关模型主要是关注一个相关的文档如何被生成当给定了一个query,值得注意的例子有二元独立模型 ,每一个词可以独立生成相关的文档;统计语言模型,从文档到一个query,从文档中生成对应的query,下面举例了一些该种观点的应用
近代观点的思想是意识到机器学习的力量之后将IR转化为判别问题来解决,它把query跟文档联合起来作为特征,并且预测他们的相关性从大量的训练数据训练里面,最显著的一个应用就是web 搜索里面的learing to rang (LTR),LTR是一系列机器学习按照对召回文档提供一个正确的排序结果为目标进行训练数据,主要机器学习的模型有三种pointwise,pairwise,listwise;pointwise是逼近每一个文档的相关性以至于跟人们的评价相同;pairwise是为了验证任意两个文档之间哪一个更加的相关;listwise是为了最优化整个排序列表的损失函数;并且该观点在推荐系统的最新应用是协同过滤
虽然信息检索生成模型在理论上来说特征模型是非常成功的例如文本统计等,但是会有一些别的相关性信号的困难,比如说链接以及点击等等,这些已经在以互联网为基础的应用上大量观察到;虽然判别模型比如说LTR可以从大量标记或者无标记的数据中学习检索的排序函数,但是他们当前缺少一个准则从未标记数据去得到有用的特征或者有帮助的一些信号,特别是从文本统计或者分布式的相关文档收集
在本篇论文中,我们把生成检索以及判断检索结合到一块,因为收到了机器学习中的GAN的启发,我们提出了一个最小最大理论将上边的两部分思想结合到一起;并且我们分别对两种模型定义了一个通用的检索函数,一方面是判别模型p(r|q,d),用来最大化标签数据的目标函数,它也为生成检索提供一些指导;另一方面,生成模型p(d|q,r)作为一个挑战者,不断将判别者推到极限,通过迭代产生比较复杂的例子来最小化判别器的目标函数;按照上述,两种经典观点作为最大最小的两个部分,在每一次迭代中每一部分都尝试击败另外一部分(生成器生成判别器无法判别的;判别式判别出来生成器生成的);该基于最小最大的方法跟现在IR的方法完全不同,已经存在的模型都是尝试在用户跟系统交互之间建模,但是我们得方法是尝试同一IR的生成判别模型
我们在三种典型的IR应用场景使用了该最小最大框架模型,web搜索,商品推荐,问答系统,我们实验发现,最大最小模型在不同的系统中达到了不同的平衡;在pointwise对抗训练中,生成模型可以显著的提升通过判别模型,结果模型显著的提升了22.56%根web搜索的基线相比,提升了14.38%跟推荐商品在Precesion@5;并且在pariwise对抗训练的时候,判别模型被显著的提高了23.96%在web搜索precesion@5,提高了3.23%precesion@1在问题回答中

二、IRGAN框架

在这一部分,我们受到GANs的启发,构建了一个一次迭代中统一的生成迭代模型,把它称之为IRGAN,在IR系统中的应用会在下一章节给出。

2.1 最小最大化检索框架

不失一般性的,我们考虑这样一个检索问题,我们有一系列的query集合{q1,...qn}并且有一系列的文档结合{d1,...dm},
一般来说一个query是任何特定形式的信息就像搜索的关键词、用户资料或者一个问题,并且文档可以是文本文档,信息项目或者答案,根据特定的检索任务所决定的。对于一个给定的query qn,我们会有一系列相关的文档集合,该集合远小于文档总集合个数M
潜在相关分布为true的时候,可以表示为条件概率Ptrue(d|q,r),它描述了用户提交query之后,备选文档的相关性分布,把一系列Ptrue(d|q,r)作为训练数据,我们可以构建两种IR模型,分别是生成检索模型以及判别检索模型
生成检索模型: 主要目标是为了生成对于query相关的文档,最大化 判别检索模型:
尝试判别文档跟query对的,该函数依赖d到query的相关性,它的目标是尽可能准确的辨别出query和doc的相关性,实际上是一个二分类问题,可以用1表示文档跟query相关,用0表示不想管

2.1.1总体的目标

受到GAN的启发,我们得目标是用最大最小游戏来统一IR的两种模型,生成模型用来生成或者挑选看起来相关的文档来骗过判别模型,然而判别模型的目标是尽量的辨别真正相关的文档以及生成模型生成的文档;我们可以得到正式的式子如下所示:
IRGAN:大一统信息检索模型的博弈竞争_第1张图片
其中G表示成

D是为了预估文档d跟query的相关性,D表示成如下的sigmod函数:

函数中的f(d,q)留到下一节再进行讨论,可以看到生成模型以及判别模型的最优参数可以通过对目标函数最大最小值得迭代得到

2.1.2 优化判别检索

判别器的目标是最大化正确辨别真值与生成的相关文档的对数似然函数,通过观察到的相关文档以及那些优化生成模型p(d|q,r)得到的文档,我们可以从判别模式中得到优化参数:


其中fai跟Ffai是可区分的,上述是通过随机梯度下降求得的结果

2.1.3优化生成检索

作为对比,生成检索模型尝试去最小化目标,它符合文档的相关分布Ptrue(d|q,r),并且基于此,从全部文档中随机采样,用来欺骗判别模型
值得一提的是,不像GAN,我们设计生成模型直接生成已知的在文档表示空间中的文档而不是他们的特征,因为我们得工作是挑选相关的文档;值得注意的是生成新的文档(或者特征,例如BM25的值)是可行的,这个可以作为之后的研究工作,在本论文中不做研究
在判别器的值最大化之后保持固定不变,我们可以通过最小化来得到生成模型

IRGAN:大一统信息检索模型的博弈竞争_第2张图片
其中对于每一个query qn我们可以将其目标函数写成JG(qn)
由于d的采样时离散的,我们不能直接通过梯度下降来求得最优解,一种常用的方法是使用基于强度学习的策略梯度法,它的梯度分解为如下所示:
IRGAN:大一统信息检索模型的博弈竞争_第3张图片

其中在最后一步我们执行一个近似采样,dk是当前生成器p(d|qn,r)的第k个文档进行采样,其中

作为在query为qn的情况下使用策略p(d|qn,r)的奖励,这个策略表示在qn的情况下使用d文档
为了减少强化学习的方差,我们把上面的log函数用其他作为一个替换

其中后半部分策略梯度的基线函数
整个IRGAN的流程如下所示,在对抗训练前,生成器和判别器可以根据他们的常规模型进行初始化,在对抗训练的步骤中,生成器和判别器通过式子3和5交替训练
IRGAN:大一统信息检索模型的博弈竞争_第4张图片

2.2 扩展到pair-wise的情况

在很多IR问题中,用来LTR的数据不是一系列相关的文档,而是对一个query的一系列排序文档对,因为相比判断一个文档的相关性,更容易判断用户对一对文档的相对偏好,比如说通过点击数据,此外,如果我们使用相关性进行分级(用来表明不同文档对同一个query的匹配程度)而不是使用是否相关,训练数据也可以自然的表示成有序的文档对
再次我们给出所提出的IRGAN框架也可以用于pairwise的LTR。对于每一个query qn,我们有一系列标注对Rn={|di>dj},其中di>dj表明文档i对于qn比文档j匹配。像在2.1所表述的,我们把p(d|q,r)以及f(q,d)表示成生成模型以及判别模型

生成器G尝试生成正确排序的文档对,判别器D尝试判别这些生成的文档对以及那些真正的排序正确的文档对,判别检索可以通过以下的sigmoid函数预估一个文档对呗正确排序的概率

其中z=f(du,q)-f(dv,q),变换以下可以得到-logD(|q)=log(1+exp(-z))事假上是在RankNet中的pariwise损失函数。并且逻辑回归函数log(1+exp(-z)),也可以利用其他pairwise排序的损失函数,比如说hinge函数在svm中用到的,比如说在rankboost用到的exp(-z),这些都可以去定义D(|q)这个函数的概率
如果我们对二分类使用标准的正交熵损失函数,我们可以得到下面的最小最大函数:
IRGAN:大一统信息检索模型的博弈竞争_第5张图片

其中o=,o`=是正确的,对于qn的生成文档对

特别的,通过生成器G生成文档对,我们首先选出一堆文档,取出排序更低的文档dj,然后将它跟从未标记数据里面取出的dk组成一个新的文档对。潜在的关系是我们更感兴趣去验证文档是否更接近文档di,这样可以得到文档是否更跟query qn相关,选取文档dk的标准是基于当前生成模型p(d|q,r),dk必须必dj更加的相关。换句话说,从整个文档中选取dk,生成文档对来墨迹文档对

假设生成模型按照soft-max的形式给出,将在第三部分看到

其中g(q,d)是一个特定实值函数反应文档d从query q生成。选取dk的概率可以被另外一个softmax函数表示:
IRGAN:大一统信息检索模型的博弈竞争_第6张图片

在特殊的情况下,G(|q)正好等于p(dk|q,r)这种情形就简单并且可解释了,一般来说G(|q)的计算涉及到p(dk|q,r)以及p(dj|q,r)。例如一种替代方法是dk的采样直接在比dj更相关的文档中取,并且让G(|q)直接跟max(p(dk|q,r)-p(dj|q,r),0)成比例
生成模型p(d|q,r)可以按照2.1的方式通过REINFORCE算法训练
IRGAN:大一统信息检索模型的博弈竞争_第7张图片

2.3 讨论

当我们知道真实的相关分布的时候,上面IRGAN的minmax函数,不管pointwise还是pairwise会有一个Nash均衡,这种情况下生成器完美的适应了真实相关文档的分布
(例如p(d|q,r)=ptrue(d|q,r)在pointwise的情况下,p(o`|q)=ptrue(o|q)),但是判别器不能分辨出生成的相关文档从真实的文档中。然而需要特别之处的是,真实的相关文档分布式不可知的,并且在这种情况下,生成判别检索模型如何收敛到这种均衡是一个待研究的问题。在我们研究IRGAN的经雅安中,我们发现依赖于特定的任务,生成模型跟判别模型可以达到不同的性能,并且他们中至少有一个可以得到显著的提升
判别器跟生成器是如何互相提高的呢?对于正向的文档,无论观察与否,判别器给出的相关性分数和条件概率密度p(d|q,r)更可能是正相关的。在每一次训练迭代中,生成器生成样本逼近判别器的判别边界来迷惑下一轮的训练,但是判别器尝试着去识别这些生成样本。因为会存在一些正相关样本在正向但未被识别的样本以及正向已经识别的样本之间,也就是正向跟非正向的边缘地区。生成器会学着比判别器的信号更快的推这些正向没被识别的样本。
为了更快的理解诶这个过程,我们画了一个水上浮动的肥皂泡来进行比喻。如插图1所示。存在一条连接线在未被识别的正向肥皂泡跟已经识别的永久浮在水面的正向肥皂泡之间。判别器扮演的角色就是敲击者,将肥皂泡敲下水面;但是生成器扮演的角色是水面,选那些漂浮的肥皂泡升到水面。即使生成器不能完美的模拟数据分布,仍然会存在一个动态平衡,当动态平衡的时候正负不可观测的肥皂泡稳定在不同深度的水里面。到最后,因为那些未被观测到的正向肥皂泡与那些观测到的在水面的正向肥皂泡链接,整体上这些会比那些负向的肥皂泡达到更高的位置
跟其他的GAN相似,IRGAN的训练复杂度依赖于GAN的迭代次数,每次迭代的复杂度是O(NKM),相对于候选文档的个数M,并且这个复杂度可以降低到O(NKlogM)通过在生成器采样部分使用hierarchical softmax模型

2.4 和一些已经存在的工作的关联

该章节讨论已经存在的相关的工作,并且更大范围内进行技术比较

2.4.1 GAN

生成对抗网络最初被提出来生成连续的数据例如图像,跟传统的GAN相比我们主要有三方面的不同。首先,生成检索部分是对离散数据的随机采样,是对候选文档进行采样的,但是传统GAN是根据原始GAN的采样噪声来确定性生成的。特别的就像Eq4所示,对于每一个query qn,检索生成模型的目标是最小化判别检索的奖励信号期望,但是在原始GAN中,奖励信号完全取决于单个生成实例
第二点是:生成检索中的学习过程是基于REINFORCE算法,一种强化学习领域的随机梯度策略,在IRGAN中,生成检索模型可以看做成一个在给定query的时候从候选文档挑选文档的演员,判别生成模型可以看成通过一定的规则判断是否query跟文档对是否足够相关的评论家。
第三点是:在训练过程中,生成文档跟真正文档的冲突很常见,因为文档是离散的,并且候选集是有限的,这个跟图片的连续空间或者近无限空间的文本序列有很大的不同
第四点是:提出了一个pairwise判别目标,这个是在IR领域独有的
当然也是跟GAN有联系的,因为生成以及判别模型都是在query的情况下进行的

2.4.2基于MLE()最大似然预估的检索模型

对于无监督学习预估密度函数,对于有监督学习预估条件概率,最大自然预估都是一个标准的学习方法。MLE模型同样在IR领域广泛应用,本文提出了一种训练合成检索模型的替代方法,首先生成的过程是用来适合为真的条件分布p(d|q,r)通过最小化JS散度。因此很自然的通过利用GAN来生成生成模型来通过反馈数据模拟位置的条件分布。
第二,IR领域的两种训练模型提供了现在的更好的检索模型,原因有两点:1是生成检索自适应的为判别检索训练提供不同的负样本,相比静态负采样,提供了更多样性的数据。2判别训练模型的奖励信号为生成模型的训练提供了战略指导,这在传统生成模型中是没有的。通过对生成检索的分析,IRGAN比传统的最大自然预估更加的优越,通过对判别模型的分析,IRGAN可以利用未标记数据达到半监督学习的效果。通过两种模型在一起应用在最近的研究里面越来越被关注。
对比IRGAN伪相关反馈是值得的,其中top相关的文档在排序结果中被选出,这两种方法是完全不相同的,在伪相关反馈中,排到顶端的被当成正样本,但是在IRGAN中是作为负样本的并且在伪相关反馈中没有更多的迭代,但是IRGAN有更多的迭代

2.4.3 噪声对比预估

我们得工作也涉及到了噪声估值对比目的是正确的分辨出真实的数据(y,x)~pdata(y|x)从噪声样本(yn,x)~pnoise(yn|x)中,当没有噪声样本的时候,NCE已经被证明跟MLE相等。当有限的噪声样本的时候,NEC可以有效的逼近MLE,因为MLE在有限的时候效率低下。
此外,自对比预估,一种NCE的特殊情况,当噪声被直接从当前模型中采样。已经证明SCE的梯度跟MLE没有无穷先验噪声的情况下是匹配的,只是SCE一个非常有吸引力的属性。
GANs的出现包括我们提出的IRGAN打开了研究生成辨别检索模型的大门,跟NCE以及SCE相比,GAN可以让两种模型按照对抗的方式一起学习,判别学习如何判别真的样本,生成模型学习如何生成高质量的样本

三、应用

介绍三方面的应用web检索排序,推荐系统,问题回答
在第二章节规定的生成器的分布在等式8中,完全依赖于g(q,d)的值。在采样阶段,热度参数t并入到等式8


其中更低的热度可以将采样更加的聚焦到排名靠前的文档,一种特尔书的情况是当热度为0 的时候,也就是意味着生成器的熵为0。在这种情况下,生成器按照降序排序并且选择靠前的。更多关于参数热度在第四节将给出。
判别器对文档的排序在式子2是对pointwise的,大队与式子6是对pairwise的,是完全被函数f(q,d)的分值确定。
这两个分值函数g(q,d)和f(q,d)是按照任务而不同的。虽然对于这两个函数有很多的实现,但是我们主要是为了对抗训练,因此选择两个函数为同一个函数,但是有不同的参数

下面将讨论三种情况下对于打分函数s(q,d)的不同

3.1 web 搜索

通常来讲对于三种模型pointwise,pariwise以及listwise有三种不同的损失函数。据我们所知,listwise的损失韩式按照文档对以及一系列文档对的权重来定义的,例如LambdaRank,LambdaMART,在不同的学习任务中可以去的最好的效果。尽管有各种的排序损失韩式,但是每一个排序函数最后归结为都是得到一个打分韩式s(q,d)
在web搜索的情况下,每一个query文档对(q,d)可以表示成一个向量Xq,d,其中每一个维度代表文档对的统计值或者统计值的一部分,比如说BM25,PageRank,TFIDF,语言模型打分等等。在RankNet的基础上,我们实现了一个两层神经网络对于这个打分函数

其中W1是第一层的全连接矩阵,b1是隐层的偏差向量,w2和w0是输出层的权重

3.2 推荐系统

项目推荐是一个流行的数据挖掘任务可以被认为是一个广义的信息检索问题,其中query是从用户过去消费数据里面构建得到的,推荐系统的一个最重要的方法就是协同过滤,在协同过滤中,一个广泛采用的模型是矩阵分解,根据它我们定义用户u对于i的偏好打分

其中bi是项目i的偏差,Vu,Vi分别是用户u和项目i分别在k维连续空间中的潜在向量,在此我们忽略全局偏差以及用户偏差,因为他们在每个用户的n个项目推荐中逐渐减少
为了保持讨论的整洁,我们选择基本的矩阵分解模型来实现。将来在需要的时候可以替换成更复杂的模型比如分解机模型或者神经网络。

3.3 问答系统

在问答任务中,一个问题q或者回答a表示为一系列的单词,传统的qa系统是首先尝试理解自然语言然后选出或者生成一个或多个最佳匹配的回答。在QA任务中,基于文档的QA任务可以比看成一个基于匹配分数的排序过程。最近已经预测匹配段文本对的端到端的方法已经被提出来,通过使用神经网络,比如卷基金神经网络CNN或者LSTM
对于任意的问题回答对(q,a),我问可以定义一个相关分数,特别是,我们可以利用卷积神经网络去学习单词序列的表示,其中每一个单词嵌入成一个向量。通过矫正单词向量,一个l个单词的句子可以被表示成一个Rl*k的矩阵。然后,当前句子的表示向量可以通过一个向量卷积之后通过最大pooling时间策略得到,其中Vq,Va属于Rz,其中z是卷积核心的个数。q-a对的相关分数可以表示成他们的余弦相似值


通过对句子的表示并且对打分函数的定义,问答问题已经转化成一个query到文档打分的问题

四、实验

在三个领域使用了所提出来的IRGAN。每一个使用都有他们自己的背景以及基线算法,在这部分分成三个部分介绍,首先是在一个实验里面测试pointwise以及pairwise在web搜索中,在推荐系统中使用IRGAN-pointwise其中排序偏差不太关键,在问答系统使用IRGAN-pairwise。其中排序偏差更不关键。

4.1 web搜索

4.1.1 实验设置

web搜索是IR比较重要的部分,在此我们使用众人皆知的基准数据集LETOR对网页排序来构建我们得实验
虽然标准的学习任务岁所有的训练文档对都有明确的专家评分,来自用户的交互反馈信息更加的常用。这表明我们经常面对一小部分的标注数据,并且有一大部分的未标记数据。在没标记数据中,可能存在未被发现的正向样本。因此我们选择使用半监督设置在LETOR4.0,而不是使用标记数据,这些集合也包含了一大部分的未标记数据,可以被IRGAN框架高效的利用
每一个数据集合里面的query-文档对有一个相关的级别,-1,0,1,2。分值越高表明越相关,其中-1表示未知数据。每一个query文档对被一个46维特征向量表示,在隐含反馈的上下文中检验所提出的IRGAN,我们认为所有的相关分值大于0的作为正样本。所有相关分值为0或者-1的作为未标记数据。根据我们得疼痛及,有784个完全不一样的query,平均每一个query有5个正向文档以及大约1000个未标记文档。为了构建训练以及测试集,我们执行一个4:1的随机分裂,其中pointwise以及pairwise都是基于这部分数据集
跟RankNet类似,我们采用一个包含一个隐层以及tanh激活的神经网络模型来学习query文档的匹配分数,其中隐层的个数跟特征的大小相等。并且生成器以及判别器都是从头开始训练
在试验中。我们把IRGAN的检索生成模型跟RankNet,LambdaRank以及强基线的LambdaMART作为对比。通过评测这些对比算法,我们使用标准的排序性能来测量,比如Precision@N,NDCG,MAP,MRR等

4.1.2结果以及讨论

在表格1列出来了基于MQ2008-semi数据集的各种算法的性能。在IRGAN框架,我们使用生成检索模型来预测当给一个query的时候用户更喜欢文档的分布排序,与执行softmax采样相同热度参数设置成0。从实验的结果可以看出我们所使用的IRGAN的明确的提升。
特别需要指出的是IRGAN-pairwise在P@3,NDCG@3的指标比pointwise好,当仅仅关注最顶端排序的情况下。然而IRGAN-pointwise在考虑到网页排名更高在排序列表的时候性能会更好一点当在P@10,一个可能的解释是pointwise仅仅考虑一个文档是否跟query相关,然而pairwise考虑到所有文档的排序当给定query的时候
值得一提的是我们得实验数据来自隐含反馈,这在真实生活应用中很常见,比如在web搜索或者在线广告中。传统的学习排序方法比如说LambdaMart在这种半监督设置上不太有效,可能会导致它依赖每个文档对的NDCG打分
IRGAN:大一统信息检索模型的博弈竞争_第8张图片
然而由于对抗训练被认为是一个有效但不稳定的训练办法,将来将调查所提出学习方法的趋势,在图2和图3分别展示了传统生成对抗模型的学习曲线哎pointwise以及pairwise的情况下,在此我们仅仅展示了P@5以及NDCG@5的性能,其他指标也呈现出类似的趋势,可以看到在pointwise 150时代以及pairwise 60迭代之后,两个指标的想能都可以显著的大白最好的基线LambdaRank
图4展示了排序性能如何根据式子10中的热度用在生成模型中来为判别模型采样负的query文档对,我们发现设置成0.2的时候最优,排序的性能增加当该指标从0到最优值得时候,之后就会衰减,它表明了生成模型正确的侵略性的增加有有效果并且重要的
此外,我们研究了模型的f(d,q),g(q,d)复杂度的影响,在图5,我们比较了不同生成判别模型的组合,比如线性模型或者两层神经网络,并且在IRGAN-pointwise以及IRGAN-pairwise都有实验,我们得出1、在pointwise的时候,使用神经网络生成器会比线性模型更好;但是在判别器使用神经网络可能不会比低复杂度的模型取得更好的效果,2、对于IRGAN-pairwise神经网络NN对于判别器有显著的提升。它表明了模型进行预测的时候应该按照不低于对手的实施


IRGAN:大一统信息检索模型的博弈竞争_第9张图片

4.2 推荐系统

4.2.1实验设置

IRGAN:大一统信息检索模型的博弈竞争_第10张图片
我们构建我们得实验通过两个广泛使用的协同过滤数据集,Movielens以及Netflix。详细的在表格2所示。通过实验设置,我们认为五星率在两者中认为是正向反馈,其他的都认为是未知的反馈,因为我们主要关注隐含反馈问题。在两个数据集都按照4:1进行分裂训练。矩阵分解的因子数分别是5和16对于M以及Net
特别的,为了帮助训练判别模型,生成模型利用负样本数据对于每一个用户并且通过式子10设置热度参数是0.2,在一定程度上促使采样最top的那些。判别模型是按照等式3所决定的。在另一方面,生成模型的训练按照reinforce式子5执行,通常由从p(d|q,r)采样K的策略梯度来实行,在这种情况下如果项目的集合远比K大的话,就会利用那些更为重要的采样来迫使生成模型采样一些正向样本,用来达到正向奖励可以被REINFORCE观察到并且生成模型正常的学习。
在实验中,我们将IRGAN跟BPR以及LambdaFM来进行对比[email protected],NDCG,MAP,MRR等

4.2.2 结果分析以及讨论

两组数据的结果在表3以及表4展现。从结果中,可以得到IRGAN的方法统计显著的提升在不同的数据集上面。需要注意的是IRGAN生成模型没有明确学着去优化最后的排序,但是LambdaFM会优化,但是它的性能还会比LambdaFM号。我们的解释是对抗训练对两个模型都提供了更高的学习灵活性跟单个训练模型相比
IRGAN:大一统信息检索模型的博弈竞争_第11张图片
我们调查了该方法的学习趋势,曲线在图6所示。实验结果展示了IRGAN拥有一个可靠的训练过程并且从训练开始到结束都有一贯的优势。对于这种情况,曲线不像web搜索那么稳定,可以采用基于验证集的早停策略
需要一提的是,在图7所示,我们也调查了性能如何跟着热度变化,就像式子10所示,
这个我们在web搜索任务中观察的是一致的结果

4.3问答系统

之后在翻译

五、结论

提出了IRGAN的生成检索模型以及对抗检索模型来统一了两种学术模型通过一种对抗训练。并且对抗训练使用了两种学术模型(1)生成模型通过对抗买模型的信号指导,表现出比没有学习方法或者最大似然估计更有利的性能。(2)判别生成模型通过生成器的战略性负采样可以更好的加强Top文档的排序。总之,IRGAN提供了一个灵活并且标准的训练环境将两种模型结合到一起。我们在四个数据集上对于三种典型的IR任务,在每种数据集都可以得到更显著的效果
尽管GAN取得了巨大的成功,还有很多问题需要继续研究来回答,比如暂时还不是完全很清楚为什么GAN可以比其他技术生成更完整清晰的图像。我们所提出的IRGAN对抗训练框架已经得出在不同的数据设置以及任务的情况下,可以得到不同的平衡,在IRGAN-pointwise的时候,生成模型比判别模型提高的更多,但是在pairwise的情况下,会有相反的结果,这些现象还需要深入的研究
将来的工作,需要在更多数据集上面进行试验,并且计划扩展框架,在单词表征进行测试。一个可能的方向是钻研词权重策略比如通过IRGAN生成策略学习然后在这个偏差上派生新的排序特征。此外,语言模型也可以使用GAN训练,这种情况可能会出现新的有用的单词模式。

六、个人声明

该部分翻译是个人行为,如有侵权的话,会立刻删除,未经允许请勿转载,多谢!

































你可能感兴趣的:(算法,LTR,GAN,pointwise,Pairwise,IRGAN)