SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第1张图片

©PaperWeekly 原创 · 作者 | 金金

单位 | 阿里巴巴研究实习生

研究方向 | 推荐系统

简介

图文检索是信息检索的一个基础和关键分支。尽管在连接视觉和语言方面取得了很大进展,但由于模内推理和跨模态对齐困难,它仍然具有挑战性。现有的模态交互方法在公共数据集上取得了令人瞩目的成果。然而,他们在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。

为了解决这些问题,本文提出了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像-文本检索的统一动态多模态交互框架。具体来说,坐着首先设计了四种类型的单元格作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来以构建路由空间。

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第2张图片

论文标题:

Dynamic Modality Interaction Modeling for Image-Text Retrieval

论文来源:

SIGIR 2021

为了赋予模型路径决策能力,坐着在每个单元中集成了一个动态路由器以进行模式探索。由于路由器以输入为条件,本文的模型可以为不同的数据动态学习不同的激活路径。在两个基准数据集(即 Flickr30K 和 MS-COCO)上进行的大量实验验证了本文的模型的优越性。

模型

本文的模型首先分别使用从底至顶的注意力机制抽取图像特征并选择得分靠前的区域,另一方面使用 BERT+CNN 抽取文本特征。在此基础上设计了四种交互方式:

  • Rectified Identity Cell:通过 Relu 保留有区别的线索;

  • Intra-Modal Reasoning Cell:通过注意力机制建模模态内的交互特征;

  • Global-Local Guidance Cell:通过一种模态指导另一种模态的注意力交互;

  • Cross-Modal Refinement Cell:两种模态互相交互的特征。

具体的模型图如下:

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第3张图片

在此基础上,本文使用了动态路由的机制选择交互的方式,在训练的阶段,除了原本的损失函数以外,还加入了路径正则的机制,使得相同的语义信息应该选择相同的路径。

实验

本文在图像检索文本和文本检索图像两个任务上都进行了实验,可以看到对比之前仅有模态内交互的模型和静态的模态间交互模型,本文的模型都取得了更好的效果。

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第4张图片

另外,作者探究了本文动态路由机制的有效性,具体来说,对比了随机选择路径和 hard 的选择方式,可以看到本文 soft 的选择机制,可以取得更好的效果。

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第5张图片

结论

在本文中,本文提出了一个面向图像文本检索的统一模态交互建模框架,这是通过动态路由学习探索交互模式的第一项工作。具体来说,本文首先设计了四种类型的单元来执行不同的内部交互操作和动态路由器进行路由学习。

然后我们为路径决策引入语义路径一致性正则化。在两个基准上的大量实验结果证明了本文提出的方法的有效性和优越性。未来,作者计划在给定计算资源的约束下探索动态机制在信息检索系统中的更多应用,使其更加灵活和可扩展。此外,作者计划将哈希模块合并到我们的模型中以加快检索过程。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第6张图片

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第7张图片

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第8张图片

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模_第9张图片

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

你可能感兴趣的:(人工智能,编程语言,深度学习,html,计算机视觉)