视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval

视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第1张图片

论文作者:Ziyang Wang,Yi-Lin Sung,Feng Cheng,Gedas Bertasius,Mohit Bansal

作者单位:UNC Chapel Hill

论文链接:http://arxiv.org/abs/2309.10091v1

项目链接:https://github.com/Ziyang412/UCoFiA

内容简介:

1)方向:视频文本检索

2)应用:视频文本检索

3)背景:传统的视频文本检索方法在检索正确的视频时存在挑战,需要能够理解高级(场景)和低级(物体)视觉线索以及它们与文本查询的关系。

4)方法:本文提出一种统一的粗到细对齐模型UCoFiA,该模型在不同粒度级别上捕捉跨模态相似性信息,并应用交互式相似性聚合模块(ISA)来考虑不同视觉特征的重要性,以获取每个粒度的相似性得分。最后,应用Sinkhorn-Knopp算法对每个级别的相似性进行归一化,以解决不同级别上的过度和不足表示问题。

5)结果:UCoFiA在多个视频文本检索基准上优于先前的基于CLIP的方法,在MSR-VTT、Activity-Net和DiDeMo上的文本到视频检索R@1分别提高了2.4%、1.4%和1.3%。代码可在https://github.com/Ziyang412/UCoFiA上公开获取。

视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第2张图片

视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第3张图片 视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第4张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第5张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第6张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第7张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第8张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第9张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第10张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第11张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第12张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第13张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第14张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第15张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第16张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第17张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第18张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第19张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第20张图片视频文本检索(ICCV 23):Unified Coarse-to-Fine Alignment for Video-Text Retrieval_第21张图片

你可能感兴趣的:(视频文本检索,人工智能,计算机视觉)