ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M,设计用于端到端检索的联合视频和图像编码器!代码已开源!...
关注公众号,发现CV技术之美▊写在前面视频文本检索的挑战包括视觉网络结构的设计和训练数据的性质,因为可用的大规模视频文本训练数据集(例如HowTo100M)是noisy的,因此只能通过大量的计算才能达到竞争力的性能。作者在本文中解决了这两个挑战,并提出了一种端到端可训练模型,该模型旨在利用大规模图像和视频字幕数据集。本文的模型是对最近的ViT和Timesformer结构的修改和扩展,并且包括在空间