ICCV2021-TOCo-微软&CMU提出Token感知的级联对比学习方法,在视频文本对齐任务上“吊打”其他SOTA方法...
关注公众号,发现CV技术之美0写在前面对比学习已被广泛应用于训练基于Transformer的视觉语言模型的视频文本对齐和多模态表示学习等任务。在本文中,作者提出了一种新的token感知级联对比学习(TACo)算法,该算法利用两种技术改进了以往对比学习的缺点。第一个是通过考虑单词的句法类别(比如:名词、动词、介词)来计算的token感知的对比损失。这是由于作者观察到,对于视频-文本对,文本中的内容词