2018年 Cross-modal Moment Localization in Videos
一种称为“语言-时间注意力网络”的方法,该方法利用视频中的时间上下文信息学习单词的注意力。因此,我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。
以一个具有代表性的查询来说:一个摩天轮首先进入视野。之前的模型对于第一次这个特点体现的不够好,作者认为建立一个语言处理模型,对基于不同的视频上下文从查询中自适应地选择关键文本词至关重要。
如图1所示作者提出了一个跨模态时刻定位网络(ROLE),它可以共同学习查询表示和时间段定位。首先,作者设计了一个语言-时间注意力模块,用于生成有效的查询表示,根据查询文本信息和时刻上下文信息自适应地重新加权每个单词的特征。然后,作者使用一个多模态处理模块来联合建模查询和时间上下文特征。最后,作者训练了一个多层感知器(MLP)网络来估计所需时刻的相关性分数和位置。
文本进行word 编码得到et,再双向lstm得到每个word representations,再将时间时刻上下文输入注意力模型,该模型能够分配具有更高重要性分数的更有用的单词。
在查询中建立了每个单词的集中嵌入后,我们可以构造查询的表示为:
然后q和c一起用MLP训练,输出向量oL =[scq, δs, δe ]组成。匹配分数scq和定位偏差δs = ts−τs和δe= te−τe。
和TALL方式一样,给定从视频V和查询Q中提取的一组时刻候选C,我们将时刻查询对分为两组:对齐的P和不对齐的N。
c表示当前的候选视频片段,q表示文本描述, δs和δe分别表示c的起始帧与结束帧在视频中的时间戳,δs∗和δe∗分别表示q所描述的时刻段的起始帧与结束帧在视频中的时间戳。
训练阶段,偏移回归损失只在正样本上执行。作为测试阶段,一旦我们获得了一个对齐得分最高的候选矩,我们就可以添加具有偏移值的预测位置
Charades-STA:TALL论文中提出的数据集
DiDeMo:MCN模型论文提出的数据集
作者认为