TALL: Temporal Activity Localization via Language Query

这是ICCV2017 Spotlight的一篇关于temporal activity localization via language query in an untrimmed video的文章,paper连接https://arxiv.org/abs/1705.02101,作者的homepage https://jiyanggao.github.io/,code已经被released出来了https://github.com/jiyanggao/TALL。
文章要做的事情:
输入:sentence+video      输出:video clip
文章中show出来的example如下所示。
TALL: Temporal Activity Localization via Language Query_第1张图片
TALL: Temporal Activity Localization via Language Query_第2张图片
文章中show出来的实验结果如下所示。
TALL: Temporal Activity Localization via Language Query_第3张图片

method

文章中的framework如下所示。
TALL: Temporal Activity Localization via Language Query_第4张图片

文章主要由两个loss function组成(和Fast-RCNN比较像)。

  • alignment loss。找video clip与sentence的match,采用滑动的窗口对视频片段进行滑动,滑动窗口的大小分为[64,128,256,512](训练),测试的时候是128,正例的样本需要满足三个条件:
    1 .重叠的部分大于0.5。
    2 .不重叠的部分小于0.2。
    3 .一个滑动窗口只能描述一个句子。

  • location regressor loss。对开始和结束的时间进行回归。

你可能感兴趣的:(video,localization,by,text,跨媒体)