ICCV 2021| OadTR: Online Action Detection with Transformers论文笔记

论文地址
代码地址

1.研究背景
在线行为检测的目地是在没有任何未来访问权限的情况下,从视频流中正确识别出正在发生的行为。由于在自动驾驶和视频监控,异常检测等领域具有很大的应用前景而收到越来越多的关注。该任务主要挑战是我们要在不充分观察的情况下,在视频帧到达的时刻检测出行为,为了解决该问题,就需要对长程时序依赖关系进行学习,目前的方法趋向于使用RNN对时序依赖关系建模,但是RNN存在非并行性,以及梯度消失问题,因此很难优化该结构,因此我们提出应用transformer去解决这些问题 ,transformer拥有强大的通过自注意力模块进行长程时序建模的能力。
2.研究内容
在本文中我们提出了一种新的基于transformer的编码器解码器框架(OadTR),编码器能够捕获历史观察信息中关系以及进行全局交互,解码器通过聚和未来的片段表现来提取辅助信息,因此OadTR能够通过对历史信息编码以及对未来的上下文进行预测来识别现在的行为。我们在HDD,TVSeies,THUMOS14上评估了我们的数据集显示出我们的模型具有很高的训练和推理速度。
3.研究方法
我们通过对在线行为检测任务引入transformer,该方法是一个能够通过同时学习历史关系和未来信息来对当前的行为进行分类的编码器解码器结构。
第一步是通过标准CNN从给出的视频中提取片段级别的特征序列,然后将task token嵌入到特征序列中,并将其输入到编码器模块中,然后这个task token 的输出能够从历史观察中对全局的时序关系进行编码,解码器用于预测接下来可能发生的行为最后我们将task token的输出和解码器连接起来,用于检测在线行为。
4.本文贡献
(1)第一个将transformer用于在线行为检测上的并提出OadTR。
(2) 我们设计了编码器和解码器能够将长程历史信息和未来的预期结合起来,用于提高在线检测的能力。
5.研究现状
(1)在线行为检测:给出一段视频流,即使只能看到行为的一部分,在线检测也能识别出正在发生的行为。

有一些研究关注于将将测动作开始时候,并将识别出动作开始点的延迟最小化
IDN直接设计出GRU对于过去的信息和正在进行的动作之间的关系进行建模。
TRN使用LSTM来递归预测未来的信息,并将其和过去观察的信息结合起来用于识别行为。但是这些采用RNN的方法并不高效并且在特征之间缺乏交互,因此很难对长期的依赖关系建模。

(2)时间行为检测:在为剪辑的视频中定位出所有动作实例的开始的时间点和结束时间点。

单阶段的方法借助了目标检测的SSD的方法,设计了带有多层特征金字塔结构的端到端行为检测网络。
两阶段的方法采用faster-RCNN结构,包扩j建议框的生成子网和建议框的分类子网
这些方法通常定位概率较高的边界,然后将这些边界组合起来,作为peoposal,然后通过评估proposal中是否包含其区域内的行为的可信度来检索所有的proposal,然而这种方法需要观察整个视频,但是这对于在线任务并不可行。

(3)transformer在视觉任务的应用:DETR、ViT

6.研究方法
ICCV 2021| OadTR: Online Action Detection with Transformers论文笔记_第1张图片
(1)问题描述
给出的视频流中可能个包含多种行为,我们的目标是识别出实时的识别出正在发生行为,假如V ={f-t,…f0}表示输入的视频流,我们需要对f0进行分类,令y0表示f~0正在进行的行为的种类,并且这里的0表示背景类,OadTR采用了注意力机制能够捕获特征在时间维度上测长程上下文信息。
(2)编码器
先对视频流进行特征提取并坍塌空间维度到一维的特征序列并接一个全连接层将特征映射到D维得到token序列,在编码器中,对这些token序列,我们扩展到一个可学习的tokenclass,并得到组合的{token,tokenclass}特征序列,tokenclass是用于学习和在线行为检测任务相关的全局的判别性特征,对于没有tokenclass的行为更加偏向于某一帧(第一帧的类别),但是tokenclass会通过自适应的交互来获取最合适的行为类别。
ICCV 2021| OadTR: Online Action Detection with Transformers论文笔记_第2张图片
由于中没有帧间顺序信息,我们需要额外嵌入位置编码。位置编码可以通过两种方式获得,正弦输入和训练嵌入,我们为token序列添加位置编码来保留位置信息,从而获得帧间顺序信息。
在这里插入图片描述
接下来就是多头自注意力机制:
ICCV 2021| OadTR: Online Action Detection with Transformers论文笔记_第3张图片
最终得到输出的H1,H2…Hhead,然后将他们连接起来,输入到一个线性层中
在这里插入图片描述
接下来使用了一个两层的FFN,使用的是GELU激活函数,同时使用layernormal、残差连接
ICCV 2021| OadTR: Online Action Detection with Transformers论文笔记_第4张图片
在这里插入图片描述

(3)解码器
利用之前观察到的信息对将来可能发生的行为进行预测,我们主要使用f0,然后解码器预测可能出现的行为,作为辅助信息更好的识别这些行为。
ICCV 2021| OadTR: Online Action Detection with Transformers论文笔记_第5张图片
将解码器得到的结果进行池化后,然后在和编码器得到的task token连接起来,经过一恶搞全连接层,然后使用softmax得出行为的类别。OadTR也会预测接下来ld步长的特征,因为在离线训练中能够看到未来的信息,为了得到更好的特征表达,我们对于未来的预测特征使用有监督训练。
在这里插入图片描述
最终的损失函数为:
在这里插入图片描述
CE是交叉熵函数。
在这里插入图片描述

7.数据集
(1)HDD (2)TVSeries (3)THUMOS14
实施细节:
我们采用了在ActivityNet上预训练的双流网络(TSN-Anet),时空子网络采用ResNet-200和BN-Inception,使用adam进行优化,batch size设置为128,学习率设置为0.0005,在HDD上设置T为31,在THUMOS和TVseries上设置为63.
8.结论
提出了一种在线行为检测框架OadTR,比起基于RNN的方法,该方法直接采用端到端的并行网络,通过对历史信息进行编码同时对未来的上下文信息进行预测来识别当前的行为,并且比现在的主流方法具有更高的训练速度和推理速度,我们可以将该模型扩展像行为识别,时空行为检测这样的任务上。

你可能感兴趣的:(transformer,人工智能,transformer,计算机视觉)