视频行为识别与轻量化网络的前沿论文、代码等
https://zhuanlan.zhihu.com/c_1207774575393865728
CVPR 2020 行为识别/视频理解论文汇总
https://zhuanlan.zhihu.com/p/141429177
CVPR 2020 论文大盘点-动作识别篇
https://cloud.tencent.com/developer/article/1664055
CVPR 2020 论文大盘点-动作检测与动作分割篇
https://www.sohu.com/a/408454247_823210
Shift思想在视频理解中的近期进展
https://zhuanlan.zhihu.com/p/137385332
视频行为识别2020最新研究进展(中科院深圳先进技术研究院-乔宇)
https://zhuanlan.zhihu.com/p/109519047
ECCV 2020 论文大盘点-动作检测与识别篇
https://blog.csdn.net/moxibingdao/article/details/109140629
Temporal Action Detection总结
https://zhuanlan.zhihu.com/p/52524590
https://www.zhihu.com/question/57523080/answer/158568414
https://zhuanlan.zhihu.com/p/26603387
https://blog.csdn.net/qq_33278461/article/details/80720104
时序行为检测 & 弱监督时序行为检测 & 时序行为proposal生成 论文整理
https://zhuanlan.zhihu.com/p/112811396?utm_source=wechat_session
CVPR2019 | 论文之行为/动作识别、手势识别、时序动作检测及视频相关
https://blog.csdn.net/leiduifan6944/article/details/109624879
ECCV CVPR AAAI 2018年 Action recognition 的汇总
https://www.sohu.com/a/298599618_100021558
2018年 Action recognition 的汇总(ECCV CVPR AAAI)
https://zhuanlan.zhihu.com/p/56061717
Action Localization Benchmarks
Papers and Results of Temporal Action Localization
https://github.com/VividLe/awesome-weakly-supervised-action-localization
Papers: temporal action proposals & detection
Papers: weakly temporal action detection
Features: Download link
Benchmark Results (THUMOS14 Results)
https://github.com/sming256/Materials-Temporal-Action-Detection
AVA数据集:
https://zhuanlan.zhihu.com/p/157869607
时空行为定位相关论文:
https://blog.csdn.net/irving512?t=1
人类动作识别数据集AVA:
https://blog.csdn.net/zchang81/article/details/78291527?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param
https://blog.csdn.net/gh13uy2ql0n5/article/details/78302372?utm_medium=distribute.pc_relevant.none-task-blog-title-2&spm=1001.2101.3001.4242
下载地址:
https://research.google.com/ava/
视频特征提取工具:
(I3D models trained on Kinetics)
https://github.com/piergiaj/pytorch-i3d
一、行为识别:
(1)ECCV2020 腾讯优图 时间差异表示学习
Temporal Distinct Representation Learning for Action Recognition
取得了现在轻量级模型最好的结果
本文提出渐进式增强模块,用于 channel-level 信息滤波,有效地激发了不同帧的鉴别通道,同时避免了重复信息提取。
另外,提出一个时序多样性损失来训练网络。该损失可以校准卷积核,从而使网络可以专注于并捕捉帧之间的变化。也提高了识别精度,且不增加额外的网络复杂性。
https://arxiv.org/pdf/2007.07626.pdf
https://zhuanlan.zhihu.com/p/162026102
(2)CVPR2020 中科院+商汤 SmallBigNet
SmallBigNet: Integrating Core and Contextual Views for Video Classification
模型更加精简,最后得到的模型大小与2D CNN相近,FLOPs翻倍,在Kinetics-400、Something-Something V1&V2上都超过了最近的一些方法。
https://arxiv.org/pdf/2006.14582v1.pdf
https://zhuanlan.zhihu.com/p/153471137
https://github.com/xhl-video/SmallBigNet
(代码还在整理,还没放出来)
(3)CVPR2019 Kaiming He Non-local Neural Networks
Non-local Neural Networks
convolution和recurrent都是对局部区域进行的操作,所以它们是典型的local operations。受计算机视觉中经典的非局部均值(non-local means)的启发,本文提出一种non-local operations用于捕获长距离依赖(long-range dependencies)
https://arxiv.org/pdf/1711.07971v1.pdf
https://github.com/facebookresearch/video-nonlocal-net
https://blog.csdn.net/elaine_bao/article/details/80821306
https://www.zhihu.com/question/68473183
https://zhuanlan.zhihu.com/p/102984842
https://zhuanlan.zhihu.com/p/64988633
(4)2020TR 南大+商汤 TAM 时间自适应模块
TAM: Temporal Adaptive Module for Video Recognition
在视频动作识别中,时序建模对学习视频中的时序结构信息至关重要。但由于受多种因素的影响(例如相机运动,视角切换,场景多样),导致视频数据在时序维度上具有及其复杂的动态特性。为了能够有效捕捉视频中的时序动态特性,提出了一种自适应的时序建模方法TAM (Temporal Adaptive Module)。
https://arxiv.org/pdf/2005.06803v1.pdf
https://github.com/liu-zhy/temporal-adaptive-module
https://zhuanlan.zhihu.com/p/149429010
https://zhuanlan.zhihu.com/p/141773949
(5)CVPR 2020 Oral FAIR X3D超轻量级行为识别模型
X3D: Expanding Architectures for Efficient Video Recognition
受机器学习中的特征选择方法启示,想到了一个简单的逐步扩张不同维度的方法,从基础的模型X2D出发,探索了帧率、帧数、分辨率、深度、宽度、bottleneck宽度对模型性能的影响。不同的是用了坐标下降+贪心策略进行快速“搜索”,方法简单但十分make sense
https://arxiv.org/pdf/2004.04730.pdf
https://github.com/facebookresearch/SlowFast
https://zhuanlan.zhihu.com/p/131494746
https://zhuanlan.zhihu.com/p/129279351
(6)CVPR2020 南大+腾讯 TEA 轻量级视频行为识别模型
TEA: Temporal Excitation and Aggregation for Action Recognition
(TEA=TEINet的MEM+STM串联结构+Res2Net backbone)
https://arxiv.org/pdf/2004.01398.pdf
https://github.com/Phoenix1327/tea-action-recognition
https://zhuanlan.zhihu.com/p/129282832
https://zhuanlan.zhihu.com/p/130807086
(7)ICCV2019 商汤 STM 行为识别时空与动作编码
STM: SpatioTemporal and Motion Encoding for Action Recognition
与TSM一样,也是利用2D卷积完成视频任务,但是是一种新的思路。行为识别中最重要的是时空特征以及运动特征,前者将不同时刻的空间特征关系编码,后者将相邻帧的运动特征表征,作者针对两种特征分别提出了CSTM(Channel-wise SpatioTemporal Module)以及CMM(Channel-wise Motion Module)
https://arxiv.org/pdf/1908.02486.pdf
https://zhuanlan.zhihu.com/p/87048160
https://zhuanlan.zhihu.com/p/105341123
(8)CVPR2020 CUHK+SenseTime Temporal Pyramid Network for Action Recognition
现实中视频动作的速度(visual tempos)往往是不同的,如果我们不考虑速度的话,walking, jogging 和 running三个在形态上很相似的动作也很难被识别出来。而现有的视频模型设计时往往忽视了视觉速度这一个至关重要的点。
本文提出TPN(Temporal Pyramid Network)网络结构,特点是金字塔,即时间金字塔网络,该网络以即插即用的方式灵活地集成到2D或3D主干网络中。起源于对视频动作快慢的研究,在多个数据集上取得优秀的结果。
https://arxiv.org/pdf/2004.03548.pdf
https://zhuanlan.zhihu.com/p/127366929
https://blog.csdn.net/YoJayC/article/details/106989570
https://blog.csdn.net/Amazingren/article/details/105631183
https://github.com/decisionforce/TPN
(9)ICCV2019 TSM Temporal Shift Module for Efficient Video Understanding
本文在对视频数据大量增长的情况下提出了一种Temporal Shift Module(TSM)网络方法,该方法是能够插入2D CNNs的网络中实现时序上的学习而不增加额外的性能上的花费。TSM是一个高效且识别率非常好的模型,相对于传统的一些算法其速度有数倍的提升。
https://arxiv.org/pdf/1811.08383.pdf
https://zhuanlan.zhihu.com/p/66251207
https://zhuanlan.zhihu.com/p/64525610
https://zhuanlan.zhihu.com/p/84868486
官方代码(含nano的demo,TVM加速):
https://github.com/MIT-HAN-LAB/temporal-shift-module
训练代码:
https://github.com/dionsaputra/tsm-retrain
(10)CVPR2020 Gate-Shift Network
为了获取时序信息,一般的做法是采用 3D 卷积,例如 C3D。这种方法有它的优点,可以学习到比较 powerful 的时空特征,但是这种方法也有它的缺点,参数量大计算成本高。为了解决这种方法存在的缺点,近年来涌现出许多改进的方法,例如 S3D,TSM,GST。
这篇论文同属于对 3D 卷积进行改进,作者认为上述方法都是 hard-wired,意思是说网络结构非常固化,不能根据训练数据进行调整,特征从上一个 block 输出到下一个 block 经过的都是固定的网络。论文针对这点进行了改进,提出了 Gate-Shift Module,GSM 结合了 TSM 和 GST,共包括三个组件。
https://arxiv.org/pdf/1912.00381.pdf
https://github.com/swathikirans/GSM
https://zhuanlan.zhihu.com/p/159203201
(11)CVPR2020 oral 布里斯托大学
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
基于多模态域适应的细粒度行为识别
细粒度动作识别的多模态域适应技术,使用RGB与光流数据,解决动作识别在不同数据集上训练和测试性能下降的问题。
https://arxiv.org/pdf/2001.09691.pdf
https://blog.csdn.net/qq_41967539/article/details/105148467
(12)ECCV2020 (浦项科技大学,韩国)
MotionSqueeze: Neural Motion Feature Learning for Video Understanding
在这项工作中,对内部和轻量级的运动特征学习,代替了外部和繁重的光流计算,提出了可训练的神经模块,称为MotionSqueeze,用于有效的运动特征提取。它被插入任何神经网络的中间,学习跨帧建立对应关系并将其转换为运动特征,然后将其轻松馈送到下一个下游层以进行更好的预测。
https://arxiv.org/pdf/2007.09933.pdf
https://github.com/arunos728/MotionSqueeze
(13)ECCV2020 Spotlight (澳大利亚国立大学;牛津大学;Data61/CSIRO;香港大学等)
Few-shot Action Recognition with Permutation-invariant Attention
本文作者提出了一种新的少样本动作识别网络(ARN),由一个编码器、比较器和一个注意机制组成,来模拟短期和长期时空模式。作者研究了自监督的作用,通过空间和时间增强/辅助任务。
此外,作者还提出了一种新的机制:attention by alignment ,解决了所谓的判别性长期块的时间位置的分布迁移问题。通过结合 self-supervision(自监督) 和 attention by alignment 的损失,得到高达6%的准确性的收益。
https://arxiv.org/pdf/2001.03905.pdf
(14)ECCV2020
AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
MIT-IBM Watson AI Lab;波士顿大学;麻省理工学院
动作识别是计算机视觉中的一个开放性和挑战性问题。现有的最先进的模型已经实现了很好的识别效果,但其昂贵的计算代码限制了其许多现实应用。
本文中,提出一种新的方法:AR-Net(Adaptive Resolution Network),它可以根据输入条件为每一帧选择最佳的分辨率,以实现在长的未修剪视频中高效的动作识别。
具体来说,给定一个视频帧,使用策略网络来决定动作识别模型应该使用什么样的输入分辨率进行处理,目的是提高准确性和效率。使用标准的反向传播有效地训练了策略网络与识别模型的联合。
在几个具有挑战性的动作识别基准数据集上的广泛实验很好地证明了提出的方法比最先进的方法更有效。
https://arxiv.org/pdf/2007.15796.pdf
https://github.com/mengyuest/AR-Net
(15)ECCV2020
RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition
斯坦福李飞飞团队 RubiksNet 可学习的三维移位
本文作者提出RubiksNet,一种新型的高效的视频动作识别架构,基于提出的可学习的3D时空移位操作(RubiksShift),效果与先前工作相当或更好,参数减少了2.9 - 5.9倍,FLOP减少了2.1 - 3.7倍。
https://stanfordvl.github.io/rubiksnet-site//assets/eccv20.pdf
https://zhuanlan.zhihu.com/p/203239605?utm_source=wechat_session
https://github.com/StanfordVL/rubiksnet
(16)AAAI 2020 码隆科技实验室+南京大学
KINet
Knowledge Integration Networks for Action Recognition
提出了用于视频动作识别的知识集成网络(KINet)。
KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人类信息和场景上下文。
设计了一个由一个动作识别主分支和两个辅助分支组成的三分支体系结构,该结构允许模型对动作识别中的人和场景知识进行编码。
https://arxiv.org/pdf/2002.07471.pdf
https://blog.csdn.net/qq_41590635/article/details/105657688
(17)AAAI2020 南京大学+腾讯优图实验室
TEINet:Towards an Efficient Architecture for Video Recognition
(个人感觉是SENet和TSM结合的升级版)
在视频动作识别的架构设计中,效率是一个重要的问题。3D CNNs在视频动作识别方面取得了显著的进展。然而,与二维卷积相比,三维卷积往往引入大量的参数,导致计算量大。为了解决这个问题,我们提出了一个有效的时序模块,称为Temporal Enhancement-and-Interaction(TEI模块),它可以插入到现有的2D CNNs中。TEI模块通过分离通道相关和时间交互的建模,提出了一种不同的学习时间特征的范式。首先,它包含一个运动增强模块(MEM),该模块在抑制无关信息(例如背景)的同时增强与运动相关的特征。
然后,介绍了一个时序交互模块(TIM),它以通道方式补充时序上下文信息。该两阶段建模方案不仅能够灵活有效地捕捉时间结构,而且能够有效地进行模型推理。
https://arxiv.org/pdf/1911.09435.pdf
https://blog.csdn.net/qq_41590635/article/details/105309977
(18)CVPR2019 海康研究院
Collaborative Spatio-temporal Feature Learning for Video Action Recognition
协同时空特征学习在视频动作识别中的应用
won the 1st place in the Momentsin Time Challenge 2018.
More importantly, richmotion information is embeddedwithin each frameratherthan between frames
Given a 3D volumetric video tensor, we flattenit into three sets of 2D images by viewing it from differentangles.
Then 2D convolution is applied to each set of 2Dimages.
https://arxiv.org/pdf/1903.01197.pdf
二、时序行为检测:
(https://blog.csdn.net/qq_33278461/article/details/80720104)这篇综述不错
基本流程
1.先找proposal,在对proposal分类和回归边界
2.找proposal方法:主要就是以下几种
如果刚开始看这方面,17工作直接看SSN(TAG找proposal)、R-C3D、CBR(TURN找proposal)就好了,找proposal方法简单看看TAG和TURN(网络其他部分不用看),github也有代码,对性能要求不高可以试试SSN(用到了光流),不然的话可以用一下R-C3D。
SSN代码:https://github.com/yjxiong/action-detection
CDC代码:https://github.com/ColumbiaDVMM/CDC
R-C3D代码:https://github.com/VisionLearningGroup/R-C3D
CBR代码:https://github.com/jiyanggao/CBR
Learning Latent Super-Events to Detect Multiple Activities in Videos
代码:https://github.com/piergiaj/super-events-cvpr18
(1)CVPR2020 G-TAD: Sub-Graph Localization for Temporal Action Detection(THUMOS14, it reaches51.6% at [email protected])
一阶段temporal action localization
对于动作检测而言,视频的文本信息是十分重要的线索之一,但是当前的工作主要集中于时序文本信息(temporal context),而忽视了另一个同样重要的语义文本信息(semantic context)。本文提出通过GCN模型自适应地融合多级语义文本信息,将时序动作检测问题转化为子图定位问题。具体就是将视频snippets作为图节点,将snippet-snippet correlations 作为边, 将于文本相关的动作实例作为目标子图。设计了GCNeXt模块,学习聚合了文本信息的特征,并动态更新图的边。设计了SGAlign layer将子图嵌入欧式空间来定位每一个子图。实验取得了state-of-the-art 的效果。
On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in [email protected], 成为最好的one-stage方法。
https://arxiv.org/pdf/1911.11462.pdf
https://github.com/Frostinassiky/gtad
https://www.pianshen.com/article/6083934521/
https://blog.csdn.net/qq_41590635/article/details/105033360
(2)2019 ICCV P-GCN:Graph Convolutional Networks for Temporal Action Localization
二阶段 temporal action localization任务中的SOTA
https://openaccess.thecvf.com/content_ICCV_2019/papers/Zeng_Graph_Convolutional_Networks_for_Temporal_Action_Localization_ICCV_2019_paper.pdf
https://github.com/Alvin-Zeng/PGCN
https://www.pianshen.com/article/9204940808/
https://blog.csdn.net/qq_24337529/article/details/104456819
https://zhuanlan.zhihu.com/p/134638106
(其中用到了SAGE,可参考https://blog.csdn.net/yyl424525/article/details/100532849)
(3)CVPR2016 SCNN(Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs)
多阶段网络,这篇文章是CVPR2016上的工作,时间较早,方法简单。
主要提出了一个三阶段的3D卷积网络来做动作检测:(1)proposal network;(2)classification network;(3)localization network。
https://arxiv.org/pdf/1601.02129v2.pdf
https://github.com/zhengshou/scnn/
https://blog.csdn.net/wzmsltw/article/details/65437295
(4)2017 TAG(A Pursuit of Temporal Accuracy in General Activity Detection)
The Chinese University of Hong Kong
之前的工作中都是通过滑动窗口来提取proposal,就和RCNN一样,这种无法应对长度不一的视频动作。而且在一般的行为识别中,卷积都是作用在一个稠密的视频帧之间,对于长动作来说消耗巨大。
所以文章提出了一个新的框架来对可变长度的视频精确地确定其动作的边界。
建立完整动作的边界(temporal boundaries)
检测片段的相关性和完整性(relevance and completeness)
https://arxiv.org/pdf/1703.02716.pdf
https://zhuanlan.zhihu.com/p/52524590
(5)TURN TAG: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017)
利用了Faster-RCNN的思想来在时间维度上提取proposal
提出了TURN模型预测proposal并用temporal coordinate regression来校正proposal的边界
单元回归网络,SCNN中采用的滑窗找proposal的如果想要得到准确的结果,就需要增大窗口之间的重叠度,这样导致了一个问题就是计算量极大。为了减小计算量,增加时序定位精度,本文借鉴faster-rcnn引入边界回归的方法:将视频分为等长短单元,做单元水平的回归。
https://www.cnblogs.com/demian/p/9720597.html
https://www.bbsmax.com/A/qVde4Km85P/
(6)SSN:ICCV 2017
Temporal Action Detection with Structured Segment Networks
SSN(structured segment network,结构化的段网络)通过结构化的时间金字塔对每个行为实例的时间结构进行建模。金字塔顶层有decomposed discriminative model(分解判别模型),包含两个分类器:用于分类行为(针对recognition)和确定完整性(针对localization)。集成到统一的网络中,可以以端到端的方式高效地进行训练。
为了提取高质量行为时间proposal,采用temporal actionness grouping (TAG)算法。
https://github.com/yjxiong/action-detection
https://blog.csdn.net/zhang_can/article/details/79782387
(7)CBR(Cascaded Boundary Regression for Temporal Action Detection)
https://blog.csdn.net/jiachen0212/article/details/79092395
(8)PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection
AAAI 2020 中国科学技术大学
one-stage
具有三个级联的探测模块,可以更精确地定位动作边界。
PBRNet主要包括粗金字塔检测、精金字塔检测和细粒度检测。
PBRNet集成了基于anchor和frame-level的方法。
本文提出了一种渐进边界细化网络(PBRNet)来提高时序动作检测的精度和速度。
https://blog.csdn.net/qq_41590635/article/details/105737819
(9)TSA-Net:Scale Matters: Temporal Scale Aggregation Network for Precise Action Localization in Untrimmed Videos
北大、腾讯
(ICME 2020 oral)
https://arxiv.org/pdf/1908.00707.pdf
https://blog.csdn.net/qq_41590635/article/details/101553059
提出的一种新的集成时间尺度聚合网络。主要观点是将不同膨胀率的卷积滤波器组合在一起,有效地以较低的计算成本放大感受野,从而设计多膨胀时间卷积(MDC)块。此外,为了处理不同持续时间的视频动作实例,TSA-Net由多个子网组成。它们中的每一个都采用了具有不同扩张参数的叠层MDC块,实现了针对特定持续时间动作而特别优化的时间感受野。该文遵循边界点检测的公式,检测三种临界点(即起点/中点/终点)并将它们配对生成方案。
TSA-Net网络显示出清晰和一致的更好性能,并在两个基准上重新校准最新的技术状态。在THUMOS14上的记录是46.9%,而在[email protected]下,之前的最好记录是42.8%,是当前最好的效果。
(10)Bottom-Up Temporal Action Localization with Mutual Regularization
(ECCV2020)
上交大、华为
https://arxiv.org/pdf/2002.07358.pdf
https://github.com/PeisenZhao/Bottom-Up-TAL-with-MR
(11)Graph Attention Based Proposal 3D ConvNets for Action Detection
(AGCN-P-3DCNNs)
AAAI 2020
北航、电子科大
This paper proposes an attention based GCN for action detection in video, solving the problem that the proposal 3D CNNs based video action detection can not utilize the relations of temporal action proposals.
Moreover, our AGCN can learn the intra long-range dependencies for every node
in graph node matrix and learn the inter dependencies among proposals for adjacency matrix in the graph.
Besides, to improve the whole network temporal action detection performance, we introduce the simple and effective framewise classifier module to enhance the backbone presentation capabilities.
(12)CBR-Net: Cascade Boundary Refinement Network for Action Detection:Submission to ActivityNet Challenge 2020 (Task 1) (ActivityNet Challenge 2020)
https://arxiv.org/pdf/2006.07526v2.pdf
华科、达摩
ActivityNet Challenge 2020
achieve 42.788% on the test-ing set of ActivityNet v1.3 dataset in terms of mean AveragePrecision metrics and achieve Rank 1 in the competition.
(13)(TGM)
Temporal Gaussian Mixture Layer for Videos
(ICML 2019)
https://arxiv.org/pdf/1803.06316.pdf
https://github.com/piergiaj/tgm-icml19
(14)(Decouple-SSAD)
Decoupling Localization and Classification in Single Shot Temporal Action Detection
(ICME 2019)
https://arxiv.org/pdf/1904.07442.pdf
https://github.com/HYPJUDY/Decouple-SSAD
(15)SF-Net: Single-Frame Supervision for Temporal Action Localization
悉尼科技大学;Facebook
(single-frame supervision)
ECCV 2020 Spotlight
https://github.com/Flowerfan/SF-Net
(16) (S-2D-TAN)
Learning Sparse 2D Temporal Adjacent Networks for Temporal Action Localization
(winner solution for the HACS Temporal Action Localization Challenge at ICCV 2019)
We extend our 2D-TAN approach to the temporal action localization task and win the 1st place in HACS Temporal Action Localization Challenge at ICCV 2019.
罗切斯特大学、微软研究院
https://arxiv.org/pdf/1912.03612.pdf
用了自然语言处理的方法(2D-TAN)
Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language
(AAAI 2020)
(17)(LCDC)
Learning Motion in Feature Space: Locally-Consistent Deformable Convolution Networks for Fine-Grained Action Detection
(ICCV 2019 oral)
(Fine-grained action detection)
https://arxiv.org/pdf/1811.08815.pdf
https://github.com/knmac/LCDC_release
(18)(BLP)
BLP -- Boundary Likelihood Pinpointing Networks for Accurate Temporal Action Localization
(ICASSP 2019)
(19)(GTAN)
Gaussian Temporal Awareness Networks for Action Localization
(CVPR 2019 Oral)
https://arxiv.org/pdf/1909.03877.pdf
在线的行为检测:
(1)Information Discrimination Units (IDU) CVPR 2020
学习鉴别信息进行在线动作检测
Learning to Discriminate Information for Online Action Detection
https://github.com/hjeun/idu
三、基于弱监督方法的时序行为检测:
(即不需要具体的行为动作的时间定位信息,只通过视频类别信息进行训练而得到人体动作行为间隔信息)
Motivation:现有的行为识别方法严重依赖于剪切过的视频数据来训练模型,然而,获取一个大规模的剪切过的视频数据集需要花费大量人力和时间。
1.为每个行为实例标注时间持续时间花费高且耗时。
2.这些时间的注释可能是主观的,在不同人之间不一致。
弱监督行为识别与检测:在训练时,只使用不含时序标注的未剪切视频进行训练;在测试时,训练好的模型能对未剪切的视频进行行为识别与检测。
综述:
弱监督时序行为检测(一)
https://zhuanlan.zhihu.com/p/119302485
弱监督时序行为检测(二)
https://zhuanlan.zhihu.com/p/120361421
时序行为检测论文综述①
https://zhuanlan.zhihu.com/p/49977158
时序行为检测论文综述②
https://zhuanlan.zhihu.com/p/50352994
[综述]弱监督动作定位Weakly Supervised Temporal Action Localization 论文阅读
https://blog.csdn.net/weixin_41595062/article/details/107583125
【资源】时序行为检测相关资源列表 (包括较新的论文和数据集)
https://bbs.cvmart.net/articles/526/
论文:
(1)AutoLoc:弱监督时序行为检测方法(ECCV 2018)
提出一种新奇的视频时序行为检测方法:AutoLoc,它能仅用视频级的标注预测出每个行为的时间边界。
https://zhuanlan.zhihu.com/p/63092925
(2)Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR2018)
https://blog.csdn.net/nclgsj1028/article/details/79622731
https://zhuanlan.zhihu.com/p/50943824
(3)UntrimmedNet:弱监督行为识别与检测网络(CVPR 2017)
UntrimmedNets for Weakly Supervised Action Recognition and Detection
https://blog.csdn.net/qq_40760171/article/details/102662289
https://zhuanlan.zhihu.com/p/63163024
(4)Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization(ICCV 2017)
在训练过程中,随机的隐藏一些帧,来让分类网络能够将注意力更平均的分配到各个区域帧上
https://zhuanlan.zhihu.com/p/52531042
(5)STPN:Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018)
提出了Temporal Class Activation Maps(T-CAM)进行动作定位
https://blog.csdn.net/weixin_41595062/article/details/107583125
(6)Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization(ECCV 2020)
https://blog.csdn.net/weixin_41595062/article/details/107583125
引入帧级伪标签
(7)BaSNet:Background Suppression Network for Weakly-supervised Temporal Action Localization(AAAI 2020)
引入背景类,抑制非动作帧的激活
之前的工作没有考虑到背景类别,会将背景帧误分为动作类别,造成大量FP。本文提出了背景抑制网络BaSNet,引入了额外的背景类,两支镜像网络(一支为base网络,一支为用attention抑制背景的suppression网络),实验表明这样设计可以有效抑制背景的影响,从而提高定位的准确性。
https://www.cnblogs.com/demian/p/12052354.html
https://github.com/Pilhyeon/BaSNet-pytorch
Background Modeling via Uncertainty Estimation for Weakly-supervised Action Localization
https://github.com/Pilhyeon/Background-Modeling-via-Uncertainty-Estimation
(8)Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization(CVPR2019)
关于背景建模出现在弱监督时域动作定位领域最早的一篇
基于动作的完整性建模以及动作-背景上下文分离的情况进行建模,提出了一个带有多样性损失(diversity loss)的多分支网络结构(a multi-branch network architecture)以用于动作的完整性建模,以及一个 hard negative 视频生成的方法(背景类)用于分离上下文。
https://zhuanlan.zhihu.com/p/120361421
https://github.com/Finspire13/CMCS-Temporal-Action-Localization
(9)Weakly-Supervised Action Localization by Generative Attention Modeling(CVPR 2020)微软亚洲研究院
提出了一种新的思路,从特征表示的角度捕捉上下文和动作片段的区别,进一步提高了动作定位效果。
https://www.msra.cn/zh-cn/news/features/weakly-supervised-action-localization-by-gam
https://github.com/bfshi/DGAM-Weakly-Supervised-Action-Localization
四、时空行为定位:(需要画出人体框)最难
(1)AlphAction -行为检测
https://github.com/MVIG-SJTU/AlphAction
Asynchronous Interaction Aggregation for Action Detection (上交大,ECCV 2020)
https://arxiv.org/pdf/2004.07485.pdf
https://blog.csdn.net/huangyiping12345/article/details/106839527
(2)ECCV2020 南京大学 王利民 Actions as Moving Points
MOC:提出了一套全新的时空动作检测 (spatio-temporal action detection) 框架
受到最近anchor-free object detector的影响,提出了一个简洁、高效、准确的action tubelet detector, 称为MovingCenter detector (MOC-detector)
https://github.com/MCG-NJU/MOC-Detector
https://zhuanlan.zhihu.com/p/164968681
(3)You Only Watch Once
不同于以往类似Faster R-CNN两阶段方法,先生成大量proposals,再进行分类和位置提精,YOWO在一个网络中实现了时空信息的提取和融合,易于训练,精度高,而且速度也很快。
https://www.jiqizhixin.com/articles/2019-11-22-2
https://blog.csdn.net/qq_24739717/article/details/104900006
https://github.com/wei-tim/YOWO