[CVPR2022] Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition

Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition

要点:

1、半监督动作识别,使用伪标记分配未标记数据,然后在训练中用作附加的监督
2、最近研究:伪标签通过在标记数据上训练模型获取,然后使用来自该模型的置信度预测值来自学
3、新的伪标记方案 —— CMPL,跨模型伪标记
(a)在主干网络的基础上,引入轻量级的辅助网络,相互预测伪标签
(b)由于结构偏差,两个模型倾向于从相同的视频剪辑中学习互补表示
(c)通过利用跨模型预测作为监督,每个模型都可以从对应模型中获益

相关工作:

图像分类的半监督学习:

先前工作:利用一致性正则化,要求模型对包括数据增强、对抗性扰动在内的扰动具有鲁棒性
最近工作:集中于伪标记框架,根据模型预测为伪标记图像分配标签
	(a)利用模型参数的指数移动平均产生伪标签
	(b)利用模型参数的历史预测产生伪标签
	(c)FixMatch:通过要求来自强增强数据的预测反映来自弱增强数据的预测,结合了一致性和正则化伪标记
但是,这些方法都没有明确考虑人类行为的时间动态特征
本文方法:通过一个独立的互补网络来更有效地表示特征

动作识别的半监督学习:

1、极端学习机
2、图像重建的编码-解码结构
3、二维图像分类器
4、时间对比学习框架
5、不同视图,联合训练,集成伪标签,模型再训练(两个网络迭代预测,合并伪标签的共同监督两个模型)
本文:具有不同体系的两个模型在交叉学习中分别为对对方提供伪标签,从互补特征中获益

图表:

小网络和大网络的分类性能差距:
1、小网络:强时间动态的动作,stronger temporal dynamics, i.e., “Swinging Legs”
2、大网络:空间信息,actions mainly characterized by spatial information
[CVPR2022] Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition_第1张图片
正确伪标签的比率:
[CVPR2022] Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition_第2张图片
CMPL 框架图示:

1、Primary backbone F(.),主干网络
2、Auxiliary network A(.),辅助网络
3、两个网络以不同的帧率接收视频输入
4、给定一个未标记的视频,两个模型对弱增强数据进行独立地预测
5、根据预测结果为对方产生用于强增强版本监督的伪标签
6、SG:stop-gardient

[CVPR2022] Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition_第3张图片

代码:

你可能感兴趣的:(#,CVPR2022,深度学习,人工智能)