Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022理解速

Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022

链接:https://www.researchgate.net/publication/351925764_Unsupervised_Action_Segmentation_by_Joint_Representation_Learning_and_Online_Clustering

1.团队相关信息

作者都是这个西雅图的Retrocausal公司的,公司首页上发布有5、6篇已经中的顶会论文,都是视频方向的。

2.背景

首先这篇文章针对的领域是动作分割,解释一下什么是Action Segmentation。动作分割就是,给定一长段捕捉复杂活动的视频序列,目标是将长视频的每一帧分类为一个动作或者子活动类。

3.出发点

有监督的方法需要每一帧的动作标签来进行训练,这成本是比较昂贵的。弱监督的方法需要弱标签,例如每个视频的有序动作列表,这样的标签获取其实也是比较耗时的。
因此出现了无监督的一些方法,这些方法共同发现这些动作,并通过将所有视频中的帧分组为簇来分割视频,每个簇对应于其中一个动作。以往的无监督动作分割方法通常将表征学习和聚类分离,图1(a),这阻止了聚类步骤的反馈回到表征学习。此外,它们需要先存储整个数据集的特征,然后再以离线方式对它们进行聚类,从而导致内存使用效率低下。
Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022理解速_第1张图片

4.方法

4.1方法总览

基于这个出发点,这篇文章提出了一种联合表征学习和在线聚类的无监督动作分割方法,图1(b)。该方法使用视频帧聚类作为pretext任务,从而直接优化无监督动作分割。并且提出时间最优传输模块来利用视频中的时间信息。具体来说,在计算伪标签簇分配时,时间最优传输模块保留了活动的时间顺序,产生了无监督动作分割的有效表示。此外,该文方法一次处理一个小批处理,因此大大减少了内存需求。

4.2方法细节

整体方法就是图2所示。这是一个无监督的动作分割方法。
Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022理解速_第2张图片
首先整体结构分为表征学习和在线聚类两大部分。

表征学习:

给定一个帧序列X,首先把他经过编码器得到了特征Z,接下来可以通过公式1计算得到Pij,Pij表示第i帧属于第j个动作簇的概率。cj是第j个动作簇的原型。
在这里插入图片描述
伪标签Q是通过求解时间最优传输问题来计算的,这个我们后面会讲到。对于基于聚类的表征学习,最终的交叉熵损失就是公式2的最小化:
在这里插入图片描述
为了进一步利用视频中的时间信息,该文添加另一个时间一致性损失。它学习一个遵循时间一致性约束的嵌入空间,其中时间距离接近的帧应该映射到附近的点,时间距离遥远的帧应该映射到遥远的点。这里使用的是N-pair度量损失。对于每个视频,首先采样用zi表示的N个有序帧的子集。对于每个zi,在zi的λ时间窗口内采样一个正样本zi+。此外,对zj(j≠i)采样的zj+被认为是zi的负样本。时间一致性损失是公式3:
在这里插入图片描述
总的loss是:
在这里插入图片描述

在线聚类

刚刚把整体的损失函数介绍完,里面有个伪标签Q的计算是通过求解时间最优传输问题来计算的,在这个在线聚类的部分。那么在线聚类的目的是在线计算伪标签Q。把Q的计算视为最优运输问题。
实际上把这个伪标签的计算视为一个最优运输问题,在ICLR2020年的一篇论文里面就有描述。那篇文章的基本思想是拟定的标签伪分布Q,和模型执行无监督分类得到的预测结果P,目标是使之无限接近,那么在这样的情形下可以将其视为一个最优运输问题。
这篇文章就是受到了那篇文章的启发。那么基于图像的最优运输问题的解,也就是伪标签Q的计算就是公式7.
在这里插入图片描述
但是这是为图像数据开发的,因此不能利用视频数据中的时间线索进行无监督的动作分割。因此这篇文章中加入了一个时间正则化项,它将活动的时间顺序纳入到最优运输的目标中,产生时间上最优的运输。最终得出的伪标签Q的计算公司就是公式10.

Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering_CVPR 2022理解速_第3张图片
那么基于此,可以用最终的loss来反向传播优化参数θ。

5.实验

所用三个数据集分别是 50 Salads、YouTube Instructions (YTI)、Breakfast,并且这篇论文自己的数据集Desktop Assembly。指标是MOF和F1分数,MOF是在所有活动中正确的帧级预测的平均百分比。
表1表2是在两个数据集上的消融实验,明显的看出添加了时间约束和时间一致性loss的效果更好。表3和表4表5是在三个数据集上的结果,表6是在自己的数据集上的结果。可以看到本文的结果是最好的。图5是一个分割的可视化结果。

6.补充

6.1最优运输

最优运输(Optimal Transport)近年来引起了广大学者的研究兴趣,并在NIPS和ICML等机器学习顶级会议频繁出现。在阅读本文时我参考了以下资料:
最优运输(Optimal Transfort):从理论到填补的应用
深度聚类算法叙谈

6.2相关论文

SELF-LABELLING VIA SIMULTANEOUS CLUSTERINGAND REPRESENTATION LEARNING

你可能感兴趣的:(聚类,深度学习)