文章信息:
原文链接:https://arxiv.org/abs/2308.11072
源代码链接:https://github.com/UCF-CRCV/TeD-SPAD
发表于:ICCV 2023
视频异常检测(VAD)无需人工监控是一项复杂的计算机视觉任务,如果成功实施,可能对社会产生积极影响。尽管最近的进展在解决这一任务方面取得了显著进展,但大多数现有方法忽视了一个关键的现实问题:隐私。随着人工智能技术日益普及,将适当的人工智能伦理纳入其发展变得至关重要。在VAD中存在的隐私泄漏允许模型捕捉并放大与个人信息相关的不必要的偏见,这可能导致不良的决策制定。在本文中,我们提出了TeD-SPAD,一种隐私感知的视频异常检测框架,以自监督方式销毁视觉私人信息。具体而言,我们提出使用时间上明显的三元损失来促进时间上具有区别性的特征,这是对当前弱监督VAD方法的补充。使用TeD-SPAD,我们在三个流行的弱监督VAD数据集(UCF-Crime,XDViolence和ShanghaiTech)上在隐私保护和效用异常检测性能之间实现了积极的权衡。我们提出的匿名化模型将私有属性预测减少了32.25%,同时仅将在UCF-Crime异常检测数据集上的帧级ROC AUC减少了3.69%。
机器学习驱动的技术越来越被社会广泛采用。云计算的进展使得即使是计算密集型的技术也能够在公共领域进行部署。其中之一是在自主视频分析中进行的视频异常检测(VAD)。VAD是一个视频理解任务,旨在在长时间连续的视频中识别发生异常事件的时间位置,无需人类监督。异常可以定义为任何不寻常的事件,比如交通事故、老年人摔倒或火灾。正确应用这项技术可以实现对异常事件更快的响应时间,而无需人力资源监视摄像头的视频源。
然而,公众对这些人工智能技术的采用带来了对安全性及其决策能力的合理担忧。其中许多问题都围绕着侵犯隐私和准确性。VAD是一个视觉隐私泄露和数据偏见是非常重要的问题的应用程序。将视频发送到远程计算机或云服务进行处理,会导致不直接参与异常事件的人不必要的隐私泄露。此外,使用标准RGB视频的应用程序将包含在其训练集中发现的任何偏差,从而导致潜在的不公平决策。图1中示出了隐私泄露的图示。
最近,一些有趣的尝试致力于在动作识别中防止视觉隐私泄漏。其中一些方法采用基于输入缩小的解决方案[40、10、27]和依赖于目标检测的混淆公式[38、53]。吴等人[49]提出了一种基于对抗训练的框架,他们训练一个匿名化函数来消除隐私保护。戴夫等人[13]提出了一种无需隐私标签的自监督隐私保护框架,并实现了与监督方法[49]相似的性能。由于许多弱监督异常检测(WSAD)方法依赖于动作识别的预训练特征,保护隐私的动作识别似乎是保护隐私的异常检测的有希望的候选方法。然而,检测异常与保护隐私的动作识别视频并不完全吻合。在动作识别中使用短视频鼓励使用时间不变的特征,即在不同时间步的剪辑的特征应该相同。相反,在长时间未修剪的视频中检测异常需要时间上不同的推理,即视频中不同时间步的剪辑的特征应该是不同的,以确定同一场景中的事件是否是异常的。这就是为什么大多数现有的异常检测方法侧重于改进预训练视频编码器的特征,以增加它们的时间可分离性。
据我们所知,视频异常检测中的隐私保护是计算机视觉中一个尚未探索的领域。基于现有的自监督隐私保护动作识别框架[13],我们提出了一个用于异常检测的更一致的效用分支。为了实现这一点,我们使用了一种新的时间上不同的三重损失,以促进匿名化训练过程中的时间独特性。一旦通过我们提出的匿名化框架学习了匿名化函数,我们就将其应用于异常数据集,这确保了隐私敏感异常检测任务中的隐私泄漏缓解。我们使用这些匿名特征来训练当前最先进的WSAD方法MGFN [8]。
为了评估在异常检测中的隐私保护性能,我们采用了先前动作识别方法的协议,其中我们在广泛使用的异常数据集(UCFCrime [43]、XD-Violence [48]和ShanghaiTech [28])上报告了WSAD任务的效用性能,并在隐私数据集VISPR [32]上报告了预算性能。
我们的贡献可概括如下:
Privacy Preservation
我们观察到许多研究在捕捉时通过使用非侵入式传感器,如热成像、深度摄像头或事件摄像头 [29, 18, 21, 1],来保护视觉隐私。其他研究允许捕捉原始的RGB视觉信息,但会努力以一种方式保护主体隐私,使得数据仍然在实用任务中具有用途。早期处理视觉隐私的方法包括图像降采样 [11] 或使用预训练对象检测器定位的隐私相关对象进行阻挡/模糊处理。这两种混淆方法都被证明在减少隐私泄漏的同时,对实用性结果的影响更大 [13, 24, 49]。
最近的发展产生了许多用于动作识别的隐私保护方法 [2, 51, 31]。吴等人发布了一个带有隐私标签的动作数据集,即PAHMDB [49]。他们使用对抗学习框架,利用监督隐私标签来混淆隐私特征。MaSS [4] 使用与吴等人 [49] 相似的框架,但采用了复合损失,以灵活地保护某些属性而非销毁它们。STPrivacy [24] 将通用框架升级,使用一个基于转换的匿名块,遮蔽对于动作识别不必要的整个视频小管。在 Dave 等人的 SPAct [13] 之后,我们采用了一个类似的自监督对抗匿名化框架,无需使用隐私标签,在预算分支中使用 NT-Xent [6] 对比损失来减轻空间隐私泄漏。
Anomaly Detection
由于可用的视频素材数量巨大,创建足够的标记数据以解决监督式视频异常检测是不可行的。因此,许多工作探索了无监督方法。这些方法通常训练一个重建模型,然后要么重建当前帧,要么尝试预测下一帧,在重建误差较大时发出异常信号 [9, 35, 23, 33, 50, 44]。Giorgi等人 [16] 使用带有差分隐私的自编码器,从嘈杂的重建图像中生成异常分数。这种方法有助于保持某种程度的主体隐私,但仅在图像质量指标上进行了评估。
Sultani等人 [43] 将弱监督引入到视频异常检测(VAD)中,其中异常在视频级别进行标注。这些作者介绍了UCF-Crime,一个大规模的弱监督数据集。他们提出将弱监督的VAD问题建模为多实例学习(MIL)问题,展示了时间平滑损失和稀疏性损失的好处。除了一小部分作品 [54, 52] 之外,所有后续的弱监督方法都被视为异常特征表示学习,因为它们改进了MIL的公式 [55, 45, 15, 25, 19, 46, 8, 41],这涉及使用动作分类器提取的静态视频特征的解释。Zhong等人 [54] 提出了上海科技大学的重排弱监督版本。吴等人 [48] 推出了XD-Violence,这是一个包含音频的大规模弱监督数据集,引入了多模态融合到VAD中。在这项工作中,我们选择专注于弱监督视频异常检测设置,因为它具有高效性和低注释工作的优点。
大多数视频异常检测(VAD)作品发现在视频片段之间建模时间关系是有用的 [45, 15, 30, 48, 25, 46, 55, 5]。[30] 能够利用连续片段之间的特征动态变化来帮助定位异常。RTFM [45] 的作者发现异常片段往往具有较大的特征幅度(提取的剪辑特征向量的ℓ2范数)比正常片段更大。他们引入了一个特征幅度学习函数,以帮助识别具有较大特征幅度的异常片段。MGFN [8] 发现变化的场景属性会导致一些正常视频具有比异常视频更大的特征幅度,因此他们提出了一个特征幅度对比损失,以帮助捕捉这些实例。在这项工作中,我们使用MGFN模型来评估异常检测性能。[47] 在明确鼓励特征区分性方面证明了其有效性。直观地说,通过强制实现时间上明显的特征表示,可以将这些观察结果聚合起来。在这篇论文中,我们的目标是增强我们效用分支中表示的独特性,构建在[34]中关于不变性和独特性表示引入的术语基础上。
我们提出的框架的核心思想是开发一个匿名化函数,该函数可以在训练过程中降低隐私属性,而无需依赖隐私标签。此外,这个函数必须能够保持弱监督异常检测任务的性能。图2显示了所提框架的示意图。在第3.1节中,我们对问题陈述进行了全面讨论。接下来,在第3.2节中,我们描述了框架的组件及其初始化过程。第3.3节概述了匿名化函数的训练,我们提出了一种时间上不同的三元损失,以增强现有的自监督隐私保护框架 [13]。一旦学习了匿名化函数,在第3.4节中,我们使用通过我们的匿名化函数获得的隐私保护特征来训练异常检测模型。我们完整框架的概述在算法第3.5节中进行了描述。
图2:TeD-SPAD完整框架,包括代理匿名化训练,随后是隐私保护的异常检测。
(a) 展示了这个代理训练,其中使用UNet对帧进行匿名化,以降低帧之间的互信息,同时保持效用性能。我们使用我们提出的时间上不同三元损失来补充标准的交叉熵损失,它强制在不同时间步的剪辑特征之间存在差异。在训练匿名化器和特征提取器之后,
(b) 展示了隐私保护的工作流程,其中异常数据集的视频通过代理训练的 f A f_A fA、 f T f_T fT,然后输入任何 WSAD 算法。
我们将我们的问题陈述定义得与隐私保护动作识别框架 [13, 47] 类似,但是使用了不同的效用任务。假设我们有一个视频数据集 D a n o m a l y D_{anomaly} Danomaly = { X ( i ) , Y i X^{(i)}, Y^i X(i),Yi} i N = 1 ^N_i=1 iN=1,其中, X ( i ) X^{(i)} X(i) 是一个视频实例,N 是样本的总数,而 Y ( i ) Y^{(i)} Y(i) ∈ {0, 1} 是一个二进制标签。考虑视频级别的异常检测作为效用任务 T,并将隐私属性分类作为预算任务 B,隐私保护系统的目标是在降低 B 的同时保持 T 的性能。为了实现这个目标,系统学习了一个匿名化函数 f A f_A fA,它修改了原始的原始数据。隐私保护的这个目标可以基本上表达为以下几个标准:
Criterion-1:
效用任务的性能不应该从原始性能中降低,即效用目标模型 f T ′ f'_T fT′ 的损失 L T L_T LT 值在应用匿名化函数之前和之后应该保持几乎相同。
Criterion-2:
应用匿名化函数应该增加目标预算模型 f B ′ f'_B fB′ 的预算任务 B 的损失 L B L_B LB。
关于弱监督异常检测(WSAD),大多数现有的方法需要多阶段训练,这意味着它们不是端到端的。这对将其作为匿名化训练中的效用任务提出了挑战。相比之下,隐私保护动作识别框架 [13, 49] 具有端到端的效用任务(即动作识别),这使得更容易地将其包含进来。
由于大多数弱监督异常检测(WSAD)方法依赖于来自大规模动作识别训练的预训练视频编码器特征,我们可以利用与隐私保护动作识别 [13] 完全相同的匿名化过程,利用动作识别作为代理效用任务在代理效用动作数据集(记为 D a c t i o n D_{action} Daction)上进行。这种匿名化训练的局限性在于,通过仅关注为动作识别优化短剪辑,它忽视了时间上明显特征的重要性。这一疏忽导致在训练进展中,依赖于这些时间上明显特征的异常检测性能显著下降。为解决这个问题,我们重新构建了匿名化效用分支,以强制执行时间上的独特性,以更好地与异常检测任务保持一致。因此,我们的 L T L_T LT 是动作识别损失( L C E L_{CE} LCE)和时间上不同的三元损失( L D L_D LD)的加权和,详见公式 6。
我们的匿名化框架包括三个主要组件:
(1) 匿名化函数( f A f_A fA),它是一个简单的编码器-解码器模型,具有 Sigmoid 激活。
(2) 隐私移除模型( f B f_B fB),它是一个图像编码器。
(3) 效用模型( f T f_T fT),它是一个视频编码器。
Network Initialization
首先,我们的匿名化模型经过预训练以初始化为一个恒等函数。这个预训练涉及使用 L1 重建损失从 D a c t i o n D_{action} Daction 重新构建帧。
其中, x ^ \widehat{x} x 是 f A f_A fA的输出,x是输入图像,C、H、W对应于输入图像的通道、高度和宽度。
其次,隐私模型 f B f_B fB 使用在 ImageNet [14] 上进行的 SimCLR [7] 的自监督权重进行初始化。视频编码器 f T f_T fT 使用 Kinetics400 数据集 [3] 上的标准动作识别权重进行预训练。
匿名化训练主要由效用损失和隐私损失的极小极大优化组成。
Temporally-distinct triplet loss as Utility
弱监督视频异常检测方法利用时间信息来帮助定位异常。[30, 19, 45, 8] 展示了在时间维度上特征幅度(剪辑特征向量的ℓ2范数)的可分离性具有积极的效果。为了将SPAct匿名化框架应用于异常检测问题,我们在效用分支中使用了一个时间上不同的目标。我们设计了一个时间上独特的三元损失,该损失增加了同一视频的在时间上对齐剪辑之间的一致性,并增加了在时间上不对齐的剪辑表示之间的差异性。对于锚定剪辑 x t ( i ) x^{(i)}_t xt(i),我们从完全相同的时间戳获取正样本剪辑,但使用不同增强版本表示为 x ~ t ( i ) \widetilde{x}^{(i)}_t x t(i)。而负样本剪辑则来自不同的时间戳 x t ′ ( i ) x^{(i)}_{t'} xt′(i),其中 t’ ≠ t。这个剪辑三元组通过效用模型 f T f_T fT 传递,得到的特征表示为 z t ( i ) z^{(i)}_t zt(i), z ~ t ( i ) \widetilde{z}^{(i)}_t z t(i) 和 z t ′ ( i ) z^{(i)}_{t'} zt′(i)。提出的时间上不同的三元损失可以表达如下:
其中, d ( u j , v j ) = ∥ u j − v j ∥ 2 d(u_j, v_j) = ∥u_j − v_j∥_2 d(uj,vj)=∥uj−vj∥2 是两个向量 u 和 v 之间的欧几里得距离,而 µ 是可控制的边界超参数,用于确定在潜在空间中推动和拉动特征的距离。
我们利用这个损失沿着标准的交叉熵动作分类损失:
其中, N C N_C NC 是 D a c t i o n D_{action} Daction 的动作类别总数, y c ( i ) y^{(i)}_c yc(i) 是地面真实标签, p c ( i ) p^{(i)}_c pc(i) 是效用模型 f T f_T fT 的预测向量。
将时间上独特性(公式 4)和动作分类目标都添加到我们的效用分支,我们的总体效用损失可以表示如下
其中,ω 超参数是相对于交叉熵损失的时间上明显三元损失的权重。
Privacy (i.e. budget) Loss L B L_B LB
我们利用与[13]相同的自监督隐私损失,通过最小化同一视频帧之间的一致性来删除私人信息。
Minimax Optimization
在重新制定了效用损失之后,我们使用类似于[13]的极小极大优化过程。这是一个两步迭代过程,旨在最小化效用损失的同时增加预算损失 L B L_B LB。在此优化的末尾,我们获得了学到的匿名化函数( f A f_A fA)和效用视频编码器( f T f_T fT)。
为了在来自 D a n o m a l y D_{anomaly} Danomaly 的视频中检测异常,我们利用当前最先进的技术,即Magnitude-Contrastive Glance-and-Focus Network(MGFN)[8]。与异常检测中的其他最近的工作类似,MGFN 需要来自预训练视频编码器的每个视频的固定特征进行异常检测训练。
Optimizing for Anomaly Detection MGFN
MGFN异常检测由4个主要损失组成:
(1) 用于片段分类准确性的标准Sigmoid交叉熵损失 L s c e L_{sce} Lsce,
(2) 用于鼓励连续段之间特征表示平滑度的时间平滑损失 L t s L_{ts} Lts [43],
(3) 用于抑制假阳性异常的稀疏度项 L s p L_{sp} Lsp [43],以及
(4) 一种新颖的幅度对比损失 L m c L_{mc} Lmc,用于学习跨视频的场景自适应特征分布,所有这些有助于训练模型 f A D f_{AD} fAD。
MGFN中使用的训练损失在以下等式中复合:
其中 λ 1 λ_1 λ1 = λ 2 λ_2 λ2 = 1, λ 3 λ_3 λ3 = 0.001。 f A D f_{AD} fAD输出帧级异常评分,用于计算最终ROC AUC和AP以进行评估。
Feature Extraction
在我们的隐私保护案例中,我们不能直接使用 D a n o m a l y D_{anomaly} Danomaly 进行从视频编码器中提取特征。我们首先通过学到的匿名化函数 f A f_A fA 对数据集的每个视频( X i X^i Xi)进行匿名化,得到一个匿名化的数据集。对于特征提取,我们使用学到的效用视频编码器 f T f_T fT。我们将这组提取的匿名化特征表示为 F a n o m a l y F_{anomaly} Fanomaly = { f T ( f A ( X i ) ) ∣ ∀ X i ∈ D a n o m a l y f_T(f_A(X^i)) | ∀X^i ∈ D_{anomaly} fT(fA(Xi))∣∀Xi∈Danomaly }。
考虑到分别由 θ A θ_A θA、 θ T θ_T θT、 θ B θ_B θB 和 f A D f_{AD} fAD 参数化的模型 f A f_A fA、 f T f_T fT、 f B f_B fB 和 f A D f_{AD} fAD。 D a c t i o n D_{action} Daction 是代理动作识别数据集, D a n o m a l y D_{anomaly} Danomaly 是下游异常检测数据集。我们框架的所有训练步骤都可以汇总成一个复杂的形式,如算法1所示。
UCF-Crime [43] 是第一个大规模的弱监督视频异常检测数据集。它包含来自各种不同场景的 1,900 个视频,总计 128 小时的未修剪的闭路电视监控录像。这些视频包含了13种基于犯罪的异常,如逮捕、打架和店铺行窃等真实场景中的情况。
XD-Violence [48] 目前是最大的弱监督视频异常检测数据集,总计 217 小时的未修剪视频。它的所有异常类别都与暴力活动有关。这些视频来自各种类型的摄像机、电影和游戏,增加了难度,形成了独特的场景组合。
ShanghaiTech [28] 是一个中等规模的异常检测数据集,包含覆盖了13个不同场景的视频,其中包含各种类型的异常。虽然它被发布为一个无监督的异常检测数据集,但我们使用了[54]提出的弱监督重新排列。
VISPR [32] 是一个图像数据集,标有68个与隐私相关的属性,包括性别、发色、衣着等。它为我们提供了一个用于评估隐私保护的多类别分类问题。我们用于评估的拆分以及训练详细信息可以在附录B中找到。
UCF101 [42] 是在动作识别中非常常见的数据集,其相对简单性使其适用于在[13]中展示匿名化模型的学习。在这项工作中,我们使用 UCF101 的 split-1 作为 D a c t i o n D_{action} Daction。
Network Architecture Details
f A f_A fA是一个 UNet [39] 模型,将原始输入帧转换为匿名化帧。对于 f T f_T fT,我们使用 I3D [3],首先学习匿名化的动作分类,然后提取匿名化特征。在匿名化训练中,我们的 f B f_B fB 模型是一个 ResNet50 [17]。 f A D f_{AD} fAD 是 MGFN [8],由残差卷积、自注意卷积和前馈网络组成。
Training Process Details
首先,我们进行了为期80个时期的匿名化训练。对于所有模型,我们使用 Adam [22] 优化器,学习率为1e-4,批大小为8。在默认设置中,损失权重 ω = 0.1,边界 µ = 1。我们使用默认超参数训练 MGFN [8] 模型。 f B f_B fB 的评估使用批大小为32和基础学习率为1e-3,遵循线性热身和基于步骤的调度程序,根据损失停滞以1/5的因子下降。
Input Details
在所有实验中,我们将每个图像裁剪为0.8的比例,然后调整大小为输入分辨率224 × 224。剪辑由16帧组成,从随机起始帧开始,采样间隔为2。对于匿名化训练,我们使用标准增强,如随机擦除、随机裁剪、水平翻转和随机颜色抖动。为了保持时间上的一致性,增强将同等地应用于每个剪辑内的每一帧。
Feature Extraction
给定一个原始输入视频 X i ∈ D a n o m a l y X^i ∈ D_{anomaly} Xi∈Danomaly,我们首先提取 S 个剪辑,其中 S 是 X 中非重叠的16帧剪辑的数量。我们按顺序将每个剪辑 S ( j ) S^{(j)} S(j) 先通过我们的匿名化器 f A f_A fA,然后通过我们的特征提取器 f T f_T fT。提取的特征 f T ( f A ( X i ) ) f_T(f_A(X^i)) fT(fA(Xi)) 具有形状 S x C,其中 C 是特征向量的维度。具体来说,特征是在 I3D 的 mix_5c 层之后进行平均池化后提取的,具有2048的维度。
Evaluation Protocol and Performance Metrics
为了评估学到的匿名化函数 f A f_A fA,我们遵循跨数据集评估的标准协议 [13, 49]。在此协议中,通过 f A f_A fA 对 D a n o m a l y D_{anomaly} Danomaly 的测试视频进行匿名化,通过 f T f_T fT 和 f A D f_{AD} fAD 获得帧级别的预测。计算的 ROC AUC 用于评估在 UCF-Crime 和 ShanghaiTech 上的性能,而 AP 用于 XD-Violence。更高的 AUC/AP 被认为是更准确的异常定位。为了评估隐私泄漏,学到的 f A f_A fA 被用于对隐私数据集 D p r i v a c y D_{privacy} Dprivacy 进行匿名化,以训练和评估目标隐私模型 f B ′ f'_B fB′。隐私泄漏以目标 f B ′ f'_B fB′ 在 D p r i v a c y D_{privacy} Dprivacy 的测试集上的性能来衡量。由于隐私数据集是多标签的,隐私泄漏以跨类别平均精度(cMAP)的形式进行测量。
我们运行著名的自我监督隐私保护技术的视频异常检测。为了保持方法之间的公平比较,我们使用完全相同的网络架构和训练过程。
Downsampling Baselines
对于Downsample-2x和Downsample-4x,我们只需将输入帧的分辨率降低2(112×112)和4(56×56)。
Object-Detector Based Obfuscation Baselines
模糊技术基于首先检测人,然后去除(即变黑)或模糊他们。这两种混淆技术都使用MS-COCO [26]预训练的YOLO [37]对象检测器来获得人对象类的边界框。我们使用yolov 5x作为主干的YOLOv 5实现。检测到的边界框被分配给基于黑化的基线的像素值0。对于基于模糊的基线,利用具有核k = 13和方差σ = 10的高斯滤波器。
SPAct [13] Baseline
我们利用官方实施.为了与我们的方法进行公平比较,我们使用完全相同的实用模型I3D和隐私模型ResNet-50。
我们比较了3个著名的异常检测基准数据集上的隐私保护方法。由于隐私保护涉及效用(即异常)和隐私,因此我们以权衡图的形式显示结果,如图3所示。与之前的最佳方法[13]相比,我们的方法能够多删除19.9%的隐私,效用得分略高(1.19%)。这有力地支持了我们的主张,即在匿名化过程中促进时间独特性更好地与异常检测任务保持一致。图3图背后的数字数据可以在Supp. Sec. D.
图4显示了不同视频中模型输出的可视化示例。我们注意到,对于人眼来说,很难分辨每个视频中发生了什么,但异常检测模型仍然能够实现高性能。图4a-4d包括人类受试者,但他们的私人属性(如面部和服装)都不可见,因此不能用于做出不公平的决定。在图4c、4d中,仍然可以看到背景商店,这对于识别入店行窃和抢劫异常是有用的上下文。
图5是针对输入视频的每个帧从原始视频模型和匿名化视频模型输出的异常分数的图。蓝色框显示了地面实况异常帧。我们看到,绿色匿名异常分数与红色原始分数相似,同时仍增加了地面实况异常的异常分数,这表明我们的匿名化技术保持了效用性能。参见补充。Supp. Sec. D更多的定性结果。
在异常特征表示学习中,异常检测算法不直接与输入视频一起工作,视频首先通过动作分类器来计算特征。即使动作识别模型看到原始视频,也不确定私人信息是否会传递给功能。为了证实这一点,我们创建了一个简单的全连接网络来预测VISPR的私有属性,就像我们在其他实验中评估隐私一样。我们将相同的VISPR图像堆叠16次以创建视频剪辑,然后通过fT提取剪辑特征。我们的基线使用未经修改的输入图像通过预训练的Kinetics400[20] I3D [3]模型,其他实验使用配对的匿名器和调优的I3D模型。这一过程的详细解释可以在Supp. Sec. C.通过实验,我们发现动作分类器的潜在特征实际上泄露了隐私信息,因此这些隐私信息被传递到异常检测器。表1显示了这方面的经验证据。
Effect of different utility losses L T L_T LT
我们在表2中研究了在匿名化过程中不同效用损失对最终隐私与效用异常检测性能的影响。从行-(a,b)可以看出,在不损害异常性能的情况下,隐私明显降低;这证明了我们提出的时间上不同的三元损失 L D L_D LD的有效性。
在这个范围内,我们还实施了与我们的 L D L_D LD相反的目标,即在匿名化训练的效用分支中促进时间不变性 L I L_I LI。我们使用了众所周知的自监督方法[36, 12]来实现这一目标。从行( c )可以看出,时间不变性目标并不适用于异常检测效用任务,导致性能显著下降了6%。我们在Supp. Sec. D中提供了LI及其解释的详尽实验。
Effect of different temporal distinctiveness objectives:
我们的时间上的独特性目标也可以通过对比损失实现。为此,我们利用了[12]中的本地-本地时间对比损失(LLTC)的实现。它在表3中达到了75.06%的AUC和42.44%的cMAP,与我们使用三元损失的结果非常接近。值得注意的是,与三元损失相比,LLTC损失显著增加了计算量(GPU内存需求)。它需要8个剪辑(4个剪辑 × 2个增强视图),相比之下,我们实验设置中三元损失只需要3个剪辑,仅需要49.67G FLOPs,而LLTC损失则需要132.45G FLOPs。
Relative Weightage of LD
在这里,我们测试了改变额外的时间上独特三元损失权重的效果。表4显示,将损失权重设置为0.1可以实现我们最佳的结果,隐私相对增加32.25%,而效用性能仅减少3.69%。如果没有强制执行时间上的独特性,效用模型将受到重建的匿名化视频质量的限制。对时间损失的不适当加权会干扰模型的分类器能力,这也可能损害匿名化过程。这表明动作识别损失 L C E L_{CE} LCE仍然是异常检测性能中重要的效用任务。
Effect of the margin in LD
所提出的 L D L_D LD时间上独特的三元损失使用一个边际超参数µ,以允许在潜在特征空间中调整对比距离。唯一的要求是µ > 0。这里的直觉是,较大的边际会强制更大的特征间距。正如表5所示,我们经验性地发现将µ设置为1可以得到最稳健的结果。较低的边际会导致更少的时间上独特的表示,这使得在正常和异常特征之间进行区分更加困难。另一方面,增加µ = 2会导致更难的时间三元损失(即非常高的时间独特性),这可能与异常检测任务不太吻合。
Effect of temporal sampling in LD
所提出的三元损失(Eq. 4)从不同时间戳 t ′ t' t′的剪辑 x t ′ ( i ) x^{(i)}_{t'} xt′(i)中形成负样本。负样本时间戳与锚定剪辑的时间戳 t − t ′ t − t' t−t′之间的距离是定义时间上独特性的重要方面。我们进行了各种距离的实验,如表6所示。在我们的默认设置中,我们使用如第一行所示的随机距离。从第二行可以看出,较小的距离导致更好的异常得分,但在保护隐私方面略有降低。同时,第三行表明,在较大的距离上强制时间上的独特性可以更好地保护隐私,但以牺牲异常性能为代价。这个距离超参数可以作为调整参数,以获得隐私与异常之间不同操作点的权衡。
在本文中,我们强调了隐私的重要性,这是先前在视频异常检测中被忽视的一个方面。我们提出了TeD-SPAD,这是一个应用于自监督隐私保护视频异常检测的时间上独特性框架。TeD-SPAD展示了在匿名化动作识别模型时使用时间上独特的三元损失的有效性,因为它增强了特征表示的时间上的独特性,这与下游的异常检测模型相辅相成。通过有效地破坏空间隐私信息,我们消除了模型在决策过程中使用这些信息的能力。作为未来的研究方向,这个框架可以扩展到其他任务,比如时空异常检测。匿名化的编码器解码器也可以通过使用最近的遮蔽图像建模技术变得更加强大。我们希望这项工作有助于开发更加负责任和无偏见的自动异常检测系统。
通过在不太影响性能的情况下,降视频的隐私性。
感觉还是有点没看太懂。