UAC: An Uncertainty-Aware Face Clustering Algorithm

我们研究了利用人脸图像中的不确定性来提高人脸聚类质量的方法。我们观察到,在对隐含建模不确定性的概率面部表示进行聚类时,流行的聚类算法不会产生更好质量的聚类——这些算法预测的聚类比 IJB-A 基准的基本事实多 9.6 倍。我们凭经验分析了这种意外行为的原因,并确定过多的误报和误报(在比较面部对时)是导致聚类质量差的主要原因。基于这一见解,我们提出了一种不确定性感知聚类算法 UAC,该算法在聚类过程中明确利用不确定性信息来决定何时一对人脸相似或何时应丢弃预测的聚类。 UAC 考虑(a)人脸对中人脸的不确定性,(b)基于不确定性阈值将人脸对分为不同类别,(c)在聚类期间智能地改变相似度阈值以减少假阴性和假阳性, 和 (d) 丢弃表现出高度不确定性的预测聚类。几个流行基准的广泛实验结果以及与最先进的聚类方法的比较表明,UAC 通过利用人脸图像中的不确定性产生明显更好的聚类——预测的聚类数量高达地面的 0.18 倍IJB-A 基准测试的真相。

一、简介

分析来自监控摄像头的视频流对于企业和组织最大限度地提高视频监控系统的投资回报变得至关重要。例如,配备监控摄像头的购物中心会分析视频流,以深入了解购物者统计数据,从而为客户提供更好的个性化体验。表 1 显示了一些在购物中心场景中有用的洞察示例。通过首先对监控视频中检测到的人脸进行聚类,可以轻松生成所有这些见解。如图 1 所示,从监控摄像头中提取人脸并存储在数据库中。然后对这些面孔进行聚类以确定独特的人并获得表 1 所示的客户洞察力。

监控视频捕捉到的人脸本质上是嘈杂的。因此,通过传统的确定性人脸嵌入模型 [21、4、18、13、24] 学习的面部特征可能是模棱两可的,或者某些面部特征甚至可能不存在于输入面部中,从而导致噪声表示。因此,基于这些噪声表示的聚类算法往往会产生不正确的结果。

最近,已经提出了概率人脸嵌入(PFE [23] 和 DUL [3]),它们将每个人脸图像表示为潜在空间中的多元高斯分布,以提高人脸识别的准确性。嘈杂。此外,PFE [23] 提出了一种新的相似度函数,增加了不确定性信息来计算两个概率嵌入之间的相似度。使用这样的嵌入和相似性函数,人们会期望面部聚类算法在更多信息(如不确定性)可用时产生更好质量的聚类。然而,正如我们在第 2 节中展示的那样,当使用带有不确定性信息的概率嵌入时,流行的人脸聚类算法不会产生质量更好的人脸聚类。

受使用不确定性信息来改进人脸识别 [23] 和主成分分析 [8] 的启发,我们研究了利用人脸图像中的不确定性来改进人脸聚类任务的方法。在本文中,我们做出以下贡献:

1. 我们表明,当不确定性等附加信息隐含在人脸表示或相似性函数中时,流行的人脸聚类算法不会产生质量更好的聚类。

2. 我们凭经验分析了这种意外行为的原因,并将过多的假阳性和假阴性(在比较面部对时)确定为低质量聚类的主要原因。

3. 我们提出了一种新的不确定性感知聚类算法 UAC,它在聚类过程中明确利用不确定性信息来智能地决定何时一对人脸相似或何时丢弃预测的聚类,因为簇。

4. 我们提出了一种新的集群质量指标,即纯度调整放大分数 (PAAS),它在数据不确定性较高时更准确地反映了集群的质量。

5. 在几个流行的基准上的广泛实验结果,以及与最先进的聚类方法的比较,表明 UAC 通过利用人脸图像中的不确定性产生了一个数量级的更好的聚类。

2. 动机

随着通过使用不确定性感知概率人脸嵌入来提高人脸识别的准确性,人们会期望聚类任务有类似的改进。然而,我们发现当数据不确定性很高时,这些嵌入无助于提高聚类准确性。例如,表 2 显示了流行的聚类算法预测的聚类数量,这些算法使用 PFE [23] 在公共基准(如 LFW [9] 和 IJB-A [10])中嵌入人脸图像,其中包括低和低的人脸。高不确定性,分别。 LFW 基准的预测聚类数量非常接近真实情况(人脸图像的不确定性非常低),而对于 IJB-A,预测聚类被 DBSCAN 高估了 5.97X、7X 和 9.6X [ 5]、AHC [15] 和 GCN-V [30] 聚类算法。这是有问题的,因为聚类结果用于计算各种分析查询,如表 1 所示。

我们还发现,当数据不确定性很高时,流行的人脸聚类质量指标(例如,Pairwise F-Score、BCubed F-score、NMI 等)并不能充分反映聚类的真实质量(我们在第 1 节中提供了详细结果) 4.2)。例如,对于 IJB-A 案例,DBSCAN [5] 预测的集群多 5.97 倍,但流行的质量指标仍然报告高分:纯度 = 0.97,BCubed F-Score = 0.84,Pairwise F-Score = 0.78 和 NMI = 0.94 .因此,我们重新思考如何在数据不确定性很高时评估聚类质量以对不同的聚类算法进行排名。

三、相关工作

现有的人脸聚类方法可以大致分为两类:无监督和有监督。

无监督方法,例如 K-Means [14]、DB-SCAN [5]、Agglomerative Hierarchical Clustering (AHC) [15] 等,使用相似度分数来查找集群。

除了相似度函数,K-Means 使用聚类的数量(即 K),而其他算法使用相似度阈值以及少量其他参数(例如 minPts、链接方法等)。我们不能使用 K-means [14] 算法,因为 K 的值是我们试图为我们的面部集合估计的值。为了提高相似度分数,最近,一些工作集中在使用深度学习学习新的相似度函数上。例如,林等人。 [11] 提出了一个基于局部邻域的密度亲和力的新函数;奥托等人。 [16]提出了一个基于共享最近邻信息的近似排序度量; PAHC [12] 提出了一种相似度函数,通过评估线性 SVM 边距来衡量 CNN 特征之间的相似度,并根据最近邻信息训练 SVM。在所有无监督方法中,DBSCAN 是最流行的基于密度的算法之一。它已在许多实际应用中成功使用,并在 2014 年获得了 SIGKDD 时间测试奖 [22]。阿加瓦尔等人。 [1] 对用于处理噪声的 DBSCAN 算法的许多变体进行了调查,这与本文考虑的数据不确定性问题非常不同。我们从人脸图像中估计噪声,而 DBSCAN 根据最近邻居的数量和可达性信息找到噪声数据点。

最近已经提出了一些有监督的聚类方法来学习聚类模式。例如,图卷积网络 (GCN) 从最近邻图 [30、6、31、28] 中学习集群表示;和 Tapaswi [25] 等人。提出了一种将特征空间分割成大小相等的球的方法。尽管这些监督算法在某些数据集上取得了不错的效果,但这些算法需要对超参数进行调整以及对每个数据集进行重复训练。此外,我们的评估表明,当数据不确定性很高时,这些算法效果不佳。

据我们所知,没有人脸聚类算法明确考虑不确定性信息。上述大部分工作都使用特征空间中的最近邻信息。然而,当数据不确定性很高时,相似性估计会变得不正确,从而产生不正确的最近邻估计——因此,当数据不确定性很高时,这些算法可能无效。

4. 不确定性对聚类任务的影响

在本节中,我们首先描述如何使用概率嵌入来捕获不确定性。接下来,我们评估概率嵌入和不确定性感知相似性函数对聚类任务的影响。我们的评估表明,当数据不确定性很高时,这些增强的嵌入不会提高集群的质量。最后,我们进一步了解了聚类准确性差的原因,并提出了我们的关键见解,以有效地考虑聚类过程中的不确定性。

4.1。不确定性估计

概率人脸嵌入在每个输入人脸图像的潜在空间中提供分布估计 [23, 3],而不是确定性点估计 [4, 21, 13, 18, 24, 27, 20]。它将每个面表示为多元高斯分布,N (μ, σ2)。分布的平均值估计最可能的潜在特征值,而分布的跨度或方差表示这些估计的噪声或不确定性。

在本文中,我们使用 PFE [23] 来生成概率嵌入。给定一个预训练的人脸识别 (FR) 模型,平均向量 μ 是 FR 模型生成的确定性嵌入。然后,PFE 在 FR 模型中添加一个额外的分支来学习方差向量 σ2。额外的分支使用相互似然得分 (MLS) 进行训练。 PFE 分别学习 σ2,而 DUL [3] 同时学习 μ 和 σ2。现在,给定人脸的概率嵌入为 μ1, μ2, ..., μD, σ12, σ2, ..., σD2,其中 D 是特征维度,那么估计的不确定性是方差的调和均值在所有维度上:

例如,考虑两个流行的面部基准,

LFW [9] 和 IJB-A [10]。图 2 显示了两个数据集的人脸图像中不确定性的分布。这些数据集表现出不同程度的数据不确定性。 LFW 数据集中人脸图像的不确定性小于 0.0015。然而,与 LFW 中的人脸相比,IJB-A 中的人脸表现出更高的不确定性。 IJB-A 中存在不确定性大于 0.0030 的面!因此,LFW 中的人脸图像比 IJB-A 中的人脸图像具有更少的噪声。

概率人脸嵌入模型。对于我们的评估,我们使用来自 github [32] 的预训练 PFE 模型。该模型使用在 MS-Celeb-1M 数据集 [7] 上使用 AM-Softmax [26] 训练的 64 层残差网络。确定性嵌入的维度 (μ) 是 512。因此,PFE 嵌入的特征维度 (μ 和 σ2) 是 1024。

4.2.使用 PFE 进行聚类

在本文中,我们使用 DBSCAN [5]、AHC [15]、GCN-V [30] 算法从概率人脸嵌入中聚类潜在特征向量。我们考虑两种情况。第一种情况“确定性 + 余弦”作为基线,因为它代表了不考虑不确定性信息的人脸嵌入类别 [4, 21, 13, 18, 24, 27, 20]。它仅使用 PFE 嵌入的平均向量 μ。相比之下,第二种情况“概率+ MLS”表示使用不确定性增强人脸表示和相似函数的人脸嵌入类[23, 3]。它使用 PFE 嵌入的 μ 和 σ2 向量。

4.2.1 相似函数

我们使用余弦相似度进行确定性嵌入,使用 MLS 进行概率嵌入。

余弦相似度。为了计算余弦相似度,我们不考虑概率表示的方差向量 σ12 , σ2 , ..., σD2 。 1. 一对潜在向量 (xi , xj ) 的余弦相似度得分计算如下:

其中 D 是特征维度,μ(l) 是指 xi 的 μi 的第 l 维。

相互似然评分 (MLS)。 PFE [23] 提出了一种相似度函数来考虑人脸图像中的数据不确定性。一对潜在向量 (xi , xj ) 的 MLS 计算如下:

其中 μ(l) 指的是 xi 和 i 的 μi 的第 l 个维度,对于 σ2(l) 也是如此。

4.2.2 PFE 聚类评估

我们使用两个流行的基准进行评估:

LFW。 The Labeled Faces in the Wild [9] 包含 5,749 个主题的 13,233 张人脸图像。在 5,749 名受试者中,4,069 人每人只有一张人脸图像。这些人脸图像是通过检索名人和公众人物的图像并仅保留那些使用现成的人脸检测器 Viola-Jones [19] 检测到人脸的图像而获得的。因此,面部姿势的变化是有限的。

IJB-A。 IARPA Janus Benchmark A (IJB-A) [10] 是野生数据集中的公开可用媒体,包含 500 名受试者的 25,813 张人脸图像。 IJB-A 专为不受约束的场景而设计,它具有关键特征:(a) 对象的更广泛的地理变化,(b) 完整的姿势变化,(c) 来自图像和视频的人脸的混合。

表 3 显示了我们的评估结果。除了预测的聚类数量外,我们还报告了几个常用指标的值,这些指标经常用于估计聚类的整体质量 [17、25、28、30、31]:Purity2 [2]、BCubed F-Score [2]、成对 F 分数 [2] 和归一化互信息 (NMI) [2]。灰色列报告 PAAS 指标,我们将在 5.2 节中解释。对于所有这些指标,接近 1.0 的值表示更好的集群质量。

星展扫描。对于“确定性 + 余弦”和“概率性 + MLS”,LFW 的预测聚类数量非常接近地面实况 5749。此外,对于这两种情况,所有集群质量指标的值几乎都是 1.0。这个结果是意料之中的,因为如前所述,LFW 数据集中的图像通常质量很好,并且不确定性很低。因此,通过在聚类期间考虑“概率+ MLS”的不确定性,我们没有看到很大的优势。

相比之下,IJB-A 数据集的预测聚类数量与 500 个基本事实主题相比要大得多:使用“确定性 + 余弦”的聚类预测的聚类数量是基本事实的 3.53 倍,使用“概率 + MLS”将唯一身份的数量高估了 5.97 倍。此外,与人们预期的相反,与使用“确定性 + 余弦”的聚类相比,使用不确定性的“概率 + MLS”聚类对聚类的过度预测为 2.44 倍。同样令人惊讶的是,使用“概率 + MLS”的聚类在 Purity、BCubed F-Score、Pairwise F-Score 和 NMI 指标等流行的聚类质量指标上得分更高——Pairwise F-Score 几乎是两倍高( 0.7832 与 0.4082)与“确定性 + 余弦”获得的集群相比。

凝聚层次聚类(AHC)。我们的结果表明,AHC [15] 显示出与 DB-SCAN 相似的趋势。这并不奇怪,因为 AHC 也是一种无监督算法。事实上,当 links.method = single 时,它会产生与 DBSCAN 相同的结果。在这里,我们设置linkage.method = average。对于 IJB-A,“概率 + MLS”预测的集群增加 9.6 倍,而“确定性 + 余弦”预测的集群增加 7.6 倍。总体而言,当数据不确定性很高时,我们没有看到使用“概率+ MLS”有任何显着的好处。

集群质量指标。我们在表 3 中的结果表明,像 Purity、BCubed F-score、Pairwise F-score 和 NMI 等广泛使用的指标 [2] 在存在不确定性的情况下并不能充分捕捉聚类算法的准确性。这些指标无法惩罚过度集群(生成太多集群)的算法。

4.3.使用 PFE 进行更深入的聚类分析

我们进行了一个对照实验,以更好地了解在存在不确定性的情况下聚类不准确的各种来源。我们选择两张(不同人的)图像,并通过引入更多的高斯模糊来系统地增加图像的不确定性。图 3 显示了两个不同人的两张图像及其对应的模糊图像,因为我们逐渐增加了不确定度(即高斯模糊度)。

图 4 显示了不确定性对余弦相似度得分和 MLS 的影响。我们考虑三种不同的情况:

1. 真实(好,嘈杂):我们从原始的、质量好的人脸图像开始,并将其与原始图像越来越模糊的版本进行比较。由于这对中的两张人脸图像属于同一个人,我们称这对为真对。增加模糊对“确定性 + 余弦”的影响如图 4a 中的蓝线所示。同样,增加模糊对“概率 + MLS”的影响如图 4b 中的蓝线所示。

2. 冒名顶替者(嘈杂,嘈杂):我们从两个不同人的两个图像开始。由于这两个图像属于不同的人,我们称这对为冒名顶替者对。然后,我们逐渐对这两个图像应用越来越多的模糊。两个图像的模糊程度相同。增加模糊对“确定性 + 余弦”的影响如图 4a 中的橙色线所示。同样,增加模糊对“概率 + MLS”的影响如图 4b 中的橙色线所示。

3. 冒名顶替者(好,嘈杂):同样,我们从两个不同人的两个图像开始。两个原始图像的质量都很好(它们的不确定性非常低)。由于这两个图像是不同的人,我们有一个冒名顶替者对。然后,我们逐渐对其中一个图像应用越来越多的模糊(同时让另一张图像保持原样)。增加模糊对“确定性 + 余弦”的影响如图 4a 中的绿线所示。同样,增加模糊对“概率 + MLS”的影响如图 4b 中的绿线所示。

4.3.1 对确定性嵌入的影响

考虑图 4a 所示的结果。我们通常在余弦相似度得分上设置一个阈值,以确定两张人脸图像是否属于同一个人。 0.4 的阈值似乎是一个不错的选择,这样真正的配对就可以正确匹配为同一个人。由于高斯模糊从 0 到 17 不等,我们能够正确地将原始图像及其模糊版本分类为同一个人。随着我们将模糊度增加到 17 以上,模糊图像中的不确定性增加,我们不再能够得出原始图像与其模糊版本匹配的结论(即,我们有一个假阴性)。这将导致聚类算法将原始图像及其模糊版本放入不同的簇中,我们最终可能会得到很多不必要的簇。我们将这种情况称为假阴性问题。

图 4a 说明了另一个重要问题。假设余弦相似度得分的阈值为 0.4,当高斯模糊增加到超过 20 时,冒名顶替者(嘈杂,嘈杂)类别(橙色曲线)中的许多对将被错误地声明为匹配。这将导致误报.在这种情况下,两个不同人的面部图像将被放置在同一个簇中,并且错误地生成的簇要少得多(与地面实况或实际簇数相比)。我们将这种情况称为假阳性问题。

4.3.2 对概率嵌入的影响

考虑图 4b 所示的结果。同样,我们通常在 MLS 上设置一个阈值来确定两个人脸图像是否属于同一个人。 2650 的阈值似乎是一个不错的选择,这样真正的配对(蓝线)可以正确匹配为同一个人。由于高斯模糊从 0 到 17 不等,我们能够正确地将原始图像及其模糊版本分类为同一个人。随着我们将模糊度增加到 17 以上,模糊图像的不确定性增加,我们不再能够得出原始图像与其模糊版本匹配的结论(即,我们有一个假阴性)。这将导致聚类算法将原始图像及其模糊版本放入不同的簇中,我们最终可能会得到很多不必要的簇。所以,我们有一个假阴性问题。

然而,与图 4a 中的情况不同,图 4b 没有假阳性问题。同样,假设 MLS 的阈值为 2650,当高斯模糊增加到 20 以上时,Imposter(noisy,嘈杂) 类别(橙色曲线)中的许多对将被正确地声明为不匹配。所以,通过使用不确定性信息,MLS 避免了误报问题。因此,聚类结果也不会受到假阳性的污染。

4.4.重要见解

如果人脸图像的不确定性较低,“确定性 + 余弦”和“概率性 + MLS”都表现良好。然而,随着不确定性的增加,我们看到这两种情况的行为出现了分歧。

与基于余弦相似度得分的相似度函数不同,基于 MLS 的相似度函数不会遭受由嘈杂的冒名顶替者对引起的误报。因此,通过利用不确定性信息,MLS 可以令人满意地解决误报问题。然而,余弦相似度得分和 MLS 都无法充分解决假阴性问题。在这里,真正的对(其中两个图像都属于同一个人,但其中一个图像具有很高的不确定性)被遗漏了。

基于上述关键见解,下一节将介绍一种利用不确定性信息的新聚类算法。

5. 不确定性估计聚类

我们首先提出了一种不确定性感知的聚类算法。接下来,我们提出了一个新的集群质量评估指标。

5.1。不确定性感知聚类算法

聚类算法依靠相似度分数来寻找相似的面孔。这些算法隐含地假设相似度得分是可靠的,只有当输入集主要由高质量的人脸组成时才成立(例如,LFW [9] 数据集)。但是,只要输入集包含好人脸和噪声人脸的混合,相似度得分就会变得不可靠(如图 4 所示),因此,聚类算法会产生不正确的结果。

如果除了相似度得分之外,关于人脸的不确定性信息被明确地提供给聚类算法而不是嵌入到表示或相似度函数中怎么办?聚类算法能否利用这些额外信息并改进聚类?我们展示了聚类算法可以使用显式的不确定性信息来评估相似度分数的可信度,采取适当的措施来避免假阳性和假阴性问题,并提高聚类的质量——这是我们的基础新的聚类算法,UAC。

为了解决假阳性和假阴性问题,我们利用了不确定性信息。我们将人脸对分为四个类别之一,如图 5 所示。这里,x 轴和 y 轴分别对应于 facex 和 facey 的不确定性估计;虚线对应于不确定性阈值 ut。我们使用这个阈值将不确定性值分组为 LOW 和 HIGH,具体取决于它们是分别低于还是高于 ut。我们重点关注以下四种情况:

1. {facex(LOW),facey(LOW)}。在这种情况下,确定性和概率嵌入都提供了准确的估计(因为数据不确定性很低),并且聚类算法正确地聚类了两张脸。

2. {facex(HIGH),facey(LOW)}。在这种情况下,确定性和概率嵌入都提供了不准确的估计(因为 facex 的数据不确定性很高)。如图 5 所示,这种情况会导致假阴性(来自同一个人的面孔被错误地

由于相似性得分低而被认为是不同的)。 3. {facex(LOW),facey(HIGH)}。这与上述情况类似。

4. {facex(HIGH),facey(HIGH)}。在这种情况下,确定性和概率嵌入都提供了不准确的估计(由于两个面的数据不确定性很高)。我们观察到非常高的相似度分数,无论图像是同一个人还是两个不同的人。前一种情况对应于真阳性,而第二种情况对应于假阳性。

为了处理上述四种情况,我们提出了一种新的、不确定性感知的聚类算法 UAC。它有两个关键阶段:a)通过明确利用不确定性形成集群;b)集群不确定性估计和修剪。

特定案例的相似度阈值:UAC 根据 facex 和 facey 的不确定性来改变相似度阈值。我们假设基本相似度阈值为 ε(默认值为 0.50)。 UAC 根据人脸对中两张人脸的不确定性采取不同的行动:

1. {facex(LOW),facey(LOW)}。相似度阈值保持不变。

2. {facex(HIGH),facey(LOW)}。我们将相似度阈值降低到 ε - ΔH L 。例如,如果 ΔH L = 0.05,则新的相似度阈值为 (0.50 − 0.05) 或 0.45。通过降低相似度阈值,UAC 可以避免假阴性。

3. {facex(LOW),facey(HIGH)}。这种情况与上述情况类似。

4. {facex(HIGH), facey(HIGH)}。由于缺乏足够的信息内容,很难区分真阳性和假阳性病例,为了安全起见,当两幅图像的不确定性水平很高时,我们通过将相似度阈值提高到∞来忽略相似度估计。在上述三种情况下,当至少有一张人脸具有 LOW 不确定性时,我们可以在一定程度上信任相似度得分。然而,当两个人脸都具有 H I GH 不确定性时,就没有合理的基础来信任相似度得分。

集群的不确定性。在使用特定于案例的阈值形成集群后,UAC 再执行一个步骤。它为每个集群分配一个不确定性估计,如下所示:

其中簇 Ci 由 |Ci| 组成(相似的)面孔,以及

不确定性(facem)是facem的不确定性(使用4.1节中的公式计算)。如果不确定性(Ci)高于 ut 阈值,则 UAC 将 Ci 视为噪声簇,将其从最终聚类结果中排除。

算法 1 描述了 UAC 中的关键步骤。为了对 n 个面进行聚类,它创建一个具有 n 个节点的无向图 G。最初,G 没有边。接下来,当 UAC 发现人脸对 (fi , fj ) 的相似度得分相同或高于适当的相似度阈值(根据不确定性而变化face-pair (fi , fj ) 的情况。然后,UAC 找到 G 的连通分量——每个分量对应一个簇。最后,UAC 估计每个簇的不确定性并返回具有 LOW 不确定性的簇。总体而言,UAC 执行O(n2 ) 相似性比较在 G 中添加 E 边,需要 O(n + E) 操作来找到连接的组件。

5.2.集群质量指标

已经提出了许多著名的指标,如纯度、BCubed F-score、Pairwise F-score 和 NMI 来评估集群质量。我们使用这些指标来评估我们集群的质量。然而,为了在存在数据不确定性的情况下更好地评估集群质量,我们引入了一个新的指标,即纯度调整放大分数 (PAAS),其定义如下:

放大。它测量相对于基本事实的过度聚类程度。对于每个人,我们计算与此人相似的面孔被分配到的不同聚类的数量,然后我们将放大率估计为所有计数的调和平均值:

其中counti表示与第i个人对应的人脸的不同聚类的数量,I是总人数。一个好的聚类算法应该得到接近 1 的放大分数,而坏的应该得到比 1 大得多的分数。但是,当聚类算法将所有面孔分配到一个聚类时,很容易实现最佳放大。

纯度。它的计算方法如下[2]:首先,每个集群被分配给最频繁的地面真实身份;接下来,聚类分配精度估计为正确分配的人脸总数与人脸总数之比。纯度值介于 0 和 1 之间,一个好的聚类算法应该得到接近 1 的分数。但是,可以通过每个人脸形成一个聚类来获得完美的纯度分数。

PAAS 是一种复合度量,它是纯度和放大率的比率,它衡量聚类算法的矛盾质量。随机聚类算法很容易在扩增或纯度上获得满分,但随机算法很少在两者上都获得满分。 PAAS score 是一个介于 0 和 1 之间的值,可以用来比较不同的聚类算法。

6. UAC 对噪声数据集的评估

IJB-A。表 4 显示了我们针对 IJB-A 基准的不确定性感知聚类 (UAC) 算法的评估结果。随着我们增加不确定性阈值(ut),预测聚类的数量缓慢增加,并且与地面实况相比,聚类的质量下降。例如,当 ΔHL = 0.0 并且我们在“确定性 + 余弦”情况下从 0.0012 变化到 0.0014 时,预测聚类的数量从 547 增加到 651。这与表 3 中的结果形成对比,其中隐含考虑面部表示和相似性函数的不确定性(“概率+ MLS”案例)导致预测超过 2700 多个集群。

在 UAC 中,对于一个固定的 ut,随着我们增加 ΔHL,预测的集群的数量逐渐接近地面实况。但是,有一个权衡。增加 ΔHL 值有助于解决假阴性问题,即为同一个人的面部创建多个聚类。然而,超过某个点,增加 ΔHL 也会产生假阳性问题,即不同人的面孔被包含在一个集群中。因此,这会降低聚类质量。因此,ΔHL 有一个最佳点,其中聚类精度最高。

同样,我们观察到 ut 的最佳位置。随着我们增加 ut,假阳性和假阴性问题都变得更加普遍。当 ut 较高时,较高的 ΔHL 可实现最佳折衷。然而,如果 ut 太高,那么相似度得分变得不可靠,ΔHL 不再有效。

当我们为“Deterministic + Cosine”设置 ut ≤ 0.0013,ΔHL ≤ 0.05 和“Probabilistic + MLS”(以蓝色行标记)时,ΔHL ≤ 20,我们获得了最佳结果。在这个范围内,UAC 预测的集群比地面实况多 0.02 倍 - 0.18 倍,同时在其他集群质量指标中获得非常高的分数。相比之下,DBSCAN [5]、AHC [15] 和 GCN-V [30] 等不确定性无感知算法预测的集群多 4.5 倍至 9.6 倍(结果如表 3 所示)。

表 3 和表 4 中的灰色列显示了我们的 PAAS 指标的得分。与 Purity、BCubed F-score、Pairwise F-score 和 NMI 等流行指标相比,当聚类算法产生过度聚类时,PAAS 不会报告高分(即,与地面相比,它预测的聚类过多真相)。与其他指标相比,PAAS 对过度聚类的惩罚更多。具体来说,当数据不确定性很高时(即,像 IJB-A 这样的数据集),PAAS 度量可以帮助选择更好的聚类算法。例如在表 4 中,基于 PASS 分数,我们可以对由 ut = 0.0012 和 ΔHL = 0.05 的“确定性 + 余弦”产生的集群进行排名,高于 ut = 0.0013 和 ΔHL = 的“确定性 + 余弦” 0.05,尽管其他指标报告两种设置的得分非常接近。

YouTube 面孔数据库 (YTF)。我们还报告了 YTF [29] 的实验结果。它包含 3,425 个视频,来自 1594 人的 611,246 张面孔。 YTF 的数据不确定性(平均值 = 0.00136)高于 IJB-A(平均值 = 0.00114)。对于 YTF,我们使用“确定性 + 余弦”将 UAC 与 DBSCAN [5] 进行比较。特别是,我们评估了 DBSCAN 的 minPts 参数(控制所需的最小集群大小)的影响。我们将余弦相似度阈值设置为 0.80。对于 UAC,我们设置 ut = 0.0012 并设置 ΔHL ≤ 0.05。对于 DBSCAN,我们设置 1 ≤ minP ts ≤ 10。表 5 显示了我们的评估结果。对于 DBSCAN,当我们增加 minPts 时,预测聚类的数量会更接近基本事实。即使 minP ts = 10,UAC 也优于 DBSCAN 算法——它预测的集群(2041)在其他指标上得分高 0.28 倍,而 DBSCAN 预测的集群(3204)几乎是基本事实(1594)的两倍。同样,它表明明确利用不确定性可以提高聚类的质量。

一般来说,minPts 很难为未知数据集设置,因为它取决于数据分布。特别是,如果数据集包含许多小集群,那么不正确的 minP ts 设置可能会丢弃所有集群。例如,LFW 有 4069 个 ground-truth 簇,每个簇都有一张人脸图像,minP ts ≥ 2 会简单地丢弃所有这些。相比之下,UAC 不需要关于最小集群大小的信息——相反,当集群的不确定性估计超过 ut 时,UAC 会丢弃一个集群,这可以在不了解数据分布的情况下设置。

7. 结论

我们研究了通过利用不确定性信息来提高聚类任务准确性的新方法。当数据不确定性很高时,具有不确定性增强概率嵌入和相似性函数的流行聚类算法不会自动提高聚类准确性。然而,通过在聚类期间明确考虑不确定性信息并选择不同的相似性阈值,我们表明可以显着提高概率和确定性嵌入的聚类准确性。

你可能感兴趣的:(UAC: An Uncertainty-Aware Face Clustering Algorithm)