人脸聚类是利用未标记人脸数据的必不可少的工具,它具有广泛的应用程序,包括人脸注释和检索。最近的工作表明,有监督的聚类可以带来显着的性能提升。但是,它们通常涉及启发式步骤,并且需要大量重叠的子图,从而严重限制了其准确性和效率。在本文中,我们提出了一个完全可学习的聚类框架,而无需大量重叠的子图。相反,我们将聚类问题转化为两个子问题。具体来说,设计了两个名为GCN-V和GCN-E的图卷积网络来分别估计顶点的置信度和边的连通性。有了顶点置信度和边缘连通性,我们自然可以在亲和度图上组织更多相关的顶点,并将其分组。在两个大型基准测试上的实验表明,我们的方法显着提高了聚类精度,从而提高了训练在顶部的识别模型的性能,但比现有的监督方法效率高出一个数量级。
1.简介
由于带注释的人脸数据集的爆炸性增长[19,11,17],近年来,人脸识别取得了长足的进步[31,27,33,7,40]。伴随着这种趋势,对注释数据的需求不断增长,导致注释成本过高。为了利用大量未标记的面部图像,最近的研究[14、39、35、38]提供了一种有前途的基于聚类的管道,并证明了其在改善面部识别模型方面的有效性。他们首先执行聚类以生成未标记图像的“伪标签”,然后利用它们以监督方式训练模型。这些方法成功的关键在于有效的人脸聚类算法。
现有的人脸聚类方法大致分为两类,即无监督方法和有监督方法。诸如K-means [22]和DBSCAN [9]之类的无监督方法依赖于特定的假设,并且缺乏应对现实数据集中复杂的簇结构的能力。为了提高对不同数据的适应性,有人提出了有监督的聚类方法[35,38]来学习聚类模式。但是,准确性和效率都远远不能令人满意。特别是,为了与大规模的面部数据聚类,现有的监督方法将数据与许多小子图一起组织,从而导致两个主要问题。首先,处理子图涉及基于简单假设的启发式步骤。子图生成[38]和预测聚合[35]都依赖于启发式过程,因此限制了它们的性能上限。此外,这些方法所需的子图通常高度重叠,从而导致过多的冗余计算成本。
因此,我们寻求一种算法,可以学习更准确,更有效地进行聚类。为了获得更高的准确性,我们希望使框架的所有组件均易于学习,超越启发式程序的限制。另一方面,为了减少冗余计算,我们打算减少所需子图的数量。先前的工作[39,35,38]表明,亲和度图上的聚类通常具有某些结构模式。我们观察到这种结构模式主要来自两个来源,即顶点和边缘。直观地讲,将每个顶点连接到邻居(该邻居具有较高的属于特定类别的置信度)可以从亲和度图中推断出许多树。所获得的树自然形成连接的组件作为簇。基于这种动机,我们设计了一种完全可学习的聚类方法,不需要很多子图,从而导致了
准确性和效率。
特别地,我们将聚类问题转化为两个子问题。一种是估计顶点的置信度,该信度测量一个顶点属于特定类别的概率。另一种是估计边缘连通性,这表明两个顶点属于同一类的概率。通过顶点置信度和边缘连通性,我们以自然的方式执行聚类,即每个顶点都以更高的置信度和最强的连通性连接到一个顶点。如图1所示,每个顶点找到一条连接到顶点的边,其置信度更高,并且最终连接到同一顶点的顶点属于同一簇。
提出了两个可学习的组件,分别是置信度估计器和连通性估计器,以分别估计顶点置信度和边缘连通性。这两个组件都基于GCN来学习数据,分别由GCN-V(用于顶点置信度)和GCN-E(用于边缘连接性)表示。具体来说,GCN-V将整个图作为输入,并同时估计所有顶点的置信度。 GCN-E将根据本地候选集构建的图作为输入,并评估两个顶点属于同一类的可能性。
实验表明,我们的方法不仅可以显着地将现有的监督方法加速一个数量级,而且在5M未标记数据的两个F评分指标下也优于最新的技术水平[38]。主要贡献在于三个方面:(1)我们提出了一个新颖的框架,该框架将聚类公式化为对置信度和连通性的估计,两者均基于可学习的组件。 (2)我们的方法比现有的基于学习的方法快一个数量级。 (3)所提出的方法在大规模人脸聚类和时尚聚类上都达到了最先进的性能。发现的集群将人脸识别模型提升到与其监督的同类模型相当的水平。
2.相关工作
无监督人脸聚类。随着深度学习的兴起,最近的工作主要采用基于CNN的模型的深度功能,并着重于相似度指标的设计。奥托等。 [1]提出了一种近似的秩序度量。 Lin等。 [20]引入了邻域的最小覆盖范围作为相似性度量。除了专门为人脸聚类设计的方法外,经典聚类算法也可以应用于人脸聚类。基于密度的聚类是最相关的方法。 DB-SCAN [9]计算了经验密度,并将集群指定为数据空间中的密集区域。 OPTICS [3]采用了类似的概念并解决了数据点的排序问题。
所提出的方法与基于密度的聚类具有共同的直觉,即计算每个样本的“密度” [9],并关注样本之间的相对顺序[3]。但是,我们的方法与上述所有非监督方法大不相同:我们框架中的所有组件都是可学习的。这使我们能够学习捕捉面部簇中的内在结构。
监督人脸聚类。最近的工作表明,在面部聚类中引入监督信息可显着提高性能。詹等。 [39]训练了一个MLP分类器来聚合信息,从而发现更健壮的联系。 Wang等。 [35]通过利用GCN捕获图上下文进一步改善了链接预测。两种方法都通过找到具有动态阈值的连接组件来获得聚类。杨等。 [38]设计了一种划分算法来生成多尺度子图,并提出了一个两阶段监督框架来从中精确定位所需的集群。
尽管所提出的方法采用了监督聚类的思想,但它与两个关键方面有所不同:(1)与以前的监督方法[39、35、38]不同,它不依赖于启发式算法进行预处理或后处理。取而代之的是,建议框架的所有组成部分都是可以学习的,并且有可能获得更高的准确性。 (2)设计效率更高。现有方法依赖大量子图来精确定位聚类。 [35]预测了每个顶点周围的所有连接,其中两个附近的顶点可能具有高度重叠的邻域,因此存在多余的计算成本。 [38]产生了用于检测和分割的多尺度子图,其数量通常比聚类的数量大几倍。相反,所提出的方法采用有效的无子图策略来估计顶点置信度,并集中在邻域的一小部分以进行连通性预测。
图卷积网络。图卷积网络(GCN)[18]已成功应用于各种任务[18、12、32、37、36]。最近的一些努力扩展了GCN来处理大规模图形。 GraphSAGE [12]在每一层中采样了一定数量的邻居进行聚合。 FastGCN [4]通过采样顶点而不是邻居来进一步降低了计算成本。在本文中,我们利用图卷积网络的强大表达能力,来学习大规模亲和图上的顶点置信度和局部子图上的边连通性。
3.方法论
在大规模人脸聚类中,有监督的方法证明了它们在处理复杂聚类模式方面的有效性,但是其准确性受到某些手工制作组件的限制,并且其效率受到众多高度重叠的子图的要求的影响。因此,如何准确而有效地聚类仍然是一个问题。为了应对这一挑战,我们提出了一种有效的替代方法,其中所有组件都是可学习的。具体来说,我们将聚类作为估计亲和图上的顶点置信度和边缘连接性的过程进行构建,然后通过将每个顶点与具有更高置信度和连接性的邻居连接起来,将图划分为群集。
3.1。框架概述
给定一个数据集,我们从经过训练的CNN中提取每个图像的特征,形成特征集F = {fi} Ni = 1,其中fi∈RD。 N是图像数,D是特征尺寸。样本i与样本j之间的亲和度表示为ai,j,它是fi与fj之间的余弦相似度。根据亲和度,我们用KNN亲和度图G =(V,E)表示数据集,其中每个图像都是属于V的顶点,并连接到它的K个最近邻居,形成了属于E的K条边。可以表示为顶点特征矩阵F∈RN×D和对称邻接矩阵A∈RN×N,如果vi和vj不连接,则ai,j = 0。
为了通过从顶点和边缘学习结构模式来执行聚类,我们将聚类分解为
两个子问题。一种是预测顶点的置信度。置信度是确定顶点是否属于特定类。直观上,高置信度的顶点通常位于顶点密集分布并属于同一类的位置,而低置信度的顶点可能位于几个聚类的边界上。另一个是预测边缘连接性的子问题。具有高连通性的边缘表示两个连接的样本倾向于属于同一类别。利用亲和图中的顶点置信度和边缘连通性,可以通过找到从具有较低置信度的顶点到具有较高置信度的顶点的有向路径来以简单的方式执行聚类。此过程自然会形成许多彼此隔离的树,因此很容易将图划分为簇。我们将此过程称为基于树的分区。
所提出方法的主要挑战仍然在于如何估计顶点置信度和边缘连通性。如图2所示,我们的框架由两个可学习的模块组成,即置信度估计器和连接性估计器。前者基于GCN-V估计顶点置信度,而后者基于GCN-E预测边缘连通性。具体来说,GCN-V将整个亲和度图作为输入,并同时估计所有顶点的置信度。 GCN-E将根据候选集构建的图作为输入,并评估属于同一类的两个顶点的置信度。根据这两个模块的输出,我们执行基于树的分区以获得群集。
3.2。置信度估算器
类似于对象检测中的无锚方法[41,8],它们使用热图来指示对象出现在图像的相应区域中的可能性,置信估计器旨在估计每个顶点的值,从而指示是否在亲和图的相应区域上有一个特定的类。
由于现实世界中的数据集通常具有较大的类内差异,因此即使每个图像属于同一类,它们也可能具有不同的置信度值。对于高置信度的图像,其相邻图像往往属于同一类别,而低置信度的图像通常与其他类别的图像相邻。基于此观察,我们可以基于附近的标记图像为每个顶点定义置信度ci:
其中Ni是vi的邻域,yi是vi的真实标签,而ai,j是vi和vj之间的亲和力。置信度用于衡量邻居是否近亲并且来自同一阶级。从直觉上讲,具有密集连接和纯连接的顶点具有较高的置信度,而具有稀疏连接或位于多个群集之间的边界中的顶点的置信度较低。我们研究了对Sec的不同信心设计。 4.3.1。
置信度估计器的设计。我们假设具有相似置信度的顶点具有相似的结构模式。为了捕获这种模式,我们学习了一个名为GCN-V的图卷积网络[18],以估计顶点的置信度。具体而言,在输入邻接矩阵A和顶点特征矩阵F的情况下,GCN会预测每个顶点的置信度。 GCN由L层组成,每层的计算公式如下:
其中A A = D ̃-1(A + I),D ̃ii =j(A + I)j等角度矩阵。用特征矩阵F设置输入层F0的特征嵌入,并且F1包含第l层的嵌入。 W1是可训练的矩阵,用于将嵌入转换为新的空间。 σ是非线性激活(本文中的ReLU)。为了利用输入嵌入和邻域聚合之后的嵌入来学习变换矩阵,我们将g(·,·)定义为它们的串联:
g(A ̃,F1)= [(F1)⊤,(A ̃F1)⊤]⊤。 (3)
这种定义已被证明比简单地对每个顶点周围的邻居的嵌入特征进行加权平均更有效[35]。基于第L层(即FL)的输出嵌入,我们采用完全连接的层来预测顶点的置信度。
c'= FLW + b,(4)
其中W是可训练的回归变量,b是可训练的偏差。 vi的预测置信度可以从c'中的对应元素(用c'i表示)中获取。
训练和推理。给定一个带有班级标签的训练集,我们可以根据式子获得真实的可信度。每个顶点1个。然后我们训练GCN-V,目的是最小化地面真实度和预测分数之间的均方误差(MSE),其定义为:
在推论过程中,我们使用训练有素的GCN-V来预测每个顶点的置信度。所获得的置信度有两种使用方式。首先,在下一个模块中使用它们来确定是否需要预测边缘的连通性,从而显着降低了计算成本。此外,它们在最终聚类中用于提供顶点之间的部分顺序。
复杂度分析。主要的计算成本在于图卷积(公式2)。由于建立的图是K K N的KNN图,因此亲和度矩阵A是高度稀疏的矩阵。因此,图卷积可以有效地实现为稀疏矩阵乘法,从而产生复杂度O(| E |)[18]。作为边数| E |稀疏矩阵的θ是以NK为边界的,在顶点数为K number N时,推理复杂度是线性的。通过对邻居或顶点进行采样可以将该操作缩放到非常大的设置[12,4]。根据经验,在具有5.2M顶点的图形上,一个1层GCN需要37G CPU Ram和92s 16CPU。
3.3。连通性估算器
对于顶点vi,置信度大于ci的邻居表示他们更有信心属于特定类。要将vi分配给特定类别,一个直观的想法是将vi与来自同一类别的邻居建立联系,并具有更大的信心。但是,信心更大的邻居不一定属于同一类。因此,我们引入了名为GCN-E的连通性估算器,以基于局部图结构测量成对关系。
候选集。给定预测的顶点置信度,我们首先为每个顶点构造一个候选集S。
Si = {vj | c'j> c'i,vj∈Ni}。 (6)
候选集的想法是选择连接到邻居的边缘更有信心属于一个簇,并且Si仅包含比vi的信心更高的信心的顶点。
连接估计器的设计。 GCN-E与GCN-V具有相似的GCN结构。主要区别在于:(1)GCN-E的输入不是子图G(Si),它包含Si中的所有顶点,而不是对整个图G进行运算; (2)GCN-E为G(Si)上的每个顶点输出一个值,以表明它与vi共享同一类的可能性。
更具体地,子图G(Ci)可以由亲和度矩阵A(Si)和顶点特征矩阵F(Si)表示。我们从特征矩阵F(Si)的每一行中减去fi,以对Si和vi之间的关系进行编码,并且获得的特征矩阵由F Si(Si)表示。因此,GCN-E中的转换可以表示为:
其中σ,g(·)和A ̃(Si)的定义类似于方程式。 2. Wl'是第I层中GCN-E的参数。基于第L层的输出嵌入,我们通过完全连接的层获得了Si中每个顶点的连通性。由于连通性反映了两个顶点之间的关系,因此我们使用r'i,j表示vi和vj之间的预测连通性。
训练和推理。
给定带有类标签的训练集,对于顶点vi,如果邻居vj与vi共享相同的标签,则连通性设置为1,否则为0。
我们旨在预测可反映两个顶点是否属于同一类的连通性。类似于式在GCN-V中的第5条中,我们还使用逐点MSE损失来训练GCN-E。
为了加快训练和推理过程,我们仅将GCN-E应用于估计置信度较高的一小部分顶点,因为与置信度较小的顶点相比,它们可能会影响更多的后继对象。我们使用GCN-E作为ρ来表示顶点的一部分。对于其他顶点,它们仅连接到候选集中的M个最近邻居,表明它们以最大M个相似度和较高置信度连接到邻居。 M = 1导致基于树的分区策略,而M> 1产生有向无环图作为聚类。经验结果表明,M = 1,ρ= 10%已经可以带来可观的性能提升(参见第4.3.2节)。
复杂度分析。连通性估计的想法与[35]具有相似的精神,他们评估了子图上每个顶点连接到中心顶点的可能性。尽管[35]的复杂度与N呈线性关系,但在每个顶点附近使用GCN会产生过多的计算需求。提出的GCN-E具有两个要提高效率的关键设计:(1)我们仅预测候选集中的链接,这种工作可能涉及每个顶点较少的邻居,而无需手动选择跳数以及每一跳的邻居数。 (2)利用估计的顶点置信度,我们能够集中精力于一小部分具有高置信度的顶点。有了这两个重要的设计,我们的加速比[35]高了一个数量级。
4.实验
4.1。实验设定
人脸聚类。 MS-Celeb-1M [11]是由10万个身份组成的大规模人脸识别数据集,每个身份约有100张面部图像。我们采用了ArcFace [7]中广泛使用的注释,生成了一个可靠的子集,其中包含来自86K类的580万幅图像。我们随机将清理后的数据集分为10个部分,它们具有几乎相等的身份。每个部分包含约580K图像的8.6K身份。我们随机选择1个部分作为标记数据,另9个部分作为未标记数据。
时尚集群。我们还评估了我们的方法对于面部图像以外的数据集的有效性。我们在DeepFashion [21]的很大一部分上进行了测试,即店内服装检索,这是很长的尾巴。特别是,我们在原始分割中混合了训练功能和测试功能,并从3,997个类别中随机采样了25,752个图像进行训练,而其他26,960个图像中则将3,984个类别进行了测试。请注意,时尚聚类也被视为开放集问题,训练类别和测试类别之间没有重叠。
人脸识别。我们在MegaFace [17]上评估人脸识别模型,这是最大的人脸识别基准。它包括来自FaceScrub [25]的探针集,其中包含3张,530张图像和包含1M张图像的图库集。指标。我们评估聚类和面部识别的性能。人脸聚类通常通过两个指标[29、35、38]进行评估,即成对F分数和BCubed F分数[2]。前者强调大集群,因为对的数量随着集群的大小呈二次方增长,而后者则根据集群的大小进行加权。这两个指标都是精度和召回率的谐波平均值,分别称为FP和FB。人脸识别通过MegaFace中的人脸识别基准进行评估。我们在MegaFace中采用top-1识别命中率,即从1M画廊图像中对top-1图像进行排名并计算top-1命中率。
实施细节。为了构建KNN亲和图,我们将MS1M的K设置为80,将Deep Fashion的K设置为5。由于GCN-V在具有数百万个顶点的图上进行操作,因此我们仅使用1层GCN来降低计算成本。对于GCN-E,它在不超过K个顶点的邻域上运行,因此我们使用4层GCN来提高其表达能力。对于这两个数据集,动量SGD的初始学习速率为0.1,权重衰减为1e-5。为了避免没有正确的邻居进行连接的情况,我们设置阈值τ来切除相似度较小的边缘。所有设置的τ均设为0.8。
4.2。方法比较
4.2.1人脸聚类
我们将提出的方法与一系列聚类基线进行比较。下面简要介绍这些方法。
(1)K-means [22],常用的聚类算法。对于N≥1.74M,我们使用小批量K均值,得出可比的结果,但运行时间大大缩短。 (2)HAC [30],该方法以自下而上的方式,根据某些标准对合并的封闭类进行分层合并。
(3)DBSCAN [9]根据设计的密度标准提取聚类,并将稀疏的背景保留为噪声。 (4)MeanShift [6]精确定位了包含一组收敛到同一局部最优值的点的聚类。
(5)频谱[24]根据相似度矩阵的频谱将数据划分为连接的组件。
(6)ARO [1]使用近似的最近邻居搜索和改进的距离度量来执行聚类。
(7)CDP [39],一种基于图的聚类算法,它利用更健壮的成对关系。
(8)L-GCN [35],一种最新的监督方法,采用GCN来利用图上下文进行成对预测。
(9)LTC [38],另一种最近受监督的方法,将聚类作为检测和分段管道。 (10)我们的(V),提出的方法将GCN-V应用于整个图,并通过将每个顶点连接到候选集中最接近的邻居来获得聚类。 (11)我们的(V + E),提出的方法,它在GCN-V的基础上使用GCN-E来估计连通性,并通过将每个顶点连接到候选集中最连通的邻居来获得聚类。
结果对于所有方法,我们都会调整相应的超参数并报告最佳结果。表1和表2的结果表明:(1)给定簇的真实数量,K均值获得较高的F得分。但是,集群的数量极大地影响了性能,因此当集群的数量未知时,很难采用。 (2)HAC不需要集群,但是迭代合并过程需要大量的计算预算。即使使用快速实现[23],当N为5.21M时,也要花费近900个小时才能获得结果。 (3)尽管DBSCAN效率很高,但它假定不同群集之间的密度相似,这可能是在扩展到较大设置时性能严重下降的原因。 (4)MeanShift在时尚聚类上产生了很好的结果,但是收敛时间很长。 (5)光谱聚类也表现不错,但是解决特征值分解会导致大量的计算和内存需求,从而限制了其应用。 (6)ARO的性能取决于邻居的数量。有了合理的时间预算,其性能就不如MS1M中的其他方法。 (7)CDP非常有效,并且在不同规模的不同数据集上获得较高的F评分。为了公平起见,我们将CDP与单个模型版本进行比较。 (8)L-GCN始终超过CDP,但比CDP慢了一个数量级。 (9)作为最近以有监督方式进行聚类的方法,LTC展示了其在大规模聚类中的优势。但是,依靠迭代提议策略,性能增益伴随着大量的计算成本。 (10)建议的GCN-V始终优于以前的方法。尽管GCN-V的训练集仅包含580K图像,但它可以很好地归纳为521万未标记的数据,证明了其在捕获顶点重要特征方面的有效性。此外,由于GCN-V同时预测了所有顶点的置信度,因此它比以前的监督方法要快一个数量级。 (11)我们以最高估计的置信度将GCN-E应用于20%的顶点。它带来了进一步的性能提升,尤其是在应用于Deep-Fashion时。这个具有挑战性的数据集包含嘈杂的邻居,因此需要更仔细地选择连通性。
运行时分析我们使用ES-2640 v3 CPU和TitanXP来测量不同方法的运行时。对于MS-Celeb-1M,我们在N = 584K时测量运行时间。除K均值和HAC外,所有比较的方法都依赖于KNN图。为了专注于算法本身的运行时间,我们使用1个GPU和16个CPU来加速KNN的搜索[16],这将查找80个最近邻居的时间从34分钟减少到101秒。对于所有监督方法,我们分析了它们的推理时间。如表1所示,建议的GCN-V比L-GCN和LTC快一个数量级。 GCN-E花费更多时间来预测候选集中的连接,但是它的效率仍然比L-GCN和LTC高出几倍。图3更好地说明了精度和效率之间的权衡。对于LTC和微型批次K均值,我们分别控制投标的数量和批次的大小,以产生不同的运行时间和准确性。在实际实践中,我们可以利用LTC中的超顶点概念进一步加速GCN-V,并并行化GCN-E以同时估计不同顶点的连通性。
4.2.2人脸识别
遵循[39,38]的流程,我们应用训练好的聚类模型为未标记的数据分配伪标签,并利用它们来增强人脸识别模型。
作为第二4.1引入后,我们将数据集分为10个分割,并随机选择1个分割以具有真实标签,表示为SL。特别地,人脸识别实验包括四个步骤:(1)使用SL训练人脸识别模型Mr。 (2)使用Mr提取SL上的人脸特征,并在SL中训练具有提取特征和对应标签的聚类模型Mc; (3)使用Mc为未标记的图像分配伪标签; (4)使用SL和带有伪标签的未标签数据以多任务方式训练最终的人脸识别模型。注意,SL用于训练初始人脸识别模型和人脸聚类模型。
与以前的工作[39,38]不同,在该工作中假定未标记的数据是顺序获取的,并且分别对9个分割进行了9次聚类,我们直接对5.21M未标记的数据执行聚类,这更加实用且具有挑战性。通过假设所有未标记的数据都具有真实标签来训练上限。如图4所示,这三种方法都受益于未标记数据的增加。由于聚类的性能提高,我们的方法始终优于以前的方法,并将MegaFace上的人脸识别模型的性能从58.21提高到77.88。
4.3。消融研究
为了研究一些重要的设计选择,我们选择MS-Celeb-1M(584K)和DeepFashion进行消融研究。
4.3.1置信度估计器
顶点置信度设计。我们探索不同的信心设计。由于置信度与本节中描述的“密度”概念有关。 2,我们首先采用两种广泛使用的无监督密度作为置信度[9,3,26]。给定半径,第一个定义为顶点数,第二个定义为边权重之和,分别表示为urnum和urweight,如表3所示。请注意,对于这些无监督的定义,置信度是直接计算的,无需学习过程。另一方面,我们可以根据真实标签定义各种监督置信度。 savg定义为与具有相同标签的所有顶点的平均相似度。 scenter定义为与中心的相似度,该相似度计算为具有相同标签的所有顶点的平均特征。 snbr定义为等式。 1. sFnbr表示使用顶部嵌入FL重建图。为了比较不同的置信度设计,我们通过设置ρ= 0和M = 1来采用相同的连通性估计量。从这个意义上讲,连通性估计量无需学习即可直接选择候选集中最接近的邻居。
如表3所示,两个无监督的密度定义实现了相对较低的性能。高数据密度表示群集可能性很高的假设不一定适用于所有情况。此外,性能对选择的半径敏感以进行密度计算。表3显示,无需手动设置半径,监督置信度优于无监督置信度。在这三个定义中,snbr的性能优于savg和scenter。由于snbr是在邻域上定义的,因此与针对同一集群中所有样本定义的savg和scenter相比,GCN的学习可能会更容易。在实际实践中,类似于显着性检测中的显着性图融合[10,13],我们可以将不同置信度的输出整合在一起以获得更好的性能。
转换后的嵌入。 snbr和sFnbr之间的比较表明,使用转换后的特征重建亲和图会导致两个数据集的性能提高。这个想法与动态图[34]有共同的概念,在动态图[34]中,它们在每个图卷积层之后重建KNN图。但是,在具有数百万个顶点的大规模图上,每层构造KNN图将导致计算预算过高。实验表明,只有使用顶部嵌入来重建图,才能产生合理的结果。
4.3.2连接估计器
ρ的影响。我们将ρ从0更改为1,步长为0.1。如图5所示,仅以高置信度聚焦于10%的顶点可以带来可观的性能提升,同时却增加了很少的计算成本。随着ρ的增加,更多的顶点将从GCN-E的预测中受益,因此FP会增加。将GCN-E应用于所有顶点时,会略有下降,因为不确定顶点之间的连接通常非常复杂,并且可能很难找到通用的学习模式。
M的影响。在下表中,M = -1表示在不使用候选集的情况下应用GCN-E。它包括不自信的邻居,因此增加了学习难度并导致性能下降。
当M = 1时,每个顶点都连接到候选集中最连通的邻居。当M> 1时,不确定的顶点可能会连接到两个不同的簇。尽管它会增加获得的簇的召回率,但可能会严重影响精度。
5.结论
本文提出了一种新颖的监督人脸聚类框架,消除了启发式步骤和大量子图的要求。所提出的方法极大地提高了大规模人脸聚类基准的准确性和效率。此外,表明该方法的实验可以很好地推广到比训练集大10倍的测试集。在时尚数据集上进行的实验证明了其在人脸之外的数据集上的潜在应用。将来,需要一种端到端的可学习集群框架来完全释放监督集群的功能。