2022-03-24

A Survey of Image Clustering: Taxonomy and Recent Methods

摘要——图像聚类是计算机视觉领域的一个基本问题。在本次调查中，我们提供了图像聚类的全面概述。具体来说，我们首先讨论图像聚类在各个领域的应用。然后，我们总结了常见的算法，并提出了图像聚类的分类。现有方法从四个方面进行分类：基于自动编码器的方法、子空间聚类、基于图卷积网络（GCN）的方法和其他一些聚类方法。介绍了各种图像聚类方法的主要研究内容和存在的问题。我们还介绍了一些最近的方法并总结了实验结果。根据我们的分类和分析，创建和验证新方法更加简单。最后，我们提出了这个快速发展领域的未来机遇。

索引词——图像聚类、自动编码器、子空间聚类、图卷积网络、对比学习、

一、引言

随着信息技术的最新进展，几乎在每个可以想象的区域都捕获了大量图像，其中大部分没有标记[1]。手动标记这些图像非常昂贵且耗时。为了充分利用这些未标记的图像并研究它们之间的相关性，无监督聚类成为近年来的热门话题[2]。

由于图像形状和高维的变化，图像聚类是计算机视觉中具有挑战性的任务之一。图像聚类的目标是自动将相似的图像分组到一个簇中，而将不相似的图像分配到不同的簇中。传统的图像聚类方法，如 K-means++ [25]、谱聚类 [13]、高斯混合模型 [14] 和子空间聚类，通常将特征提取与聚类分开。这些方法通常是手动提取图像特征，然后使用聚类算法对特征进行聚类，从而实现图像聚类。传统的图像聚类方法可能会因两个主要问题而失败。一方面，人工特征的容量有限，不能动态调整人工特征来捕捉图像分布的先验信息，尤其是在处理大规模真实世界图像时。另一方面，特征提取和聚类的分离将使解决方案次优。

神经网络的成功推动了模式识别和计算机视觉领域的研究。人们越来越关注将深度学习扩展到无监督图像聚类任务。最近，人们发现使用深度神经网络学习有效的表示在图像聚类任务中起着重要作用，并且出现了许多研究，[4]，[6]。

在本次调查中，我们对图像聚类进行了全面调查，包括传统聚类方法和深度聚类方法。本文的主要贡献可归纳如下：

I) 我们概述了用于图像聚类的现代机器学习技术。对于每种类型的图像聚类研究，我们都提供了代表性模型的详细描述，并进行了必要的比较。

II）我们收集了丰富的图像聚类资源，包括最先进的模型、基准数据集、常见的估计指标和可视化方法。该调查可用作理解图像聚类的实用指南。

在本文中，第 2 节重点介绍图像聚类中的分类和通用框架，而第 3 节讨论图像聚类中存在的一些问题。在第 4 节中，我们介绍了一些与实验相关的内容，包括常用数据库、估计指标和可视化方法。在最后一节中，我们对这项调查进行了简要总结，并对深度聚类进行了一些讨论。

二、分类和框架

在本节中，我们概述了图像聚类的分类并列出了常用方法。请注意，现有图像聚类算法的分类模式不是绝对的，它们之间存在重叠。

A. 基于自动编码器的方法

自动编码器（AE）是一种用于半监督学习和无监督学习的人工神经网络，其功能是将输入信息作为学习对象来表示输入信息。通常，为了学习图像的有效表示，一些研究首先使用 AE 来提取图像特征。然后，他们使用一些聚类算法来设计损失函数，并对编码器进行微调。

郭等人。使用自动编码器来推断图像的维度，并使用最大化图像和特征之间的互信息作为学习图像表示的标准。该方法有效地将数据映射到有区别的嵌入子空间，并通过使用相对熵最小化原理精确预测聚类分配。徐等人。提出了一个用于判别嵌入和谱聚类的联合学习框架。郭等人。提出了一种改进的深度嵌入式聚类（IDEC）算法来处理数据结构的保存。与 DEC 相比，IDEC 可以通过整合聚类损失和 AEs 重建损失来优化聚类标签分配特征。陈等人。 [11]结合了三个基于AE的模型，包括卷积自动编码器（CAE）、对抗性自动编码器（AAE）和可堆叠自动编码器（SAE），形成用于图像聚类的混合自动编码器（BAE）模型。马拉巴等人。提出了一种深度聚类模型，解决了聚类重建的权衡问题。该方法可以逐步平滑地消除重构目标函数，有利于目标函数的构建，有利于得到聚类结果。阿加拉普等人。 [17] 提出了一种优化自编码器学习表示的纠缠以处理图像聚类问题的方法。麦康维尔等人。 [3] 将图像聚类作为潜在的流形搜索问题，研究了一些关于自动编码嵌入的全局流形学习方法。

自动编码器之所以在图像聚类中出名，是因为它可以保留图像的局部像素信息。这是人们在无人监督的情况下可以获得的少数先验信息之一。自编码器的一种特殊形式是使用两个变量的均方误差 (MSE)：

其中 xi 是输入图像，f(xi) 是 AE 解码器的输出。

然而，这些关注像素空间特征的图像聚类算法存在两个问题：1）像素级损失的使用可能导致这些方法过于关注基于像素的细节而不是抽象的语义信息。 2）像素分析难以有效建立对象的空间关联和复杂结构。

B. 子空间聚类

子空间聚类（SC）算法旨在找到可以识别聚类的所有子空间。这些算法专门用于查找所有子空间中的所有集群。 SC是数据挖掘领域聚类分析的关键技术之一。目前用于图像聚类的子空间聚类方法主要有统计方法和低秩分解方法。还有许多基于深度学习的子空间聚类算法用于图像聚类。

例如，Ji 等人。在自动编码器的编码器和解码器之间提出了一个新颖的自我表达层来模拟传统子空间聚类的“自学习”过程，并将其用于图像聚类。席等人。将图像聚类重新定义为验证问题，并提出了著名的深度稀疏子空间聚类（DSSC）模型进行图像聚类。该方法可以有效解决原始数据不满足线性子空间分布假设的问题。 Elhamifar 等人提出了一种稀疏子空间聚类算法。他们将图像聚类视为稀疏子空间学习程序，并提出凸松弛来解决稀疏优化问题。阿巴维萨尼等人。提出了一种基于 CNN 的子空间聚类方法，并用它来解决图像聚类问题。为了打破浅层模型的有限代表能力，Xi 等人。通过将子空间与结构化自动编码器（StructAE）相结合，提出了一种新颖的图像聚类方法。

一般来说，子空间聚类的适用性是有限的，因为图像的原始形式不一定位于线性子空间中。为了克服这个问题，Lim 等人。 [19]通过联合学习数据的自我表达表示和亲和矩阵提出了一种子空间聚类方法。

此外，在处理高维数据时，子空间聚类会遇到存储开销大、计算量大的问题。为了减少 SC 在处理图像聚类中的耗时问题，Li 等人。 [8]提出了一种低秩表示的子空间聚类方法，通过低秩数据的线性表示矩阵保留了原始数据的全局结构，实现了最优聚类。为了改进低秩表示方法，Chen等人[4]提出了一种基于低秩表示和自编码器的图像表示方法。另一个问题是严格的成对约束问题，即子空间聚类对异常值和初始参数很敏感。为了解决这个问题，Huang 等人。 [9] 提出了一种用于 k 子空间聚类的深度加权 k 子空间聚类（DWSC）。

C. 基于 GCN 的方法

基于 GCN 的聚类方法通常将图像聚类表述为链接预测问题，即如果将两幅图像分配到同一个聚类中，则它们之间存在链接。贝内德克等人。提出使用自聚类（GEMSEC）算法的图嵌入，该算法在计算节点特征的同时学习节点的聚类。于等人。 [10]提出了一种基于图表示学习的深度聚类算法。该算法首先通过堆叠自动编码器学习原始图的非线性嵌入。然后，它在嵌入上运行 it-means 算法以获得聚类结果。蔡等人。提出图卷积子空间聚类（GCSC）算法，并将其用于高光谱图像（HSI）聚类任务。该算法利用 GNN 将子空间聚类的自表达性特性重铸为非欧几里得域，并学习更鲁棒的图嵌入字典以提高聚类性能。霍等人。 [12]提出了一种基于交叉注意力的深度聚类框架，并将其应用于图像聚类，取得了良好的聚类效果。该框架包含四个主要模块：交叉注意力融合模块、内容自动编码器模块（CAE）、图卷积自动编码器模块（GAE）和自监督模块。这些模块可以提取图像之间的判别信息和关系，从而获得更好的聚类结果。王等人。使用CNN提取特征并构造子图，然后使用图卷积网络（GCN）推断子图中的对之间连接的可能性。

D. 其他一些聚类方案

在[1]中，作者提出了一种基于高斯混合模型（GMM）的深度聚类算法，它结合了堆叠自编码器和GMM两种模型。对比学习是一类很有前途的方法，它通过学习编码使两个事物相似或不同的原因来构建表示。李等人。 [18] 提出了一种单阶段在线对比聚类（CC），它明确地执行实例和集群级对比学习。文森佐等人。 [7] 提出了变分 infoMax Autoencoder，并用它来训练深度神经网络以学习适合聚类的图像表示。辛格等人。提出FineGAN，一种训练生成模型的方法，将背景、形状和外观分离，并分层生成用于图像聚类的细粒度对象类别[16]。范甘斯贝克等人。提出了一个两步算法，其中特征学习和聚类是分离的。该算法首先使用自我监督的方法进行图像表示学习，以获得语义上有意义的特征。然后，它以可学习的方法使用这些特征作为先验来实现图像聚类。陈等人。提出了一种新的深度流形聚类（DMC）算法。作者认为聚类表示位于多个流形上。 CNN 用于发现多个流形并学习参数以对未标记的图像进行分类。

三、存在的问题

在本节中，我们分析了深度聚类中存在的一些问题，并提供了未来可能的研究方向。

A. 退化解问题

图像聚类的退化解问题是将样本聚合成一个或几个类别。为了克服这个问题，一些研究提出了平衡分布损失。此损失的目标用于强制实现平衡的集群分配。例如，Dizaji 等人。制定平衡分配损失如下：

Lbalance = DKL(G||U) (2)

其中 U 是均匀分布，G 是分配一个点到每个簇的概率分布：gk=P(y=k)=1qik

通过将此损失与其他损失相结合，将每个数据点分配给某个集群的概率在所有可能的集群中是一致的。应该注意的是，这个属性（统一分配）并不总是理想的。因此，如果已知任何先验知识，则可以用已知的先验知识代替均匀分布。

B. 未知簇数问题

现有的大多数聚类方法都需要设置图像聚类的数量。然而，在许多实际问题的情况下，簇的数量是未知的。如何解决未知簇数的问题是一个具有挑战性的问题。最近的一些研究可能会给我们一些启发。在 [22] 中，Shah 等人。提出了一个三元组网络来有区别地训练一个网络来学习图像的嵌入，并将图像聚集在一组未知的类上。任等人。 [21]使用密度聚类方法和CNN实现未知簇数的图像聚类。他们首先使用卷积自编码器来降低图像的维度，并使用 t-SNE 进一步将图像特征降低到 2D 空间。然后，作者应用基于密度的方法自动获得合适数量的聚类。

层次聚类构建了一个聚类树，也称为树状图。这种聚类方法不需要事先知道聚类的数量。最近，杨等人。提出深度表示和图像集群（JULE）框架的联合无监督学习。在这项工作中，图像聚类是在前向传播中使用层次聚类方法进行的，而表示学习是在后向传播中进行的。然而，如何定义层次聚类的有效链接度量始终是一个悬而未决的问题[24]。

四。数据集、指标和最佳方法

在本节中，我们首先介绍一些用于图像聚类的数据库和评估指标。然后，我们介绍了一些观察聚类结果的可视化方法。

A. 数据集

图像聚类中常用的数据集包括 USPS、STL-10、CIFAR-10、CIFAR-100、Coil-20、Coil-40、Coil-100、MNIST、Fashion-MNIST、Extened Yale-B、YouTube Faces、UMist、 CMU-PIE、CUB Birds、Stanford Cars、Stanford Dogs、FRGC、Letter AJ、HAR、EMNIST-Balanced、Imagenet-10、Imagenet-Dog 和 Tiny-ImageNet。我们简要介绍这些数据集如下。

MNIST 的训练集由来自不同人的 250 个手写数字组成。手写数字数据集中的每张图像都是 28 × 28 灰度图像，样本中的类别总数为 10。EMNIST-Balanced 的数据量是 MNIST 的 4 倍。字母 A-J 基于 20 种不同的字体，这些字体中的每个字母都是随机扭曲的。 USPS 是由 9,298 个 16 × 16 像素灰度样本组成的数据集。

UMist、FRGC、CMU-PIE、YouTube-Faces 和 Extened Yale-B 是人脸图像数据集。 UMist 由 20 个人的 564 张图像组成。 FRGC 由 20 个人的 50,000 张图像组成。 CMU-PIE 是一个数据集，包括 68 个人的 272 张人脸图像，有 4 种不同的表情。 YouTube-Faces 包含 1, 595 个不同人的 3, 425 个视频。扩展的 Yale-B 包含 2、414 张在不同照明条件和各种面部表情下拍摄的正面图像。

CUB Birds、Stanford Cars 和 Stanford Dogs 是三个常见的目标数据集。 CUB Birds 是视觉分类任务中使用最广泛的数据集。它包含属于鸟类的 200 个子类别的 11,788 个图像样本。斯坦福汽车由 196 类汽车组成，共有 16、185 张图像。 Stanford Dogs 由 120 类汽车组成，共有 20、580 张图像。

Coil-20、Coil-40 和 Coil-100 均由两个版本组成。这些数据集中的每个示例都是 128 × 128 灰度图像。

CIFAR-10 和 CIFAR-100 均由 50,000 个训练样本和 10,000 个测试样本组成。每个样本的大小为 32 × 32。CIFAR-10 总共涉及 10 个类，CIFAR-100 总共涉及 100 个类，分为 20 个超类。 STL-10 和 Imagenet-10 是用于开发无监督特征学习、深度学习和自监督学习算法的图像数据集。它们受到 CIFAR-10 数据集的启发，但经过一些修改，尤其是高分辨率数据集 (96×96)，将使其成为开发更具可扩展性的无监督学习方法的具有挑战性的基准。

HAR 和 Fshion-MNIST 是两个特殊的数据集。 HAR 是一个人类活动识别数据集，由 30 个受试者执行 6 种不同的活动组成。 Fashion-MNIST 是 MNIST 的改进版本。它包含了10种生活中常见的物品，包括衣服、鞋子和包包。

这些数据集的统计数据如表一所示。

C. 最近的方法和聚类结果

我们在表 II-VIII 中总结了 2016 年至 2021 年最近的一些聚类算法。表 II 和表 III 报告了 STL-10、CIFAR-10、CIFAR-100、ImageNet-Dog、ImageNet-10 和 Tiny-ImageNet 数据集的一些最新方法。这些数据库中的图像都是复杂的真实对象，这给无监督图像聚类带来了困难。表 IV 和表 V 报告了人脸数据库（包括 YTF、FRGC 和 YTF）、CMU-PIE、CUB Birds、Stanford Cars 和 Stanford Dogs 的一些最新方法。这些方法具有优越的可扩展性，可用于对简单和复杂图像进行聚类。表 VI 和表 VII 报告了一些手写数字数据集和一些对象图像数据集的最新方法。这些数据库都比较简单，聚类结果没有太大的提升空间。特别是，表 VIII 报告了 Letter A-J、HAR、EMNIST-Balanced 数据集上的图像聚类方法，每个数据库只有一种算法。这意味着这三个数据库可能具有广泛的研究空间。

五、结论

图像聚类是基于相似性度量对图像进行分组的过程。在本文中，我们对图像聚类进行了全面的概述。本文研究的主要问题包括三个部分：我们首先介绍了现有图像聚类方法的分类和框架。然后，对存在的问题进行分析，提出解决这些问题的建议。最后，我们介绍了一些图像数据集和聚类结果的评价指标。为了让读者了解现阶段图像聚类的发展水平，我们整理了这些数据库上性能最好的方法。该调查可以作为了解图像聚类当前发展的指南。

2022-03-24

你可能感兴趣的:(2022-03-24)