DEC-DA:Deep Embedded Clustering with Data Augmentation

Deep Embedded Clustering with Data Augmentation

  • 1 摘要
  • 2 介绍
  • 3 相关工作
    • 3.1 Denoising Autoencoder
    • 3.2 Deep Embedded Clustering
  • 4 DEC_DA
    • 4.1 Autoencoder with Data Augmentation
    • 4.2 Finetuning with Data Augmentation
    • 4.3 Instantiation and Implementation
  • 5 实验测试
  • 6 参考文献

1 摘要

DEC忽视了关键成分:数据增量, 它被广泛应用于监督深度学习模型中,以提高泛化能力。因此,本文提出带有数据增量的深度嵌入聚类(DEC_DA)。 我们首先训练一个具有增强数据的自动编码器来构造初始特征空间。 然后用聚类损失约束嵌入特征,进一步学习面向聚类的特征。聚类损失由目标标签(伪标签)和特征学习模型的真实输出组成。其中,目标是通过使用干净的(非增强的)数据来计算的,输出是通过增强的数据来计算的。这类似于具有数据增强的监督训练,并且期望也有助于无监督的聚类。 最后,我们实例化了五种基于DEC-DA的算法。 广泛的实验证明,结合数据增强可以大大提高聚类性能。 我们的DEC-DA算法成为各种数据集的新技术 。

2 介绍

深度嵌入聚类(DEC)是指对自动编码器的嵌入特征进行聚类的一系列算法。它有两部分组成:预训练和精调。首先在预训练阶段引入数据增量,它鼓励自动编码器学习更平滑的流形,即更有代表性的特性。然后,精细调整阶段可以进一步分为两个步骤:集群分配和特征学习。我们建议只在特征学习阶段使用数据增强。因为对给定样本的分配是我们所关心的,它们用于计算特征的“目标”学习应该是相对可信的。设定“目标”后,特征学习将受到监督,因此预计将受益于数据增强。

3 相关工作

然而,作者认为去噪自动编码器虽然被广泛应用于深度聚类算法,但是它并不适合聚类任务,因此, 给出了一种替代的自动编码器,它直接使用增强数据(例如,应用随机仿射变换)作为训练数据。

3.1 Denoising Autoencoder

在这里插入图片描述

3.2 Deep Embedded Clustering

DEC-DA:Deep Embedded Clustering with Data Augmentation_第1张图片
目标函数:
DEC-DA:Deep Embedded Clustering with Data Augmentation_第2张图片
不同的聚类损失函数Lc
DEC-DA:Deep Embedded Clustering with Data Augmentation_第3张图片

4 DEC_DA

DEC算法包括两个阶段:通过重建对自动编码器进行预训练,并通过(添加)聚类损失对网络进行细化。 我们建议将数据增强纳入这两个阶段,称为DEC-DA。

4.1 Autoencoder with Data Augmentation

数据增强,如随机旋转、移位和裁剪,被用作监督神经网络中的正则化,以提高泛化能力。将数据增强引入无监督学习模型,如自动编码器,是很简单的。
DEC-DA:Deep Embedded Clustering with Data Augmentation_第4张图片
理想情况下,使用增广样本学习的流形应该比使用原始样本学习的流形更连续和平滑。 结合数据增强可以帮助自动编码器学习更有代表性的特性。 我们也不通过添加随机噪声来增加输入样本,因为被噪声破坏的样本本质上远离流形。 从这些带有噪声的样本中学习真实的流形将是一项挑战。

4.2 Finetuning with Data Augmentation

因此,提出了DEC-DA的框架,用于细化阶段,如图所示。DEC-DA:Deep Embedded Clustering with Data Augmentation_第5张图片

目标t是通过clean sample x得到的,输出y是通过augmented sample x。
目标函数:
DEC-DA:Deep Embedded Clustering with Data Augmentation_第6张图片
对自动编码器进行预训练后,可以从嵌入层中提取所有样本的初始特征。 然后,我们需要计算聚类损失Lc,用于聚类和特征学习。 当我们对Lc进行网络参数优化时,目标t将固定为常数。 这可以被视为监督学习,这应该受益于数据增强。
此外,在聚类中,我们只关心给定样本的聚类分配。 在特征学习期间部署数据增强也是为了方便集群分配。
算法流程:
DEC-DA:Deep Embedded Clustering with Data Augmentation_第7张图片

4.3 Instantiation and Implementation

5 实验测试

6 参考文献

  1. DEC_DA代码

你可能感兴趣的:(深度笔记)