论文阅读“Partial Multi-View Clustering via Consistent GAN”

Wang Q, Ding Z, Tao Z, et al. Partial multi-view clustering via consistent GAN[C]//2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018: 1290-1295.

关键词

不完整多视图聚类
一致的对抗生成网络
编码多视图common表示
推断缺失的视图

本文主要提出了一个新的深度生成模型--consistent GAN,主要包含两个encoders,两个GANs和一个clustering layer。

模型简记

给定包含两个视图的数据。该数据可以被分为两个部分,成对的数据表示对于-th样本而言,两个视图的表示是完整的;非成对数据表示仅包含两个视图的其中之一。和分别表示视图1和视图2缺失或生成的数据。

该网络主要包含7个子组件:

  • 堆叠的全连接编码器
    该部分主要用于学习原始数据到低维空间的映射:, 。该网络通过共享参数达到学习common信息的效果。
  • 生成器(解码器)
    该部分用于通过和重构原始的输入。网络结构与编码器部分对称,但是在生成中,作者使用的是二对一的模式,即:使用两个视图的中间表示和通过生成视图1的重构表示,因此可以对应两项和。对于视图2的生成也是同理。
  • 辨别器
    其值域为。每个辨别器包含3层堆叠的全连接层,用于辨别生成样本和。单独来说,主要用于识别是生成样本,而是真实样本。然后使用该结构反调生成网络中的参数,直到辨别器没办法区分生成样本和真实样本。
  • 深度嵌入聚类层
    详见DEC。

目标函数

  • Total Loss

    包含重构误差,cycleGAN损失以及聚类损失:
  • AE Loss

    其实就是重构误差:
  • Cycle GAN Loss
    该损失主要针对的是非成对数据的生成,主要运用于图像的风格迁移。
    其主要目的是使用一个分布去生成另一个。假设两个视图所对应的数据分布为。使用

    表示将视图1的样本映射到视图2的数据分布--使用视图1的数据去生成对应视图2的数据。
    接着使用辨别器和去识别生成样本和真实样本。
    因此,cycle GAN的损失可以形式化为:
    其中,GAN的loss为:
    生成样本和原始样本的一致性损失为:

    下面给出一点例子的分析:

  • KL Clustering Loss
    该损失主要是对聚类分配的调整和对视图表示的优化。
    对于来自多视图的表示,使用了一个共享的隐含空间来表示:
    并在该common空间中计算聚类损失。聚类损失的构造这里就不再赘述。

巧妙的利用了cycle GAN对unpair data的生成能力来解决缺失视图的生成工作。

你可能感兴趣的:(论文阅读“Partial Multi-View Clustering via Consistent GAN”)