Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data

1.Introduction:

contributions:
(1) A method for reconstructing dimensions that preserves interesting cluster information in subspaces;(维度重建思想保存子空间中令人关注的信息簇)
(2) An analytical pipeline and a visualization tool to support the coordinated works of RDs and original dimensions in the interactive exploration of subspace clusters.(提供分析流水线和可视化工具支持维度重建和原始维度的协同工作)

3.Dimension Reconstruction

思想流程:

Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data_第1张图片
Paste_Image.png

分为3部分:
a. 通过PCA或MDS等降维技术将n维的数据空间投影到2维的数据空间。

Paste_Image.png

b. 交互子空间分析:将原始维度空间分成多个子空间,为了观察子空间簇将这些子空间投影为二维结果。

Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data_第2张图片
Paste_Image.png

(i为子空间数量,ni表示第i个子空间的维数。)
高维数据集:有3类数据点,分别标示为红绿蓝。

  • Subspace 1: 绿色样本是 separable.
  • Subspace2:蓝色样本是 well clustered.
  • Subspace3:绿色和蓝色是separable,红色是 boundaries.
    下一个目标:构建新的子空间使三类样本 well clustered.

    c. RD1保存了绿色样本点的cluster information.
    RD2保存了蓝色样本点的cluster information.
    RD1和RD2合并到第三个子空间中。则子空间3变为n3+2维。

    Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data_第3张图片
    Paste_Image.png

    (m:原始维度n的总和;mi: 在第i个子空间的个数; rj:在第j个子空间中构建的新维度;

    If(子空间簇结构简单){ 可以直接用二维投影进行维度重建; } else if(子空间簇结构复杂){ 用一些算法自动构建新簇的candidates; };

    如果用户对每一个子空间的二维投影进行标记,则我们可以认为这个高维数据已经被标记了,因此下面的问题就是如何找到最优投影使interesting information还原度最高。

    Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data_第4张图片
    Paste_Image.png

    LDA:低维空间分类方法,帮助用户找到子空间的最优二维的线性投影。图二:二分类问题。RD1:类间距离最大,类内距离最小。
    Z-score标准:数据标准化方法。进行原始维度和RDs的值的归一化。

    4.可视化和交互

    Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data_第5张图片
    Paste_Image.png

    a.交互式构建子空间。通过从整体到局部的维度信息的视觉再现帮助用户选择维度。整体由二维散点展示整体的维度关系,局部由维度直方图展示每一维的数据分布。
    b.探索子空间的数据规律。提供多个数据视图,每一个数据视图是一个子空间的二维投影,用户可由此判断簇结构和维度权重。
    c.维度重建。两种方法:手工和自动。

    Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data_第6张图片
    Paste_Image.png

    (a)维度投影散点图:用于子空间构建。点代表原始维度,星代表RDs。位置由MDS根据两两之间的关系得到。密切相关的维度相邻。
    (b)直方图:提供原始数据在某一维度的分布信息帮助用户进行子空间的构建。

    5.Case Study

    数据:食品成分数据。This data set contains 722 samples and 18 dimensions.

  • 你可能感兴趣的:(Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data)