【论文笔记】Hybrid Subspace Learning for High-Dimensional Data

论文链接:Hybrid Subspace Learning for High-Dimensional Data

1. Abstract

真实世界中,高维数据是一个非常普遍的问题。在高维空间中学习一个紧的,低维子空间的数据表达有助于区分信号和噪声。PCA方法是假设数据是可以被一个或多个隐藏的子空间的嵌入来表达。但是,在许多高维数据中,这种处理方法是不合适的。常常是只有某些变量可以经过线性转换投影到低维空间。论文提出了一种混合的降维技巧:部分变量投影到低维子空间,另外一部分变量保留。文章提出的模型能够更加准确地估计隐藏空间,并且有较低的恢复误差。

2. Introduction

高维数据经常出现在生物医学中,比如基因表达数据(每个人基因表达数据的测量耗费较大)。一些传统的机器学习算法缺失有效的统计性能去区分信号和噪声。

缓和维度灾难的方法包括提取原始特征中的一个子集,或者学习一个新的子空间(原始特征空间的投影)。论文提出的方法主要是学习数据在隐藏子空间的表达,这个表达能够最大程度的原始数据的信息。

现存的子空间学习方法最大的限制在于它们假设数据可以通过嵌入一些低维子空间来完全表示。真实世界中,可能只有某个特征子集才会呈现出低维空间结构,而其余的特征仍然保留,而并非全部特征。显然,如果某些特征 { F i } \{F_i\} {Fi} 与其它特征完全不相关,而使用降维算法在学习潜在子空间时,子空间的每个维度都会带有 { F i } \{F_i\} {Fi}。事实上,这个特征集 { F i } \{F_i\} {Fi} 不应该带入潜在子空间的学习上。

如下图Fig1,两幅图都呈现出2维的子空间结构,但是第一幅图的2维子空间每个维度都是 x 1 , x 2 , x 3 {x_1,x_2,x_3} x1,x2,x3 的线性组合。而第二幅图的2维子空间只有 z 1 z_1 z1方向才是 x 1 , x 2 {x_1,x_2} x1,x2的线性组合, w 3 w_3 w3方向保留了原特征 x 3 x_3 x3 的信息。所以,我们需要从高维特征中识别出对低维特征空间没有贡献的稀疏特征集,并且低维特征空间中消去它们。

【论文笔记】Hybrid Subspace Learning for High-Dimensional Data_第1张图片
原文:In this work, we introduce a new method called hybrid subspace learning that estimates a latent representation of the data in which some features are mapped to a low-rank subspace but others remain in the original highdimensional feature space.

3. Motivation

论文使用模拟数据论证了真实世界中存在的 hybrid subspace,一种叫做singular value spectrum的方法被用来刻画高维空间结构特征(Low-Rank VS High-Dimension)。考虑两个极端情况,完全Low-Rank的空间结构特征使用singular value spectrum描述如下图(f),完全High-Dimension的空间结构特征使用同样的方法描述如下图(g)。
【论文笔记】Hybrid Subspace Learning for High-Dimensional Data_第2张图片

4. Model & Optimization

本节讨论了如何使用数学模型来描述具有 hybrid subspace 结构的高维数据。

给定数据集 X ∈ R n × p X\in \mathbb R^{n\times p} XRn×p,传统的子空间学习目标是解决:
min ⁡ Z , A ∣ ∣ X − Z A ∣ ∣ F 2 \min_{Z,A}||X-ZA||_F^2 Z,AminXZAF2
其中 Z ∈ R n × k Z\in\mathbb R^{n\times k} ZRn×k 表示每个点的 k k k 维表示, A ∈ R k × p A\in\mathbb R^{k\times p} ARk×p 表示由隐藏空间到观测空间的映射转换。当要求 Z Z Z 的列向量相互正交的时候,这个模型等价于PCA

为了更加灵活的允许 X X X 的每个特征可以选择加入Low-Rank表达 Z Z Z 或者High-Dimension表达 W W W。所以总结得到以下优化问题:
【论文笔记】Hybrid Subspace Learning for High-Dimensional Data_第3张图片
其中 b ∈ { 0 , 1 } p \mathbf b\in\{0,1\}^p b{0,1}p W diag ( b ) \mathbf W\text{diag}(\mathbf b) Wdiag(b) 表示提取 W W W矩阵中某些维度。 ℓ 0 \ell_0 0 正则化 b \mathbf b b 项的目的主要是为了限制过多的保留高维空间中的成分。

上述模型直接求解不太容易,需要对其进行变形处理以松弛限制条件,得到易于求解的优化目标。具体处理办法及优化方法篇幅过长,类似于Robust PCA的方法,想了解详情的同学建议阅读原论文。

你可能感兴趣的:(数据降维,papers,notes,论文笔记,high,dimension,feature,selcetion,PCA,machine,learning)