论文链接:https://ieeexplore.ieee.org/abstract/document/8920218
提出了一种用于不完整多视图学习的框架:Joint Embedding Learning and Low-Rank Approximation (JELLA),是目前比较流行的不完整多视图学习方法的一般形式,同时利用 JELLA 可以快速将一些多视图学习方法转化为不完整多视图学习方法,有种自适应的思想; 此外在 JELLA 下,为不完整多视图学习(IML)提出了一种 block-diagonal 表示方法。
Multi-view 中两种数据缺失的情况:
• missing-view setting:某些视图整个缺失 ;
• missing variables setting:某些视图中部分变量缺失。
Missing-view setting 与 missing variables setting 共同构成了 incomplete-view setting.
在传统的多视图学习算法中,通常有两种方法来处理不完整的多视图数据:
• 一种方法是丢弃不完整的示例,这会导致丢失可用信息;
• 另一种方法是用可用样本的平均值填充缺失样本,并通过传统的矩阵完成算法补充 缺失变量。这样可以保存一些有用的信息,但是仍然会产生误差
为了处理缺少视图的多视图数据,近年来提出了以下的方法(2.2 中详细介绍):
• Partial multiview clustering (PVC):仅针对 missing-view 的情况,通过 NMF 学习完整表达;
• Multiview learning with incomplete views (MVL-IVs):基于子空间学习的思想,通过 multiview matrix completion 方法恢复不完整样本;
• Incomplete multimodality grouping (IMG):将几何信息合并到表示中,并设计了 IMG 方法。 具体来说,IMG 在公共表示上强加带有自动学习图的流形正则化,以增强 分组可辨性。
• Doubly aligned incomplete multiview clustering (DAIMC):基于加权半 NMF,开发了 DAIMC 算法,同时对齐了样本和基础矩阵。
基于以上四种方法的相似之处,本文提出 JELLA 框架,引入一组低秩矩阵来近似不完整表示。如果没有丢失,则近似矩阵的项将被约束为等于原始数据矩阵的对应项。然后,采用映射函数(例如,线性变换)的概念来从多个视图中学习完整和通用的嵌入。即,通过使 用多个视图的兼容和互补信息,将近似数据矩阵映射到公共表示矩阵。
JELLA 优点:
• 将 PVC、MVL-IVs、IMG、DAIMC 统一到一个框架中;
• 在此框架的指导下,为完整的多视图数据开发的某些先前的多视图算法可以直接适 用于 IML.
其中, X ( v ) ∈ R d ( v ) × n X^{(v)}\in \mathbb{R}^{d^{(v)}×n} X(v)∈Rd(v)×n 为第 v v v 个视图的原始数据矩阵; Z ( v ) ∈ R d ( v ) × n Z^{(v)}\in \mathbb{R}^{d^{(v)}×n} Z(v)∈Rd(v)×n 为第 v v v 个视图补全后的数据矩阵(秩为 r r r); U ( v ) ∈ R d ( v ) × r U^{(v)}\in \mathbb{R}^{d^{(v)}×r} U(v)∈Rd(v)×r 为第 v v v 个视图的转换矩阵(可以理解为映射函数); W ∈ R r × n W\in \mathbb{R}^{r×n} W∈Rr×n 为统一表达矩阵; Γ ( v ) ∈ R d ( v ) × n \Gamma ^{(v)}\in \mathbb{R}^{d^{(v)}×n} Γ(v)∈Rd(v)×n 为第 v v v 个视图的样本索引矩阵,即 X i j ( v ) X^{(v)}_{ij} Xij(v)不缺失对应 Γ i j ( v ) = 1 \Gamma ^{(v)}_{ij}=1 Γij(v)=1,否则为 0 0 0; f ( v ) ( . ) f^{(v)}(.) f(v)(.) 为loss function; R 1 ( U ( v ) ) \mathcal{R}_1(U^{(v)}) R1(U(v)) 和 R 2 ( W ) \mathcal{R}_2(W) R2(W)分别为 U ( v ) U^{(v)} U(v) 与 W W W 的正则项。第一个约束条件保证当数据不缺失时, Z Z Z 与 X X X的对应项相等; C 1 ( v ) , C 2 \mathcal{C}^{(v)}_1,\mathcal{C}_2 C1(v),C2 分别为 U ( v ) U^{(v)} U(v) 与 W W W 的约束。
如果原始矩阵 X X X 是完整的,那么就不用学习低秩矩阵 Z Z Z 了,此时 JELLA 退化为 complete multiview model. JELLA 框架能够灵活地处理不完整 or 完整多视图学习,缩小完整的多视 图学习与 IML 之间的差距。
Multiview learning 统一到 JELLA 框架中,如下图所示:
Optimization Strategy :交替优化即可
BDR: Block Diagonal Regularizer. 最近的一项研究表明,具有块对角性质的方法促进正 确的子空间聚类。为了提高学习的嵌入矩阵 W W W 的可分辨性,本文引入 k-BDR 矩阵 B ∈ R n × n B\in\R^{n×n} B∈Rn×n来自我表达 W W W,即 W = W B W = WB W=WB (note: B 不是单位阵)。
Definition 1 (k-Block Diagonal Regularizer): Given a similarity matrix B ∈ R n × n B\in\R^{n×n} B∈Rn×n, the k block-diagonal regularizer is defined as the sum of the k k k smallest eigenvalues of L B L_B LB, that is,
L B L_B LB是 B B B 的拉普拉斯矩阵, σ i ( L B ) \sigma_i(L_B) σi(LB) 是 L B L_B LB 的第 i i i 小的特征值;若对 L B L_B LB 施加秩约束,则图结构中的连通分量个数等于 L B L_B LB 特征值中 0 0 0 的个数。
IML-BDR 的目标函数:
引入矩阵 P P P 保证了 P P P 和 B B B 的子问题为强凸,当 β \beta β 足够大时,Eq(3)第二项等同于 α ∣ ∣ W − W B ∣ ∣ 2 \alpha||W-WB||^2 α∣∣W−WB∣∣2; B = { B ∣ d i a g ( B ) = 0 , B = B T , B ≥ 0 } B=\left\{B|diag(B)=0,B=B^T,B\ge0\right\} B={ B∣diag(B)=0,B=BT,B≥0}.
Optimization Strategy :先借助对角矩阵分解,把 k-Block Diagonal Regularize 项转化成 凸优化,然后交替优化,直接偏导置 0 0 0 即可。
MSRC-v1: 240 images belonging to 8 classes, 选择其中 210 幅,7 类图像;采用 SIFT(200 维),LBP(256 维);
Yale: 165 grayscale face images of 15 individuals, 采用 SIFT (50 维), GIST (512 维) 和 LBP (256 维); Corel5k: 4999 images from 50 categories, 采用 GIST (512 维), DenseSIFT (1000 维)和 DenseHue (100 维);
Caltech101: 101 kinds of objects, 选择其中 441 幅,7 类图像;采用 SIFT (200 维), SURF (200 维)和 LBP (256 维);
Trecvid: 1078 video shots belonging to 5 categories, 采用 the text feature (1894 维)和 the HSV color histogram (165 维);
PIE: 11554 samples belonging to 68 categories, 采用 SIFT (50 维)和 LBP (256 维)。
Missing-view setting:随机选择 m m m 个百分比(10%到 50%)的示例,并从每个示例中随机丢弃一个视图;
Incomplete-view setting:第一步与 missing-view setting 相同,即随机选择 m % m% m%(10% 至 50%)的示例,并为每个示例删除一个随机视图。然后,在每个视图上,从其余示例形成的矩阵中随机删除 m % m% m%(10%到 50%)的项。
PVC, MVL-IV, IMG, DAIMC;
MIC (Multiple incomplete views clustering via weighted non-negative matrix factorization with L 2 , 1 L_{2,1} L2,1 regularization);
iRMKMC (Multi-view K-means clustering on big data).
RMSE ( ↓ ↓ ↓): root-mean-square error;
NMI ( ↑ ↑ ↑): normalized mutual information;
AdjRI ( ↑ ↑ ↑): adjusted rand index.