LRR子空间聚类

题目:Robust Recovery of Subspace Structures by Low-Rank Representation

一. 前置知识

1. 子空间

矩阵的四大基础子空间
子空间

2. SVD

什么是奇异值分解SVD

3. 字典学习

字典学习(Dictionary Learning, KSVD)详解

4. 其他概念

Robust Recovery of Subspace Structures by Low-Rank Representation

二. 创新点

传统的子空间聚类有局限性:要求数据干净。

什么是干净?

就是没有错误。错误有三种:噪声,随机缺失,特定样本缺失(离群值):
LRR子空间聚类_第1张图片
这篇文章可以对这三种错误进行规避。

三. 过程

1. 准备工作

在iii.A部分,作者说明了一堆专业名词的定义。
在iii.B部分,作者科普了子空间分割的概念。
X X X奇异值分解为 U X ∑ X V X T U_X\sum_XV_X^T UXXVXT,得到 V X V X T V_XV_X^T VXVXT。如果 X X X是干净的,即 X = X 0 X=X_0 X=X0,那么 V 0 V 0 T V_0V_0^T V0V0T将会是一个块对角矩阵。非0的地方,就是由两个来自同一子空间的数据相乘得来的。所以,这个块对角矩阵可以判断哪些数据来源于同一个子空间。这就叫子空间分割

2. 过程

这篇文章的目标函数层层递进:
在这里插入图片描述
D是干净数据,E是分离出来的错误。这个公式假设数据来源于同一个低秩子空间。为了处理多子空间的数据,提出了如下目标函数:
在这里插入图片描述
公式(3)不好求解,所以在iv.B部分作者先考虑一种简单的情况,假设数据是干净的。
在这里插入图片描述
因为这个公式的不是唯一解,所以将秩用核范数替代:
在这里插入图片描述
然后作者就写了一堆东西证明用核范数替代的合理性。
现在再加上错误矩阵:
在这里插入图片描述
然后,用ALM方法把最优值给解出来:
LRR子空间聚类_第2张图片
关于公示中A的选取效果最好的,是将A设置为X自己,这种方法叫做自表示:
在这里插入图片描述
随后作者就证明了自表示对于处理三种错误的作用。

v.D部分,作者写了一些收尾工作。
首先是聚类的完整过程:得到(9)中的 Z ∗ Z^* Z,将其奇异值分解,得到亲和矩阵,再将亲和矩阵丢进谱聚类,例如NCut中,完成最终的聚类工作。
LRR子空间聚类_第3张图片
在这里插入图片描述

你可能感兴趣的:(聚类,聚类,数据挖掘,机器学习)