Streaming Principal Component Analysis in Noisy Settings

论文背景:

  • 面对来袭的数据,连续样本不一定是不相关的,甚至不是同分布的。
  • 当前,大部分在线PCA都只关注准确性,而忽视时效性!
  • 噪声?数据缺失,观测有偏,重大异常?

论文内容:


在这里插入图片描述

Section 2

Online Settings
Online PCA, 就是在观察到后,“构造”一个维的子空间,通常用投影矩阵表示——为了最小化残差
这篇论文重点在于界的分析,考虑下面的“遗憾”(大概就是误差的意思):

其中P为任意的rank-k的正交投影矩阵,T为迭代次数。
的界是次线性的,所以,我们可以通过来计算算法到达界所需的时间,从而衡量算法的优劣。
Matrix gradient descent (MGD)

  1. 将非凸条件放松为凸条件:
  2. Here
  3. 学习后的,不一定满足原来的凸条件(投影), 故:

对于这个算法并不了解,姑且只能这么想了。点这里
下面是关于(遗憾)的一个界:

在这里插入图片描述

Stochastic Settings
在某些情况下,MGD算法复杂度比较高,所以,在额外的假设下,利用Oja的另外一种算法可能会比较有优势。
The additional assumption that are sampled i.i.d. from some unknown distribution and that almost surely.
最近已经有相关方面的论文指出,在的条件下,这个算法也可以到达次线性。

在这里插入图片描述

Section 3 corrupted gradients
在这一节,论文讲关于梯度被“污染”的情形。
Online Setting
梯度被污染的原因:

  1. 对于大数据不正确的运算
  2. 分布式和并行运算中,异步和噪声通讯导致的误差
    此时的学习单位步长为:

给出了下列定理:


在这里插入图片描述

Stochastic Setting

被污染的原因:数据被污染,设噪声向量为,且与独立。(k=1)

在这里插入图片描述

在这里插入图片描述

Section 4 Missing Entries

这一章,讲矩阵缺失数据的情形。
假设的每个元素将按照分布被保留,否则缺失。

在这里插入图片描述

Online Setting

此时,学习步长又变为:

论文中为上式取负,但更新的时候又取负,所以我直接不变了。

有下面的界:

在这里插入图片描述

Stochastic Setting

在推导这个界的时候,似乎遇到了麻烦,新的迭代步长不能保证半正定,所以需要进行一个处理(因为证明都没看,所以不懂啊)。

给出了一个定理(k = 1):

在这里插入图片描述

Section 5 Partial Observations

本节是讲观测偏差,只有个元素被观测到。

下面是对步长的分析与构造,但是,我对的构造存疑,我觉得

在这里插入图片描述

Online Setting

同上

有下面的界:


在这里插入图片描述

Stochastic Setting

有下面的界(k=1):

在这里插入图片描述

Section 6 Robust streaming PCA

针对异常值,探讨如何使得算法变得“健壮”。

新的regret:


for any sequence .
新的:

denote:
and

从而有下面定理:

在这里插入图片描述

你可能感兴趣的:(Streaming Principal Component Analysis in Noisy Settings)