Streaming Principal Component Analysis in Noisy Settings

论文背景：

面对来袭的数据，连续样本不一定是不相关的，甚至不是同分布的。
当前，大部分在线PCA都只关注准确性，而忽视时效性！
噪声？数据缺失，观测有偏，重大异常？

论文内容：

在这里插入图片描述

Section 2

Online Settings
Online PCA, 就是在观察到后，“构造”一个维的子空间，通常用投影矩阵表示——为了最小化残差
这篇论文重点在于界的分析，考虑下面的“遗憾”（大概就是误差的意思）：

其中P为任意的rank-k的正交投影矩阵，T为迭代次数。
的界是次线性的，所以，我们可以通过来计算算法到达界所需的时间，从而衡量算法的优劣。
Matrix gradient descent (MGD)

将非凸条件放松为凸条件：
Here
学习后的,不一定满足原来的凸条件（投影), 故:

对于这个算法并不了解，姑且只能这么想了。点这里
下面是关于（遗憾）的一个界：

在这里插入图片描述

Stochastic Settings
在某些情况下，MGD算法复杂度比较高，所以，在额外的假设下，利用Oja的另外一种算法可能会比较有优势。
The additional assumption that are sampled i.i.d. from some unknown distribution and that almost surely.
最近已经有相关方面的论文指出，在的条件下，这个算法也可以到达次线性。

在这里插入图片描述

Section 3 corrupted gradients
在这一节，论文讲关于梯度被“污染”的情形。
Online Setting
梯度被污染的原因：

对于大数据不正确的运算
分布式和并行运算中，异步和噪声通讯导致的误差
此时的学习单位步长为：

给出了下列定理：

在这里插入图片描述

Stochastic Setting

被污染的原因：数据被污染，设噪声向量为，且与独立。（k=1）

在这里插入图片描述

Section 4 Missing Entries

这一章，讲矩阵缺失数据的情形。
假设的每个元素将按照分布被保留，否则缺失。

在这里插入图片描述

Online Setting

此时，学习步长又变为:

论文中为上式取负，但更新的时候又取负，所以我直接不变了。

有下面的界：

在这里插入图片描述

Stochastic Setting

在推导这个界的时候，似乎遇到了麻烦，新的迭代步长不能保证半正定，所以需要进行一个处理（因为证明都没看，所以不懂啊）。

给出了一个定理（k = 1）:

在这里插入图片描述

Section 5 Partial Observations

本节是讲观测偏差，只有个元素被观测到。

下面是对步长的分析与构造，但是，我对的构造存疑，我觉得

在这里插入图片描述

Online Setting

同上

有下面的界:

在这里插入图片描述

Stochastic Setting

有下面的界(k=1):

在这里插入图片描述

Section 6 Robust streaming PCA

针对异常值，探讨如何使得算法变得“健壮”。

新的regret:

for any sequence .
新的:

denote:
and

从而有下面定理：

在这里插入图片描述

Streaming Principal Component Analysis in Noisy Settings

你可能感兴趣的:(Streaming Principal Component Analysis in Noisy Settings)