在实际的信号或图像采集与处理中,数据的维度越高, 给数据的采集和处理带来越大的限制。例如,在采集三维或四维(三个空间维度再加上一个频谱维度或一个时间维度) 信号时,往往比较困难。然而,随着数据维数的升高,这些高维数据之间往往存在较多的相关性和冗余度。信号的维度越高,由于数据本身信息量的增长比数据维度增长慢得多,也就使得数据变得越冗余。一个明显的例子就是,视频信号要比单幅图像的可压缩的空间大得多。
例如,对于一幅图像而言,其像素间的相关性表现在图像在某个变换域的系数是稀疏分布的;如何合理和充分利用高维数据间存在的稀疏性和冗余性,对于高效地采集、表示、重构这些数据是十分重要的。
更具挑战性的问题是,这些大规模数据中往往含有空缺元素、大的误差、损毁等, 这为分析和处理这些大规模数据进一步带来了困难。这种现象在很多实际应用中十分常见。例如,在人脸识别中,训练集中的或是待识别的人脸图像往往含有阴影、高光、遮挡、变形等; 在运动恢复结构(Structure frommotion, SFM)问题中, 进行特征提取和特征匹配时往往存在大的匹配误差。
稀疏性是指向量或矩阵中大部分元素为0,矩阵的低秩性是指矩阵的秩相对于矩阵的行数或列数而言很小。如果对矩阵进行奇异值分解,并把其所有奇异值排列为一个向量,那么这个向量的稀疏性便对应于该矩阵的低秩性。
低秩性可以看做是稀疏性在矩阵上的拓展,矩阵秩最小化主要是指利用原始数据矩阵的低秩性进行矩阵的重建,这涉及到最小化矩阵的秩函数。低秩矩阵恢复则是指同时利用原始数据矩阵的低秩性和误差矩阵的稀疏性来恢复数据矩阵。
矩阵秩最小化的一个典型应用是低秩矩阵填充(Low-rankmatrix completion)
问题:假定原始数据矩阵是低秩的,但是矩阵中含有很多未知的元素。从一个不完整的矩阵中恢复出一个完整的低秩矩阵,便是低秩矩阵填充问题。
例如,著名的Netflix问题便是一个典型的低秩矩阵填充问题。Netflix是美国的一家影片租赁公司。其推荐系统(Recommendation system) 要从用户仅有的对少数的电影打分中为用户推荐影片。如果这种推荐越符合用户的喜好,也就越能提高该公司租赁电影的业务量。为此,该公司设立了百万美元的奖金用于悬赏能够最好地提高该公司推荐系统质量的解决方法。这个问题可以用矩阵填充来进行建模,假设矩阵的每一行代表同一用户对不同电影的打分,每一列代表不同用户对同一电影的打分。用户数量巨大,电影数目巨大,因此这个矩阵的维度十分大。由于用户所打分的电影有限,这个矩阵中只有很小一部分的元素值已知,而且可能含有噪声或误差。那么Netflix问题就是如何从这个不完整的矩阵中推测其中未知元素的值。矩阵填充得越准确,为用户推荐的电影也就越符合用户的喜好。由于影响用户对电影喜好的因素数目有限,如电影的题材、演员、年代、导演等,这个矩阵本质上是一个低秩矩阵。
详细可以参考一下文章:从压缩传感到低秩矩阵恢复_理论与应用.pdf
低秩恢复算法综述.pdf
压缩感知及其图像处理应用研究进展与展望.pdf