SVD是一种强大的降维工具,同时也用于去噪,或图片压缩,本质上SVD是使用奇异值分解,这是矩阵中的一种解法。
SVD算法将原始数据 Data, 分解为 UVT即:
维度 DATA : (m, n)
U: (m, m) 其实U是一个正交矩阵,也是A*AT的特征向量
: (m, n) 对角线是按从大到小的奇异值,我们其实可以选取95%的奇异值,后面的奇异值可以认为是噪音,而抛弃
VT: (n, n) 其它VT也是一个正交矩阵,也是AT*A 的特征向量
如果我们选取奇异值为前k 个那么可以得出:
到这里奇异值分解就完成,接下来是降维了,降维又考虑将DATA[m, n] 降m维度,还是将方向得维度(个人理解)
降m方向的维度是利用U来进行降维的:
NEWDATA'[k,n] = [k, k] * UT[k,m] * DATA[m,n]
NEWDATA[n,k] = DATAT[n, m]U[m,k]* [k, k]
降n方向的维度:
NEWDATA`[m, k] = DATA[m, n] * V[n, k]* [k, k]
NEWDATA[k, m] = [k, k]* VT[k,n] * DATAT[n,m]
编程上可以使用numpy库:
import numpy as np
U,Sigma, VT = np.linalg.svd(data)
#注意返回的Sigma是一维数组,这样更节省空间
SVD用途还挺广的,一般用于推荐系统,根据用户以往的数据对新菜品进行评分,可以使用基于协同过滤来计算,它的核心是
计算相似度,在信息检索中,也发挥它的作用.