机器学习--降维

降维(Dimensionality Reduction)

视频参考:【机器学习】【白板推导系列】【合集 1~33】_哔哩哔哩_bilibili

笔记参考:降维 · 语雀 (yuque.com)

PCA原理详解:主成分分析(PCA)原理详解 - 知乎 (zhihu.com)

PCA数学原理解释:CodingLabs - PCA的数学原理

SVD奇异值分解: 奇异值分解(SVD) - 知乎 (zhihu.com)

过拟合

  • 增加数据
  • 正则化
  • 降维
    • 直接降维(特征选择)
    • 线性降维(PCA、MDS)
    • 非线性降维(流形学习(Isomap、LLE))

维度灾难(数据稀疏性):几何角度

机器学习--降维_第1张图片

对于高维空间而言, 维度越高,球形体的体积越小

样本均值 & 样本协方差矩阵

机器学习--降维_第2张图片

  •  X \in \mathbb{R}^{N \times P}表示存在N个数据,其中每个数据维度为P维
  • H = (I_{N} - \frac{1}{N}1_{N} 1_{N}^{T})表示为中心矩阵, 其中H = H^{T} , H^{2} = H \cdot H
  • \bar{X} \in \mathbb{R}^{P}, S \in \mathbb{R}^{P \times P}

主成分分析(PCA)

最大的投影方向, 叫做主成分

一个中心:原始特征空间的重构

两个基本点:

  • 最大投影方差
  • 最小重构距离

最大投影方差  --> 寻找投影后距离范围最大的向量

机器学习--降维_第3张图片

机器学习--降维_第4张图片机器学习--降维_第5张图片

 一、计算两个向量之间的投影值  => u^{T}u = 1表示向量的投影

二、计算方差最小值JJ = \frac{1}{N}\sum_{i = 1}^{N}((x_{i} - \bar{x}) u_{i})^{2}

其中 u_{1} = argmax \ u_{1}^{T} S u_{1}, \quad s.t. \ u_{1}^{T}u_{1} = 1 \ \rightarrow S u_{1} = \lambda_{1}u_{1}

最小重构代价 --> 降低特征维度损失最小

机器学习--降维_第6张图片机器学习--降维_第7张图片

 一、对于向量重新选择向量基, 将维度由p维 降到 q维

二、计算最小重构代价,转换为最优化问题J = \sum_{i= 1}^{N}\left \| x_{i} - \hat{x_{i}} \right \| = \sum_{k = q + 1}^{p} u_{k}^{T} S u_{k}, 其中求解u_{k}最小值

SVD角度看PCA

方差矩阵S, S = GKG^{T}, G^{T}G = I, 方差矩阵S是对称矩阵, 对方差矩阵S进行特征分解就是奇异值分解

奇异值SVD分解:奇异值分解(SVD) - 知乎 (zhihu.com)

SVD的作用就相当于是一个坐标系变换的过程,从一个不标准的n维坐标系,转换为一个标准的k维坐标系,并且使这个数据集中的点,到这个新坐标系的欧式距离为最小值(也就是这些点在这个新坐标系中的投影方差最大化),其实就是一个最小二乘的过程。

进一步,如何使数据在新坐标系中的投影最大化呢,那么我们就需要让这个新坐标系中的基尽可能的不相关,我们可以用协方差来衡量这种相关性。A^T·A中计算的便是n×n的协方差矩阵,每一个值代表着原来的n个特征之间的相关性。当对这个协方差矩阵进行特征分解之后,我们可以得到奇异值和右奇异矩阵,而这个右奇异矩阵则是一个新的坐标系,奇异值则对应这个新坐标系中每个基对于整体数据的影响大小,我们这时便可以提取奇异值最大的k个基,作为新的坐标,这便是PCA的原理。

机器学习--降维_第8张图片

使用SVD奇异值分解, 直接获取主成分分析 or 主坐标分析

X表示数据, HX表示中心化数据, 对HX进行奇异值分解得到HX = U\Sigma V^{T}

概率角度P-PCA

完全没有听懂

机器学习--降维_第9张图片

 机器学习--降维_第10张图片

你可能感兴趣的:(机器学习,机器学习)