主成分分析公式推导(完整版)

主成分分析公式推导(完整版)

主成分分析(Prinicpal Component Analysis-----PCA)
简单来说最基本的方法就是将具有很多属性的一个数据集通过线性组合的方式进而减少数据集的属性,这样可以帮助我们在机器学习或者深度学习的后续训练步骤中,减少训练时间和资源的浪费;还可以在一定程度上筛选出对问题比较重要的属性集合。具有很大的应用价值。

公式推导
想必我们都使用过matlab自带的PCA降维函数和python机器学习库里面的PCA函数,但是关于该函数是怎么实现的却了解的不是很多,今天我就从头开始推导PCA的公式。
数据预处理
这里的数集X是中心化的,简单来说就是对每一个属性减去其平均值。
优化模型的建立和推导
根据西瓜书上的说法我们建立一个最小化的模型,直白的说就是将降维后的样本通过线性变化再恢复到原高维样本空间中的重构值和原样本值的误差和。以下将给出完整的证明过程,里面将使用到一些关于最优化和矩阵求导的先验知识。
主成分分析公式推导(完整版)_第1张图片
主成分分析公式推导(完整版)_第2张图片

关于矩阵迹的证明过程

主成分分析公式推导(完整版)_第3张图片

结论

经过上面的问题求解,我们得到的结论和我们平常使用到的结论是一致的--------就是将 X X T XX^T XXT的前k大特征值对应的特征向量进行组合便可以得到线性变换矩阵 W W W

参考资料

机器学习-西瓜书 周志华
南瓜书

你可能感兴趣的:(机器学习,机器学习,人工智能,pca降维)