数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取

课程笔记第四篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。

第二章第六节-主成分分析(PCA)和特征提取

注明:此节需要提前学习高等数学及线性代数的相关知识,里面用到拉格朗日乘数法(条件最值),特征值,特征向量,矩阵运算等知识。

特征提取包含特征选择,做特征提取就要做主成分分析,选择好的成分(特征)来进行提取,有效信息保留多才是好的。

二维例子:

方差variance——>信息,数据延某一属性的方差越大,散度越大,区分度大,说明这个属性越重要。

数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取_第1张图片(特殊情况例子)

一般的实际问题的数据是这样:

数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取_第2张图片

方法:坐标轴转换(变换),去除两坐标轴的相关性。

数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取_第3张图片

 

从X变换到Y:Y=PX,即X做了坐标变换,做了旋转矩阵。

数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取_第4张图片

Q为正交矩阵(含特征向量),D是包含特征值对角阵,为了是Y也是对角阵,所以PQ为单位阵,所以P=Q的转置,因为Q的转置和逆是一样的。

其实上这就是在做一种降维的工作,那怎么选这个新的坐标轴呢,就是把二维的点都投影到这根线上,使得全部点与他们在这根线上的投影的点的距离是最小的。

数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取_第5张图片

e是某个方向的单位向量。s.t.为条件。

用到拉格朗日乘数法,算在此条件上的最大值。

数据挖掘-基础知识-笔记汇总5:数据预处理-主成分分析(PCA)和特征提取_第6张图片

得到特征方程,化简等于求S矩阵的最大的特征值,所以要找最大的特征值,得到该特征值对应的特征向量e。

所以这根线就是这个e,最大特征值对应的特征向量。

 

 

你可能感兴趣的:(数据挖掘,数据挖掘)