PCA和LDA

PCA和LDA

PCA(principal component analysis):主成分法分析法,降维是减少的特征,数据行数没变,只是将列数减少了

PCA和LDA_第1张图片

让数据维度变的低一些,在低维中有利于更好的概括数据

LDA线性判别分析是有监督的问题,根据 类别选择降维的方向(回头看视频是怎么将的),基于标签进行降维

PCA是无监督的问题,没有标检,基于方差进行降维

原始数据在某个维度上非常密集,全部堆叠在一起,通过PCA方法找出一个轴或者是降维的一个地方,将这些密集点扩散开

越大的方差方向,就会使数据通过PCA降维后,数据点之间分的越开。一旦数据点分的越开,就可以对数据进行更好的分类任务

降维前数据特征都有具体的含义,100维的数据(如年龄,工资等)降成10维,就无法知道这10维数据的含义(降维后只能得到一些结果,但是不知道结果的具体含义)

 

PCA这种方法应用很广泛:数据涉及隐私的情况下,可以先降维再发布出去

 

 

基变换

PCA和LDA_第2张图片

PCA和LDA_第3张图片

点(3,2)是在坐标轴中画出的,这个轴就表示的是基。如果坐标轴也就是基的方向发生了变化,那么之前的坐标点(3,2)也会发生变化的,如下图

PCA和LDA_第4张图片

如果两个基不是正交的,如左右相反,那么就不好去表示坐标中的点

PCA和LDA_第5张图片

 

PCA就是将数据换到一组新的基上

接下来的事情就是怎么去找到一组最合适的基(即找坐标轴)

PCA和LDA_第6张图片

方差表示一个特征的分散/波动程度

这里的假设均值为0,是提前做了一个标准化的操作,把每一列数据都减去这一列数据的均值。cov的公式本来是(ai-0)*(bi-0),这里假设均值为0,去掉0后就是上图中的公式

 

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差.样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大

 

协方差表示两个特征之间的关系

a,b,b特征的变化如下:

PCA和LDA_第7张图片

a,b特征的变化相同,说明a,b的协方差很大

a,b与c之前的协方差很小

 

PCA和LDA_第8张图片

10维映射为2维:一旦找到方差最大的轴,方差次大的轴和已找到的轴是非常靠近的

如第一个轴表示第一天获利多少元,第二个轴表示第二天获利多少角,显然这两个轴表示的意思相近

因此通过协方差是否为0可以判断出变量之间是否无关,即两个轴是否垂直。(无关时,协方差中表达式的乘积为0)

 

 

降到几维就选择几组正交基

协方差矩阵中主对角线线上结果为数据方差(因为数据均值被提前预处理为0),写对角线上结果就是协方差

目标是让协方差除主对角线上元素外,其他元素(协方差)值全为0

特征值表示特征向量的重要程度。将特征值从大到小排序后,只需要取前K个特征值对应的特征向量作为基(做为基之前还需单位化)

拿到数据后直接求数据的协方差矩阵

PCA和LDA_第9张图片

PCA和LDA_第10张图片

PCA和LDA_第11张图片

 

 

PCA实例

PCA和LDA_第12张图片

x1,x2表示两条数据特征,总共有5条数据。降维后特征减少

 

 

降维时,怎样把4×2的矩阵构造出来?这个矩阵是通过协方差矩阵求出来的

协方差矩阵转化为对角矩阵,同时取出前K个特征值对应的特征向量合并起来就是需要构造的的转换矩阵了

再将原始数据矩阵乘构造出的矩阵即为降维后的矩阵

 

PCA降维能很好的进行分类,降维前后的结果

PCA和LDA_第13张图片

PCA和LDA_第14张图片

 

你可能感兴趣的:(机器学习)