dimensionality reduction

参考博文:https://www.cnblogs.com/guoyaohua/p/8855636.html
使用降维数据原因:

  • 原始高维空间,包含冗余信息噪音信息,通过降维,提高识别精度
  • 通过降维算法寻找数据内部本质结构特征
    数据降维目的:
  • 便于计算和可视化
  • 有效信息提取综合、摒弃无用信息

一、数据降维方法
线性映射:PCA 主成分分析算法(principal component analysis),LDA(Discriminant Analysis)
(一)非线性映射:
1.PCA 主成分分析算法
1.1推荐可视化理解http://setosa.io/ev/principal-component-analysis/
1.2 PCA计算
1.2.1什么是线性投影?
线性满足:可加性,成比例
1.2.2协方差矩阵
(1)理解https://blog.csdn.net/shenziheng1/article/details/52955687
概率统计,为了研究样本的特征,有以下三个基本工具,标准差和方差一般是用来描述一维数据的
方差总是一个非负数,当随机变量的可能值集中在数学期望的附近时,方差较小;反之方差较大。所以由方差的大小可以推断随机变量分布的分散程度
dimensionality reduction_第1张图片
不理解为什么是 n-1:n-1既为自由度,就是说,在一个容量为n的样本里,当确定了n-1个变量以后,第n个变量就确定了,因为样本均值是无偏的http://blog.sina.com.cn/s/blog_c96053d60101n24f.html
如果除的是n,那么求的方差就不是随机抽取变量组成样本的方差,而是整个空间的方差.

协方差就是一种用来度量两个随机变量关系的统计量
仿照方差定义协方差,
在这里插入图片描述
度量各个维度偏离其均值程度,结果为正值,则说明两个随机变量是正相关的
在这里插入图片描述
协方差只能用来刻画两个随机变量X,Y 的相关性
在这里插入图片描述
比如,一个女生的体重与她的心情相关。
于是,数学家将协方差矩阵引入二维矩阵,衡量各个因素之间的紧密度(关系度)

为了处理多维协方差,引入协方差矩阵
协方差矩阵的性质:
1).协方差矩阵一定是个对称的方阵
2).协方差矩阵对角线上的因子其实就是变量的方差:cov(X,X)=var(X)
数据集有{x,y,z}{x,y,z}三个维度
dimensionality reduction_第2张图片
(2)python实战练习
重点:协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的协方差矩阵是计算不同维度间的协方差,要时刻牢记这一点。样本矩阵的每行是一个样本,每列为一个维度,所以要按列计算均值
在numpy中,默认将x的每一列视作一个独立的变量(rowvar=True)。如果想修改为每一行为一个独立变量,则令rowvar=Flase.(rowvar=0)
cov()的原型为cov(m,y=None,rowvar=True,bias=False,ddof=None,fweights=None,aweights=None)

在这里插入图片描述
dimensionality reduction_第3张图片
理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差,而不是不同样本之间
1.2.3协方差矩阵分解特征向量
为什么要使用不同维度的协方差矩阵来分解特征向量?
为了防止所有的点映射到一起(那么信息就都丢失了),而因此如果映射后方差尽可能大,纳米数据点会分散开来,从而保留更多信息。因此PCA去相关。
容易得到最优的W是由数据协方差矩阵前 k 个最大 的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。
PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性
PCA 优点:最小误差
缺点:忽略类别属性,有可能丢失最佳信息
2.线性判别分析(Linear Discriminant Analysis,LDA)
(二)非线性映射
1.基于核
2.流行学习:
ISOMap(等距映射)、LE(拉普拉斯特征映射)、LLE(局部线性嵌入
2.3 LLE(局部线性嵌入)Locally Linear Embedding
LLE用局部线性反映全局的非线性的算法,并能够使降维的数据保持原有数据的拓扑结构(在流形上使用局部线性,并用有限局部样本的互相线性表示,得到几何特性的构造权重矩阵,在低维下找到满足高维时样本间构造权重的样本集)dimensionality reduction_第4张图片
LLE局限:数据如果分布于整个封闭球面,无法映射到二维

未完待续
3.

你可能感兴趣的:(dimensionality reduction)