DM张朋飞

再谈主成分分析

　　问题：假设在IR中我们建立的文档-词项矩阵中，有两个词项为“learn”和“study”，在传统的向量空间模型中，认为两者独立。然而从语义的角度来讲，两者是相似的，而且两者出现频率也类似，是不是可以合成为一个特征呢？

　　《模型选择和规则化》谈到的特征选择的问题，就是要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关，使用的是互信息的方法。

而这里的特征很多是和类标签有关的，但里面存在噪声或者冗余。在这种情况下，需要一种特征降维的方法来减少特征数，减少噪音和冗余，减少过度拟合的可能性。

PCA的思想是将n维特征映射到k维上（k<n），这k维是全新的正交特征。这k维特征称为主元，是重新构造出来的k维特征，而不是简单地从n维特征中去除其余n-k维特征。

ＰＣＡ计算过程：

　　假设我们得到的2维数据如下：

　　行代表了样例，列代表特征，这里有10个样例，每个样例两个特征。可以这样认为，有10篇文档，x是10篇文档中“learn”出现的TF-IDF，y是10篇文档中“study”出现的TF-IDF。

　　第一步分别求x和y的平均值，然后对于所有的样例，都减去对应的均值。这里x的均值是1.81，y的均值是1.91，那么一个样例减去均值后即为（0.69,0.49），得到

第二步，求特征协方差矩阵，如果数据是3维，那么协方差矩阵是

这里只有x和y，求解得

对角线上分别是x和y的方差，非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示x和y若一个增，另一个也增；小于0表示一个增，一个减。如果ｘ和ｙ是统计独立的，那么二者之间的协方差就是０；但是协方差是０，并不能说明ｘ和ｙ是独立的。协方差绝对值越大，两者对彼此的影响越大，反之越小。协方差是没有单位的量，因此，如果同样的两个变量所采用的量纲发生变化，它们的协方差也会产生树枝上的变化。

　　 第三步，求协方差的特征值和特征向量，得到

上面是两个特征值，下面是对应的特征向量，特征值0.0490833989对应特征向量为，这里的特征向量都归一化为单位向量。

第四步，将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

这里特征值只有两个，我们选择其中最大的那个，这里是1.28402771，对应的特征向量是。

第五步，将样本点投影到选取的特征向量上。假设样例数为m，特征数为n，减去均值后的样本矩阵为DataAdjust(m*n)，协方差矩阵是n*n，选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为

这里是

FinalData(10*1) = DataAdjust(10*2矩阵)×特征向量

得到结果是

这样，就将原始样例的n维特征变成了k维，这k维就是原始特征在k维上的投影。

上面的数据可以认为是learn和study特征融合为一个新的特征叫做LS特征，该特征基本上代表了这两个特征。

　　上述过程有个图描述：

正号表示预处理后的样本点，斜着的两条线就分别是正交的特征向量（由于协方差矩阵是对称的，因此其特征向量正交），最后一步的矩阵乘法就是将原始样本点分别往特征向量对应的轴上做投影。

如果取的k=2，那么结果是

这就是经过PCA处理后的样本数据，水平轴（上面举例为LS特征）基本上可以代表全部样本点。整个过程看起来就像将坐标系做了旋转，当然二维可以图形化表示，高维就不行了。上面的如果k=1，那么只会留下这里的水平轴，轴上是所有点在该轴的投影。

这样PCA的过程基本结束。在第一步减均值之后，其实应该还有一步对特征做方差归一化。比如一个特征是汽车速度（0到100），一个是汽车的座位数（2到6），显然第二个的方差比第一个小。因此，如果样本特征中存在这种情况，那么在第一步之后，求每个特征的标准差，然后对每个样例在该特征下的数据除以。

归纳一下，使用我们之前熟悉的表示方法，在求协方差之前的步骤是：

其中是样例，共m个，每个样例n个特征，也就是说是n维向量。是第i个样例的第j个特征。是样例均值。是第j个特征的标准差。

整个PCA过程貌似及其简单，就是求协方差的特征值和特征向量，然后做数据转换。但是有没有觉得很神奇，为什么求协方差的特征向量就是最理想的k维向量？其背后隐藏的意义是什么？整个PCA的意义是什么？

PCA理论基础

要解释为什么协方差矩阵的特征向量就是k维理想特征，我看到的有三个理论：分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种，最后一种在讨论PCA意义时简单概述。

最大方差理论

在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。如前面的图，样本在横轴上的投影方差较大，在纵轴上的投影方差较小，那么认为纵轴上的投影是由噪声引起的。

因此我们认为，最好的k维特征是将n维样本点转换为k维后，每一维上的样本方差都很大。

比如下图有5个样本点：（已经做过预处理，均值为0，特征方差归一）

下面将样本投影到某一维上，这里用一条过原点的直线表示（前处理的过程实质是将原点移到样本点的中心点）。

假设我们选择两条不同的直线做投影，那么左右两条中哪个好呢？根据我们之前的方差最大化理论，左边的好，因为投影后的样本点之间方差最大。

这里先解释一下投影的概念：

红色点表示样例，蓝色点表示在u上的投影，u是直线的斜率也是直线的方向向量，而且是单位向量。蓝色点是在u上的投影点，离原点的距离是（即或者）由于这些样本点（样例）的每一维特征均值都为0，因此投影到u上的样本点（只有一个到原点的距离值）的均值仍然是0。

回到上面左右图中的左图，我们要求的是最佳的u，使得投影后的样本点方差最大。

由于投影后均值为0，因此方差为：

中间那部分很熟悉啊，不就是样本特征的协方差矩阵么（的均值为0，一般协方差矩阵都除以m-1，这里用m）。

用来表示，表示，那么上式写作

由于u是单位向量，即，上式两边都左乘u得，

即

We got it！就是的特征值，u是特征向量。最佳的投影直线是特征值最大时对应的特征向量，其次是第二大对应的特征向量，依次类推。

因此，我们只需要对协方差矩阵进行特征值分解，得到的前k大特征值对应的特征向量就是最佳的k维新特征，而且这k维新特征是正交的。得到前k个u以后，样例通过以下变换可以得到新的样本。

其中的第j维就是在上的投影。

通过选取最大的k个u，使得方差较小的特征（如噪声）被丢弃。

最小平方误差理论：

假设有这样的二维样本点（红色点），回顾我们前面探讨的是求一条直线，使得样本点投影到直线上的点的方差最大。本质是求直线，那么度量直线求的好不好，不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等，目的也是求一个线性函数使得直线能够最佳拟合样本点，那么我们能不能认为最佳的直线就是回归后的直线呢？回归时我们的最小二乘法度量的是样本点到直线的坐标轴距离。比如这个问题中，特征是x，类标签是y。回归时最小二乘法度量的是距离d。如果使用回归方法来度量最佳直线，那么就是直接在原始样本上做回归了，跟特征选择就没什么关系了。

因此，我们打算选用另外一种评价直线好坏的方法，使用点到直线的距离d’来度量。

现在有n个样本点，每个样本点为m维（这节内容中使用的符号与上面的不太一致，需要重新理解符号的意义）。将样本点在直线上的投影记为，那么我们就是要最小化

这个公式称作最小平方误差（Least Squared Error）。

而确定一条直线，一般只需要确定一个点，并且确定方向即可。

第一步确定点：

假设要在空间中找一点来代表这n个样本点，“代表”这个词不是量化的，因此要量化的话，我们就是要找一个m维的点，使得

最小。其中是平方错误评价函数（squared-error criterion function），假设m为n个样本点的均值：

那么平方错误可以写作：

后项与无关，看做常量，而，因此最小化时，

是样本点均值。

第二步确定方向：

我们从拉出要求的直线（这条直线要过点m），假设直线的方向是单位向量e。那么直线上任意一点，比如就可以用点m和e来表示

其中是到点m的距离。

我们重新定义最小平方误差：

这里的k只是相当于i。就是最小平方误差函数，其中的未知参数是和e。

实际上是求的最小值。首先将上式展开：

我们首先固定e，将其看做是常量，，然后对进行求导，得

这个结果意思是说，如果知道了e，那么将与e做内积，就可以知道了在e上的投影离m的长度距离，不过这个结果不用求都知道。

然后是固定，对e求偏导数，我们先将公式（8）代入，得

其中与协方差矩阵类似，只是缺少个分母n-1，我们称之为散列矩阵（scatter matrix）。

然后可以对e求偏导数，但是e需要首先满足，引入拉格朗日乘子，来使最大（最小），令

求偏导

这里存在对向量求导数的技巧，方法这里不多做介绍。可以去看一些关于矩阵微积分的资料，这里求导时可以将看作是，将看做是。

导数等于0时，得

两边除以n-1就变成了，对协方差矩阵求特征值向量了。

从不同的思路出发，最后得到同一个结果，对协方差矩阵求特征向量，求得后特征向量上就成为了新的坐标，如下图：

这时候点都聚集在新的坐标轴周围，因为我们使用的最小平方误差的意义就在此。

PCA理论意义：

PCA将n个特征降维到k个，可以用来进行数据压缩，如果100维的向量最后可以用10维来表示，那么压缩率为90%。同样图像处理领域的KL变换使用PCA做图像压缩。但PCA要保证降维后，还要保证数据的特性损失最小。再看回顾一下PCA的效果。经过PCA处理后，二维数据投影到一维上可以有以下几种情况：

我们认为左图好，一方面是投影后方差最大，一方面是点到直线的距离平方和最小，而且直线过样本点的中心点。为什么右边的投影效果比较差？直觉是因为坐标轴之间相关，以至于去掉一个坐标轴，就会使得坐标点无法被单独一个坐标轴确定。

PCA得到的k个坐标轴实际上是k个特征向量，由于协方差矩阵对称，因此k个特征向量正交。看下面的计算过程。

假设我们还是用来表示样例，m个样例，n个特征。特征向量为e，表示第i个特征向量的第1维。那么原始样本特征方程可以用下面式子来表示：

前面两个矩阵乘积就是协方差矩阵（除以m后），原始的样本矩阵A是第二个矩阵m*n。

上式可以简写为

我们最后得到的投影结果是，E是k个特征向量组成的矩阵，展开如下：

得到的新的样例矩阵就是m个样例到k个特征向量的投影，也是这k个特征向量的线性组合。e之间是正交的。从矩阵乘法中可以看出，PCA所做的变换是将原始样本点（n维），投影到k个正交的坐标系中去，丢弃其他维度的信息。举个例子，假设宇宙是n维的（霍金说是11维的），我们得到银河系中每个星星的坐标（相对于银河系中心的n维向量），然而我们想用二维坐标去逼近这些样本点，假设算出来的协方差矩阵的特征向量分别是图中的水平和竖直方向，那么我们建议以银河系中心为原点的x和y坐标轴，所有的星星都投影到x和y上，得到下面的图片。然而我们丢弃了每个星星离我们的远近距离等信息。

总结与讨论：

　　PCA技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

PCA技术的一个很大的优点是，它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。
　　但是，这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高。

图表 4：黑色点表示采样数据，排列成转盘的形状。
容易想象，该数据的主元是或是旋转角。

如图表 4中的例子，PCA找出的主元将是。但是这显然不是最优和最简化的主元。之间存在着非线性的关系。根据先验的知识可知旋转角是最优的主元（类比极坐标）。则在这种情况下，PCA就会失效。但是，如果加入先验的知识，对数据进行某种划归，就可以将数据转化为以为线性的空间中。这类根据先验知识对数据预先进行非线性转换的方法就成为kernel-PCA，它扩展了PCA能够处理的问题的范围，又可以结合一些先验约束，是比较流行的方法。

有时数据的分布并不是满足高斯分布。如图表 5所示，在非高斯分布的情况下，PCA方法得出的主元可能并不是最优的。在寻找主元时不能将方差作为衡量重要性的标准。要根据数据的分布情况选择合适的描述完全分布的变量，然后根据概率分布式

来计算两个向量上数据分布的相关性。等价的，保持主元间的正交假设，寻找的主元同样要使。这一类方法被称为独立主元分解(ICA)。

图表 5：数据的分布并不满足高斯分布，呈明显的十字星状。
这种情况下，方差最大的方向并不是最优主元方向。

另外PCA还可以用于预测矩阵中缺失的元素。

参考文献：

　 A tutorial on Principal Components Analysis LI Smith – 2002

A Tutorial on Principal Component Analysis J Shlens

http://www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/PCAMissingData.pdf

http://www.cad.zju.edu.cn/home/chenlu/pca.htm

多维偏好分析及其在实际决策中的应用：基于PCA-KMeans的数据降维与模式识别方法
多维偏好分析（MultidimensionalPreferenceAnalysis,MPA）是一种在市场营销、心理学和公共政策等领域广泛应用的分析工具，用于研究多维度下的复杂偏好决策过程。在高维数据集中，当属性与偏好之间存在非线性关系或维度重叠时，偏好的理解和可视化呈现出显著的技术挑战。本文本将研究采用主成分分析（PrincipalComponentAnalysis,PCA）和K均值聚类算法对鸢尾
那些让我感到优秀的句子星河赶路人
“最是那一低头的温柔，像一朵水莲花不胜凉风的娇羞。”想饮一些酒，让灵魂失重，好被风吹走。可一想到终将是你的路人，便觉得，沦为整个世界的路人。风虽大，都绕过我灵魂。长的不好看，优点也不多，梦想很平凡，如果说我喜欢你，你可不可以不要笑我。白酒很苦，但它不贵，姑娘虽美，但我不配，故事不长，也不难讲，喝完这杯，再谈理想聋子说放的炮不响，瞎子说点的灯不亮，瘸子说这炮很响，灯也很亮，只是这平坦的路上走起来却有
C++的类和对象（下）近听水无声477 c++开发语言
Hello，亲爱的小伙伴们，我又回来了，今天我们将继续学习C++的类和对象，这时我们学习类和对象的第三节课，掌握了前面的知识，我们就算是对C++有了基础的认识，好，废话不多说，开始我们今天的正题！1.再谈构造函数之前我们在实现构造函数的时候，初始化成员变量主要使用函数体内赋值。构造函数的初始化还有一种方式就是使用初始化列表，初始化列表的使用方式是由一个冒号开始，接着是一个以逗号分割的数据成员列表。
C++11知识点汇总 GeniusAng丶 C/C++编程 c++多线程生产者消费者线程间互斥线程间同步互斥锁 CAS
课程总目录文章目录一、C++11常用关键知识点梳理1.1关键字和语法1.2绑定器和函数对象1.3智能指针1.4容器二、C++语言级别支持的多线程编程2.1通过thread类编写C++多线程程序2.2线程间互斥2.3线程间同步通信-生产者消费者模型2.4再谈lock_guard和unique_lock2.5基于CAS操作的atomic原子类型一、C++11常用关键知识点梳理1.1关键字和语法auto
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
亦菲喊你来学机器学习（20） --PCA数据降维方世恩机器学习人工智能深度学习 python 算法 sklearn
文章目录PCA数据降维一、降维二、优缺点三、参数四、实例应用1.读取文件2.分离特征和目标变量3.使用PCA进行降维4.打印特征所占百分比和具体比例5.PCA降维后的数据6.划分数据集7.训练逻辑回归模型8.评估模型性能总结PCA数据降维主成分分析（PrincipalComponentAnalysis,PCA）是一种常用的数据降维技术，它可以在保留数据集中最重要的特征的同时，减少数据的维度。PCA
教学日记第二十三课——再谈讲授法（二）若愚_fc4b
2020年10月23日星期五这节课还停留在《运动的快慢》这一节，这节我采用讲授法，集中给学生讲解本节知能练习图像习题和计算习题。这节课乏善可陈，因为课堂主要以我的讲授为主，有点像满堂灌，但是内容和难度摆在那里，学生薄弱的数学学情摆在那里，不进行大量的集中讲授，很难提高效率。什么难度和内容的习题适合学生讨论、学生讨论能讲清到什么程度、讨论的效能在什么情况下是最佳、什么情况下又是谬误，这是需要深刻研究
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
Java中的数据降维技术：如何实现PCA和t-SNE 省赚客app开发者 java python 人工智能
Java中的数据降维技术：如何实现PCA和t-SNE大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在这篇文章中，我们将探讨如何在Java中实现数据降维技术，特别是主成分分析（PCA）和t-SNE。这两种技术在数据预处理和可视化中非常重要，它们帮助我们将高维数据转换为低维数据，保留数据的主要特征。主成分分析（PCA）主成分分析（PCA）是一种线性降维技术，用于将数据从
3D 场景模拟 2D 碰撞玩法的方案长脖鹿Johnny 数学算法 3d 游戏游戏引擎算法几何学
目录方法概述顶点到平面的垂直投影求解最小降维OBB主成分分析（PCA）协方差矩阵求矩阵特征值Jacobi方法OBB拉伸方法对于类似《密特罗德生存恐惧》和《暗影火炬城》这样3D场景，但玩法还是2D卷轴动作平台跳跃（类银河恶魔城）的游戏，如果想要让碰撞检测更符合视觉直觉，需要采用3D碰撞体来模拟2D碰撞。本文将介绍一种实现方案。方法概述为了简化碰撞计算，原碰撞体（如武器的碰撞）只使用长方体（OBB）和
“爷孙恋”女主角结局曝光：相恋10年，继承千万遗产的她，真的幸福吗？鱼籽酱文化
“黑胶教父李坤城去世了！”4月10日，这则消息迅速登上热搜，传遍鱼圈。那么，李坤城是谁？他就是中国台湾著名音乐人，更是当年那段名噪一时“爷孙恋”的男主角。他患大肠癌7个月，最终不治而逝，生命永远停留在66岁。那么，他的千万遗产如何分配？这让大家不禁好奇。据说，都留给了小他40岁的妻子林靖恩。林靖恩神情低落，不置可否，“头七后再谈”。江湖传说，李坤城遗产近1129万。有网友说，原来，这是一场酝酿了1
郭麒麟自曝单身原因：不谈恋爱是因为更需要孤独！果然是人间清醒鲜鱼世界
在节目《心动的信号3》中，郭麒麟谈及自己单身的原因，他认为人在孤独和陪伴中是不停地交替的，有的时候想孤独，有的时候想寻求陪伴。而自己不谈恋爱的原因是“觉得自己需要孤独的时间更长”，”我觉得自己一个人过日子很爽，等什么时候真正地特别需要陪伴，而恐惧、厌倦孤独的时候，那时候再谈恋爱”。郭麒麟最近看综艺《做家务的男人》，被郭麒麟圈粉了。一个是甜姐姐，一个是傻弟弟，般配程度让大家都有了期待。这位本该是最不
逗逗中暑了逗逗的妈妈姚兰
从小我自己的内心缺乏关爱，自己有了孩子，非常不希望自己的孩子也缺乏关爱，这样对他以后的成长的心里会有影响，所以在所有的规矩面前先谈爱，再谈规矩。拿逗逗会经常玩摇摇车来说，我们要么管他坐够，要么是转移注意力，但是一定不是强硬的控制他不给坐，这就是先爱他，注意力转移就是用其他方法让他不一直坐摇摇车，这种爱是一种确认孩子，感受孩子感受的爱，因为知道他现在想坐，如果不是后面的孩子要坐，我会一直让他坐下去，
再谈较真儿——我们的市民生活将在哪里安放？子龙老师
从双井地铁站B口出来，是一片整齐肃穆的街道，那些煎饼、手抓饼，还有卖臭豆腐和毛鸡蛋的贩夫走卒们，早已不在这里煞风景了。拐向富力广场，望见对面viva的霓虹灯闪烁夺目。这里原本有一片跳广场舞的，很挡路。拐过弯儿是玩轮滑的，总是围着一圈子人看，好像还教小孩子滑。再头里是一群上年岁的唱红歌大队，挂着锦旗，放着音乐，还有指挥，挺是有模有样的。穿过这片喧嚣热闹，几个拎石锁、耍大刀的小伙子穿着练功服又映入眼帘
小聚时光幸福的烟火1234
昨天中午，利用1个半小时的时间，我们工作室的家人们小聚了一下。虽说在一个单位，可因为工作太忙，我们其中很多人几乎一个星期难见一次面。有时有事，在群里交流一下，就有“隔空喊话”的感觉。小聚一下，感觉一下子亲近起来。家人们在一起，说说各自工作上的困惑和收获，唠唠家里的孩子和老人，再谈谈自己的进步和成长，说真的，这种感觉，就像过年时亲戚们在一起团圆，一种别样的温馨和幸福。小聚一下，既不耽误太多的时间，也
“至简领导力之孝善断舍离149"之“再谈反求诸己”（2214）周安柱
为什么说“行有不得反求诸己”呢，因为“不得”其实是一种结果，而得到不如预期的结果，往往都是自己之前的起心动念或言行举止持续累积的条件创造出来的，与他人没什么关系。举个例子，高考中有人作弊被取消考试资格，如果这时却抱怨考试的规则不合理，而忽略了是自己作弊这个条件创造了破坏规则的结果，自然要反求诸己。有的人说，我很勤奋的做了某事许多年，为什么却不如其他做了几年的人收入高呢，这似乎很不公平。但究其重点，
C++类和对象（下）被二进制支配的打工人 c++开发语言
感谢观看！！！文章目录一、再谈构造函数二、Static成员三.友元四.内部类五.再次理解封装一.再谈构造函数在创建对象时，编译器通过调用构造函数，给对象中各个成员变量一个合适的初始值。classDate{public:Date(intyear,intmonth,intday){_year=year;_month=month;_day=day;}private:int_year;int_month;
Python(C)图像压缩导图亚图跨际 Python C/C++交叉知识傅里叶压缩制作树结构象限量化模型有损压缩压缩解压缩算法矩阵分解
要点傅里叶和小波变换主成分分析彩色图压缩制作不同尺寸图像K均值和生成式对抗网络压缩无损压缩算法压缩和解压缩算法离散小波变换压缩树结构象限算法压缩矩阵分解有损压缩算法量化模型有损压缩算法JPEG压缩解压缩算法Python图像压缩图像压缩可以是有损的，也可以是无损的。无损压缩是档案用途的首选，通常用于医学成像、技术图纸、剪贴画或漫画。有损压缩方法，尤其是在低比特率下使用时，会产生压缩伪影。有损方法特别
深度学习100问7-向量降维的算法有那些不断持续学习ing 深度学习机器学习人工智能
一、主成分分析（PCA）PCA就像你整理一堆考试成绩单。假如成绩单上有好多科目成绩，这就像一个高维向量。但有些科目成绩关系很紧密，比如数学好的同学一般物理也不错，化学也还行。那PCA就会找这些成绩单里最主要的特点，把关系近的科目合成几个新的“大科目”。这样就把原来很多科目的高维向量变成几个“大科目”的低维向量啦。二、奇异值分解（SVD）SVD呢，就好比你有一本很厚的书。书的每一页上的字可以看成一个
《道德经》智慧___常怀赤子之心欣依然
《道德经》中，老子曾一再谈到“婴儿、赤子”。比如“专气致柔，能如婴儿乎”（第十章），“如婴儿之未孩”（第二十章），“复归于婴儿”（第二十八章），“圣人皆孩之”（第四十九章），在第五十五章，老子则开门见山“含德之厚，比于赤子……”为什么老子多次用婴儿、用赤子作比喻呢？因为婴儿身上具备纯粹、平和、柔软、纯真、纯朴等这些老子所尊崇的赤子之心！老子反复强调，还是希望人们希望社会回归纯朴的状态！遵循自然规律
【机器学习】初学者经典案例（随记）听忆. 机器学习人工智能数据挖掘深度学习语言模型
边走、边悟迟早会好一、概念机器学习是一种利用数据来改进模型性能的计算方法，属于人工智能的一个分支。它旨在让计算机系统通过经验自动改进，而不需要明确编程。类型监督学习：使用带标签的数据进行训练，包括分类（如垃圾邮件检测）和回归（如房价预测）。无监督学习：使用不带标签的数据进行训练，包括聚类（如客户细分）和降维（如主成分分析）。强化学习：通过与环境的交互学习策略，以最大化累积奖励（如AlphaGo）。
再谈班主任的评比霞12331
今天在读吴非的《班级工作不要折腾学生》，提到了班主任的评比，让我想到很多。担任班主任工作六年半中，起初是每个班主任平均每人500元。这个不影响老师们的工作热情，大家全力以赴地工作，对学生负责。近几年学校改革了班主任经费的发放，和班级的评比挂上了钩。最高的650，最低的400。评选内容涉及到班级所有活动的奖项，班级的纪律和卫生流动红旗，班级成绩，班主任所交材料的情况等。我没有等到这样的评比，就结束了
主成分分析（PCA）附Python实现不染53 数学建模数学建模 python 算法
主成分分析矩阵分解特征值和特征向量特征值分解奇异值分解主成分分析（PCA）Python实现主成分分析方法（PrincipalComponentAnalysis，PCA）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，将多个变量压缩为少数几个综合指标（称为主成分），是一种使用最广泛的数据降维算法。此外，由于主成分分析独特的性质，压缩之后的主成分之间线性无关，因此
每天一个数据分析题（四百九十）- 主成分分析与因子分析跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
在主成分分析中，主成分的选择通常是按照（）的大小排序来进行的。A.特征值B.特征向量C.协方差矩阵D.相关系数矩阵数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据分析从业者刷题必备神器！
【机器学习】特征工程的基本概念以及LASSO回归和主成分分析优化方法 Lossya 机器学习回归人工智能算法特征工程
引言特征工程是机器学习中的一个关键步骤，它涉及到从原始数据中提取和构造新的特征，以提高模型的性能和预测能力LASSO（LeastAbsoluteShrinkageandSelectionOperator）回归是一种用于回归分析的线性模型，它通过引入L1正则化（Lasso正则化）来简化模型并减少过拟合的风险主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的降维技术
再谈“山竹” JS哥哥
2018年9月17日天气阵雨星期一前天，各路公众号、中国移动、朋友圈、以及各个微信群都说16级“山竹”台风即将在湛江登陆。从小到大，经历过那么多的台风，像“山竹”那样引起全省戒备的台风倒是头一次遇到。图片发自App当时，我赶紧点了外卖，准备好方便面、八宝粥、面包等干粮（想知道具体操作方法的点这里:准备干粮的技巧），还掌握了米字贴窗的技能，把阳台的衣服还有其他东西都收进了室内。剩下的，就是老老实实呆
python库——sklearn的关键组件和参数设置零度° python python sklearn
文章目录模型构建线性回归逻辑回归决策树分类器随机森林支持向量机K-近邻模型评估交叉验证性能指标特征工程主成分分析标准化和归一化scikit-learn，简称sklearn，是Python中一个广泛使用的机器学习库，它建立在NumPy、SciPy和Matplotlib这些科学计算库之上。sklearn提供了简单而有效的工具来进行数据挖掘和数据分析。我们将介绍sklearn中一些关键组件的参数设置。模
类似于众人帮的悬赏软件支持苹果手机下载的趣闲赚手机做任务赚佣金
还有一个月的时间就就2022年了，现在再谈类似于众人帮的悬赏软件，真的有点老生常谈了。不知道大家在2021年，这一年收入怎么样，反正小编没挣到几个钱，不仅仅是工作上的，网络上的项目也是以惨淡收场。趣闲赚上面的任务单价也就是几块钱到几十元一单，做的多挣的多。【趣闲赚】拿着手机做赏金任务，1元提现秒到账，在家躺着也赚钱！点击链接或者扫码下载：https://www.jianshu.com/p/8dba
每天一个数据分析题（四百九十三）- 主成分分析与因子分析跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
在主成分分析中，主成分的个数通常是由（）来确定的。A.样本量B.变量个数C.主成分载荷矩阵D.解释方差比例数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据分析从业者刷题必备神器！
每天一个数据分析题（四百九十一）- 主成分分析与因子分析跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
因子载荷矩阵是主成分载荷矩阵（）的结果A.最小方差斜交旋转B.最大方差斜交旋转C.最小方差正交旋转D.最大方差正交旋转数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据分析从业者刷题必备神器！
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

再谈主成分分析

PCA理论基础

最大方差理论

你可能感兴趣的:(再谈主成分分析)