marvelous Morty

维数灾难问题及数据分析中的降维方法

一、维数灾难（curse of dimentionality）

降维的主要方法

1. 投影（Projection）
2. 流形学习

二、降维方法

1. 什么是降维
2. 为什么要降维
3. PCA主成分分析(Principal components analysis)

3.1 PCA算法模型
3.2讨论PCA约简前先要讨论向量的表示及基变换 - PCA低损压缩的理论基础

3.2.1 内积与投影
3.2.2 基
3.2.3 基变换的矩阵表 - 基变换是有损的
3.2.4 协方差矩阵及优化目标 - 如何找到损失最低的变换基

3.3 PCA的限制
3.4 基于原生python+numpy实现PCA算法

一、维数灾难（curse of dimentionality）

我们已经习惯生活在一个三维的世界里，以至于当我们尝试想象更高维的空间时，我们的直觉不管用了。即使是一个基本的 4D 超正方体也很难在我们的脑中想象出来（见图 8-1），更不用说一个 200 维的椭球弯曲在一个 1000 维的空间里了。

图 8-1 点，线，方形，立方体和超正方体（0D 到 4D 超正方体）
这表明很多物体在高维空间表现的十分不同。比如，如果你在一个正方形单元中随机取一个点（一个1×1的正方形），那么随机选的点离所有边界大于 0.001（靠近中间位置）的概率为 0.4%（1 - 0.998^2）（换句话说，一个随机产生的点不大可能严格落在某一个维度上。但是在一个 1,0000 维的单位超正方体（一个1×1×…×1的立方体，有 10,000 个 1），这种可能性超过了 99.999999%。在高维超正方体中，大多数点都分布在边界处。
还有一个更麻烦的区别：如果你在一个平方单位中随机选取两个点，那么这两个点之间的距离平均约为 0.52。如果您在单位 3D 立方体中选取两个随机点，平均距离将大致为 0.66。但是，在一个 1,000,000 维超立方体中随机抽取两点呢？那么，平均距离，信不信由你，大概为 408.25（大致）这非常违反直觉：当它们都位于同一单元超立方体内时，两点是怎么距离这么远的？这一事实意味着高维数据集有很大风险分布的非常稀疏：大多数训练实例可能彼此远离。当然，这也意味着一个新实例可能远离任何训练实例，这使得预测的可靠性远低于我们处理较低维度数据的预测，因为它们将基于更大的推测（extrapolations）。简而言之，训练集的维度越高，过拟合的风险就越大。
理论上来说，维数爆炸的一个解决方案是增加训练集的大小从而达到拥有足够密度的训练集。不幸的是，在实践中，达到给定密度所需的训练实例的数量随着维度的数量呈指数增长。如果只有 100 个特征（比 MNIST 问题要少得多）并且假设它们均匀分布在所有维度上，那么如果想要各个临近的训练实例之间的距离在 0.1 以内，您需要比宇宙中的原子还要多的训练实例。

降维的主要方法

降低维度的两种主要方法：投影和流形学习。

1. 投影（Projection）

在大多数现实生活的问题中，训练实例并不是在所有维度上均匀分布的。许多特征几乎是常数，而其他特征则高度相关（如前面讨论的 MNIST）。结果，所有训练实例实际上位于（或接近）高维空间的低维子空间内。这听起来有些抽象，所以我们不妨来看一个例子。在图 8-2 中，您可以看到由圆圈表示的 3D 数据集。

图 8-2 一个分布接近于2D子空间的3D数据集
注意到所有训练实例的分布都贴近一个平面：这是高维（3D）空间的较低维（2D）子空间。现在，如果我们将每个训练实例垂直投影到这个子空间上（就像将短线连接到平面的点所表示的那样），我们就可以得到如图8-3所示的新2D数据集。我们刚刚的操作，将数据集的维度从 3D 降低到了 2D。请注意，坐标轴对应于新的特征z1和z2（平面上投影的坐标）。

图 8-3 一个经过投影后的新的 2D 数据集

但是，投影并不总是降维的最佳方法。在很多情况下，子空间可能会扭曲和转动，比如图 8-4 所示的着名瑞士滚动玩具数据集。

图 8-4 瑞士滚动数玩具数据集

简单地将数据集投射到一个平面上（例如，直接丢弃x3）会将瑞士卷的不同层叠在一起，如图 8-5 左侧所示。但是，你真正想要的是展开瑞士卷所获取到的类似图 8-5 右侧的 2D 数据集。

图 8-5 投射到平面的压缩（左）vs 展开瑞士卷（右）

2. 流形学习

瑞士卷一个是二维流形的例子。简而言之，二维流形是一种二维形状，它可以在更高维空间中弯曲或扭曲。更一般地，一个d维流形是类似于d维超平面的n维空间（其中d < n）的一部分。在我们瑞士卷这个例子中，d = 2，n = 3：它有些像 2D 平面，但是它实际上是在第三维中卷曲。

许多降维算法通过对训练实例所在的流形进行建模从而达到降维目的；这叫做流形学习。它依赖于流形猜想（manifold assumption），也被称为流形假设（manifold hypothesis），它认为大多数现实世界的高维数据集大都靠近一个更低维的流形。这种假设经常在实践中被证实。

让我们再回到 MNIST 数据集：所有手写数字图像都有一些相似之处。它们由连线组成，边界是白色的，大多是在图片中中间的，等等。如果你随机生成图像，只有一小部分看起来像手写数字。换句话说，如果您尝试创建数字图像，那么您的自由度远低于您生成任何随便一个图像时的自由度。这些约束往往会将数据集压缩到较低维流形中。

流形假设通常包含着另一个隐含的假设：你现在的手上的工作（例如分类或回归）如果在流形的较低维空间中表示，那么它们会变得更简单。例如，在图 8-6 的第一行中，瑞士卷被分为两类：在三维空间中（图左上），分类边界会相当复杂，但在二维展开的流形空间中（图右上），分类边界是一条简单的直线。

但是，这个假设并不总是成立。例如，在图 8-6 的最下面一行，决策边界位于x1 = 5（图左下）。这个决策边界在原始三维空间（一个垂直平面）看起来非常简单，但在展开的流形中却变得更复杂了（四个独立线段的集合）（图右下）。

简而言之，如果在训练模型之前降低训练集的维数，那训练速度肯定会加快，但并不总是会得出更好的训练效果；这一切都取决于数据集。

希望你现在对于维数爆炸以及降维算法如何解决这个问题有了一定的理解，特别是对流形假设提出的内容。本章的其余部分将介绍一些最流行的降维算法。

图 8-6 决策边界并不总是会在低维空间中变的简单

二、降维方法

1. 什么是降维

降维是将高维数据映射到低维空间的过程，该过程与信息论中有损压缩概念密切相关。同时要明白的，不存在完全无损的降维。
有很多种算法可以完成对原始数据的降维，在这些方法中，降维是通过对原始数据的线性变换实现的。即，如果原始数据是 d 维的，我们想将其约简到 n 维（n < d），则需要找到一个矩阵使得映射。选择 W 的一个最自然的选择的是在降维的同时那能够复原原始的数据 x，但通常这是不可能，区别只是损失多少的问题。

2. 为什么要降维

降维的原因通常有以下几个：
2.1 首先，高维数据增加了运算的难度
2.2 其次，高维使得学习算法的泛化能力变弱（例如，在最近邻分类器中，样本复杂度随着维度成指数增长），维度越高，算法的搜索难度和成本就越大。
2.3 最后，降维能够增加数据的可读性，利于发掘数据的有意义的结构
以一个具体的业务场景来说：
malware detection这种non-linear分类问题中，我们提取的feature往往是sparce high-dimension vector(稀疏高维向量)，典型地例如对malware binary的code .text section提取byte n-gram，这个时候，x轴(代码段的byte向量)高达45w，再乘上y轴(最少也是256)，直接就遇到了维数灾难问题，导致神经网络求解速度极慢，甚至内存MMO问题。
这个时候就需要维度约简技术，值得注意的是，深度神经网络CNN本身就包含“冗余信息剔除”机制，在完成了对训练样本的拟合之后，网络之后的权重调整会朝着剔除训练样本中的信息冗余目标前进，即我们所谓的信息瓶颈。
Relevant Link:

http://www.tomshardware.com/news/deep-instinct-deep-learning-malware-detection,31079.html
https://www.computerpoweruser.com/article/18961/israeli-company-aims-to-be-first-to-apply-deep-learning-to-cybersecurity
https://www.technologyreview.com/s/542971/antivirus-that-mimics-the-brain-could-catch-more-malware/
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/MalwareRandomProjections.pdf
http://e-nns.org/
https://arxiv.org/pdf/1703.02244.pdf
http://www.dartmouth.edu/~gvc/
http://www.cs.toronto.edu/~gdahl/

3. PCA主成分分析(Principal components analysis)

3.1 PCA算法模型

令 x1，…，xm 为 m 个 d 维向量，我们想利用线性变换对这些向量进行降维。给定矩阵，则存在映射，其中是 x 的低维表示。

另外，矩阵能够将压缩后的信息（近似）复原为原始的信号。即，对于压缩向量，其中 y 在低维空间中，我们能够构建，使得是 x 的复原版本，处于原始的高维空间中。
在PCA中，我们要找的压缩矩阵 W 和复原矩阵 U 使得原始信号和复原信号在平方距离上最小，即，我们需要求解如下问题：
，即尽量无损压缩。

令（U，W）是上式的一个解，则 U 的列是单位正交的（即是上的单位矩阵）以及

PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关（单位正交）的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。
其实“信息瓶颈理论”的核心观点也是认为：所有的信息都是存在冗余的，其需要抽取其中最核心关键的部分就可以大致代表该原始信息。
降维当然意味着信息的丢失，不过鉴于实际数据本身常常存在的相关性，我们可以想办法在降维的同时将信息的损失尽量降低

3.2讨论PCA约简前先要讨论向量的表示及基变换 - PCA低损压缩的理论基础

既然我们面对的数据被抽象为一组向量，那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。

3.2.1 内积与投影

向量运算内积。两个维数相同的向量的内积被定义为，即向量对应的各维度元素两两相乘累加和。
(a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn
内积运算将两个向量映射为一个实数。其计算方式非常容易理解，但是其意义并不明显。
下面我们分析内积的几何意义。假设A和B是两个n维向量，我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段，为了简单起见我们假设A和B均为二维向量，则A=(x1,y1)则投影的矢量长度为|A|cos(a)注意这里我们专门区分了矢量长度和标量长度，标量长度总是大于等于0，值就是线段的长度；而矢量长度可能为负，其绝对值是线段长度，而符号取决于其方向与标准方向相同或相反。
接着我们将内积表示为另一种我们熟悉的形式：A与B的内积等于：**A到B的投影长度乘以B的模。**再进一步，如果我们假设B的模为1，即让|B|=1，可以看到：设向量B的模为1，则A与B的内积值等于A向B所在直线投影的矢量长度
这就是内积的一种几何解释

3.2.2 基

上文说过，一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段

在代数表示方面，我们经常用线段终点的点坐标表示向量，例如上面的向量可以表示为(3,2)，不过我们常常忽略，只有一个(3,2)本身是不能够精确表示一个向量的。我们仔细看一下，这里的3实际表示的是向量在x轴上的投影值是3，在y轴上的投影值是2。
也就是说我们其实隐式引入了一个定义：以x轴和y轴上正方向长度为1的向量为标准。那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量，所以可以为负。
更正式的说，向量(x,y)实际上表示线性组合

所有二维向量都可以表示为一定数量的基的线性组合。 此处(1,0)和(0,1)叫做二维空间中的一组基

所以，要准确描述向量，首先要确定一组基，然后给出在基所在的各个直线上的投影值，就可以了。只不过我们经常省略第一步，而默认以(1,0)和(0,1)为基
我们之所以默认选择(1,0)和(0,1)为基，当然是比较方便，因为它们分别是x和y轴正方向上的单位向量，因此就使得二维平面上点坐标和向量一一对应，非常方便。
但实际上任何两个线性无关的二维向量都可以成为一组基（基不一定要正交，正交是一个更强的条件），所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量(这个概念非常重要，因为PCA分析中用于降维投影的基常常就不是x/y轴单位向量)

这里就引出了一个概念，坐标是一个相对的概念，只是我们平时见标准的0-90.的坐标轴看多了，其实所有的向量/坐标都是一个相对于坐标轴的概念值而已。
另外这里要注意的是，我们列举的例子中基是正交的（即内积为0，或直观说相互垂直），但可以成为一组基的唯一要求就是线性无关，非正交的基也是可以的。 不过因为正交基有较好的性质，所以一般使用的基都是正交的。
我们来继续看上图，（1,1）和（-1,1）也可以成为一组基。一般来说，我们希望基的模是1，因为从内积的意义可以看到，如果基的模是1，那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了！
实际上，对应任何一个向量我们总可以找到其同方向上模为1的向量，只要让两个分量分别除以模就好了。例如，上面的基可以变为，各个基的模为1。

3.2.3 基变换的矩阵表 - 基变换是有损的

在上一小节我们讨论了一个非常重要的概念，即任意的一组线性无关的向量都可以表示为基，而不仅限于90°的 x-y 坐标轴。
同时我们现在熟悉的（x，y）坐标其实本质是在一组特定基上的表示方法，一旦我们的基发生概念，坐标值也会发生改变，这个改变的过程就叫基变换。
我们换一种更简便的方式来表示基变换，继续以上图的坐标系为例：
将(3,2)变换为新基上的坐标，就是用(3,2)与第新基的各分量分别做内积运算(将一个坐标系上的点"转换"到另一个坐标系本质就是在投影)，得到的结果作为第新的坐标。实际上，我们可以用矩阵相乘的形式简洁的表示这个变换，这里是新基的向量，（3，2）是原基的向量。

其中矩阵的两行分别为两个基，乘以原向量，其结果刚好为新基的坐标。
稍微推广一下，如果我们有m个二维向量，只要将二维向量按列排成一个两行m列矩阵，然后用“基矩阵”乘以这个矩阵，就得到了所有这些向量在新基下的值。例如(1,1)，(2,2)，(3,3)，想变换到刚才那组基上，则可以这样表示

于是一组向量的基变换被干净的表示为矩阵的相乘。
一般的，如果我们有M个N维向量，想将其变换为由R个N维向量表示的新空间中，那么首先将R个基按行组成矩阵A， 然后将原始向量按列组成矩阵B， 那么两矩阵的乘积AB就是变换结果，其中AB的第m列为A中第m列变换后的结果。

注：

N维向量，必须有N维的基，否则无法投影。N 的作用可以理解为一个“接收器”，对原始向量的每一个维度都必须要有一个对应的维度去对应接收。
R代表基的个数，注意，这里 R 的数量可以是任意多个，区别只是向多少个轴进行投影的区别而已，如果 R < N，则转换后维数减少了；如果 R > N，则转换后维数增加了。
M是原始向量的数量，数量在基变换前后是保持不变的。
数学表示为

（R x N）. （N x M）=（R x M）
其中特别要注意的是，这里R可以小于N，而R决定了变换后数据的维数。也就是说，我们可以将 N维数据变换到更低维度的空间中去，变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示"降维变换"
最后，上述分析同时给矩阵相乘找到了一种物理解释：两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说，一个矩阵可以表示一种线性变换。

3.2.4 协方差矩阵及优化目标 - 如何找到损失最低的变换基

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示，而且如果基的数量少于向量本身的维数，则可以达到降维的效果。
但是我们还没有回答一个最最关键的问题：**如何选择基才是最优的。**或者说，如果我们有一组N维向量，现在要将其降到K维（K小于N），那么我们应该如何选择K个基才能最大程度保留原有的信息。
假设我们的数据由五条记录组成，将它们表示成矩阵形式：

其中每一列为一条数据记录(列向量)，而一行为一个字段。为了后续处理方便，我们首先将每个字段内所有值都减去字段均值，其结果是将每个字段都变为均值为0。我们看上面的数据，第一个字段均值为2，第二个字段均值为3，所以变换后：

我们可以看下五条数据在平面直角坐标系内的样子

现在问题来了：如果我们必须使用一组新的基来表示这些数据，又希望尽量保留原始的信息（保留原始数据的概率分布），我们应该如何选择？
通过上一节对基变换的讨论我们知道，这个问题实际上是要在二维平面中选择一个方向，将所有数据都投影到这个方向所在直线上，用投影值表示原始记录。这是一个实际的二维降到一维的问题。
那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢？一种直观的看法是：希望投影后的投影值尽可能分散。数据越分散，可分性就越强，可分性越强，概率分布保存的就越完整。
以上图为例：
可以看出如果向x轴投影，那么最左边的两个点会重叠在一起，中间的两个点也会重叠在一起，于是本身四个各不相同的二维点投影后只剩下两个不同的值了，这是一种严重的信息丢失。
同理，如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。
所以看来x和y轴都不是最好的投影选择。我们直观目测，如果向通过第一象限和第三象限的斜线投影，则五个点在投影后还是可以区分的。
下面，我们用数学方法表述和讨论这个问题
投影后的新坐标点的方差 - 一种表征信息丢失程度的度量
上文说到，我们希望投影后投影值尽可能分散，而这种分散程度，可以用数学上的方差来表述。此处，一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值，即

在使用应用中，在运行PCA之前需要对样本进行“中心化”。即，我们首先计算，然后再进行PCA过程。
由于上面我们已经将每个字段的均值都化为0了，因此方差可以直接用每个元素的平方和除以元素个数表示

于是上面的问题被形式化表述为：寻找一个一维基，使得所有数据变换为这个基上的坐标表示后，方差值最大。
协方差
对于二维降成一维的问题来说，找到那个使得方差最大的方向就可以了。不过对于更高维，还有一个问题需要解决。
考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因此，应该有其他约束条件。
从直观上说，让两个字段尽可能表示更多的原始信息，我们是不希望它们之间存在（线性）相关性的，因为相关性意味着两个字段不是完全独立，必然存在重复表示的信息。
数学上可以用两个字段的协方差表示其相关性，由于已经让每个字段均值为0，则

可以看到，在字段均值为0的情况下，两个字段的协方差简洁的表示为其内积除以元素数m
当协方差为0时，表示两个字段完全独立。为了让协方差为0，我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。至此，我们得到了降维问题的优化目标
将一组N维向量降为K维(K大于0，小于N)，其目标是选择K个单位(模为1)正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0(各自独立)；
而字段的方差则尽可能大(投影后的点尽可能离散)。在正交的约束下，取最大的K个方差

协方差矩阵 - 字段内方差及字段间协方差的统一数学表示
我们看到，最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关
假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X

然后我们用X乘以X的转置，并乘上系数1/m

这个矩阵对角线上的两个元素分别是两个字段的方差，而其它元素是a和b的协方差。两者被统一到了一个矩阵的，根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况
设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设，则C是一个对称矩阵，其对角线分别是各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。

协方差矩阵对角化
根据上述推导，我们发现要达到优化目前，等价于将协方差矩阵对角化：即除对角线（方差要尽可能大）外的其它元素化为0（协方差为0），并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的
设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

现在事情很明白了！我们要找的P不是别的，而是能让原始协方差矩阵对角化的P。换句话说：
优化目标变成了寻找一个矩阵P，满足 是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基（因为要取尽可能大的方差），用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件
由上文知道，协方差矩阵C是一个是对称矩阵，在线性代数上，实对称矩阵有一系列非常好的性质
1）实对称矩阵不同特征值对应的特征向量必然正交。
2）设特征向量λλ重数为r，则必然存在r个线性无关的特征向量对应于λλ，因此可以将这r个特征向量单位正交化。
由上面两条可知，一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量，设这n个特征向量为e1,e2,⋯,en
则对协方差矩阵C有如下结论

其中Λ。到这里，我们发现我们已经找到了需要的矩阵P：
P是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。如果设P按照Λ在PCA中，我们要找的压缩矩阵 W 和复原矩阵 U 使得原始信号和复原信号在平方距离上最小，即，我们需要求解如下问题：
，即尽量无损压缩。

令 x1，…，xm是中的任意向量，，以及 u1，…，un是 A 中最大的 n 个特征值对应的特征向量。那么，上式PCA优化问题的解为：令 U 的列等于 u1，…，un，以及

降维后的信息损失尽可能小，尽可能保留原始样本的概率分布
降维后的基之间是完全正交的

总结一下PCA的算法步骤

设有m条n维数据
将原始数据按列组成n行m列矩阵X
将X的每一行(代表一个属性字段，即一个维度)进行零均值化，即减去这一行的均值
求出协方差矩阵
求出协方差矩阵的特征值（矩阵特征值）及对应的特征向量（矩阵特征向量）
将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
即为降维到k维后的数据。
总的来说，PCA降维的目的是让降维后的向量方差最大(最离散)，协方差最小(目标维的各个基之间的相关性最小)

一个例子

我们用PCA方法将这组二维数据其降到一维。
因为这个矩阵的每行已经是零均值，这里我们直接求协方差矩阵

然后求其特征值和特征向量。求解后特征值为
其对应的特征向量分别是

其中对应的特征向量分别是一个通解，c1

因此我们的矩阵P是

可以验证协方差矩阵C的对角化

最后我们用P的第一行乘以数据矩阵，就得到了降维后的表示
降维投影结果如下图

3.3 PCA的限制

它可以很好的解除线性相关，但是对于高阶相关性就没有办法了，对于存在高阶相关性的数据，可以考虑Kernel PCA，通过Kernel函数将非线性相关转为线性相关；
PCA假设数据各主特征是分布在正交方向上，如果在非正交方向上存在几个方差较大的方向，PCA的效果就大打折扣了；
PCA是一种无参数技术，无法实现个性优化。

也就是说面对同样的数据，如果不考虑清洗，谁来做结果都一样，没有主观参数的介入，所以PCA便于通用实现，但是本身无法个性化的优化；

3.4 基于原生python+numpy实现PCA算法

先对原始数据零均值化(在图像里表现为白化处理，忽略各个图像不同的亮度)，然后求协方差矩阵，接着对协方差矩阵求特征向量和特征值，这些特征向量组成了新的特征空间

零均值化
假如原始数据集为矩阵dataMat，dataMat中每一行代表一个样本，每一列代表同一个特征。零均值化就是求每一列的平均值，然后该列上的所有数都减去这个均值。也就是说，这里零均值化是对每一个特征而言的
def zeroMean(dataMat):
meanVal=np.mean(dataMat,axis=0) #按列求均值，即求各个特征的均值
newData=dataMat-meanVal
return newData,meanVal
用numpy中的mean方法来求均值，axis=0表示按列求均值
求协方差矩阵
newData,meanVal=zeroMean(dataMat)
covMat=np.cov(newData,rowvar=0)
numpy中的cov函数用于求协方差矩阵，参数rowvar很重要！若rowvar=0，说明传入的数据一行代表一个样本，若非0，说明传入的数据一列代表一个样本。因为newData每一行代表一个样本，所以将rowvar设置为0
求特征值、特征矩阵
调用numpy中的线性代数模块linalg中的eig函数，可以直接由协方差矩阵求得特征值和特征向量
eigVals,eigVects=np.linalg.eig(np.mat(covMat))
eigVals存放特征值，行向量。
eigVects存放特征向量，每一列带别一个特征向量。
特征值和特征向量是一一对应的
保留主要的成分[即保留值比较大的前n个特征
第三步得到了特征值向量eigVals，假设里面有m个特征值，我们可以对其排序，排在前面的n个特征值所对应的特征向量就是我们要保留的，它们组成了新的特征空间的一组基n_eigVect。将零均值化后的数据乘以n_eigVect就可以得到降维后的数据
eigValIndice=np.argsort(eigVals) #对特征值从小到大排序
n_eigValIndice=eigValIndice[-1:-(n+1):-1] #最大的n个特征值的下标
n_eigVect=eigVects[:,n_eigValIndice] #最大的n个特征值对应的特征向量
lowDDataMat=newDatan_eigVect #低维特征空间的数据
reconMat=(lowDDataMatn_eigVect.T)+meanVal #重构数据
return lowDDataMat,reconMat
完整code

# 零均值化
def zeroMean(dataMat):
    meanVal = np.mean(dataMat, axis=0)  # 按列求均值，即求各个特征的均值
    newData = dataMat - meanVal
    return newData, meanVal


def pca(dataMat, n):
    newData, meanVal = zeroMean(dataMat)
    covMat = np.cov(newData, rowvar=0)  # 求协方差矩阵,return ndarray；若rowvar非0，一列代表一个样本，为0，一行代表一个样本

    eigVals, eigVects = np.linalg.eig(np.mat(covMat))  # 求特征值和特征向量,特征向量是按列放的，即一列代表一个特征向量
    eigValIndice = np.argsort(eigVals)  # 对特征值从小到大排序
    n_eigValIndice = eigValIndice[-1:-(n + 1):-1]  # 最大的n个特征值的下标
    n_eigVect = eigVects[:, n_eigValIndice]  # 最大的n个特征值对应的特征向量
    lowDDataMat = newData * n_eigVect  # 低维特征空间的数据
    reconMat = (lowDDataMat * n_eigVect.T) + meanVal  # 重构数据
    return lowDDataMat, reconMat

Relevant Link:

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html
http://blog.codinglabs.org/articles/pca-tutorial.html

对图像数据应用PCA算法
为使PCA算法能有效工作，通常我们希望所有的特征都有相似的取值范围(并且均值接近于0)。我们有必要单独对每个特征做预处理，即通过估算每个特征的均值和方差，而后将其取值范围规整化为零均值和单位方差。
但是，对于大部分图像类型，我们却不需要进行这样的预处理。在实践中我们发现，大多数特征学习算法对训练图片的确切类型并不敏感，所以大多数用普通照相机拍摄的图片，只要不是特别的模糊或带有非常奇怪的人工痕迹，都可以使用。在自然图像上进行训练时，对每一个像素单独估计均值和方差意义不大，因为(理论上)图像任一部分的统计性质都应该和其它部分相同，图像的这种特性被称作平稳性(stationarity)。
具体而言，为使PCA算法正常工作，我们通常需要满足以下要求

特征的均值大致为0
不同特征的方差值彼此相似
对于自然图片，即使不进行方差归一化操作，条件(2)也自然满足，故而我们不再进行任何方差归一化操作(对音频数据,如声谱,或文本数据,如词袋向量，我们通常也不进行方差归一化)
实际上，PCA算法对输入数据具有缩放不变性，无论输入数据的值被如何放大(或缩小)，返回的特征向量都不改变。更正式的说：如果将每个特征向量x 都乘以某个正数(即所有特征量被放大或缩小相同的倍数)，PCA的输出特征向量都将不会发生变化
既然我们不做方差归一化，唯一还需进行的规整化操作就是均值规整化，其目的是保证所有特征的均值都在0附近。根据应用场景，在大多数情况下，我们并不关注所输入图像的整体明亮程度。比如在对象识别任务中，图像的整体明亮程度并不会影响图像中存在的是什么物体。
更为正式地说，我们对图像块的平均亮度值不感兴趣，所以可以减去这个值来进行均值规整化。
需要注意的是，如果你处理的图像并非自然图像（比如，手写文字，或者白背景正中摆放单独物体），其他规整化操作就值得考虑了，而哪种做法最合适也取决于具体应用场合。但对自然图像而言，对每幅图像进行上述的零均值规整化，是默认而合理的处理
利用PCA进行人脸识别
接下来我们尝试对一个图像进行PCA处理，这里我们对一张图像进行PCA降维处理，进而基于降维后的低维度像素图进行人脸相似度检测。
大致思路是，收集一个基准样本集(标准人像)，然后通过PCA降维提高运算效率，之后的测试过程就是拿待测试样本图像和基准样本集中的所有图片依次计算"欧式距离"，最后的判定结果以离基准样本集欧式距离最近的那张图像为"人脸"

# -*- coding: utf-8 -*-

import numpy as np
import scipy.linalg as linA # 为了激活线性代数库mkl
from PIL import Image
from resizeimage import resizeimage
import os,glob

imageWidth = 230
imageHigth = 300
imageSize = imageWidth * imageHigth

def sim_distance(train,test):
    '''
    计算欧氏距离相似度
    :param train: 二维训练集
    :param test: 一维测试集
    :return: 该测试集到每一个训练集的欧氏距离
    '''
    return [np.linalg.norm(i - test) for i in train]


def resizeImage(filepath):
    img = Image.open(filepath)
    img = img.resize((imageWidth, imageHigth), Image.BILINEAR)
    img.save(filepath)


def resizeImages():
    picture_path = os.getcwd() + '/images/'
    for name in glob.glob(picture_path + '*.jpeg'):
        print name
        resizeImage(name)


def calcVector(arr1, arr2):
    distance1, distance2 = 0, 0
    for i in arr1:
        distance1 += i * i
    distance1 = distance1 / len(arr1)
    for i in arr2:
        distance2 += i * i
    distance2 = distance2 / len(arr2)

    return distance1 < distance2



def main():
    picture_path = os.getcwd() + '/images/'
    print "picture_path: ", picture_path
    array_list = []
    for name in glob.glob(picture_path + '*.jpeg'):
        print name
        # 读取每张图片并生成灰度（0-255）的一维序列 1*120000
        img = Image.open(name)
        # img_binary = img.convert('1') 二值化
        img_grey = img.convert('L')  # 灰度化
        array_list.append(np.array(img_grey).reshape((1, imageSize)))  # 拉长为1维

    mat = np.vstack((array_list))  # 将上述多个一维序列(每个序列代表一张图片)合并成矩阵 3*69000
    P = np.dot(mat, mat.transpose())  # 计算P
    v, d = np.linalg.eig(P)  # 计算P的特征值和特征向量
    print 'P Eigenvalues'
    print v
    print "Feature vector"
    print d

    d = np.dot(mat.transpose(), d)  # 计算Sigma的特征向量 69000 * 3
    train = np.dot(d.transpose(), mat.transpose())  # 计算训练集的主成分值 3*3
    print '训练集pca降维后的向量数组'
    print train

    # 开始测试
    # 用于测试的图片也需要resize为和训练基准样本集相同的size
    resizeImage('images/test_1.jpg')
    test_pic = np.array(Image.open('images/test_1.jpg').convert('L')).reshape((1, imageSize))
    # 计算测试集到每一个训练集的欧氏距离
    result1 = sim_distance(train.transpose(), np.dot(test_pic, d))
    print 'test_1.jpg 降维后的向量'
    print result1

    resizeImage('images/test_2.jpg')
    test_pic = np.array(Image.open('images/test_2.jpg').convert('L')).reshape((1, imageSize))
    result2 = sim_distance(train.transpose(), np.dot(test_pic, d))
    print 'test_2.jpg 降维后的向量'
    print result2

    # 欧式距离最小的即为最接近训练样本集的测试样本
    if calcVector(result1, result2):
        print 'test_1.jpg is a human'
    else:
        print 'test_2.jpg is a human'


if __name__ == '__main__':
    resizeImages()
    main()

训练集的计算结果为

/System/Library/Frameworks/Python.framework/Versions/2.7/bin/python /Users/zhenghan/PycharmProjects/littlehann/just4fun.py
/Users/zhenghan/PycharmProjects/littlehann/images/train_2.jpeg
/Users/zhenghan/PycharmProjects/littlehann/images/train_3.jpeg
/Users/zhenghan/PycharmProjects/littlehann/images/train_1.jpeg
picture_path:  /Users/zhenghan/PycharmProjects/littlehann/images/
/Users/zhenghan/PycharmProjects/littlehann/images/train_2.jpeg
/Users/zhenghan/PycharmProjects/littlehann/images/train_3.jpeg
/Users/zhenghan/PycharmProjects/littlehann/images/train_1.jpeg
P Eigenvalues
[ 444.76007266 -199.2827456    -8.47732705]
Feature vector
[[-0.557454   -0.7252759   0.40400484]
 [-0.69022539  0.1344664  -0.71099065]
 [-0.46133931  0.67519898  0.57556266]]
pca
[[ -2.94130809e+09  -2.81400683e+09  -2.27967171e+09]
 [ -4.53920521e+08   2.41231868e+07   4.49796574e+07]
 [  5.06334430e+08   1.43429000e+08   2.56660545e+08]]
test_1.jpg
[859150941.34167683, 507130780.35877681, 98296821.771007225]
test_2.jpg
[921097812.32432926, 784122768.95719075, 323861431.46721846]
test_1.jpg is a human

Process finished with exit code 0

利用如下图片进行识别测试，首先右乘得到各自在三个主轴上的值(对测试样本也同样进行PCA化)，然后计算出该图片到训练样本中的三张图片的欧式距离

test_1.jpg
[859150941.34167683, 507130780.35877681, 98296821.771007225]
test_2.jpg
[921097812.32432926, 784122768.95719075, 323861431.46721846]
test_1.jpg is a human
再用别的测试集类来测试

上述的代码中我们自己实现了PCA的代码，实际上这个逻辑可以用sklearn来完成

sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)  

1. n_components: PCA算法中所要保留的主成分个数n，也即保留下来的特征个数n
    1) 缺省时默认为None，所有成分被保留 
    2) 赋值为int，比如n_components=1，将把原始数据降到一个维度 
    3) 赋值为string，比如n_components='mle'，将自动选取特征个数n，使得满足所要求的方差百分比。
2. copy: 表示是否在运行算法时，将原始训练数据复制一份。若为True，则运行PCA算法后，原始训练数据的值不会有任何改变，因为是在原始数据的副本上进行运算；若为False，则运行PCA算法后，原始训练数据的值会改，因为是在原始数据上进行降维计算
    1) 缺省时默认为True 
3. whiten: 白化，使得每个特征具有相同的方差(即去均值化)
    1) 缺省时默认为False

# -*- coding: utf-8 -*-

from sklearn.decomposition import PCA

data = [[ 1.  ,  1.  ],
       [ 0.9 ,  0.95],
       [ 1.01,  1.03],
       [ 2.  ,  2.  ],
       [ 2.03,  2.06],
       [ 1.98,  1.89],
       [ 3.  ,  3.  ],
       [ 3.03,  3.05],
       [ 2.89,  3.1 ],
       [ 4.  ,  4.  ],
       [ 4.06,  4.02],
       [ 3.97,  4.01]]

if __name__ == '__main__':
    pca = PCA(n_components=1)
    newData = pca.fit_transform(data)
    print newData

你可能感兴趣的:(降维)

奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
甘特图：项目经理的时空魔方，解锁高效管理的秘密
在1917年，机械工程师亨利·甘特发明了一张看似简单的条形图，却彻底改变了人类管理复杂工程的方式。如今，这张图表在波音787客机研发、北京冬奥会场馆建设中依然发挥着关键作用。甘特图不仅是进度条的可视化，更是项目管理的时空坐标系——它能将抽象的时间、资源和任务转化为具象的作战地图，让项目经理如同掌握时空魔方般操控项目进程。一、甘特图的四大降维打击优势时空折叠术：三维信息二维呈现时间维度：在特斯拉上海
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
数据挖掘中的数据预处理：填充与主成分分析阿什么名字不会重复呢数据挖掘人工智能
数据挖掘中的数据预处理：填充与主成分分析在数据挖掘中，数据预处理是非常重要的一步。现实世界中的数据通常是不完整的，包含噪声、缺失值或异常值，因此在进行模型训练或分析前，我们需要对数据进行清理和转换。本文将介绍数据预处理中的两种常见填充方法（01填充和均值填充），以及一种用于降维的技术——主成分分析（PCA）。一、数据填充数据填充是处理缺失值的常见方法。在实际场景中，数据集可能会因为各种原因出现缺失
【sklearn 05】sklearn功能模块 @金色海岸 sklearn 人工智能 python
sklearn功能模块分类：识别某个对象属于那个类别回归：预测与对象相关联的连续值属性聚类：将相似对象自动分组降维：减少要考虑的随机变量的数量模型选择：比较、验证、选择参数和模型预处理：特征提取和归一化
【sklearn 04】DNN、CNN、RNN @金色海岸 sklearn dnn cnn
DNNDNN（DeepNeuralNetworks，深度神经网络）是一种相对浅层机器学习模型具有更多参数，需要更多数据进行训练的机器学习算法CNNCNN（convolutionalNeuralNetworks，卷积神经网络）是一种从局部特征开始学习并逐渐整合的神经网络。卷积神经网络通过卷积层来进行特征提取，通过池化层进行降维，相比较全连接的神经网络，卷积神经网络降低了模型复杂度，减少了模型的参数，
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线云梦优选计算机数据库大数据计算机视觉学习人工智能
一、基础准备1.数学基础线性代数深入矩阵运算，理解矩阵乘法、转置、逆等基本概念。掌握特征值与特征向量的几何意义，理解其在图像压缩、特征提取中的应用。学习奇异值分解（SVD）及其在降维和数据压缩中的具体应用。概率与统计熟悉贝叶斯定理及其在分类任务中的应用，如朴素贝叶斯分类器。理解常见概率分布（如正态分布、二项分布）及其性质。学习统计推断方法，如假设检验、置信区间估计，以评估模型性能。微积分掌握梯度、
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
形象理解线性代数的本质（三）矩阵的升维和降维 _躬行_ 线性代数机器学习基础矩阵线性代数
引子：降维打击科幻小说《三体》里一种很魔幻的攻击方法——降维打击，以其神奇的作用方式和巨大的威力刷新了我们的三观。而在矩阵乘法计算中，这种降维打击时刻存在着。本节讲解一下矩阵乘法中造成的升维和降维。一、矩阵的降维还用游戏的例子，有4个角色，每个人都有不同的能力，将其用矩阵表示出来现在我们要评估他们的两种能力：领兵打仗的能力和协同将领的能力只要将两个矩阵相乘，就能根据方法X对象的法则评估出他们这两种
【漫话机器学习系列】129.主成分分析（Principal Component Analysis，PCA） IT古董漫话机器学习系列专辑机器学习人工智能
主成分分析（PCA）：降维与特征提取的强大工具1.什么是主成分分析（PCA）？主成分分析（PrincipalComponentAnalysis，PCA）是一种常见的数据降维技术，主要用于将高维数据投影到低维空间，同时尽可能保留数据的主要信息。PCA通过线性变换，将原始特征变量转换为一组新的变量，这些新变量被称为主成分（PrincipalComponents）。在这张图中，我们可以看到PCA的核心概
人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
池化的定义与核心思想 code 旭 AI人工智能学习 python numpy 人工智能
一、池化的定义与核心思想定义：池化是卷积神经网络（CNN）中的一种下采样操作，用于降低特征图的空间维度（宽高），保留主要特征。核心目标：减少计算量：缩小特征图尺寸，降低后续层参数规模。增强模型鲁棒性：对微小平移、旋转等变化不敏感。防止过拟合：通过降维减少冗余信息。二、池化的数学公式1.最大池化（MaxPooling）取池化窗口内的最大值：yi,j=max⁡p=0kh−1max⁡q=0kw−1xi⋅
《颠覆认知，我用大模型+Redis实现SQL智能补全，开发效率暴涨500%》煜bart mysql AI编程人工智能 redis
一、前言：当SQL补全遇到大模型（插入传统SQL补全工具与ChatGPT对比图）你是否还在为这些场景抓狂？-凌晨3点记不清HiveQL的窗口函数语法-面对新接触的ClickHouse方言不知所措-团队新人总把STR_TO_DATE写成DATE_FORMAT传统IDE的SQL补全就像"人工智障"，直到我把大模型装进Redis…##二、效果展示：智能补全的降维打击（GIF动图展示输入SELECT*FR
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
无监督AI训练:机遇与挑战并存 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
无监督AI训练：机遇与挑战并存关键词：无监督学习、AI训练、机器学习、聚类算法、降维技术、深度学习摘要：本文深入探讨无监督AI训练这一新兴领域，首先介绍了其基本概念与原理，然后详细解析了无监督AI训练的核心技术，如聚类算法和降维技术，以及无监督深度学习。接着，本文通过实际项目案例分析，展示了无监督AI训练的应用实践。最后，本文分析了无监督AI训练面临的挑战，并展望了其未来发展趋势。通过本文的阅读，
DeepSeek smallpond搅动大数据风云彭铖洋 javascript reactjs
DuckDB走向分布式？DeepSeek的smallpond涉足大数据DuckDB！降维打击传统大数据领域，搅动中台数据工程风云！DeepSeek正在利用smallpond（一种新的、简单的分布式计算方法）推动DuckDB超越其单节点根源。但它是否解决了可扩展性挑战——还是带来了新的权衡？DeepSeek最近搞了个大新闻。他们的R1模型在2025年1月发布时，就直接干翻了OpenAI的O1等竞争对
认知决定财富水平调皮的芋头人工智能神经网络
理解"认知边界即财富边界"的深层逻辑，需穿透表象直达认知科学的哲学根基与复杂系统运作规律。以下是基于跨学科视角的深度解构：一、认知本体论：世界模型的构建机制量子观察者效应投射人类认知本质是量子世界在经典尺度下的降维投影（量子退相干理论）。当投资者观察市场时，实际是用经典认知框架对量子概率云进行坍缩。索罗斯的"反身性理论"本质是观察到市场参与者的认知坍缩会反向重构现实经济场。认知基因编码原理人脑通过
矩阵压缩（数组降维，对角矩阵，对称矩阵，稀疏矩阵） Amazing_snack 数据结构与算法矩阵线性代数数据结构
矩阵压缩（降维，对角矩阵，对称矩阵，稀疏矩阵）1.二维数组降一维问题描述：将二维数组压缩成一维数组，可以节省空间或提高计算效率。常见的方式是按行或按列将二维数组展平为一维数组。映射公式：按行优先展平（Row-majororder）：二维数组A[m][n]展开成一维数组B[m*n]，映射公式为：B[i×n+j]=A[i][j]\mathbf{{\color{Red}B[i×n+j]=A[i][j]}
基于PCA+RF的数据分类模型含matlab代码（PCA降维后输入进RF模型） Jason_Orton 分类 matlab 算法人工智能机器学习随机森林
本代码实现了对高维数据通过PCA进行降维后，再输入到RF模型中去，从而提高模型精度的目的。代码中都有详细的注释，直接替换数据就可以使用。一.概述1.主成分分析（PCA）目的：降维，减少数据的维度，同时保留尽可能多的原始数据的方差。步骤：标准化数据：为了使每个特征对总的方差贡献相似，通常需要对数据进行标准化处理。计算协方差矩阵：确定数据集中特征之间的协方差。计算特征值和特征向量：从协方差矩阵中提取特
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
计算机网络面试题合集（TCP/IP 篇） interviewpass 面试题集计算机网络 tcp/ip 网络数据库面试求职招聘
每日定期分享|面试求职经验|个人成长开篇寄语面试不必死记硬背，带着GPT去面试简直降维打击！为您推荐一款颠覆性的GPT面试助手软件：“会议面试精灵”。这款工具能够实时分析语音内容、智能识别面试问题并生成精准答案，让您轻松应对八股文题目，从容处理各类复杂面试问题。毕竟八股文在工作中很少使用，仅作为面试的筛选工具，不值得投入过多的精力。如何获取“会议面试精灵”？-直接访问下载链接：https://ww
机器学习之学习笔记孤城laugh 机器学习学习笔记人工智能 python
机器学习-学习笔记1.简介2.算法3.特征工程3.1数据集3.2特征提取3.3特征预处理3.4特征降维4.分类算法4.1`sklearn`转换器和估计器4.2K-近邻算法（KNN）4.3模型选择与调优4.4朴素贝叶斯算法4.5决策树4.6集成学习方法之随机森林5.回归算法5.1线性回归5.2过拟合与欠拟合5.3岭回归5.4逻辑回归（实际上是分类算法，用于解决二分类问题）6.聚类算法1.无监督学习2
语义向量模型全解：从基础到现在的deepseek中的语义向量主流模型来自于狂人人工智能语言模型
一、语义向量模型：自然语言处理的基石语义向量模型（SemanticVectorModel）是自然语言处理（NLP）的核心技术，它将词汇、句子或文档映射为高维向量，在数学空间中量化语义信息。通过向量距离（如余弦相似度）衡量语义的相似性，支撑了搜索引擎、情感分析、机器翻译等实际应用。1.1发展简史1980s~2000s：基于统计的浅层模型，如TF-IDF（直接表征词的重要性）、LSA（通过矩阵分解降维
NLP自然语言处理：文本表示总结 - 上篇word embedding（基于降维、基于聚类、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）陈宸-研究僧 NLP自然语言处理
文本表示分类（基于表示方法）离散表示one-hot表示词袋模型与TF-ID分布式表示基于矩阵的表示方法降维的方法聚类的方法基于神经网络的表示方法NNLMCBOWSkip-gramGloVeELMoGPTBERT目录一、文本离散表示1.1文本离散表示：one-hot1.2文本离散表示：词袋模型与TF-IDF1.2.1词袋模型（bagofwords）1.2.2对词袋模型的改进：TF-IDF二、文本分布
MATLAB基础应用精讲-【数模应用】主成分(pca)分析（附python代码实现）林聪木 matlab 人工智能大数据
目录前言知识储备降维概述算法原理什么是PCAPCA降维过程PCA算法数学步骤选择主成分个数（即k的值）sklearn中参数的解释数学模型协方差协方差矩阵编辑编辑原理推导编辑编辑编辑编辑实际操作主成分分析的计算方法方法1.协方差+特征值分解方法2：奇异值分解对比不同方法计算效率物理意义算法步骤SPSSAU主成分(pca)分析说明1、信息浓缩2、权重计算3、综合得分【综合竞争力】疑难解惑成分得分后用于
JDK活化石复活：setStream()抢救指南，看完想给Applet开追悼会筱涵哥 Java基础入门 java
一、时空错乱现场：当我试图用Applet传2024年的数据1.1来自侏罗纪的SOS"把这个2003年的数据采集Applet改造成能对接新系统！"——看着要传输的JSON数据，我仿佛听到硬盘在哀嚎："臣妾做不到啊！"1.2现代程序员的降维打击//试图传输JSON数据时try{InputStreamjsonStream=newByteArrayInputStream("{\"data\":1}".ge
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod