Python_YBYB

PCA降维的来龙去脉及Python实现

1 PCA降维

2 在讲PCA降维的原理前需要知道的一些东西

2.1 方差

2.2 协方差及协方差矩阵

2.3 向量在不同基下的坐标

2.4 矩阵乘法

2.5 矩阵的特征值和特征向量

2.6 实对称矩阵正交相似于对角矩阵

3 PCA降维的核心思想

4 PCA降维的原理

4.1 PCA降维具体例子示范

4.2 PCA降维原理分析

5 Python实现PCA降维

1 PCA降维

随着社会的飞速发展，我们已经在分析问题或者解决问题时，经常会遇到大数据集。高维度的大数据集处理起来并非易事，不但会占用大量的资源，而且也会导致计算机运行缓慢。

一个自然的想法是，能不能删除了某一部分数据，而留下剩下的数据？这样会使得数据的复杂度降低，从而节省时间和资源，答案是肯定的。但是又会有新的一个问题出现，这样的删除是不是随意的呢？

当然不是，我们在删除的时候应该要尽可能地保留原始数据的信息，即减少因部分特征删除而导致的信息损失。考虑到大数据集的各个特征维度之间有些并不是相互独立的，有些特征具有一定的相关性。我们相信，删除与所保留特征相关性较高的数据特征，并不会造成原始数据信息的大量丢失。

例如，某电商平台的店铺数据有“浏览量”、“访问量”、“下单量”、“成交量”。“浏览量”与“访问量”并不是独立的，“浏览量”大时，我们相信“访问量”也大，“下单量”大时，“成交量”也大。当我们删除“访问量”和“成交量”这两个特征数据时，我们坚信，这样原始数据信息的损失是很小的。

因此，PCA要做的事儿就是要在以下两个方面之间做一个平衡：a.降低原始大数据集的维度（复杂度降低了）；b.使得降维后的数据集，在原来大数据集的基础上损失的信息尽可能的小。

PCA降维的应用非常广泛，它结合判别分析、聚类和回归分析等等可以解决许多实际问题。在机器学习和数据挖掘的实践中应用主要体现在以下几个方面：

（1）实现数据可视化。我们生存的物理空间是三维空间，任何三维以上的数据我们靠视觉是无法感知的。将高维数据降到低维，使得数据可视化，方便我们洞察数据背后所蕴藏的规律。

（2）缓解过拟合。特征维度越大，以为这特征越多，模型就越复杂，越容易过拟合。通过降低维度，缓解过拟合。

（3）提高计算性能。高维数据不仅占用过多的储资源，而且由于维度较高导致计算的复杂度不断上升。因此，可以通过PCA降维节约储存资源和计算资源，提高计算性能。

2 在讲PCA降维的原理前需要知道的一些东西

2.1 方差

方差和标准差是最常用来度量一组数据最常用的指标。其实，在高中的时候我们就以及熟知以下公式：

均值： $\bar{x}=\frac{1}{n}\cdot\sum_{i=1}^{n}x_{i}$

方差： $S^{2}=\frac{1}{n-1}\cdot\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$

标准差： $S=\sqrt{\frac{1}{n-1}\cdot\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}$

方差和标准差能够很好地描述一组数据的分布情况：如果一组数据越“挨的紧”或者越“拥挤”，这组数据的方差和标准差就越小。反之，越“远”或越“分散”，那么这组数据的方差和标准差就越大。

例如，有两组数据：[8,12,9,10,11,8,12]和[6,1,7,11,13,15,17]，虽然两组数据的均值都是10，但是前者的方差为3，后者的方差为31.66667。这也就是说前一组数据分布得较为“拥挤”，后一组数据分布得较为“分散”。

2.2 协方差及协方差矩阵

协方差度量的是特征与特征之间的关系。

例如我们收集到某地居民的身高，年龄，体重，胸宽，臂长的数据信息。对于这样的数据集，我们可以分别独立地计算出每一个特征数据的方差，但是我们如果还想知道这些特征之间的关系，就需要计算协方差。

对于都含有个数据的两组数据和,这两组数据的协方差计算公式为:

$cov(x,y)=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1}$

协方差所刻画的是，两个变量在变化的过程中变化方向的一致性和变化大小的程度。

若变大也变大，即两个变量是同向变化的，此时协方差为正；反之为负。两者的变化趋势相互独立的时候，协方差为0。

方差主要是针对一维数据，协方差主要针对二维数据，那么多维数据的这种关系如何刻画呢？这个时候，协方差矩阵出场了。

协方差矩阵就是用来来那个多特征的两两之间协方差的矩阵。一般地，设有个特征，记为 $x_{1},x_{2},\cdots ,x_{n}$ ,那么这个特征的协方差矩阵为：

$\begin{Bmatrix} Cov(x_{1},x_{1}) &Cov(x_{1},x_{2}) &\cdots &Cov(x_{1},x_{n}) \\ Cov(x_{2},x_{1}) &Cov(x_{2},x_{2}) &\cdots &Cov(x_{2},x_{n}) \\ \vdots &\vdots &\ddots &\vdots \\ Cov(x_{n},x_{1})&Cov(x_{n},x_{2}) &\cdots &Cov(x_{n},x_{n}) \end{Bmatrix}$

由 $Cov(x_{i},x_{j})=Cov(x_{j},x_{i})$ 可知，协方差矩阵为实对称矩阵。再注意到，一组数据与它本身的协就是该组数据的方差，故协方差矩阵的主对角元分别是各个特征的方差。

2.3 向量在不同基下的坐标

基是线性空间的一个基本概念，其特点体现在以下两个方面：a.组成基的向量组线性无关;b.线性空间中的任何一个向量都可以由基线性表出。基是线性空间构成的基础，也就是说，基一旦确定了，那么线性空间也就确定了。

线性空间大家也不用想复杂了，就是一些向量构成的集合。

例如， $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 这个向量实际上是处于 $\begin{bmatrix} 1\\ 0\end{bmatrix}$ ， $\begin{bmatrix} 0\\ 1\end{bmatrix}$ 这组标准正交基（标准：每个向量模长都为1，正交：垂直/内积为0）所张成的空间中。 $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 在轴上的投影，实际上就是 $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 与 $\begin{bmatrix} 1\\ 0\end{bmatrix}$ 的内积值，即该投影值为 $\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} 1\\ 0\end{bmatrix}=4$ 。同样， $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 在轴上的投影就是 $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 与 $\begin{bmatrix} 0\\ 1\end{bmatrix}$ 的内积，即该投影值为 $\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} 0\\ 1\end{bmatrix}=3$ 。

上述的向量投影可以写成矩阵向量相乘的形式：

$\begin{bmatrix} 1 &0 \\ 0&1 \end{bmatrix}\begin{bmatrix} 4\\ 3\end{bmatrix}=\begin{bmatrix} 4\\ 3\end{bmatrix}$ 。

那么选择的基不同，相应向量的坐标也自然会不同。例如，如果选择两个标准正交向量 $\begin{bmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}}\end{bmatrix}$ 和 $\begin{bmatrix} \frac{1}{\sqrt{2}}\\ -\frac{1}{\sqrt{2}}\end{bmatrix}$ 作为基，那么 $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 这个向量在这两个向量所张成的空间中的坐标可以这样来考虑： $\begin{bmatrix} 4\\ 3\end{bmatrix}$

在向量 $\begin{bmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}}\end{bmatrix}$ 上的投影是两者的内积 $\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}}\end{bmatrix}=\frac{7\sqrt{2}}{2}$ 。同样地， $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 在向量 $\begin{bmatrix} \frac{1}{\sqrt{2}}\\ -\frac{1}{\sqrt{2}}\end{bmatrix}$ 上的投影为 $\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} \frac{1}{\sqrt{2}}\\ -\frac{1}{\sqrt{2}}\end{bmatrix}=\frac{\sqrt{2}}{2}$ ，即向量 $\begin{bmatrix} 4\\ 3\end{bmatrix}$ 在上述两向量做为基张成的空间中的坐标为 $\begin{bmatrix} \frac{2\sqrt{7}}{2}\\ \frac{\sqrt{2}}{2}\end{bmatrix}$ 。写成矩阵的形式就是：

$\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}} \end{bmatrix}\begin{bmatrix} 4\\ 3\end{bmatrix}=\begin{bmatrix} \frac{2\sqrt{7}}{2}\\ \frac{\sqrt{2}}{2}\end{bmatrix}$ 。

现在将上述结果推广到维的空间中：

对于任意维空间中的向量 $\alpha =\begin{bmatrix} x_{1} &x_{2} &\cdots &x_{m-1} &x_{m} \end{bmatrix}^{T}$ ,可以理解成其位于以个标准正交向量 $\begin{bmatrix} 1 &0 &0 &\cdots &0 \end{bmatrix}^{T},\begin{bmatrix} 0 &1 &0 &\cdots &0 \end{bmatrix}^{T},\cdots ,\begin{bmatrix} 0 &0 &0 &\cdots &1 \end{bmatrix}^{T}$ 为基底所张成的空间中，且其坐标分量就是其分别在这个维的标准正交向量上的投影值。可写成矩阵与向量相乘的形式：

$\begin{bmatrix} 1 &0 &0 &\cdots &0 \\ 0&1 &0 &\cdots &0 \\ 0&0 &1 &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &1 \end{bmatrix}\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ \vdots \\ x_{m}\end{bmatrix}=\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ \vdots \\ x_{m}\end{bmatrix}$ 。

所以，我们如果想将任意一个向量 $\alpha =\begin{bmatrix} x_{1} &x_{2} &\cdots &x_{m-1} &x_{m} \end{bmatrix}^{T}$ 变换到一个由个维的标准正交基向量所组成的新空间中，只需要将这( $k\leq m$ )个维的标准正交基向量以行向量的形式做成一个矩阵，然后将矩阵左乘向量 $\alpha$ 的原坐标即可得到 $\alpha$ 在新空间中的坐标。

2.4 矩阵乘法

在上面，我们说到对于任意一个向量 $\alpha =\begin{bmatrix} x_{1} &x_{2} &\cdots &x_{m-1} &x_{m} \end{bmatrix}^{T}$ ，要将其变换到以指定个数的标准正交向量的新空间中，只要将指定个数(比如指定个数为)的这些维的标准正交向量以行向量作成矩阵的样子，记为，拿这个东西左乘 $\alpha$ 可以了。

比如说，这个维的标准正交向量我们记为 $\beta _{1},\beta _{2},\cdots, \beta _{k}$ (这这些都是列向量)，那么要得到 $\alpha$ 在这组基张成的空间中的坐标，就可以这样来计算：

$\begin{bmatrix} \beta _{1}^{T}\\ \beta _{2}^{T}\\ \beta _{3}^{T}\\ \vdots \\ \beta _{k}^{T}\end{bmatrix}\alpha =\begin{bmatrix} \beta _{1}^{T}\alpha \\ \beta _{2}^{T}\alpha \\ \beta _{3}^{T}\alpha \\ \vdots \\ \beta _{k}^{T}\alpha \end{bmatrix}$ (注意：内积本质是一个实数)

上面仅仅知识针对一个向量作换，受到上述的启示我们容易发现，如果不止一个向量作变换，而是有个向量 $\alpha _{1},\alpha _{2},\cdots ,\alpha _{n}$ 也想作变换：

$\begin{bmatrix} \beta _{1}^{T}\\ \beta _{2}^{T}\\ \beta _{3}^{T}\\ \vdots \\ \beta _{k}^{T}\end{bmatrix}\begin{bmatrix} \alpha _{1} &\alpha _{2} &\alpha _{3} &\cdots &\alpha _{n} \end{bmatrix}=\begin{bmatrix} \beta _{1}^{T}\alpha _{1} &\beta _{1}^{T}\alpha _{2} &\beta _{1}^{T}\alpha _{3} &\cdots &\beta _{1}^{T}\alpha _{n} \\ \beta _{2}^{T}\alpha _{1}&\beta_{2}^{T}\alpha _{2} &\beta _{2}^{T}\alpha _{3} &\cdots &\beta _{2}^{T}\alpha _{n} \\ \beta _{3}^{T}\alpha _{1}&\beta _{3}^{T}\alpha _{2} &\beta _{3}^{T}\beta _{3} &\cdots &\beta _{3}^{T}\alpha _{n} \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ \beta _{k}^{T}\alpha _{1} &\beta _{k}^{T}\alpha _{2} &\beta _{k}^{T}\alpha _{3} &\cdots &\beta _{k}^{T}\alpha _{n} \end{bmatrix}$

其中 $\beta _{j}$ 是标准正交的列向量， $\beta _{j}^{T}$ 是对应的行向量，表示第个基向量（ $j=1,2,\cdots ,k$ ）； $\alpha _{i}$ 表示的是第个需要变换的列向量（ $i=1,2,\cdots ,n$ ）。

我们在面对大数据集的时候，其实我们可以将数据集看作一个矩阵。这里，是一个不超过的正数，决定了通过降维以后得到的维度，即可以将维的数据 $\alpha _{i}$ 变换到更低维的空间中，变换后的维度取决于正整数。所以，矩阵相乘也可以表示降维变换。

通过上面的表述来看，矩阵相乘的几何意义就是：当左端矩阵行满秩时，两个矩阵相乘的结果就是将右端矩阵的列向量变换到左端矩阵的行向量为基底的新空间中。

2.5 矩阵的特征值和特征向量

特征值和特征向量是矩阵（或线性变换）的重要概念之一，有许多广泛的应用。

阶方阵的特征值和特征向量定义如下：

若有非零向量 $\alpha$ ，使得 $A\alpha =\lambda \alpha$ ，则 $\lambda$ 称为的特征值， $\alpha$ 称为属于特征值 $\lambda$ 的特征向量。

这里有2个重要的定理需要知道：（证明这里就不说了，相关内容可查线性代数的有关资料）

Theorem1:不同特征值的特征向量线性无关。

Theorem2:不用特征值的特征向量一定正交（内积为0）。

先知道这个东西是非常有必要的，因为降维的时候，低维的新空间的基其实就是原数据集矩阵去零均值化的矩阵的单位正交特征向量。此时此刻，你一定很好奇，先别急，继续往下看。

2.6 实对称矩阵正交相似于对角矩阵

上面说到了阶方阵的特征值和特征向量，如果级矩阵有个不同的特征值，分别记为 $\lambda _{1},\lambda _{2},\cdots ,\lambda _{n}$ ，那每一个特征值都有一个特征向量，故有个特征向量，对应地分别记为 $\beta _{1},\beta _{2},\cdots ,\beta _{n}$ ，那么根据特征值特征向量的定义，必然有 $A\beta _{i}=\lambda _{i}\beta _{i}$ ， $i=1,2,\cdots ,n$ ，写成矩阵乘积的样子，就是

$A\begin{bmatrix} \beta _{1} &\beta _{2} &\cdots &\beta _{n} \end{bmatrix}=\begin{bmatrix} \beta _{1} &\beta _{2} &\cdots &\beta _{n} \end{bmatrix}\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{n} \end{bmatrix}$ ，

而根据Theorem1, $\beta _{1},\beta _{2},\cdots ,\beta _{n}$ 线性无关，故矩阵 $\begin{bmatrix} \beta _{1} &\beta _{2} &\cdots &\beta _{n} \end{bmatrix}$ 满秩（可逆），记为，故上述式子可以写成

$P^{-1}AP=\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{n} \end{bmatrix}$ 。

对于实对称矩阵，它有较好的性质，定理表述如下：

Theorem3:设是级实对称矩阵， $\lambda _{1},\lambda _{2},\cdots ,\lambda _{n}$ 是的实对称矩阵，则必存在正交矩阵使得：

$TAT^{-1}=\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{n} \end{bmatrix}$ ，

其中满足： $TT^{-1}=T^{-1}T=E$ ，也就说，上述的列向量是由的个单位特征向量构成的矩阵。

关于上述定理的证明此处就不在给出，想了解给多的读者可查询线性代数有关资料。

3 PCA降维的核心思想

（1）核心思想一：基变换向量投影

对于任何一个维的向量 $\alpha$ ，如果要想将它投影到低维（ $k,k\leq m$ ）的空间中，我们可以利用维空间的一组标准正交基以行向量的形式组成的矩阵，然后将左乘向量 $\alpha$ 即可得到投影结果。

刚刚说的只是单个维向量的情况，那如果是多个维向量 $\alpha _{1},\alpha _{2},\cdots ,\alpha _{n}$ 也想降维，我们也可以作同样的处理，设降到低维目标空间的标准正交基分别是 $\varepsilon _{1},\varepsilon _{2},\cdots ,\varepsilon _{k}$ ，那么降维处理如下进行：

$\begin{bmatrix} \varepsilon _{1}^{T}\\ \varepsilon _{2}^{T}\\ \varepsilon _{3}^{T}\\ \vdots \\ \varepsilon _{k}^{T}\end{bmatrix}\begin{bmatrix} \alpha _{1} &\alpha _{2} &\alpha _{3} &\cdots &\alpha _{n} \end{bmatrix}=\begin{bmatrix} \varepsilon _{1}^{T}\alpha _{1} &\varepsilon _{1}^{T}\alpha _{2} &\varepsilon _{1}^{T}\alpha _{3} &\cdots &\varepsilon _{1}^{T}\alpha _{n} \\ \varepsilon _{2}^{T}\alpha _{1} &\varepsilon _{2}^{T}\alpha _{2} &\varepsilon _{2}^{T}\alpha _{3} &\cdots &\varepsilon _{2}^{T}\alpha _{n} \\ \varepsilon _{3}^{T}\alpha _{1} &\varepsilon _{3}^{T}\alpha _{2} &\varepsilon _{3}^{T}\alpha _{3} &\cdots &\varepsilon _{3}^{T}\alpha _{n} \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ \varepsilon _{k}^{T}\alpha _{1} &\varepsilon _{k}^{T}\alpha _{2} &\varepsilon _{k}^{T}\alpha _{3} &\cdots &\varepsilon _{k}^{T}\alpha _{n} \end{bmatrix}$

所得结果的矩阵中，每一个列向量都是降维后的结果，也就是投影到低维目标空间中的结果。

（2）核心思想二：协方差归零投影

我们作数据降维，希望将原始数据的特征维度降低，同时又要尽可能的减少原始数据的信息损失。要在上述两点之间找到一个平衡点可不是意见容易的事儿。

仔细想一想，降维后的数据应该具备这样的特点：

各个维度之间的关联度尽可能的低，因为有关联的每一个组，我们只希望留下一个，其余的删除以降低数据集的复杂度。从协方差上来看，也就是降维后的特征两两之间的协方差为0是最好的，即降维后的数据集其协方差矩阵非对角上的元素全为0，这样的降维投影才是我们想要的。

（3）核心思想三：最大方差投影

我们平时对三维空间的物体拍照时，实际上就是将三维空间的物体投影到二维空间。我们先来观察一组拍摄笔筒的照片：

图3-1

笔筒是三维空间中的立体，照片是二维空间中的平面，从立体到平面的过程中肯定会失真（丢失信息），但是，不同的投影方式（拍摄角度）失真的程度不相同。如图3-1，三张图片都是拍摄同一个笔筒，但是由于拍摄角度的不同，第三张图片最大程度地保留了三维空间中笔筒的“重要信息”。

同理，我们在对数据作降维处理的时候，希望投影的方式能够使得降维后的数据尽可能的“分散”，这样可以使得我们尽可能地减小由于降维带来的信息损失，也就说，希望各个特征数据的方差尽可能地大。

4 PCA降维的原理

对数据作投影变换，实际上就是要找到要变换到一组目标新空间的标准正交基，将其以行向量作成一个矩阵，然后左乘数据矩阵即可实现降维，问题的关键在于，如何根据已知的大数据集和和需要降到的新空间的维度去找到这样的矩阵。

这里我们需要特别注意的是，我们要删除的是部分特征数据，根据前面所讲的基变换向量投影的原理，我们最后降下来的是原来数据集的行特征。因此，左乘矩阵相当于减少了原来数据集的行特征。如果我们要删除的列特征，那就用的转置右乘数据集矩阵或者用左乘数据集矩阵的转置即可。

下面讨论如何按照要求找的问题：

4.1 PCA降维具体例子示范

在这之前，先以一个具体例子来说明，下表（表4-1）是摘自于2021年举行的“华为杯”研究生数学建模竞赛B题的数据中的监测点A的污染物浓度，包含6个特征数据，共有9个数据样本。

表4-1

监测日期	SO2监测浓度(μg/m³)	NO2监测浓度(μg/m³)	PM10监测浓度(μg/m³)	PM2.5监测浓度(μg/m³)	O3最大八小时滑动平均监测浓度(μg/m³)	CO监测浓度(mg/m³)
2021/4/1	2	12	25	7	51	0.6
2021/4/2	4	17	29	12	61	0.7
2021/4/3	7	25	40	18	88	0.8
2021/4/4	4	25	49	21	47	1
2021/4/5	4	32	52	28	67	1.1
2021/4/6	6	43	82	49	259	1.2
2021/4/7	4	23	48	27	122	0.9
2021/4/8	3	36	33	15	67	0.9
2021/4/9	4	41	35	18	51	1.1

原数据集有6个特征数据，现在希望能够降到3维，

为了方便计算展示，将特征数据零均值化（每一个污染物浓度数据减去对应污染物浓度数据值）如表4-2所示：

表4-2

SO2监测浓度(μg/m³)	NO2监测浓度(μg/m³)	PM10监测浓度(μg/m³)	PM2.5监测浓度(μg/m³)	O3最大八小时滑动平均监测浓度(μg/m³)	CO监测浓度(mg/m³)
-2.22222	-16.2222	-18.6667	-14.6667	-39.3333	-0.32222
-0.22222	-11.2222	-14.6667	-9.66667	-29.3333	-0.22222
2.777778	-3.22222	-3.66667	-3.66667	-2.33333	-0.12222
-0.22222	-3.22222	5.333333	-0.66667	-43.3333	0.077778
-0.22222	3.777778	8.333333	6.333333	-23.3333	0.177778
1.777778	14.77778	38.33333	27.33333	168.6667	0.277778
-0.22222	-5.22222	4.333333	5.333333	31.66667	-0.02222
-1.22222	7.777778	-10.6667	-6.66667	-23.3333	-0.02222
-0.22222	12.77778	-8.66667	-3.66667	-39.3333	0.177778

#上述计算过程的代码：

import pandas as pd
import numpy as np
data=pd.read_excel('F:\\研究生生涯\\基于Python的机器学习实践\\Python统计建模——多元分析\\主成分分析\\监测点A的污染物浓度.xlsx')
data1=data.iloc[:,2:8]   #提取特征数据
print(data1)
y=data1.mean(axis=0)
new_data=data1-y
print(new_data)
new_data.to_excel('F:\\研究生生涯\\基于Python的机器学习实践\\Python统计建模——多元分析\\主成分分析\\new_data1.xlsx',index=False)

将上述经过零均值化的数据记为矩阵,

第一步，计算的6个列向量（各污染物浓度，分别是 $SO_{2},NO_{2},PM10,PM2.5,O_{3},CO$ ）的协方差矩阵:

$C=\frac{1}{6-1}A^{T}A=\frac{1}{5}A^{T}A$

利用程序计算得到A的列向量的协方差矩阵为：

[[2.19444444e+00 5.56944444e+00 1.42083333e+01 9.95833333e+00
5.40416667e+01 1.06944444e-01]
[5.56944444e+00 1.11694444e+02 1.05458333e+02 8.27083333e+01
3.33666667e+02 1.85694444e+00]
[1.42083333e+01 1.05458333e+02 2.94000000e+02 2.06500000e+02
9.92500000e+02 2.60833333e+00]
[9.95833333e+00 8.27083333e+01 2.06500000e+02 1.49500000e+02
7.28625000e+02 1.92083333e+00]
[5.40416667e+01 3.33666667e+02 9.92500000e+02 7.28625000e+02
4.54725000e+03 6.45416667e+00]
[1.06944444e-01 1.85694444e+00 2.60833333e+00 1.92083333e+00
6.45416667e+00 3.94444444e-02]]

#程序代码：

Cov=new_data.cov()
Cov_mat=np.mat(Cov)  #转化为矩阵
print(Cov_mat)

第二步，计算上述协方差矩阵的特征值和特征向量：

特征值: [4.91534585e+03 1.33082140e+02 5.29262797e+01 1.96958266e+00 1.35401494e+00 4.69063054e-04]

单位特征向量(按列):

[[-0.0115945 0.01982138 -0.00887949 0.44895534 0.89318819 0.00691333]
[-0.07419199 0.63756657 0.75938908 0.09150018 -0.05347679 -0.01002928]
[-0.21512829 0.59755921 -0.59197066 0.43419812 -0.2401709 -0.00186604]
[-0.15753526 0.41548756 -0.24453222 -0.77527456 0.37611186 -0.01568266]
[-0.96086494 -0.2513976 0.11409595 0.01743293 -0.01453903 0.00215488]
[-0.00146569 0.01443296 0.0024926 -0.01357453 -0.00122989 0.99979875]]

#计算的程序代码为

eige,feat=np.linalg.eig(Cov_mat)
print('特征值:',eige)
print('单位特征向量(按列):',feat)

现在我们希望降到3维，那我们就选择特征值按照从大到小排序的前三个特征值所对应的三个单位特征向量以列向量作成矩阵右乘矩阵即可实现降维。

最大的三个特征值分别为：4915.345846940669, 133.08213998288508, 52.92627974504706，即前三个特征向量，

第一个特征值4915.345846940669对应的特征向量为：

[[-0.0115945 ]
[-0.07419199]
[-0.21512829]
[-0.15753526]
[-0.96086494]
[-0.00146569]]

第二个特征值133.08213998288508对应的特征向量为：

[[ 0.01982138]
[ 0.63756657]
[ 0.59755921]
[ 0.41548756]
[-0.2513976 ]
[ 0.01443296]]

第三个特征值52.92627974504706对应的特征值为：

[[ 0.01982138]
[ 0.63756657]
[ 0.59755921]
[ 0.41548756]
[-0.2513976 ]
[ 0.01443296]]

#抽取特征值的程序：

f1=feat[:,0]
f2=feat[:,1]
f3=feat[:,2]
print('f1:',f1)
print('f2:',f2)
print('f2:',f2)

第三步，矩阵相乘实现降维：

将上述的三个单位特征列向量就以列的形式作成矩阵，得到的是一个6行3列的矩阵，如：

=[[-0.0115945 0.01982138 -0.00887949]
[-0.07419199 0.63756657 0.75938908]
[-0.21512829 0.59755921 -0.59197066]
[-0.15753526 0.41548756 -0.24453222]
[-0.96086494 -0.2513976 0.11409595]
[-0.00146569 0.01443296 0.0024926]]

#程序代码：

Q=feat[:,0:3]
print(Q)

然后将右乘矩阵即可实现降维：

[[ 45.35006284 -17.75139542 -2.15123174]
[ 33.6989285 -12.56877783 -0.82138033]
[ 3.81548648 -5.12899626 0.32906309]
[ 40.83667895 11.74622317 -10.38306642]
[ 19.351758 15.88377111 -6.27281217]
[-175.73584671 1.32176622 1.07508344]
[ -31.80974419 -6.48980673 -4.22012044]
[ 25.20227352 1.65636615 11.19948665]
[ 39.2904026 11.33084959 11.24497794]]

#计算的程序代码：

A=np.mat(new_data)   #dataframe转化成为矩阵，以便于实现矩阵乘法运算
result=A*Q
print(result)

综合来看，PCA数据降维的过程可以按照如下步骤进行：

1.计算原矩阵的协方差矩阵C;

2.计算协方差矩阵C的特征值和特征向量；

3.选择最大的个特征值对应的特征向量组成降维矩阵；

4.将降维矩阵乘矩阵即可实现PCA降维。

下面来看究竟是为什么？我们要这样做：

4.2 PCA降维原理分析

从上面我们已经知道，对大数据集作降维变换的实质就是找到一个矩阵与原矩阵（零均值化的数据与原数据在信息上是等价的）作矩阵乘法即可实现降维。

设是方阵（先不考虑降维），记。是 $n\times m$ 的原数据零均值化的矩阵，是 $m\times m$ 矩阵，是矩阵相乘的结果（或者线性变换的结果），是 $n\times m$ 矩阵，我们应该按照我们降维的要求去寻找降维矩阵 $Q_{m\times k}$ 。

计算矩阵乘积的结果的协方差矩阵 $C_{y}$ :

$C_{y}=$ $\frac{1}{m-1}Y^{T}Y$

由于，故

$C_{y}=\frac{1}{m-1}(AP)^{T}(AP)=\frac{1}{m-1}P^{T}A^{T}AP=P^{T}(\frac{1}{m-1}A^{T}A)P=P^{T}CP$

即 $C_{y}=P^{T}CP$ 。 $C_{m\times m}$ 是的个列特征的协方差矩阵,不要忘了协方差矩阵是对角矩阵！

我们说，降维后，应该数据特征尽量相关性低，或者不具有相关性，这个样子是最好的。什么意思？也就是说，不同特征的协方差希望是0，这个时候达到的效果最好。从协方差矩阵的角度来看，就是说的协方差矩阵是对角矩阵的话就非常完美了。

的协方差矩阵 $C_{y}=P^{T}CP$ ，回忆前述的Theorem3，要使得 $C_{y}$ 为对角矩阵，那只要是的个单位特征向量以列组成的正交矩阵即可。不妨设 $C_{m\times m}$ 的特征值分别是 $\lambda _{1},\lambda _{2},\cdots ,\lambda _{m}$ ，对应的单位特征向量分别是 $\beta _{1},\beta _{2},\cdots ,\beta _{m}$ ，那么写出来写出就是

$C_{y}=\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{m}\end{bmatrix}=\begin{bmatrix} \beta _{1} &\beta _{2} &\beta _{3} &\cdots &\beta _{m} \end{bmatrix}^{T}C\begin{bmatrix} \beta _{1} &\beta _{2} &\beta _{3} &\cdots &\beta _{m} \end{bmatrix}$

另外还有一个要求：投影（降维）了以后，留下的各个特征自己要尽量“分散”，不要太“拥挤”，这样可以在最大程度上减少由于数据降维带来的信息损失，意思是每一个降维后留下的特征数据方差尽量大，而降维后每一个特征的方差就体现在协方差矩阵的对角线上。

所以，如果我们想将原数据集的行向量降成维（剔除部分在列位置上的特征数据），那么挑最大的个特征值对应的特征向量组成降维矩阵 $Q_{m\times k}$ ，拿去右乘原矩阵即可实现降维。

比如说，最大的个特征值是 $\lambda _{1},\lambda _{2},\cdots ,\lambda _{k}$ ，对应的特征向量分别是 $\beta _{1},\beta _{2},\cdots ,\beta _{k}$ ， $k\leq m$ ，那么降维矩阵就应该长成这样：

$Q=\begin{bmatrix} \beta _{1} &\beta _{2} &\beta _{3} &\cdots &\beta _{k} \end{bmatrix}$

然后将拿去右乘：

$Y^{'}=AQ$

得到降维后的数据矩阵 $Y^{'}$ ，

显然， $Y^{'}$ 的协方差矩阵就是

$\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{k}\end{bmatrix}$

得到的这个数据 $Y^{'}$ ，实现了在降低大数据集的复杂度的同时，也最大程度上地减少了由于数据特征减少而带来的信息损失。其实质就是将数据的行向量投影到，以特征数据协方差矩阵的最大的个特征值对应的特征向量为基底的空间中。

我们可以总结一下PCA降维的步骤：

a.计算原矩阵的协方差矩阵;

b.计算的特征值特征向量；

c.拎出的（ $k\leq m$ ）个最大的特征值对应的特征向量 $\beta _{1},\beta _{2},\cdots ,\beta _{k}$ ；

d.将这个特征向量单位化了以后按列作成降维矩阵；

e.最后拿去右乘原矩阵即可。

好啦，接下来我们用Python的机器学习sklearn库来进行PCA降维的示范：

5 Python实现PCA降维

为了方便，采用sklearn库中自带的鸢尾花数据集（iris）来进行PCA算法的实现：

该数据集共有150个样本数据，每一个样本都有4个特征，分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度，即该数据集的特征维度是4维的，有3类对鸢尾花分类的标签。

那么这些特征数据是否存在数据冗余？或者说怎么样合理地降低该数据集的特征维度？这里我们可以用PCA降维的方法来对鸢尾花数据集进行降维处理，从而熟悉PCA降维的原理和效果。因此，我们的目标就是，利用PCA降维的方法对鸢尾花的特征数据（4维）进行降维。

导入需要用的包：

#导入需要的包
from sklearn import datasets,decomposition
import numpy as np
import matplotlib.pyplot as plt

加载数据集并提取特征数据

iris=datasets.load_iris()
data=iris.data

查看数据维度情况：

print(data[0:5])

运行结果：

[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]]

说明原数据的确是4维的。

根据方差（线性变换后数据的特征值）的占比情况确定合适的降维维度:

exv=pca.explained_variance_ratio_   #计算可解释方差占比
print('方差占比情况:',exv)

运行结果：方差占比情况: [0.92461872 0.05306648 0.01710261 0.00521218]

从结果来看，前两个特征比较显著，因此可以考虑降为2维：

new_pca=decomposition.PCA(n_components=2)  #设置k=2
new_pca.fit(data)   #训练数据
new_data=new_pca.transform(data)  #返回降维后的数据
print(new_data[0:5])

运行结果：

[[-2.68412563 0.31939725]
[-2.71414169 -0.17700123]
[-2.88899057 -0.14494943]
[-2.74534286 -0.31829898]
[-2.72871654 0.32675451]]

结果表明，的确从4维降到了2维。

print('降维后各个主成分的方差大小:',new_pca.explained_variance_)
print('降维后各个主成分的方差占比大小:',new_pca.explained_variance_ratio_)

运行结果：

降维后各个主成分的方差大小: [4.22824171 0.24267075]
降维后各个主成分的方差占比大小: [0.92461872 0.05306648]

好啦，就说到这里，望各位大佬指教！

你可能感兴趣的:(笔记,python,线性代数,算法,矩阵,机器学习)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持