PCA降维的来龙去脉及Python实现

目录

1 PCA降维

2 在讲PCA降维的原理前需要知道的一些东西

  2.1 方差

  2.2 协方差及协方差矩阵

  2.3 向量在不同基下的坐标

  2.4 矩阵乘法

  2.5 矩阵的特征值和特征向量

  2.6 实对称矩阵正交相似于对角矩阵

3 PCA降维的核心思想

4 PCA降维的原理

4.1 PCA降维具体例子示范

4.2 PCA降维原理分析 

5 Python实现PCA降维


1 PCA降维

随着社会的飞速发展,我们已经在分析问题或者解决问题时,经常会遇到大数据集。高维度的大数据集处理起来并非易事,不但会占用大量的资源,而且也会导致计算机运行缓慢。

一个自然的想法是,能不能删除了某一部分数据,而留下剩下的数据?这样会使得数据的复杂度降低,从而节省时间和资源,答案是肯定的。但是又会有新的一个问题出现,这样的删除是不是随意的呢?

当然不是,我们在删除的时候应该要尽可能地保留原始数据的信息,即减少因部分特征删除而导致的信息损失。考虑到大数据集的各个特征维度之间有些并不是相互独立的,有些特征具有一定的相关性。我们相信,删除与所保留特征相关性较高的数据特征,并不会造成原始数据信息的大量丢失。

例如,某电商平台的店铺数据有“浏览量”、“访问量”、“下单量”、“成交量”。“浏览量”与“访问量”并不是独立的,“浏览量”大时,我们相信“访问量”也大,“下单量”大时,“成交量”也大。当我们删除“访问量”和“成交量”这两个特征数据时,我们坚信,这样原始数据信息的损失是很小的。

因此,PCA要做的事儿就是要在以下两个方面之间做一个平衡:a.降低原始大数据集的维度(复杂度降低了);b.使得降维后的数据集,在原来大数据集的基础上损失的信息尽可能的小。

PCA降维的应用非常广泛,它结合判别分析、聚类和回归分析等等可以解决许多实际问题。在机器学习和数据挖掘的实践中应用主要体现在以下几个方面:

(1)实现数据可视化。我们生存的物理空间是三维空间,任何三维以上的数据我们靠视觉是无法感知的。将高维数据降到低维,使得数据可视化,方便我们洞察数据背后所蕴藏的规律。

(2)缓解过拟合。特征维度越大,以为这特征越多,模型就越复杂,越容易过拟合。通过降低维度,缓解过拟合。

(3)提高计算性能。高维数据不仅占用过多的储资源, 而且由于维度较高导致计算的复杂度不断上升。因此,可以通过PCA降维节约储存资源和计算资源,提高计算性能。

2 在讲PCA降维的原理前需要知道的一些东西

  2.1 方差

方差和标准差是最常用来度量一组数据最常用的指标。其实,在高中的时候我们就以及熟知以下公式:

均值:\bar{x}=\frac{1}{n}\cdot\sum_{i=1}^{n}x_{i}

方差:S^{2}=\frac{1}{n-1}\cdot\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}

标准差:S=\sqrt{\frac{1}{n-1}\cdot\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}

方差和标准差能够很好地描述一组数据的分布情况:如果一组数据越“挨的紧”或者越“拥挤”,这组数据的方差和标准差就越小。反之,越“远”或越“分散”,那么这组数据的方差和标准差就越大。

例如,有两组数据:[8,12,9,10,11,8,12]和[6,1,7,11,13,15,17],虽然两组数据的均值都是10,但是前者的方差为3,后者的方差为31.66667。这也就是说前一组数据分布得较为“拥挤”,后一组数据分布得较为“分散”。

  2.2 协方差及协方差矩阵

协方差度量的是特征与特征之间的关系。

例如我们收集到某地居民的身高,年龄,体重,胸宽,臂长的数据信息。对于这样的数据集,我们可以分别独立地计算出每一个特征数据的方差,但是我们如果还想知道这些特征之间的关系,就需要计算协方差。

对于都含有n个数据的两组数据xy,这两组数据的协方差计算公式为:

cov(x,y)=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1}

协方差所刻画的是,两个变量在变化的过程中变化方向的一致性和变化大小的程度。

x变大y也变大,即两个变量是同向变化的,此时协方差为正;反之为负。两者的变化趋势相互独立的时候,协方差为0。

方差主要是针对一维数据,协方差主要针对二维数据,那么多维数据的这种关系如何刻画呢?这个时候,协方差矩阵出场了。

协方差矩阵就是用来来那个多特征的两两之间协方差的矩阵。一般地,设有n个特征,记为x_{1},x_{2},\cdots ,x_{n},那么这n个特征的协方差矩阵为:

\begin{Bmatrix} Cov(x_{1},x_{1}) &Cov(x_{1},x_{2}) &\cdots &Cov(x_{1},x_{n}) \\ Cov(x_{2},x_{1}) &Cov(x_{2},x_{2}) &\cdots &Cov(x_{2},x_{n}) \\ \vdots &\vdots &\ddots &\vdots \\ Cov(x_{n},x_{1})&Cov(x_{n},x_{2}) &\cdots &Cov(x_{n},x_{n}) \end{Bmatrix}

Cov(x_{i},x_{j})=Cov(x_{j},x_{i})可知,协方差矩阵为实对称矩阵。再注意到,一组数据与它本身的协就是该组数据的方差,故协方差矩阵的主对角元分别是各个特征的方差。

  2.3 向量在不同基下的坐标

是线性空间的一个基本概念,其特点体现在以下两个方面:a.组成基的向量组线性无关;b.线性空间中的任何一个向量都可以由基线性表出。基是线性空间构成的基础,也就是说,基一旦确定了,那么线性空间也就确定了。

线性空间大家也不用想复杂了,就是一些向量构成的集合。

例如,\begin{bmatrix} 4\\ 3\end{bmatrix}这个向量实际上是处于\begin{bmatrix} 1\\ 0\end{bmatrix}\begin{bmatrix} 0\\ 1\end{bmatrix}这组标准正交基(标准:每个向量模长都为1,正交:垂直/内积为0)所张成的空间中。\begin{bmatrix} 4\\ 3\end{bmatrix}x轴上的投影,实际上就是\begin{bmatrix} 4\\ 3\end{bmatrix}\begin{bmatrix} 1\\ 0\end{bmatrix}的内积值,即该投影值为\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} 1\\ 0\end{bmatrix}=4。同样,\begin{bmatrix} 4\\ 3\end{bmatrix}y轴上的投影就是\begin{bmatrix} 4\\ 3\end{bmatrix}\begin{bmatrix} 0\\ 1\end{bmatrix}的内积,即该投影值为\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} 0\\ 1\end{bmatrix}=3

上述的向量投影可以写成矩阵向量相乘的形式:

\begin{bmatrix} 1 &0 \\ 0&1 \end{bmatrix}\begin{bmatrix} 4\\ 3\end{bmatrix}=\begin{bmatrix} 4\\ 3\end{bmatrix}

那么选择的基不同,相应向量的坐标也自然会不同。例如,如果选择两个标准正交向量\begin{bmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}}\end{bmatrix}\begin{bmatrix} \frac{1}{\sqrt{2}}\\ -\frac{1}{\sqrt{2}}\end{bmatrix}作为基,那么\begin{bmatrix} 4\\ 3\end{bmatrix}这个向量在这两个向量所张成的空间中的坐标可以这样来考虑:\begin{bmatrix} 4\\ 3\end{bmatrix}

在向量\begin{bmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}}\end{bmatrix}上的投影是两者的内积\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}}\end{bmatrix}=\frac{7\sqrt{2}}{2}。同样地,\begin{bmatrix} 4\\ 3\end{bmatrix}在向量\begin{bmatrix} \frac{1}{\sqrt{2}}\\ -\frac{1}{\sqrt{2}}\end{bmatrix}上的投影为\begin{bmatrix} 4\\ 3\end{bmatrix}\cdot \begin{bmatrix} \frac{1}{\sqrt{2}}\\ -\frac{1}{\sqrt{2}}\end{bmatrix}=\frac{\sqrt{2}}{2},即向量\begin{bmatrix} 4\\ 3\end{bmatrix}在上述两向量做为基张成的空间中的坐标为\begin{bmatrix} \frac{2\sqrt{7}}{2}\\ \frac{\sqrt{2}}{2}\end{bmatrix}。写成矩阵的形式就是:

\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}}&-\frac{1}{\sqrt{2}} \end{bmatrix}\begin{bmatrix} 4\\ 3\end{bmatrix}=\begin{bmatrix} \frac{2\sqrt{7}}{2}\\ \frac{\sqrt{2}}{2}\end{bmatrix}

现在将上述结果推广到m维的空间中:

对于任意m维空间中的向量\alpha =\begin{bmatrix} x_{1} &x_{2} &\cdots &x_{m-1} &x_{m} \end{bmatrix}^{T},可以理解成其位于以m个标准正交向量\begin{bmatrix} 1 &0 &0 &\cdots &0 \end{bmatrix}^{T},\begin{bmatrix} 0 &1 &0 &\cdots &0 \end{bmatrix}^{T},\cdots ,\begin{bmatrix} 0 &0 &0 &\cdots &1 \end{bmatrix}^{T}为基底所张成的空间中,且其坐标分量就是其分别在这mm维的标准正交向量上的投影值。可写成矩阵与向量相乘的形式:

\begin{bmatrix} 1 &0 &0 &\cdots &0 \\ 0&1 &0 &\cdots &0 \\ 0&0 &1 &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &1 \end{bmatrix}\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ \vdots \\ x_{m}\end{bmatrix}=\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ \vdots \\ x_{m}\end{bmatrix}

所以,我们如果想将任意一个向量\alpha =\begin{bmatrix} x_{1} &x_{2} &\cdots &x_{m-1} &x_{m} \end{bmatrix}^{T}变换到一个由km维的标准正交基向量所组成的新空间中,只需要将这k(k\leq m)个m维的标准正交基向量以行向量的形式做成一个矩阵Q,然后将矩阵Q左乘向量\alpha的原坐标即可得到\alpha在新空间中的坐标。

  2.4 矩阵乘法

        在上面,我们说到对于任意一个向量\alpha =\begin{bmatrix} x_{1} &x_{2} &\cdots &x_{m-1} &x_{m} \end{bmatrix}^{T},要将其变换到以指定个数的m标准正交向量的新空间中,只要将指定个数(比如指定个数为k)的这些m维的标准正交向量以行向量作成矩阵的样子,记为Q,拿这个东西左乘\alpha可以了。

比如说,这km维的标准正交向量我们记为\beta _{1},\beta _{2},\cdots, \beta _{k}(这这些都是列向量),那么要得到\alpha在这组基张成的空间中的坐标,就可以这样来计算:

\begin{bmatrix} \beta _{1}^{T}\\ \beta _{2}^{T}\\ \beta _{3}^{T}\\ \vdots \\ \beta _{k}^{T}\end{bmatrix}\alpha =\begin{bmatrix} \beta _{1}^{T}\alpha \\ \beta _{2}^{T}\alpha \\ \beta _{3}^{T}\alpha \\ \vdots \\ \beta _{k}^{T}\alpha \end{bmatrix}(注意:内积本质是一个实数)

上面仅仅知识针对一个向量作换,受到上述的启示我们容易发现,如果不止一个向量作变换,而是有n个向量\alpha _{1},\alpha _{2},\cdots ,\alpha _{n}也想作变换:

\begin{bmatrix} \beta _{1}^{T}\\ \beta _{2}^{T}\\ \beta _{3}^{T}\\ \vdots \\ \beta _{k}^{T}\end{bmatrix}\begin{bmatrix} \alpha _{1} &\alpha _{2} &\alpha _{3} &\cdots &\alpha _{n} \end{bmatrix}=\begin{bmatrix} \beta _{1}^{T}\alpha _{1} &\beta _{1}^{T}\alpha _{2} &\beta _{1}^{T}\alpha _{3} &\cdots &\beta _{1}^{T}\alpha _{n} \\ \beta _{2}^{T}\alpha _{1}&\beta_{2}^{T}\alpha _{2} &\beta _{2}^{T}\alpha _{3} &\cdots &\beta _{2}^{T}\alpha _{n} \\ \beta _{3}^{T}\alpha _{1}&\beta _{3}^{T}\alpha _{2} &\beta _{3}^{T}\beta _{3} &\cdots &\beta _{3}^{T}\alpha _{n} \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ \beta _{k}^{T}\alpha _{1} &\beta _{k}^{T}\alpha _{2} &\beta _{k}^{T}\alpha _{3} &\cdots &\beta _{k}^{T}\alpha _{n} \end{bmatrix}

其中\beta _{j}是标准正交的列向量,\beta _{j}^{T}是对应的行向量,表示第j个基向量(j=1,2,\cdots ,k);\alpha _{i}表示的是第i个需要变换的列向量(i=1,2,\cdots ,n)。

我们在面对大数据集的时候,其实我们可以将数据集看作一个矩阵。这里,k是一个不超过m的正数,决定了通过降维以后得到的维度,即可以将m维的数据\alpha _{i}变换到更低维的空间中,变换后的维度取决于正整数k所以,矩阵相乘也可以表示降维变换。

通过上面的表述来看,矩阵相乘的几何意义就是:当左端矩阵行满秩时,两个矩阵相乘的结果就是将右端矩阵的列向量变换到左端矩阵的行向量为基底的新空间中。

  2.5 矩阵的特征值和特征向量

特征值和特征向量是矩阵(或线性变换)的重要概念之一,有许多广泛的应用。

n阶方阵A的特征值和特征向量定义如下:

若有非零向量\alpha,使得A\alpha =\lambda \alpha,则\lambda称为A的特征值,\alpha称为属于特征值\lambda的特征向量。

这里有2个重要的定理需要知道:(证明这里就不说了,相关内容可查线性代数的有关资料)

Theorem1:不同特征值的特征向量线性无关。

Theorem2:不用特征值的特征向量一定正交(内积为0)。

先知道这个东西是非常有必要的,因为降维的时候,低维的新空间的基其实就是原数据集矩阵去零均值化的矩阵A的单位正交特征向量。此时此刻,你一定很好奇,先别急,继续往下看。

  2.6 实对称矩阵正交相似于对角矩阵

上面说到了n阶方阵A的特征值和特征向量,如果n级矩阵An个不同的特征值,分别记为\lambda _{1},\lambda _{2},\cdots ,\lambda _{n},那每一个特征值都有一个特征向量,故An个特征向量,对应地分别记为\beta _{1},\beta _{2},\cdots ,\beta _{n},那么根据特征值特征向量的定义,必然有A\beta _{i}=\lambda _{i}\beta _{i}i=1,2,\cdots ,n,写成矩阵乘积的样子,就是

A\begin{bmatrix} \beta _{1} &\beta _{2} &\cdots &\beta _{n} \end{bmatrix}=\begin{bmatrix} \beta _{1} &\beta _{2} &\cdots &\beta _{n} \end{bmatrix}\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{n} \end{bmatrix}

而根据Theorem1,\beta _{1},\beta _{2},\cdots ,\beta _{n}线性无关,故矩阵\begin{bmatrix} \beta _{1} &\beta _{2} &\cdots &\beta _{n} \end{bmatrix}满秩(可逆),记为P,故上述式子可以写成

P^{-1}AP=\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{n} \end{bmatrix}

对于实对称矩阵,它有较好的性质,定理表述如下:

Theorem3:设An级实对称矩阵,\lambda _{1},\lambda _{2},\cdots ,\lambda _{n}A的实对称矩阵,则必存在正交矩阵T使得:

TAT^{-1}=\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{n} \end{bmatrix}

其中T满足:TT^{-1}=T^{-1}T=E,也就说,上述T的列向量是由An个单位特征向量构成的矩阵。

关于上述定理的证明此处就不在给出,想了解给多的读者可查询线性代数有关资料。

3 PCA降维的核心思想

(1)核心思想一:基变换向量投影

对于任何一个m维的向量\alpha,如果要想将它投影到低维(k,k\leq m)的空间中,我们可以利用k维空间的一组标准正交基以行向量的形式组成的矩阵Q,然后将Q左乘向量\alpha即可得到投影结果。

刚刚说的只是单个m维向量的情况,那如果是多个m维向量\alpha _{1},\alpha _{2},\cdots ,\alpha _{n}也想降维,我们也可以作同样的处理,设降到低维目标空间的标准正交基分别是\varepsilon _{1},\varepsilon _{2},\cdots ,\varepsilon _{k},那么降维处理如下进行:

\begin{bmatrix} \varepsilon _{1}^{T}\\ \varepsilon _{2}^{T}\\ \varepsilon _{3}^{T}\\ \vdots \\ \varepsilon _{k}^{T}\end{bmatrix}\begin{bmatrix} \alpha _{1} &\alpha _{2} &\alpha _{3} &\cdots &\alpha _{n} \end{bmatrix}=\begin{bmatrix} \varepsilon _{1}^{T}\alpha _{1} &\varepsilon _{1}^{T}\alpha _{2} &\varepsilon _{1}^{T}\alpha _{3} &\cdots &\varepsilon _{1}^{T}\alpha _{n} \\ \varepsilon _{2}^{T}\alpha _{1} &\varepsilon _{2}^{T}\alpha _{2} &\varepsilon _{2}^{T}\alpha _{3} &\cdots &\varepsilon _{2}^{T}\alpha _{n} \\ \varepsilon _{3}^{T}\alpha _{1} &\varepsilon _{3}^{T}\alpha _{2} &\varepsilon _{3}^{T}\alpha _{3} &\cdots &\varepsilon _{3}^{T}\alpha _{n} \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ \varepsilon _{k}^{T}\alpha _{1} &\varepsilon _{k}^{T}\alpha _{2} &\varepsilon _{k}^{T}\alpha _{3} &\cdots &\varepsilon _{k}^{T}\alpha _{n} \end{bmatrix}

所得结果的矩阵中,每一个列向量都是降维后的结果,也就是投影到低维目标空间中的结果。

(2)核心思想二:协方差归零投影

我们作数据降维,希望将原始数据的特征维度降低,同时又要尽可能的减少原始数据的信息损失。要在上述两点之间找到一个平衡点可不是意见容易的事儿。

仔细想一想,降维后的数据应该具备这样的特点:

各个维度之间的关联度尽可能的低,因为有关联的每一个组,我们只希望留下一个,其余的删除以降低数据集的复杂度。从协方差上来看,也就是降维后的特征两两之间的协方差为0是最好的,即降维后的数据集其协方差矩阵非对角上的元素全为0,这样的降维投影才是我们想要的。

(3)核心思想三:最大方差投影

我们平时对三维空间的物体拍照时,实际上就是将三维空间的物体投影到二维空间。我们先来观察一组拍摄笔筒的照片:

PCA降维的来龙去脉及Python实现_第1张图片PCA降维的来龙去脉及Python实现_第2张图片PCA降维的来龙去脉及Python实现_第3张图片

图3-1

笔筒是三维空间中的立体,照片是二维空间中的平面,从立体到平面的过程中肯定会失真(丢失信息),但是,不同的投影方式(拍摄角度)失真的程度不相同。如图3-1,三张图片都是拍摄同一个笔筒,但是由于拍摄角度的不同,第三张图片最大程度地保留了三维空间中笔筒的“重要信息”。

同理,我们在对数据作降维处理的时候,希望投影的方式能够使得降维后的数据尽可能的“分散”,这样可以使得我们尽可能地减小由于降维带来的信息损失,也就说,希望各个特征数据的方差尽可能地大。

4 PCA降维的原理

对数据作投影变换,实际上就是要找到要变换到一组目标新空间的标准正交基,将其以行向量作成一个矩阵Q,然后左乘数据矩阵即可实现降维,问题的关键在于,如何根据已知的大数据集和和需要降到的新空间的维度k去找到这样的矩阵Q

这里我们需要特别注意的是,我们要删除的是部分特征数据,根据前面所讲的基变换向量投影的原理,我们最后降下来的是原来数据集的行特征。因此,左乘矩阵Q相当于减少了原来数据集的行特征。如果我们要删除的列特征,那就用Q的转置右乘数据集矩阵或者用Q左乘数据集矩阵的转置即可。

下面讨论如何按照要求找Q的问题:

4.1 PCA降维具体例子示范

在这之前,先以一个具体例子来说明,下表(表4-1)是摘自于2021年举行的“华为杯”研究生数学建模竞赛B题的数据中的监测点A的污染物浓度,包含6个特征数据,共有9个数据样本。

表4-1

监测日期 SO2监测浓度(μg/m³) NO2监测浓度(μg/m³) PM10监测浓度(μg/m³) PM2.5监测浓度(μg/m³) O3最大八小时滑动平均监测浓度(μg/m³) CO监测浓度(mg/m³)
2021/4/1 2 12 25 7 51 0.6
2021/4/2 4 17 29 12 61 0.7
2021/4/3 7 25 40 18 88 0.8
2021/4/4 4 25 49 21 47 1
2021/4/5 4 32 52 28 67 1.1
2021/4/6 6 43 82 49 259 1.2
2021/4/7 4 23 48 27 122 0.9
2021/4/8 3 36 33 15 67 0.9
2021/4/9 4 41 35 18 51 1.1

原数据集有6个特征数据,现在希望能够降到3维,

为了方便计算展示,将特征数据零均值化(每一个污染物浓度数据减去对应污染物浓度数据值)如表4-2所示:

表4-2

SO2监测浓度(μg/m³) NO2监测浓度(μg/m³) PM10监测浓度(μg/m³) PM2.5监测浓度(μg/m³) O3最大八小时滑动平均监测浓度(μg/m³) CO监测浓度(mg/m³)
-2.22222 -16.2222 -18.6667 -14.6667 -39.3333 -0.32222
-0.22222 -11.2222 -14.6667 -9.66667 -29.3333 -0.22222
2.777778 -3.22222 -3.66667 -3.66667 -2.33333 -0.12222
-0.22222 -3.22222 5.333333 -0.66667 -43.3333 0.077778
-0.22222 3.777778 8.333333 6.333333 -23.3333 0.177778
1.777778 14.77778 38.33333 27.33333 168.6667 0.277778
-0.22222 -5.22222 4.333333 5.333333 31.66667 -0.02222
-1.22222 7.777778 -10.6667 -6.66667 -23.3333 -0.02222
-0.22222 12.77778 -8.66667 -3.66667 -39.3333 0.177778

#上述计算过程的代码:

import pandas as pd
import numpy as np
data=pd.read_excel('F:\\研究生生涯\\基于Python的机器学习实践\\Python统计建模——多元分析\\主成分分析\\监测点A的污染物浓度.xlsx')
data1=data.iloc[:,2:8]   #提取特征数据
print(data1)
y=data1.mean(axis=0)
new_data=data1-y
print(new_data)
new_data.to_excel('F:\\研究生生涯\\基于Python的机器学习实践\\Python统计建模——多元分析\\主成分分析\\new_data1.xlsx',index=False)

将上述经过零均值化的数据记为矩阵A,

第一步,计算A的6个列向量(各污染物浓度,分别是SO_{2},NO_{2},PM10,PM2.5,O_{3},CO)的协方差矩阵:

C=\frac{1}{6-1}A^{T}A=\frac{1}{5}A^{T}A

利用程序计算得到A的列向量的协方差矩阵为:

[[2.19444444e+00 5.56944444e+00 1.42083333e+01 9.95833333e+00
  5.40416667e+01 1.06944444e-01]
 [5.56944444e+00 1.11694444e+02 1.05458333e+02 8.27083333e+01
  3.33666667e+02 1.85694444e+00]
 [1.42083333e+01 1.05458333e+02 2.94000000e+02 2.06500000e+02
  9.92500000e+02 2.60833333e+00]
 [9.95833333e+00 8.27083333e+01 2.06500000e+02 1.49500000e+02
  7.28625000e+02 1.92083333e+00]
 [5.40416667e+01 3.33666667e+02 9.92500000e+02 7.28625000e+02
  4.54725000e+03 6.45416667e+00]
 [1.06944444e-01 1.85694444e+00 2.60833333e+00 1.92083333e+00
  6.45416667e+00 3.94444444e-02]]

#程序代码:

Cov=new_data.cov()
Cov_mat=np.mat(Cov)  #转化为矩阵
print(Cov_mat)

第二步,计算上述协方差矩阵的特征值和特征向量:

特征值: [4.91534585e+03 1.33082140e+02 5.29262797e+01 1.96958266e+00 1.35401494e+00 4.69063054e-04]

单位特征向量(按列):

[[-0.0115945   0.01982138 -0.00887949  0.44895534  0.89318819  0.00691333]
 [-0.07419199  0.63756657  0.75938908  0.09150018 -0.05347679 -0.01002928]
 [-0.21512829  0.59755921 -0.59197066  0.43419812 -0.2401709  -0.00186604]
 [-0.15753526  0.41548756 -0.24453222 -0.77527456  0.37611186 -0.01568266]
 [-0.96086494 -0.2513976   0.11409595  0.01743293 -0.01453903  0.00215488]
 [-0.00146569  0.01443296  0.0024926  -0.01357453 -0.00122989  0.99979875]]

#计算的程序代码为

eige,feat=np.linalg.eig(Cov_mat)
print('特征值:',eige)
print('单位特征向量(按列):',feat)

现在我们希望降到3维,那我们就选择特征值按照从大到小排序的前三个特征值所对应的三个单位特征向量以列向量作成矩阵Q右乘矩阵A即可实现降维。

最大的三个特征值分别为:4915.345846940669, 133.08213998288508, 52.92627974504706,即前三个特征向量,

第一个特征值4915.345846940669对应的特征向量为:

[[-0.0115945 ]
 [-0.07419199]
 [-0.21512829]
 [-0.15753526]
 [-0.96086494]
 [-0.00146569]]

第二个特征值133.08213998288508对应的特征向量为:

[[ 0.01982138]
 [ 0.63756657]
 [ 0.59755921]
 [ 0.41548756]
 [-0.2513976 ]
 [ 0.01443296]]

第三个特征值52.92627974504706对应的特征值为:

 [[ 0.01982138]
 [ 0.63756657]
 [ 0.59755921]
 [ 0.41548756]
 [-0.2513976 ]
 [ 0.01443296]]

#抽取特征值的程序:

f1=feat[:,0]
f2=feat[:,1]
f3=feat[:,2]
print('f1:',f1)
print('f2:',f2)
print('f2:',f2)

第三步,矩阵相乘实现降维:

将上述的三个单位特征列向量就以列的形式作成矩阵Q,得到的Q是一个6行3列的矩阵,如:

Q=[[-0.0115945   0.01982138 -0.00887949]
 [-0.07419199  0.63756657  0.75938908]
 [-0.21512829  0.59755921 -0.59197066]
 [-0.15753526  0.41548756 -0.24453222]
 [-0.96086494 -0.2513976   0.11409595]
 [-0.00146569  0.01443296  0.0024926]]

#程序代码:

Q=feat[:,0:3]
print(Q)

然后将Q右乘矩阵A即可实现降维:

AQ=[[  45.35006284  -17.75139542   -2.15123174]
 [  33.6989285   -12.56877783   -0.82138033]
 [   3.81548648   -5.12899626    0.32906309]
 [  40.83667895   11.74622317  -10.38306642]
 [  19.351758     15.88377111   -6.27281217]
 [-175.73584671    1.32176622    1.07508344]
 [ -31.80974419   -6.48980673   -4.22012044]
 [  25.20227352    1.65636615   11.19948665]
 [  39.2904026    11.33084959   11.24497794]]

#计算的程序代码:

A=np.mat(new_data)   #dataframe转化成为矩阵,以便于实现矩阵乘法运算
result=A*Q
print(result)

综合来看,PCA数据降维的过程可以按照如下步骤进行:

1.计算原矩阵A的协方差矩阵C;

2.计算协方差矩阵C的特征值和特征向量;

3.选择最大的k个特征值对应的特征向量组成降维矩阵Q

4.将降维矩阵Q乘矩阵A即可实现PCA降维。

下面来看究竟是为什么?我们要这样做:

4.2 PCA降维原理分析 

从上面我们已经知道,对大数据集作降维变换的实质就是找到一个矩阵Q与原矩阵A(零均值化的数据与原数据在信息上是等价的)作矩阵乘法即可实现降维。

P方阵(先不考虑降维),记Y=APAn\times m的原数据零均值化的矩阵,Pm\times m矩阵,Y是矩阵相乘的结果(或者线性变换的结果),是n\times m矩阵,我们应该按照我们降维的要求去寻找降维矩阵Q_{m\times k}

计算矩阵乘积的结果Y的协方差矩阵C_{y}:

C_{y}=\frac{1}{m-1}Y^{T}Y

由于Y=AP,故

C_{y}=\frac{1}{m-1}(AP)^{T}(AP)=\frac{1}{m-1}P^{T}A^{T}AP=P^{T}(\frac{1}{m-1}A^{T}A)P=P^{T}CP

C_{y}=P^{T}CPC_{m\times m}Am个列特征的协方差矩阵,不要忘了协方差矩阵是对角矩阵!

我们说,降维后,应该数据特征尽量相关性低,或者不具有相关性,这个样子是最好的。什么意思?也就是说,不同特征的协方差希望是0,这个时候达到的效果最好。从协方差矩阵的角度来看,就是说Y的协方差矩阵是对角矩阵的话就非常完美了。

Y的协方差矩阵C_{y}=P^{T}CP,回忆前述的Theorem3,要使得C_{y}为对角矩阵,那只要PCm个单位特征向量以列组成的正交矩阵即可。不妨设C_{m\times m}的特征值分别是\lambda _{1},\lambda _{2},\cdots ,\lambda _{m},对应的单位特征向量分别是\beta _{1},\beta _{2},\cdots ,\beta _{m},那么写出来写出就是

C_{y}=\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{m}\end{bmatrix}=\begin{bmatrix} \beta _{1} &\beta _{2} &\beta _{3} &\cdots &\beta _{m} \end{bmatrix}^{T}C\begin{bmatrix} \beta _{1} &\beta _{2} &\beta _{3} &\cdots &\beta _{m} \end{bmatrix}

另外还有一个要求:投影(降维)了以后,留下的各个特征自己要尽量“分散”,不要太“拥挤”,这样可以在最大程度上减少由于数据降维带来的信息损失,意思是每一个降维后留下的特征数据方差尽量大,而降维后每一个特征的方差就体现在协方差矩阵的对角线上。

所以,如果我们想将原数据集的行向量降成k维(剔除部分在列位置上的特征数据),那么挑最大的k个特征值对应的特征向量组成降维矩阵Q_{m\times k},拿去右乘原矩阵A即可实现降维。

比如说,最大k个特征值是\lambda _{1},\lambda _{2},\cdots ,\lambda _{k},对应的特征向量分别是\beta _{1},\beta _{2},\cdots ,\beta _{k}k\leq m,那么降维矩阵Q就应该长成这样:

Q=\begin{bmatrix} \beta _{1} &\beta _{2} &\beta _{3} &\cdots &\beta _{k} \end{bmatrix}

然后将拿Q去右乘A

Y^{'}=AQ

得到降维后的数据矩阵Y^{'}

显然,Y^{'}的协方差矩阵就是

\begin{bmatrix} \lambda _{1} &0 &0 &\cdots &0 \\ 0&\lambda _{2} &0 &\cdots &0 \\ 0&0 &\lambda _{3} &\cdots &0 \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ 0&0 &0 &\cdots &\lambda _{k}\end{bmatrix}

得到的这个数据Y^{'},实现了在降低大数据集A的复杂度的同时,也最大程度上地减少了由于数据特征减少而带来的信息损失。其实质就是将数据的行向量投影到,以特征数据协方差矩阵的最大的k个特征值对应的k特征向量为基底的空间中。

我们可以总结一下PCA降维的步骤:

a.计算原矩阵A的协方差矩阵C;

b.计算C的特征值特征向量;

c.拎出Ckk\leq m)个最大的特征值对应的特征向量\beta _{1},\beta _{2},\cdots ,\beta _{k}

d.将这k个特征向量单位化了以后按列作成降维矩阵Q

e.最后拿Q去右乘原矩阵A即可。

好啦,接下来我们用Python的机器学习sklearn库来进行PCA降维的示范:

5 Python实现PCA降维

为了方便,采用sklearn库中自带的鸢尾花数据集(iris)来进行PCA算法的实现:

该数据集共有150个样本数据,每一个样本都有4个特征,分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度,即该数据集的特征维度是4维的,有3类对鸢尾花分类的标签。

那么这些特征数据是否存在数据冗余?或者说怎么样合理地降低该数据集的特征维度?这里我们可以用PCA降维的方法来对鸢尾花数据集进行降维处理,从而熟悉PCA降维的原理和效果。因此,我们的目标就是,利用PCA降维的方法对鸢尾花的特征数据(4维)进行降维。

导入需要用的包:

#导入需要的包
from sklearn import datasets,decomposition
import numpy as np
import matplotlib.pyplot as plt

加载数据集并提取特征数据

iris=datasets.load_iris()
data=iris.data

查看数据维度情况:

print(data[0:5])

运行结果:

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

说明原数据的确是4维的。

根据方差(线性变换后数据的特征值)的占比情况确定合适的降维维度k:

exv=pca.explained_variance_ratio_   #计算可解释方差占比
print('方差占比情况:',exv)

运行结果:方差占比情况: [0.92461872 0.05306648 0.01710261 0.00521218]

从结果来看,前两个特征比较显著,因此可以考虑降为2维:

new_pca=decomposition.PCA(n_components=2)  #设置k=2
new_pca.fit(data)   #训练数据
new_data=new_pca.transform(data)  #返回降维后的数据
print(new_data[0:5])

运行结果:

[[-2.68412563  0.31939725]
 [-2.71414169 -0.17700123]
 [-2.88899057 -0.14494943]
 [-2.74534286 -0.31829898]
 [-2.72871654  0.32675451]]

结果表明,的确从4维降到了2维。

print('降维后各个主成分的方差大小:',new_pca.explained_variance_)
print('降维后各个主成分的方差占比大小:',new_pca.explained_variance_ratio_)

运行结果:

降维后各个主成分的方差大小: [4.22824171 0.24267075]
降维后各个主成分的方差占比大小: [0.92461872 0.05306648]

好啦,就说到这里,望各位大佬指教!


你可能感兴趣的:(笔记,python,线性代数,算法,矩阵,机器学习)