PCA主成分分析(PCA降维)

PCA主成分分析

  • PCA任务介绍
  • 公式推导
  • 算法实现

降维是对数据高维度特征的一种预处理方法。

降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以节省大量的时间和成本。

数据降维在数据挖掘和信号处理以及机器学习等任务中都有广泛的应用,是对输入数据进行预处理的常用手段,其目的在于从高维的输入数据中找出能够代表数据特性能够有利于分类的低维特征。
PCA主成分分析(PCA降维)_第1张图片

PCA任务介绍

PCA(Principal Components Analysis,主成分分析),作为一种降维技术,使数据更易用于分析数据集建立数据模型。PCA是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k(k

PCA方法主要是通过对变量协方差矩阵进行特征分解,以得到数据的主成分(即特征向量)与相应的权重值(即特征值)。

熟悉线性代数的同学都知道,对于任意一个n维的特征向量,都可以被分解为kn维正交向量v的线性叠加。
X = y 1 v 1 + y 2 v 2 + . . . + y k v k ; X = y_{1} v_1 + y_{2} v_2 + ... + y_{k} v_k ; X=y1v1+y2v2+...+ykvk;
其中向量v的系数[y1,y2,y3,…yk] 就是降维后的特征。
PCA主成分分析(PCA降维)_第2张图片
如上图所示,向量[1,1,1]可以被分解为三个正交向量[1,0,0],[0,1,0]和[0,0,1]的线性相加。这三个正交向量的系数[1,1,1]就可以作为原始特征降维后的特征,当然这里只是复刻了原始特征,并没有进行降维操作。这里的y表示数据在正交基上的投影,如向量[1,1]可以投影到x轴和y轴上,表示为1*[1,0]+1*[0,1]。

PCA的任务:就是寻找一组正交基v ,使所有样本沿着v进行投影后,方差最大(信息量最大)。
PCA主成分分析(PCA降维)_第3张图片
为什么要使得方差最大?

从数据离散角度来讲,数据的离散度可用方差来形容,即可认为数据方差越大,区分度越高,所蕴含的信息量越大。数据分布越广、离散度越大,代表数据在所投影的维度上具有越高的区分度,这个区分度就是信息量。
PCA主成分分析(PCA降维)_第4张图片
如将上图投影到横坐标:左图的数据分布最广,右图的数据分布次之。

从信息熵的角度来讲,熵的值(也就是概率)越大代表选取特征的信息量越丰富。
PCA主成分分析(PCA降维)_第5张图片
如将上图投影到横坐标:左图的数据方差大于右图,落在左图中数据区间的概率远大于右图。
PCA主成分分析(PCA降维)_第6张图片
对于上图,将数据投影到x轴的方差小于将数据投影到x=y的虚线上。

公式推导

PCA的任务:就是寻找一组正交基v ,使所有样本沿着v进行投影后,方差最大(信息量最大)。
PCA主成分分析(PCA降维)_第7张图片
上图给出可PCA的目标推导,其中 S 2 S^2 S2表示方差,为了简化运算,对数据进行了中心化处理即将所有数据减去均值,使得最终数据的均值为0。最终展开公式化简后为 v C v T vCv^T vCvT,即使得 v C v T vCv^T vCvT最大,其中v为一组正交基。

在求解带条件的方程时,可以采用拉格朗日法进行求解,联立两个式子则:
F ( v ) = v C v T + λ ( 1 − v T v ) F(v) = vCv^T + λ(1 - v^Tv) F(v)=vCvT+λ(1vTv)
现在PCA任务变为求一组v和一个λ,使得F(v)的值最小。
求导可得:
PCA主成分分析(PCA降维)_第8张图片
其中,λ 就是C的特征值,v 就是特征值所对应的特征矢量。(死去的记忆开始攻击我了)

算法实现

整个PCA降维任务可以总结为以下介个步骤:

  • (1)对输入数据X(mn,m为样本数目,n为特征维度)进行中心化处理(减均值(1n))。
  • (2)计算 C 的维度(n*n), C = X T X m − 1 C = \frac{X^TX}{m-1} C=m1XTX
  • (3)对C 进行特征值分解,并取最大的k个特征值所对应的特征矢量组成降维矩阵V(k*n)。
  • (4)进行降维 y = X V T y = XV^T y=XVT

python实现代码如下:

import numpy as np
import matplotlib.pyplot as plt
# data 输入数据  维度 [N,D]
# n_dim: 降维后的维度
# 返回 [N,n_dim]
def pca(data, n_dim):
    N,D = np.shape(data)
    data = data - np.mean(data, axis = 0, keepdims = True)
    C = np.dot(data.T, data)/(N-1)  # [D,D]    
    # 计算特征值和特征向量
    eig_values, eig_vector = np.linalg.eig(C)    
    # 将特征值进行排序选取 n_dim 个较大的特征值
    indexs_ = np.argsort(-eig_values)[:n_dim]    
    # 选取相应的特征向量组成降维矩阵
    picked_eig_vector = eig_vector[:, indexs_] # [D,n_dim]    
    # 对数据进行降维
    data_ndim = np.dot(data, picked_eig_vector)
    return data_ndim, picked_eig_vector

#用于绘图的,不属于PCA主程序
def draw_pic(datas,labs):
    plt.cla()
    unque_labs = np.unique(labs)
    colors = [plt.cm.Spectral(each)
          for each in np.linspace(0, 1,len(unque_labs))]
    p=[]
    legends = []
    for i in range(len(unque_labs)):
        index = np.where(labs==unque_labs[i])
        pi = plt.scatter(datas[index, 0], datas[index, 1], c =[colors[i]] )
        p.append(pi)
        legends.append(unque_labs[i])
    
    plt.legend(p, legends)
    plt.show()
  
if __name__ == "__main__":    
    # 加载数据
    data = np.loadtxt("iris.data",dtype="str",delimiter=',')
    feas = data[:,:-1]
    feas = np.float32(feas)
    labs = data[:,-1]    
    # 进行降维
    data_2d, picked_eig_vector= pca(feas, 2)
        
    #绘图
    draw_pic(data_2d,labs)

下面给出了iris的数据:

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris-setosa
5.5,3.5,1.3,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
4.4,3.0,1.3,0.2,Iris-setosa
5.1,3.4,1.5,0.2,Iris-setosa
5.0,3.5,1.3,0.3,Iris-setosa
4.5,2.3,1.3,0.3,Iris-setosa
4.4,3.2,1.3,0.2,Iris-setosa
5.0,3.5,1.6,0.6,Iris-setosa
5.1,3.8,1.9,0.4,Iris-setosa
4.8,3.0,1.4,0.3,Iris-setosa
5.1,3.8,1.6,0.2,Iris-setosa
4.6,3.2,1.4,0.2,Iris-setosa
5.3,3.7,1.5,0.2,Iris-setosa
5.0,3.3,1.4,0.2,Iris-setosa
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
5.5,2.3,4.0,1.3,Iris-versicolor
6.5,2.8,4.6,1.5,Iris-versicolor
5.7,2.8,4.5,1.3,Iris-versicolor
6.3,3.3,4.7,1.6,Iris-versicolor
4.9,2.4,3.3,1.0,Iris-versicolor
6.6,2.9,4.6,1.3,Iris-versicolor
5.2,2.7,3.9,1.4,Iris-versicolor
5.0,2.0,3.5,1.0,Iris-versicolor
5.9,3.0,4.2,1.5,Iris-versicolor
6.0,2.2,4.0,1.0,Iris-versicolor
6.1,2.9,4.7,1.4,Iris-versicolor
5.6,2.9,3.6,1.3,Iris-versicolor
6.7,3.1,4.4,1.4,Iris-versicolor
5.6,3.0,4.5,1.5,Iris-versicolor
5.8,2.7,4.1,1.0,Iris-versicolor
6.2,2.2,4.5,1.5,Iris-versicolor
5.6,2.5,3.9,1.1,Iris-versicolor
5.9,3.2,4.8,1.8,Iris-versicolor
6.1,2.8,4.0,1.3,Iris-versicolor
6.3,2.5,4.9,1.5,Iris-versicolor
6.1,2.8,4.7,1.2,Iris-versicolor
6.4,2.9,4.3,1.3,Iris-versicolor
6.6,3.0,4.4,1.4,Iris-versicolor
6.8,2.8,4.8,1.4,Iris-versicolor
6.7,3.0,5.0,1.7,Iris-versicolor
6.0,2.9,4.5,1.5,Iris-versicolor
5.7,2.6,3.5,1.0,Iris-versicolor
5.5,2.4,3.8,1.1,Iris-versicolor
5.5,2.4,3.7,1.0,Iris-versicolor
5.8,2.7,3.9,1.2,Iris-versicolor
6.0,2.7,5.1,1.6,Iris-versicolor
5.4,3.0,4.5,1.5,Iris-versicolor
6.0,3.4,4.5,1.6,Iris-versicolor
6.7,3.1,4.7,1.5,Iris-versicolor
6.3,2.3,4.4,1.3,Iris-versicolor
5.6,3.0,4.1,1.3,Iris-versicolor
5.5,2.5,4.0,1.3,Iris-versicolor
5.5,2.6,4.4,1.2,Iris-versicolor
6.1,3.0,4.6,1.4,Iris-versicolor
5.8,2.6,4.0,1.2,Iris-versicolor
5.0,2.3,3.3,1.0,Iris-versicolor
5.6,2.7,4.2,1.3,Iris-versicolor
5.7,3.0,4.2,1.2,Iris-versicolor
5.7,2.9,4.2,1.3,Iris-versicolor
6.2,2.9,4.3,1.3,Iris-versicolor
5.1,2.5,3.0,1.1,Iris-versicolor
5.7,2.8,4.1,1.3,Iris-versicolor
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
6.3,2.9,5.6,1.8,Iris-virginica
6.5,3.0,5.8,2.2,Iris-virginica
7.6,3.0,6.6,2.1,Iris-virginica
4.9,2.5,4.5,1.7,Iris-virginica
7.3,2.9,6.3,1.8,Iris-virginica
6.7,2.5,5.8,1.8,Iris-virginica
7.2,3.6,6.1,2.5,Iris-virginica
6.5,3.2,5.1,2.0,Iris-virginica
6.4,2.7,5.3,1.9,Iris-virginica
6.8,3.0,5.5,2.1,Iris-virginica
5.7,2.5,5.0,2.0,Iris-virginica
5.8,2.8,5.1,2.4,Iris-virginica
6.4,3.2,5.3,2.3,Iris-virginica
6.5,3.0,5.5,1.8,Iris-virginica
7.7,3.8,6.7,2.2,Iris-virginica
7.7,2.6,6.9,2.3,Iris-virginica
6.0,2.2,5.0,1.5,Iris-virginica
6.9,3.2,5.7,2.3,Iris-virginica
5.6,2.8,4.9,2.0,Iris-virginica
7.7,2.8,6.7,2.0,Iris-virginica
6.3,2.7,4.9,1.8,Iris-virginica
6.7,3.3,5.7,2.1,Iris-virginica
7.2,3.2,6.0,1.8,Iris-virginica
6.2,2.8,4.8,1.8,Iris-virginica
6.1,3.0,4.9,1.8,Iris-virginica
6.4,2.8,5.6,2.1,Iris-virginica
7.2,3.0,5.8,1.6,Iris-virginica
7.4,2.8,6.1,1.9,Iris-virginica
7.9,3.8,6.4,2.0,Iris-virginica
6.4,2.8,5.6,2.2,Iris-virginica
6.3,2.8,5.1,1.5,Iris-virginica
6.1,2.6,5.6,1.4,Iris-virginica
7.7,3.0,6.1,2.3,Iris-virginica
6.3,3.4,5.6,2.4,Iris-virginica
6.4,3.1,5.5,1.8,Iris-virginica
6.0,3.0,4.8,1.8,Iris-virginica
6.9,3.1,5.4,2.1,Iris-virginica
6.7,3.1,5.6,2.4,Iris-virginica
6.9,3.1,5.1,2.3,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
6.8,3.2,5.9,2.3,Iris-virginica
6.7,3.3,5.7,2.5,Iris-virginica
6.7,3.0,5.2,2.3,Iris-virginica
6.3,2.5,5.0,1.9,Iris-virginica
6.5,3.0,5.2,2.0,Iris-virginica
6.2,3.4,5.4,2.3,Iris-virginica
5.9,3.0,5.1,1.8,Iris-virginica

基于scikit-learn的简介实现,scikit-learn可直接联网加载鸢尾花数据集:

from sklearn.datasets import load_iris
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target
pca = PCA(n_components=2)  # n_components设置降维后的特征数
pca.fit(X)  # 拟合
pca_new = pca.transform(X) #获取新矩阵
print(pca_new)

你可能感兴趣的:(机器学习,数据挖掘)