Python数据建模--主成分分析

主成分分析

  • 二维数据降维
    • 导入库
    • 数据创建
    • 数据在图形中展示
    • 构建模型
    • 数据转换,生成新变量
    • 数据在图中展示
  • 多维数据降维
    • 加载数据
    • 模型建立
    • 二维数据制图
    • 主成分筛选
    • 绘制结果图

PCA主成分分析的python实现方法

介绍:最广泛无监督算法 + 基础的降维算法,通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量 → 高维数据的降维

分类:二维数据降维 / 多维数据降维

二维数据降维

导入库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

数据创建

rng = np.random.RandomState(8)
data = np.dot(rng.rand(2,2),rng.randn(2,200)).T
df = pd.DataFrame({'X1':data[:,0],
                    'X2':data[:,1]})
print(df.head())
print(df.shape)

*


Python数据建模--主成分分析_第1张图片

数据在图形中展示

plt.scatter(df['X1'],df['X2'], alpha = 0.8, marker = '.')
plt.axis('equal')
plt.grid()

*

Python数据建模--主成分分析_第2张图片

构建模型

from sklearn.decomposition import PCA  
# 加载主成分分析模块PCA

pca = PCA(n_components = 1)  # n_components = 1 → 降为1维
pca.fit(df)  # 构建模型
# sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)  
# n_components:  PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n
# copy: True或者False,默认为True → 表示是否在运行算法时,将原始训练数据复制一份
# fit(X,y=None) → 调用fit方法的对象本身。比如pca.fit(X),表示用X对pca这个对象进行训练

print("特征值", pca.explained_variance_)  # 输出特征值
print("特征向量",pca.components_)  # 输出特征向量
print("成分的个数", pca.n_components_)  # 输出成分的个数
print('-----')
# components_:返回具有最大方差的成分。
# explained_variance_ratio_:返回 所保留的n个成分各自的方差百分比。
# n_components_:返回所保留的成分个数n。

# 这里是shape(200,2)降为shape(200,1),只有1个特征值,对应2个特征向量
# 降维后主成分 A1 = 0.7788006 * X1 + 0.62727158 * X2

*

在这里插入图片描述

数据转换,生成新变量

x_pca = pca.transform(df)  # 数据转换
x_new = pca.inverse_transform(x_pca)  # 将降维后的数据转换成原始数据
print('original shape:',df.shape)
print('transformed shape:',x_pca.shape)
print('x_new shape:', x_new.shape)
print(x_pca[:5])
print('-----')
# 主成分分析,生成新的向量x_pca
# fit_transform(X) → 用X来训练PCA模型,同时返回降维后的数据,这里x_pca就是降维后的数据
# inverse_transform() → 将降维后的数据转换成原始数据

*

Python数据建模--主成分分析_第3张图片

数据在图中展示

plt.scatter(df['X1'],df['X2'], alpha = 0.8, marker = '.')
plt.scatter(x_new[:,0],x_new[:,1], alpha = 0.8, marker = '*',color = 'r')
plt.axis('equal')
plt.grid()

*

Python数据建模--主成分分析_第4张图片

多维数据降维

加载数据

from sklearn.datasets import load_digits
digits = load_digits()
print(digits .keys())
print('数据长度为:%i条' % len(digits['data']))
print('数据形状为:%i条',digits.data.shape)
print(digits.data[:2])

*

Python数据建模--主成分分析_第5张图片

模型建立

pca = PCA(n_components = 2)  # 降为2纬
projected = pca.fit_transform(digits.data)
print('original shape:',digits.data.shape)
print('transformed shape:',projected.shape)
print("特征值",pca.explained_variance_)  # 输出特征值
print("特征向量形状",pca.components_.shape)  # 输出特征向量形状
# print(pca.components_)
print("解析后数据",projected)  # 输出解析后数据
# 降维后,得到2个成分,每个成分有64个特征向量

*

Python数据建模--主成分分析_第6张图片

二维数据制图


plt.scatter(projected[:,0],projected[:,1],
           c = digits.target, edgecolor = 'none',alpha = 0.5,
           cmap = 'Reds',s = 5)
plt.axis('equal')
plt.grid()
plt.colorbar()

*

Python数据建模--主成分分析_第7张图片

主成分筛选

pca = PCA(n_components = 10)  # 降为10纬
projected = pca.fit_transform(digits.data)
print('original shape:',digits.data.shape)
print('transformed shape:',projected.shape)
print(pca.explained_variance_)  # 输出特征值
print(pca.components_.shape)  # 输出特征向量形状
#print(projected)  # 输出解析后数据
# 降维后,得到10个成分,每个成分有64个特征向量

c_s = pd.DataFrame({'b':pca.explained_variance_,
                   'b_sum':pca.explained_variance_.cumsum()/pca.explained_variance_.sum()})
print(c_s)
# 做贡献率累计求和
# 可以看到第7个成分时候,贡献率超过85% → 选取前7个成分作为主成分

*

Python数据建模--主成分分析_第8张图片

绘制结果图

c_s['b_sum'].plot(style = '--ko', figsize = (10,4))
plt.axhline(0.85,color='r',linestyle="--",alpha=0.8)  
plt.text(6,c_s['b_sum'].iloc[6]-0.08,'第7个成分累计贡献率超过85%',color = 'r')
plt.grid()

*

Python数据建模--主成分分析_第9张图片

Python 数据建模:

- Python数据建模–回归
- Python数据建模–分类
- Python数据建模–主成分分析
- Python数据建模–K-means聚类
- Python数据建模–蒙特卡洛模拟

你可能感兴趣的:(数据建模,Python,数据分析)