from sklearn.datasets import fetch_lfw_people
from sklearn.decomposition import PCA
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np
本次我们使用的数据集是sklearn库中自带的人脸图片数据集,包括1348张长宽分别为62、 47的人脸图片,该数据集有data和image两种属性,image按照图片取出,为三维(1348, 62, 47),data属性为将长宽展平为一维(1348, 2914),2914 = 62×47。
faces = fetch_lfw_people(min_faces_per_person=60)
#取出我们需要用到的数据
X = faces.data
faces.images.shape
faces.data.shape
#创建画布和子图对象
#横纵长度为4和5的画布
fig, axes = plt.subplots(4, 5
, figsize=(8, 4)
, subplot_kw = {
"xticks":[],"yticks":[]} #不要显示坐标轴
)
#这里采用enumerate函数对axes进行变化绘制(这里是将二位数据拉成一维)
for i, ax in enumerate(axes.flat):
#显示图片
ax.imshow(faces.images[i, :, :], cmap='gray')
plt.savefig(r"C:\Users\86377\Desktop\2.png")
#原本有2900维,我们现在来降到150维
pca = PCA(150).fit(X)
V = pca.components_
这里我讲一下我的理解:原始数据为1348张长宽为62×47=2914,特征为2914,我们使用pca将特征降至2914维,所以V’为150×2914维,这样矩阵所做的线性空间变换才会将特征维数降至150维,绘制特征空间,150个特征就有150种特征空间,所以我们可以将这150种特征空间绘制出来。
fig, axes = plt.subplots(10, 15, figsize=(20, 8), subplot_kw={
"xticks": [], "yticks": []})
for i, ax in enumerate(axes.flat):
ax.imshow(V[i, :].reshape(62, 47), cmap="gray")
绘制出的图片如下:
只显示20个我们仔细看:
这里我们可以看到后面越来越不显示出人脸特征,这也验证了保留有效信息的可行性。
#降维后的数据
X_dr = pca.transform(X)
#还原的数据
X_inverse = pca.inverse_transform(X_dr)
#可视化
fig, axes = plt.subplots(2, 10, subplot_kw={
'xticks': [], 'yticks': []})
for i in range(10):
axes[0, i].imshow(X[i, :].reshape(62, 47), cmap='binary_r')
axes[1, i].imshow(X_inverse[i, :].reshape(62, 47), cmap='binary_r')
plt.savefig(r"C:\Users\86377\Desktop\4.png")