无监督学习 - 主成分分析(Principal Component Analysis,PCA)

什么是机器学习

主成分分析(Principal Component Analysis,PCA)是一种常用的无监督学习方法,用于降低数据维度并发现数据中的主要结构。PCA的目标是通过线性变换将原始数据投影到一个新的坐标系,使得数据在新坐标系中的方差尽可能大,从而保留数据的主要信息。

PCA的基本步骤:

  1. 标准化数据: 如果数据的不同特征具有不同的尺度,需要对数据进行标准化,以确保每个特征对PCA的影响相等。
  2. 计算协方差矩阵: 计算数据集中各特征之间的协方差矩阵。
  3. 计算特征值和特征向量: 对协方差矩阵进行特征值分解,得到特征值和相应的特征向量。
  4. 选择主成分: 将特征值按降序排列,选择前k个特征值对应的特征向量,构成投影矩阵。
  5. 投影: 将原始数据投影到选定的主成分上,得到降维后的数据。

Python中使用scikit-learn进行PCA的简单示例:

from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt

# 生成随机数据集
np.random.seed(42)
data = np.random.rand(100, 2) * 5  # 生成一个二维数据集

# 创建PCA模型并拟合数据
pca = PCA(n_components=2)
pca.fit(data)

# 获取主成分和方差贡献
components = pca.components_
explained_variance_ratio = pca.explained_variance_ratio_

# 打印主成分和方差贡献
print("主成分:")
print(components)
print("\n方差贡献:")
print(explained_variance_ratio)

# 绘制原始数据和主成分
plt.scatter(data[:, 0], data[:, 1], label='原始数据')
plt.quiver(0, 0, components[0, 0], components[0, 1], angles='xy', scale_units='xy', scale=1, color='r', label='主成分1')
plt.quiver(0, 0, components[1, 0], components[1, 1], angles='xy', scale_units='xy', scale=1, color='b', label='主成分2')
plt.title('PCA')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.legend()
plt.show()

这个例子中,通过PCA找到了数据的主成分,并展示了主成分的方向。在实际应用中,可以选择适当的主成分数量来实现降维,减少数据的维度,同时保留数据的主要结构。

你可能感兴趣的:(数据结构与算法,学习,机器学习,人工智能,算法)