【秋招基础知识】【1】特征降维方法 PCA+LDA

一、主成分分析PCA(Principal Component Analysis)

  • PCA是一种无监督特征降维方法(也可以认为是特征提取方法,从高维提取出低位),在降维的同时保留尽可能多的信息。
  • PCA的目标是让样本之间的方差(衡量样本分散的程度)尽可能大(分散能够防止几个点投影至同一个点的情况)。
  • PCA的执行步骤:
    给定n个d维样本xi,想要将维度降到k。
    1.将原始数据按行组合成n*d矩阵。
    2.将所有样本特征中心化,转化为均值为0。
    3.计算样本的协方差矩阵Cov=XXT。
    4.求出协方差矩阵的特征值及对应的特征向量。
    5.将特征值从大到小进行排序,然后选取前边的k个特征值对应的特征向量,作为线性变换矩阵P(维度k*d)。
    6.Y=XP即降维到k维。
  • 倘若d维特征在k维线性不可分,直观上先升维至线性可分再降维,实际上使用核函数来模拟这一过程。
    【秋招基础知识】【1】特征降维方法 PCA+LDA_第1张图片

二、线性判别模型_隐式狄利克雷分布LDA(Latent Dirichlet Allocation)

LDA是一种有监督降维方法,它的目标是同一组内方差尽可能小,组间方差尽可能地大。
【秋招基础知识】【1】特征降维方法 PCA+LDA_第2张图片

PCA和LDA的比较

【秋招基础知识】【1】特征降维方法 PCA+LDA_第3张图片

你可能感兴趣的:(秋招笔记,python,算法,机器学习)