泛统计理论初探——线性判别分析LDA简介

统计学习-线性判别分析方法简介

线性判别分析方法简介
LDA是常见的降维算法,全称是Linear Discriminant Analysis,即线性判别分析。这种方法和主成分分析法都是一种降维的方法,区别在于主成分分析方法是无监督方法,而LDA是一种有监督的方法。LDA的核心思想其实是将数据进行映射,把之前分布的数据映射为一簇一簇的数据,使得一簇数据内部的数据距离尽量的小,而一簇数据与另一簇数据之间的距离尽可能的大。
线性判别分析(LDA)方法在使用的效果上还是不错的,可以使得原有的变量信息得以汇总,在处理问卷或者一些经济问题的时候,一般来说变量会很多,如果使用线性判别分析方法先进行尝试,当降维的结果符合使用者要求的时候可以使用LDA,由于这是一种有监督的降维方法,所以数据的选取将会直接影响线性判别函数的生成,从而影响降维的结果,这是使用者需要注意的一点。
泛统计理论初探——线性判别分析LDA简介_第1张图片
值得注意的是,线性判别分析方法和PCA主成分分析方法除了在最开始讲到的有监督和无监督的区别之外,还存在其他的两个细节上的区别。第一点,线性判别分析的降维是有限制的,即最多降低到N-1的维度,比如原有类别是6类,而通过线性判别分析降维后最多降低到5维。而对于PCA主成分分析方法是没有限制的,使用者降维到1维都可以。第二点,在之前的PCA主成分分析的文章中,我们提到主成分分析方法总是选择样本数据之中具有最大方差的投影方向,即主成分分析方法是是选择信息最多的投影方向。这样的策略对于某些特殊分布的数据,不是特别有效,即最大方差的投影方向不一定是最优的降维方向。从另一个角度来看,由于PCA方法是没有监督的,它只能选择一个目标(最大方差方向)进行降维,而线性判别分析方法(LDA)则可以利用因变量进行调整,从而使得在某些情况的数据,LDA方法比主成分分析方法的降维效果要更好。
下面我们来讨论线性判别分析方法的优缺点,使用者要明确LDA方法的优缺点,在真实数据的情况下进行判断。
从LDA方法的优点来看,这种方法使用了数据本身的标签,所以比主成分分析方法的降维效果要好一些,可能降维后的类的含义更为明确。而当LDA方法的分类信息使用平均值的时候,它的分类效果比主成分分析的效果更好。当实际数据里包含了标签信息的时候,尽量使用LDA方法进行降维,如果没有标签信息,那也只能使用PCA主成分分析方法进行降维。
而从LDA方法的缺点来看,首先由于有监督方法的一贯缺点,即容易过拟合,LDA方法也会受到数据的影响,造成过拟合。其次就是之前说到的地方,LDA方法只能降维到N-1的维度,所以当需要降低的维度较大的情况下,是无法使用这种方法的。并且在数据非经典正态分布的情况下,使用LDA或者PCA的降维效果都是较差的。
总的来说,降维本身会丢失一些变量信息,如果在真实数据情况下,确实有很多变量,那么可以使用降维方法。在变量不多的情况下,不建议直接使用LDA方法或者PCA方法,这样会导致后续的分析和建模丢掉一些信息,所以使用者要谨慎使用线性判别分析方法。

你可能感兴趣的:(统计学习,神经网络,数据挖掘,机器学习,深度学习,线性代数)