判别分析

判别分析是在已知分类的前提下,将给定的新样品按照某种分类规则判入某个类中,它是研究如何将个体"归类”的一种统计分析方法。

判别分析_第1张图片

判别分析_第2张图片 

多重共线性:在解释变量中,有某一解释变量可由其他解释变量线性表出。

多重共线性的影响:共线性会导致回归参数不稳定,即增加或删除一个样本点或特征,回归系数的估计值会发生很大变化。 这是因为某些解释变量之间存在高度相关的线性关系,XTX会接近于奇异矩阵,即使可以计算出其逆矩阵,逆矩阵对角线上的元素也会很大,这就意味着参数估计的标准误差较大,参数估计值的精度较低,这样,数据中的一个微小的变动都会导致回归系数的估计值发生很大变化。

总结下,共线性对线性模型影响

回归模型缺乏稳定性。样本的微小扰动都可能带来参数很大的变化;
难以区分每个解释变量的单独影响;
参数的方差增大;
变量的显著性检验失去意义;
影响模型的泛化误差;

 判别分析_第3张图片

 (1) 进行判别分析时,常用马氏距离,这是因为欧式距离对每一个样品同等对待,将样品各分量视作互不相关,而马氏距离考虑了样品数据之间的依存关系,从绝对和相对两个角度考察样品,消除了单位不一致的影响,更具合理性。

(2)作距离判别时,μ1 和u2要有显著的差异才行,否则判别的误差较大,判别结果没有多大意义。

判别分析_第4张图片 

判别分析_第5张图片 

 贝叶斯(Bayes)统计的思想:

假定对研究对象有一定的认识(常用先验概率分布来描述),然后取一个样本,用样本来修正已有的这个先验概率分布,得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到了贝叶斯判别。它体现了判别方法与总体各自出现的概率大小的关系,判别方法与错判之后造成损失的关系。

判别分析_第6张图片

 费歇(Fisher)判别的思想:

将多维数据投影到某一个方向, 使得同一类别(总体)的数据在该直线上尽量靠拢,不同类别(总体)的数据尽可能分开,即各组均值有显著差异,这就转化为方差分析问题。从方差分析的角度来说,就是组内变差尽量小,组间变差尽量大,然后再利用距离判别法来建立判别准则。Fisher判别法属于确定性判别,有线性判别、非线性判别和典型判别等多种常用方法。

判别分析_第7张图片 

判别分析_第8张图片 

 判别分析_第9张图片

 判别分析_第10张图片

 逐步判别的思想

判别变量(解释变量)选择的好坏直接影响判别分析的结果,忽略了主要指标会损失重要信息,选入了太多无用指标也会干扰判断,都将严重影响判别函数的效果,因此,筛选适当判别变量就成了一个非常重要的事情。

具有筛选变量能力的判别方法统称为逐步判别法。

判别分析_第11张图片

判别分析_第12张图片

判别分析_第13张图片

判别分析_第14张图片 

 实际操作:

判别分析_第15张图片 

 判别分析_第16张图片

判别分析_第17张图片

 判别分析_第18张图片

 

你可能感兴趣的:(数学建模,数据科学导论)