载入数据:
分析操作步骤:
Fisher(F):给出的是Bayes线性判别函数的系数
未标准化(U):给出未标准化的典型判别系数,即费希尔投影函数。
先验概率选相等给出的结果是距离判别的结果,根据组样本大小计算用于贝叶斯判别。
输出是贝叶斯判别选项
这里可以修改各组的假定概率,点击运行即可保存。
预测组成员(Predicted group membership):存放判别样品所属类别的值;
判别得分(Discriminant scores):存放Fisher判别函数值(投影函数)的值,有几个典型判别函数就有几个判别函数值变
组成员概率(Probabilities of group membership):存放样品属于各类的Bayes后验概率值,总体分为几类就生成几个后验概率变量。
例5.4.1鸢尾花案例的结果分析:
案例处理汇总分析,反映有效样本和变量的缺失情况,鸢尾花这个例子没有缺失变量。
给出组别1、组别2、组别3以及组别1、2、3共同的均值、标准差差和变量个数,这个用于费希尔判别,可见第五版课本P138。
组内协方差就是当组一、组三和组二协方差相等时方差的联合无偏估计,对比下第五版课本P117的方差的联合无偏估计和第五版课本P135的公式,可得方差的联合无偏估计*(三组变量总个数-组数)=组内平方和及叉积和矩阵(E),用于费希尔判别,可见第五版课本P138。
因为总体协方差*相应的自由度=总平方和,组间平方和=总平方和-组内平方和,所以总的协方差矩阵*相应的自由度-方差的联合无偏估计*(三组变量总个数-组数)=组间平方和及叉和矩阵(H),用于费希尔判别,可见第五版课本P138。
Box's M统计量检验各组内协方差阵相等的假设。原假设为:H0:Σ1=Σ2=Σ3=Σ 概率值小于0.05,故在0.05的显著性水平下各总体协方差阵不相等,即组一、组二和组三协方差不相等。因此在分类选项中的协方差矩阵选择可以考虑采用分组协方差。
由于只有三个组,所以只有两个判别函数。反映判别函数的特征根(第一个特征根为32.192、第二个特征根为0.285,可见第五版课本P138)、解释方差的比例和典型相关系数(组间平方和与总平方和之比的平方根,表示判别函数与组别间的关系程度)。第一个判别函数解释了99.1%的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。
Fisher判别函数有效性检验结果。该检验的原假设是不同组的平均Fisher判别函数值不存在显著差异。从表中给出的p值来看,P=0.00<0.05,说明在0.05的显著性水平下有理由拒绝原假设。1到 2 表示没有函数被移去,拒绝原假设,表明两个判别函数能将各组样品分开,2的表示排除了第一个判别函数后的显著性检验,拒绝原假设,第二个判别函数也能将各组样品分开。
标准化判别函数系数可以看出预测变量在组成判别函数时的相对贡献,如本例,第一判别函数的花瓣长比较重要,第二判别函数在花萼宽比较重要。标准判别函数系数的计算是由非标准化判别函数系数乘以联合组内协方差矩阵主对角的平方根得来。
结构系数即预测变量与典型判别函数的联合组内相关系数,由联合组内相关系数矩阵*标准化判别函数系数矩阵计算得到。
非标准化判别函数系数,即费歇尔判别函数系数。是由上面的特征根所对应的特征向量(标准化特征向量)而得来的。可见第五版课本P138。
中心化的费希尔判别函数(Fisher投影函数) ,表示为
y1=-0.083*花萼长-0.153*花萼宽+0.220*花瓣长+0.281*花瓣宽-2.105
y2=0.002*花萼长+0.216*花萼宽-0.093*花瓣长+0.284*花瓣宽-6.661
反映判别函数在各组的重心,即判别函数的组均值,由非标准化判别函数系数矩阵*(各组平均值-总平均值)得到,可见第五版课本P138。
将样本中150个样品的判别函数得分作一散点图,如下所示:
判别:
本例使用了所有判别函数且概率相等,所以费希尔判别等价于距离判别等价于各先验概率均相等时的贝叶斯判别。
分类函数处理汇总。已处理150个观测量,没有缺失值。
因为之前选择的是先验概率所有组相等,所以组一与组二的概率都为0.333,这个用于贝叶斯判别。
这里的Fisher 的线性判别式函数系数为贝叶斯的线性判别函数系数,这是用贝叶斯判别分析法产生的分类函数系数,可见课本第五版课本P121的5.2.17式,可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。
给出了判别结果,通过判别函数的预测,有147个观测是正确的,其中,y=1组50个观测全部被判对,y=2组50个观测中有48个观测被判对,y=3组50个观测中有49个观测被判对,从而有98%的原始观测被判对。(可见第五版课本P141)
例5.2.3破产和非破产公司的案例结果分析:
案例处理汇总分析,反映有效样本和变量的缺失情况。这里排除了一个变量,因为破产组与非破产组中第47个数据是待判数据,所以只能选用前46个变量进行分析。
给出组别1、组别2以及组别1、2共同的均值、方差和变量个数,这个用于距离判别,可见第五版课本P123。
组内协方差就是当组一协方差与组二协方差相等时方差的联合无偏估计,用于距离判别,可见第五版课本P123。
组别1、组别2的协方差,用于计算组内协方差和当组一协方差与组二协方差不相等时的距离判别,可见第五版课本P123。
Box's M统计量检验各组内协方差阵相等的假设。原假设为:H0:Σ1=Σ2 =Σ 概率值小于0.05,在0.05的显著性水平下各总体协方差阵不相等,即组一协方差与组二协方差不相等。因此在分类选项中的协方差矩阵选择可以考虑采用分组协方差。
判别:
本例假定概率相等,所以距离判别等价于各先验概率均相等时的贝叶斯判别。
分类函数处理汇总,已处理47个观测量,没有缺失值。
因为之前选择的是先验概率所有组相等,所以组一与组二的概率都为0.5,这个用于贝叶斯判别。
这里的Fisher 的线性判别式函数系数为贝叶斯的线性判别函数系数(可见课本第五版课本P123),这是用贝叶斯判别分析法产生的分类函数系数,可见课本第五版课本P121的5.2.17式,可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。
给出了判别结果,通过判别函数的预测,有41个观测是正确的,其中,y=1组21个观测有18个被判对,y=2组25个观测中有24个观测被判对,从而有96%的原始观测被判对。在交叉验证中,其中,y=1组21个观测有18个被判对,y=2组25个观测中有23个观测被判对,从而有92%的原始观测被判对。
spss几点说明:
1、spss只有Bayes判别和Fisher判别的直接选项,没有距离判别的直接选项,只在个案结果(Casewise Statistics)中给出了一个结果。
2、spss中Bayes判别和Fisher判别的操作没有分开进行
3、spss中给出的判别表达式(投影函数)都是针对协方差阵相等的情形给出的,对于协方差阵不相等的情况要手动计算
4、spss判别以Bayes判别为主,主要菜单与选项都是针对Bayes判别分析设置,并且最终保存的判别结果也是以Bayes判别为依据;Fisher判别操作仅给出投影表达式、各类投影中心坐标或投影分解图去做判别,并没有提供费歇尔法的计算机处理程序。
5.当协方差不等时,除了做不出交叉验证的结果和出现典型判别式函数的组协方差及相等性检验外,其他结果几乎不变;当概率不同,协方差相等时,交叉验证的结果不同。