1.判别分析的基本思想:设有n个样本,对每个样本的p项指标,已知每个样本属于k个类别中的某一类,找到一个最优性质判别函数,能把不同类别的样本点尽可能区别开,以最优的性质对p维空间构造一个划分,这个划分就构成了判别规则并且给定新样本,能判定样本属于哪个类
2.距离判别法基本思想:分别计算样本与各个总体的马氏距离,将距离近的判别为一类
3.贝叶斯判别法基本思想:设有k个总体,概率密度函数为f(x),假设k个总体各自出现的概率分别为q1,q2...假设已知某个属于Gi的样本判错到总体Gj造成的损失为C(j|i),选择一种划分,使总平均损失函数g(R)达到极小
4:Fisher判别思想:从k个总体中抽取p个指标观测数据,借助方差分析构造线性判别函数U(x)=u1x1+...+upxp,系数u确定的原则是使得总体之间区别最大,总体内部离差最小.对于新样本,将他的p个指标代入,利用一定判别规则,判别新的样品属于哪个类
1.聚类分析基本思想:分析如何对样品进行量化分类,在聚类之前不知道总体,通过聚类使相近的样品形成总体
2.k均值聚类和系统聚类的异同:相同:都是以距离的远近亲疏为标准进行聚类的.不同:系统聚类对不同的类数产生一系列的聚类结果,k均值只能产生指定类数的聚类结果.具体类书的确定,离不开实践经验的积累,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为k均值法确定类数的参考
3.马氏距离:马氏距离考虑变量之间的相关性,如果各变量之间相互独立,协差阵为对角阵.还考虑了观测变量之间的变异性,不再受各指标量纲的影响.
1.主成分分析和因子分析的区别和联系:因子分析需要构造因子模型,着重要求新变量具有实际的意义,能解释原始变量间的内在结构.主成分分析仅仅是变量变换,是原始变量的线性组合表示新的综合变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义.联系:两者都是降维的思想
1.因子载荷aij的统计意义:aij是Xi和Fj的相关系数,他表示了Xi对Fj的依赖程度,绝对值越大,密切程度越高,另一方面反映了Xi对公因子Fj的相对重要性.
2.变量共同度hi方的统计意义:描述了全部公因子对变量Xi的总方差的贡献,反映了公共因子对变量Xi的影响程度
3.公共因子Fj的方差贡献度gj方的统计意义:表示同一公共因子Fj对各变量所提供的方差贡献度的综合,衡量每一个公共因子相对重要性的尺度.