统计推断是根据总体随机抽样获取的样本数据的分析来推断总体的统计方法,统计推断涉及两大核心问题,参数估计和假设测验。
列联表分析是在列联表的基础上对其中的属性变量数据进行统计分析,以了解单个属性变量及联合属性变量的分布。
方差分析是研究一个或多个因素对试验过程中某项指标的影响因素,并比较因素的各水平之间是否有显著差异。
相关关系是研究两个变量之间联系程度的分析方法,在相关分析中,两个变量的相关程度通过相关系数来衡量。
线性回归是定量变里间的线性关系的重要统计方法,可以实现自变量对因变量的预测,通过最小二乘算法可以找到最佳的模型系数,使线性回归模型的真实值与预测值之间的误差的平方和最小。目前常用的变量选择方法:前向、后向、逐步删除。
线性回归分析的基本流程:
非线性回归目前的计算方法有很多,其本质是模型拟合最优参数的寻值过程。
Logistic回归考虑二项属性数据与相关变量的线性关系,是研究分类观察结果与其影响因素之间线性关系的一种分析模型。
系统聚类是常用的样本(变量)聚类的方法,通过各种距离统计量描述各样本(变量)间的相似程度,根据距离的远近进行样本(变量)的分类。
距离度量:明考夫斯基距离(特殊形式:绝对值距离/曼哈顿距离、欧式距离、切比雪夫距离)、兰氏距离和马氏距离。
【注】明氏距离和兰氏距离都没有考虑变量间的相关性,因此这两种距离更适合各变量之间互不相关的情形。马氏距离则考虑各变量之间的相关性,并且与各变量的单位无关,但没有关于不同类的先验知识,距离公式中的S就无法计算。
为了了解变量之间的关系,需要通过变量聚类实现对变量的分类,从而从各个类别中挑选出关键变量,代替数据的整体特征。变量聚类主要是通过相关性来判断变量之间的关系,变量聚类类的选择基于主成分变换思想,分类依据是主成分解释能力最强。
快速聚类根据初始的凝聚点将样本进行初步分类,然后根据初步分类结果不断优化分类结果,至产生最好的分类结果为止,是有效处理大样本数据分类的方法。
判别分析根据观测数据已有的数据分类情况,建立一定的判别准则(判别函数),使其错判率最低,进而基于判别准则实现对未知样本所属类别判断的统计方法,一般判别分析是最基础的判别分析。
典型判别分析/Fihe判别分析的基本思想类似于主成分分析,通过数据的降维技术,找到能区分各类别的变量的线性组合的线性判别函数。
逐步判别分析选择对判别函数有显著影响的变量,建立最后的判别函数。
主成分分析用于对多变量数据进行压缩,提取关键变量信息,从而通过较少的综合变量反映原始的多变量海量数据信息,在主成分分析中所提取的主成分为原始变量的线性组合。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有次大方差的方向(正交是为了数据有效性损失最小,另一个原因是特征值的特征向量是正交的),以此类推。
主成分分析基本步骤(F=aX+e):
因子分析从数据内部的特征出发,将众多的复杂变量简化为少数几个具有代表性的因子,本质即对原始数据进行综合,构建有效的因子。
因子分析的基本步骤(X=aF+e):
【注】对应分析:是在因子分析的基础上发展,因子分析分为针对变量的R型因子分析和针对样品的Q型因子分析,对应分析把R型因子分析和Q型因子分析有机地结合,同时把变量和样品反映到有相同坐标轴(因子轴)的一张图上来说明变量与样品之间的对应关系。
典型相关分析分析两组变量的基本思想类似于主成分分析,分别从两组变量中提取出少数几个关键变量,然后通过分析提取出的关键变量之间的相关性来表示原始两组数据之间的相关性。
典型相关分析的基本步骤:
多维标度分析是以空间分布的形式表现对象之间相似性或亲疏关系的一种多元分析方法。基本思想:给定n个由多个变量反映的个体,这n个个体之间的某种距离(比如欧氏距离)或某种相似性,我们从这种距离或相似性出发,在低维的欧氏空间中把n个个体的图形绘制出来,反映这些个体之间的结构关系。
时间序列分析是通过对时序数据的分析,构建时序模型并估计模型参数,实现对未来时序数据的预测。时间序列模型包括:AR、MA、ARMA。
时间序列分析基本步骤:
是专门用于研究生存时间的分布规律及生存时间和相关因素之间关系的统计分析方法,生存分析的基本方法包括参数法、非参数法和半参数法3种。