统计模型-基于sas

1 假设检验与方差分析

1.1 统计推断(PROC TTEST)

统计推断是根据总体随机抽样获取的样本数据的分析来推断总体的统计方法,统计推断涉及两大核心问题,参数估计和假设测验。

  1. 参数估计是利用样本统计量对总体统计参数进行估计:点估计是直接使用抽样样本获取统计参数值估计总体的特征;区间估计给出一个参数的区间来估计总体的参数。
  2. 假设测验在对总体参数进行推断时先给出一定假设,再通过统计检验以判断假设条件是否成立,从而实现对总体的统计推断。

1.2 列联表分析(PROG FREQ)

列联表分析是在列联表的基础上对其中的属性变量数据进行统计分析,以了解单个属性变量及联合属性变量的分布。

1.3 方差分析(PROC ANOVA)

方差分析是研究一个或多个因素对试验过程中某项指标的影响因素,并比较因素的各水平之间是否有显著差异。

  1. 方差:在方差分析中,方差是衡量数据差异程度的重要变量,可以分为各因素水平的方差(组间方差)和误差的方差(组内方差)。
  2. 统计量:方差分析通过F检验来比较因素的不同水平是否都对指标产生显著影响。
  3. 前提假设:数据正态性、方差齐性、方差可加性。

2 相关与回归分析

2.1 相关分析(PROC CORR)

相关关系是研究两个变量之间联系程度的分析方法,在相关分析中,两个变量的相关程度通过相关系数来衡量。

2.2 回归分析(PROC REG)

线性回归是定量变里间的线性关系的重要统计方法,可以实现自变量对因变量的预测,通过最小二乘算法可以找到最佳的模型系数,使线性回归模型的真实值与预测值之间的误差的平方和最小。目前常用的变量选择方法:前向、后向、逐步删除。

线性回归分析的基本流程:

  1. 线性回归模型数据的选取(可通过散点图大致查看两变量的关系);
  2. 最小二乘法计算回归系数;
  3. 回归系数显著性检验;
  4. 模型拟合优度评价(模型决定系数、t统计量、f统计量);
  5. 数据预测。

2.3 非线性回归分析(PROC NLIN)

非线性回归目前的计算方法有很多,其本质是模型拟合最优参数的寻值过程。

2.4 逻辑回归分析(PROC LOGISTIC)

Logistic回归考虑二项属性数据与相关变量的线性关系,是研究分类观察结果与其影响因素之间线性关系的一种分析模型。

3 聚类与判别分析

3.1 系统聚类(PROC CLUSTER)

系统聚类是常用的样本(变量)聚类的方法,通过各种距离统计量描述各样本(变量)间的相似程度,根据距离的远近进行样本(变量)的分类。

距离度量:明考夫斯基距离(特殊形式:绝对值距离/曼哈顿距离、欧式距离、切比雪夫距离)、兰氏距离和马氏距离。
【注】明氏距离和兰氏距离都没有考虑变量间的相关性,因此这两种距离更适合各变量之间互不相关的情形。马氏距离则考虑各变量之间的相关性,并且与各变量的单位无关,但没有关于不同类的先验知识,距离公式中的S就无法计算。

3.2 变量聚类(PROC VARCLUS)

为了了解变量之间的关系,需要通过变量聚类实现对变量的分类,从而从各个类别中挑选出关键变量,代替数据的整体特征。变量聚类主要是通过相关性来判断变量之间的关系,变量聚类类的选择基于主成分变换思想,分类依据是主成分解释能力最强。

3.3 快速聚类(PROC FASTCLUS)

快速聚类根据初始的凝聚点将样本进行初步分类,然后根据初步分类结果不断优化分类结果,至产生最好的分类结果为止,是有效处理大样本数据分类的方法。

3.4 一般判别分析(PROC DISCRIM)

判别分析根据观测数据已有的数据分类情况,建立一定的判别准则(判别函数),使其错判率最低,进而基于判别准则实现对未知样本所属类别判断的统计方法,一般判别分析是最基础的判别分析。

  1. 距离判别法是根据距离分类。
  2. 贝叶斯判别法是以概率为准则的判别分析:计算各个样本属于各个类别的概率,根据概率值的大小使每个样本到其所分的类中的概率最大。

3.5 典型判别分析(PROC CANDISC -> PROC DISCRIM)

典型判别分析/Fihe判别分析的基本思想类似于主成分分析,通过数据的降维技术,找到能区分各类别的变量的线性组合的线性判别函数。

3.6 逐步判别分析(PROC STEPDISC -> PROC DISCRIM)

逐步判别分析选择对判别函数有显著影响的变量,建立最后的判别函数。

4 降维分析

4.1 主成分分析(PROC PRINCOMP)

主成分分析用于对多变量数据进行压缩,提取关键变量信息,从而通过较少的综合变量反映原始的多变量海量数据信息,在主成分分析中所提取的主成分为原始变量的线性组合。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有次大方差的方向(正交是为了数据有效性损失最小,另一个原因是特征值的特征向量是正交的),以此类推。

主成分分析基本步骤(F=aX+e):

  1. 数据标准化;
  2. 计算协方差矩阵;
  3. 计算协方差矩阵的特征值及特征向量;
  4. 主成分数的确定(累计贡献率达到80%以上);
  5. 计算主成分得分。

4.2 因子分析(PROC FACTOR)

因子分析从数据内部的特征出发,将众多的复杂变量简化为少数几个具有代表性的因子,本质即对原始数据进行综合,构建有效的因子。

因子分析的基本步骤(X=aF+e):

  1. 原始数据标准化,消除变量不同量纲的影响;
  2. 构建因子变量;
  3. 因子旋转,以对原始变量的解释能力更佳;
  4. 计算因子得分,以评价因子对数据的综合解释能力。

【注】对应分析:是在因子分析的基础上发展,因子分析分为针对变量的R型因子分析和针对样品的Q型因子分析,对应分析把R型因子分析和Q型因子分析有机地结合,同时把变量和样品反映到有相同坐标轴(因子轴)的一张图上来说明变量与样品之间的对应关系。

4.3 典型相关分析(PROC CANCORR)

典型相关分析分析两组变量的基本思想类似于主成分分析,分别从两组变量中提取出少数几个关键变量,然后通过分析提取出的关键变量之间的相关性来表示原始两组数据之间的相关性。

典型相关分析的基本步骤:

  1. 数据标准化,将不同量纲的变量归一化。
  2. 提取典型相关分析的综合变量u1和v1(原变量的线性组合)。如果提取出来的典型变量u1和v1对原始数据的解释能力欠佳,考虑继续提取典型变量u2和v2。
  3. 重复步骤2至所提取的典型变量能最好地解释原始数据的变化。

4.4 多维标度分析(PROC MDS)

多维标度分析是以空间分布的形式表现对象之间相似性或亲疏关系的一种多元分析方法。基本思想:给定n个由多个变量反映的个体,这n个个体之间的某种距离(比如欧氏距离)或某种相似性,我们从这种距离或相似性出发,在低维的欧氏空间中把n个个体的图形绘制出来,反映这些个体之间的结构关系。

5 预测分析

5.1 时序分析(PROC ARIMA)

时间序列分析是通过对时序数据的分析,构建时序模型并估计模型参数,实现对未来时序数据的预测。时间序列模型包括:AR、MA、ARMA。

时间序列分析基本步骤:

  1. 获取随时间变化的样本的观测数据;
  2. 平稳性检验,判断获取的观测序列是否为平稳非白噪声序列;
  3. 计算样本序列的自相关系数和样本偏自相关系数,根据其变化特征,选择模型适当的阶数;
  4. 估计时间序列模型的参数,即估计时序模型中的自回归系数和滑动平均系数;
  5. 模型和参数的显著性检验;
  6. 最佳准则函数法(如AIC)进行模型优化,选出最佳时序模型;
  7. 时序模型对未来时间下事物状态的变化作出预测。

5.2 生存分析(PROC LIFEREG )

是专门用于研究生存时间的分布规律及生存时间和相关因素之间关系的统计分析方法,生存分析的基本方法包括参数法、非参数法和半参数法3种。

你可能感兴趣的:(数据分析,数学建模,统计模型)