数学建模-第9-13章:统计学方法建模汇总

假设检验

分析目的

  • 事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立

假设检验步骤

  1. 提出假设
  2. 确定适当的检验统计量
  3. 规定显著性水平a
  4. 计算检验统计量的值
  5. 做出统计决策
  • 假设检验中的两类错误
    • 第一类(弃真错误) 原假设为真拒绝原假设
    • 第二类(取伪错误) 原假设为假接受原假设

一个正态总体参数的检验

  • 一个总体
    • 均值
      • Z检验(单尾和双尾)
      • t检验(单尾和双尾)
    • 比例
      • Z检验(单尾和双尾)
    • 方差
      • x 2 x^2 x2检验(单尾和双尾)

两个正态总体参数的检验

  • 两个总体参数的检验

    • 均值
      • 独立样本 Z检验(大样本)
      • t检验 (小样本)
      • 配对样本 t检验(小样本)
    • 比例
      • Z检验
    • 方差
      • F检验
  • 匹配样本的t检验

  • 检验统计量
    数学建模-第9-13章:统计学方法建模汇总_第1张图片

相关分析

分析目的

  • 变量间的关系
    • 函数关系:一一对应的关系 完全依赖
      • 各观测点严格落在一条线上
    • 相关关系:变量间确实存在但数量上不固定的相互依存
      • 各观测点分布在一条直线或曲线周围
      • 按关系涉及的因素多少分
        • 单相关 一元相关,两变量间的相关关系
        • 复相关 多元相关,三个(或以上)
      • 按相关的表现形态分
        • 直线相关
        • 曲线相关
      • 按相关方向分
        • 正相关
        • 负相关
  • 数据
    • 定量数据(数值型数据) :分顺序型和连续型-相关分析
    • 定性数据(品质数据) -列联分析

相关关系的测定

  • 图形刻画-也称散点图
    • 一对数据对应一点
  • 相关系数
  1. Person简单相关系数:度量连续变量间的线性相关关系
    数学建模-第9-13章:统计学方法建模汇总_第2张图片1. r的取值范围是[-1,1]
    2.r<0,为负线性相关,r>0,为正线性相关
    3.|r|=1 为完全相关,r=1 完全正相关 r=-1 完全负相关 r=0 无相关关系
    相关系数的显著性检验 t检验
    检验步骤为:
    数学建模-第9-13章:统计学方法建模汇总_第3张图片

  2. Spearman等级相关系数:度量定序变量间的线性相关关系

  • 秩:将样本值从小到大排序,排列的序号称为相应数据的秩,对相同的数据取序号的平均值作为秩
    计算公式
    数学建模-第9-13章:统计学方法建模汇总_第4张图片
  1. Kendall相关系数:用非参数方法来度量定序变量间的线性相关关系
    一致:在样本中,如果 ( x j − x i ) ( y j − y i ) > 0 (x_j-x_i)(y_j-y_i)>0 (xjxi)(yjyi)>0 ( x i , y i ) 与 ( x j , y j ) (x_i,y_i)与(x_j,y_j) (xi,yi)(xj,yj)一致
    计算:τ=2(U-V)/n(n-1) U为一致对数目,V为非一致对数目

偏相关系数

  • 分析目的:多要素构成系统中,不考虑其他要素的影响,单独研究两个要素间的相互关系密切程度,称偏相关
  • 三个要素的偏相关系数
    数学建模-第9-13章:统计学方法建模汇总_第5张图片
  • 性质:系数分布在[-1,1] 绝对值越大,偏相关程度越大
    数学建模-第9-13章:统计学方法建模汇总_第6张图片

列联分析

  • 数据
    • 定量数据(数值型数据) :分顺序型和连续型-相关分析
      • 连续定量型、二值离散变量间:假设检验
    • 定性数据(品质数据) -列联分析
      • 连续定量型、(多值、多变量)离散变量间:方差分析
  • 判明所考察的各属性之间有无关联,即是否独立
  • 再判明变量间存在后判断关联程度

分析思路

  1. 提出假设:变量独立 :联合分布函数等于两个边缘分布函数的乘积
  2. 确定适当的检验统计量
  3. 规定显著性水平a
  4. 计算检验统计量的值
  5. 作出统计决策

列联表中的相关测量

数学建模-第9-13章:统计学方法建模汇总_第7张图片

探索性分析

分析目的

  • 对已有数据在尽量少的先验假设下,通过绘制可视化图形、制作统计量表格等手段探索数据的结构和规律、提炼数据中主要信息的数据统计分析方法
  • 一般目的如下
    1. 明析数据含义、理解数据结构,发现异常值进行筛查、以便数据合并清洗
    2. 个案和变量进行特征描述,查看分布,分析变量间关系
    3. 对主要信息提取。

分析内容

  1. 筛查数据 是否有缺失值/有异常值/有重复值/需要抽样/需要增加新的变量? 变量是否需要转换?样本是否均衡
  2. 用统计量和图表对数据进行特征描述:信息提取
    1. 连续变量
      1. 常见统计量:平均值、中位数、众数、最小值、最大值、四分位数、标准差等
      2. 图表:统计量表、直方图、茎叶图、箱线图
    2. 无序型离散变量
      1. 统计量:各个变量值出现的频数和占比
      2. 频数分布表、条形图、饼图
    3. 有序型离散变量
      1. 统计量:各个变量值出现的频数和占比
      2. 图表:评述分布表、条形图
  3. 考虑变量之间的关系
    1. 连续变量和连续变量
      1. 图形:两两之间可用散点图查看;多个连续变量,可用矩阵散点图、相关系数矩阵、热图
      2. 量化分析:相关分析
      3. 量化指标:Pearson、Spearman、Kendall
    2. 离散变量和离散变量
      1. 图形:两两之间通过交叉列联表,复式条形图进行查看;多个离散变量,可用网络图,通过要素间是否有线与线的粗细判断关系
      2. 有序型离散变量:相关分析
      3. 量化指标:Spearman、Kendall
      4. 无序型离散变量:列联分析
      5. 量化指标:φ相关系数、V相关系数、列联相关系数
    3. 离散变量和连续变量
      1. 图形:可用直方图、箱线图、小提琴图查看;变量用不同颜色表示,直观体现相互关系
      2. 量化分析:独立样本t检验、单因素、多因素方差分析
      3. 量化指标:独立样本t检验中的t统计量和相应的p值,单因素、多因素方差分析中的统计量
  4. 其他
    1. 数据分布的正态性检验
      1. 直方图:看图形与钟形曲线吻合程度
      2. 箱线图:看图形是否对称
      3. P-P图:正态分布,数据的累积比例与正态分布累积比例基本保持一致。将数据累积比作x轴,对应正态分布累积比例为Y轴,作散点图。若各点近似分布在一条直线上,则数据符合指定分布
      4. Q-Q图:比较数据的分位数与某个理论分布的分位数是否匹配
    2. 检验数据的分布类型:检验正态分布、均匀分布、柏松分布或指数分布 :夏皮罗-威尔克检验(Shapiro-Wilk test)、柯尔莫哥罗夫-斯米尔诺夫检验 (Kolmgorov-Smirnov test)
    3. 数据变换 box-cox变换

描述统计量

  • 均值(Mean) 易受极端值影响。数学对此分布或接近对称时使用
  • 众数(Mode) 不受极端值影响,数据分布偏斜程度较大时应用
  • 中位数(Median) 不受极端值影响,数据分布偏斜程度较大时应用
  • 总和(Sum)
  • 离散趋势基本描述统计量
    数学建模-第9-13章:统计学方法建模汇总_第8张图片

可视化统计图

  • 条图:用于反映频数分布,适用于离散型数值变量和字符型变量
  • 线图:适用于连续型变量
  • 箱形图:用于显示未分组的原始数据分布。由一组数的5个特征值(最大、最小、中位、两四分位数)绘制,由一个箱子和两条线段组成

回归分析

  • 建立两个或以上变量间相互依赖量化关系的一种统计分析方法

分析目的

  • 研究因变量(结果)和自变量(原因)之间的数量化关系
  • 分类
    • 涉及变量多少:一元回归于多元回归
    • 因变量多少:简单回归、多重回归
    • 自变量与因变量间的关系类型:线性回归与非线性回归
    • 逻辑回归:因变量属于二元变量
  • 步骤
    1. 根据自变量与因变量的现有数据及关系,设定回归模型
    2. 求出合理的回归系数
    3. 进行检验、残差分析、共线性诊断等
    4. 符合要求之后,即可根据已得回归方程进行预测、并计算预测值的置信区间等

线性回归分析

  • 多元线性回归模型
    数学建模-第9-13章:统计学方法建模汇总_第9张图片
    y为响应(response)变量,x为回归(regressor)变量

回归系数的最小二乘估计
数学建模-第9-13章:统计学方法建模汇总_第10张图片
解方程可得所求
数学建模-第9-13章:统计学方法建模汇总_第11张图片
对模型和回归系数的评估,依据偏差平方和分解
数学建模-第9-13章:统计学方法建模汇总_第12张图片
回归方程的拟合程度:决定系数
数学建模-第9-13章:统计学方法建模汇总_第13张图片
将R2开方得到复相关系数
可以发现,增加自变量通常不会使R2变小。但增加与因变量之间无关的自变量,会使得模型估计的扰动变差,因此有修正决定系数
数学建模-第9-13章:统计学方法建模汇总_第14张图片
通常会小于决定系数
还可以计算回归标准误差

  1. 反映实际观察值再回归直线周围的分散状况
  2. 说明了回归直线的拟合程度(衡量回归方程的代表性,测定回归估计的精度)
    数学建模-第9-13章:统计学方法建模汇总_第15张图片
    回归方程的显著性检验(F检验)
    数学建模-第9-13章:统计学方法建模汇总_第16张图片
    回归系数显著性检验(t检验)
    数学建模-第9-13章:统计学方法建模汇总_第17张图片

残差分析

残差(residual) e i = y i − y i ^ e_i=y_i-\hat{y_i} ei=yiyi^
度量了数据和拟合值间的偏离,反映了反映变量中不能由回归模型解释的部分;ε的实现(观测)值
残差分析就是通过残差所提供的信息,分析模型的假定正确与否的统计方法。

残差图:是以X做横轴(或以因变量回归值作横轴),以残差作纵轴,将相应的残差点画在直角坐标系上,就可以得到残差图。

数学建模-第9-13章:统计学方法建模汇总_第18张图片
PP(Probability-Probability Plot)图与QQ(Quantile-Quantile Plot)图
目的:检验模型的正态性假设。正态假设成立,图中点将形成一条直线

其他问题

自变量筛选

  • 前进法
  • 后退法
  • 逐步回归法
  • 多重共线性

你可能感兴趣的:(概率论,机器学习,数学建模)