《数学建模算法与程序》部分学习笔记

数学建模算法与程序(节选学习)

  • 第八章 层次分析法(AHP)
  • 第十章 数据的统计描述和分析
  • 第十一章 方差分析(ANOVA)
  • 第十二章 回归分析
  • 第二十三章 现代优化算法
  • 第二十四章 时间序列模型
  • 第二十六章 多元分析
  • 第二十七章 偏最小二乘回归分析

第八章 层次分析法(AHP)

适用于难于完全定量分析的问题,对一些较为复杂、模糊的问题作出决策的建议方法
多适于社会、经济、管理问题。算是一种定性与定量结合的方法
用于相互关联、相互制约的因素构成的常缺少定量数据的系统

  • 应用
    • 难点:合理层次结构建立(关键)、定量化处理
    • 局限:依赖于经验、精度低
  • 四个步骤
    • 建立 递阶层次结构模型
      • 构造一个有层次的模型结构,问题被分解为元素及其关系,上层元素对下层起支配作用。
      • 层分类:最高层(目标层)、中间层(准则层)、最底层(措施层/方案层)
    • 构造 各层次 判断矩阵
      • 对因子进行两两比较。n个因子X={x1,…,xn}对因素Z的影响,Z-X间的成对比较判断矩阵A=(aij)nxn.aij为因子xi和xj对因素Z影响大小之比。A是正互反矩阵,其元素的值用1~9及其倒数衡量(3稍、5明显、7强烈、9极端)
    • 层次单排序及一致性检验
      • A的最大特征值的特征向量,归一化此特征向量,结果为同一层次相应因素对应于上一层次某因素相对重要性的排序权重,这一过程称为层次单排序。得到一组元素对其上层中某元素的权重向量
      • 一致矩阵 特征值最大值amax=n (pdf p181)。非一致程度越严重 amax比n大得越多 amax对应的标准化特征向量越不能真实反映影响比重
      • 一致性检验 CR < 0.10 (pdf p182)
    • 层次总排序及一致性检验
      • 总排序压迫自上(目标)而下(方案)将单准则下的权重进行合成,得到最低层元素对最高层目标元素的权重排序,从而进行方案选择 详见 (pdf p182~183)
      • 一致性检验 CR < 0.10 (pdf p183)

第十章 数据的统计描述和分析

概率论与数理统计知识与MATLAB结合

  • 统计的基本概念
    • 统计任务就是用样本推断总体
    • 总体、个体、样本
    • 频数表 直方图 是对一组样本数据的初步整理和直观描述
      • 数据输入 data.txt 用 load 命令读入 (load data.txt) (同目录)
        x=x(: ) #相当于reshape(M*N,1)操作
      • 作频数表和直方图
        hist(Y,M) 求频数
    • 统计量
      • 统计量是反映样本数量特征的函数,不含任何未知量。统计量是一个随机变量,是进行统计推断的工具。
      • 概率密度函数 分布函数 上alpha分位点
      • 常用统计量:均值meax(x)、标准差std(x)、中位数、方差、极差、k阶中心(E[x])矩、偏度(对称性)、峰度(尾巴大小)
        MATLAB中统计量计算命令作用于x矩阵的列,返回行向量
    • 重要概率分布
      • 四大分布(小可老师ppt 第z章推导 p7)
        正态分布 3sigma(0.68、0.95、0.997)
        卡方分布、t分布、F分布
        MATLAB统计工具箱
    • 正态总体统计量的分布(现实中常见)
      • 四大定理(小可老师ppt 第z章推导 p7)
  • 参数估计
    • 点估计
      • 矩估计(样本均值、样本方差(n-1))
      • 最大似然
    • 区间估计
      • P{a12}=1-b,0 1-b为置信水平/置信概率,b为显著性水平
        精度:置信区间越小,估计精度越高
        可靠度:置信概率越大,估计可信度越高
        MATLAB工具箱
  • 假设检验
    • 根据样本提出的假设做出判断:接收或是拒绝
    • 单边 双边
    • 检验统计量(约=枢轴量)
    • 由定理 选择检验统计量
    • 接受域 拒绝域
    • 分布拟合检验
      • 不知道总体分布,用样本检验关于分布的假设
        卡方检验法:H0:总体x的分布函数为F(x) 检验统计量见书 要求样本容量n不小于50每个npi不小于5,否则需要合并实验可能结果划分的事件使满足条件 (pdf p222)
        偏峰、峰度检验法:分布是否为正态
        其他非参数检验:Wilcoxon秩和检验(ranksum(x,y,alpha))用于检验两独立样本x,y的总体是否相同,中位数检验(实际中广泛应用signrank Wilcoxon符号秩检验、signtest 符号检验)用于检验两样本(长度同)中位数是否相同

第十一章 方差分析(ANOVA)

用数理统计 分析实验结果、鉴别各因素对结果影响程度 的方法称为方差分析
拟合问题中也可以用方差分析方法对模型的误差进行分析,对拟合的优劣做出评价。
单独第十章方法难以做到
可以控制的条件为因素或因子,关心的实验结果为指标,因素所处状态为水平

  • 单因素方差分析
    • 考虑因素A对指标的影响,A可以取几个水平,每个水平上做若干次实验,需要从结果推断A对指标有无显著影响,取某个水平视为随机变量,判断A取不同水平时指标有无显著差别,相当于检验若干总体的均值是否相等(是,H0)
      第十章有两个水平时的分析(两个总体均值是否相等),此处推广至两个以上总体
    • 模型表示、统计分析 具体公式推导与定理见 (pdf p226)
      用偏差分析ST表示全体数据对x平均的偏差平方和,分解为SE,SA. SE只反映随机波动,SA反映随机波动和A的不同水平的效应,H0成立时,SE、SA满足分布关系(F分布)
      一般所用显著性水平取值划分 0.01 0.05
  • 双因素方差分析
    • 检验两因素是否分布对指标有显著影响,或需进一步检验两因素是否对指标有显著的交互影响
    • 模型表示、统计分析 具体公式推导与定理见 (pdf p230)
      分解为三个假设,类似单因素分析ST进行分解SE,SA,SB,SAB.
  • 正交实验设计与方差分析
    • 多因素做全面实验不现实,选择一部分组合做实验,选择合理试验方案,使试验次数不多也能得到比较满意的结果。
    • 正交表安排实验,根据因素和水平个数的多少及实验工作量的大小考虑选哪张表。

第十二章 回归分析

回归分析就是对拟合问题做的统计分析
回归分析是在一组数据的基础上研究这样几个问题:
(变量筛选,采用尽可能少的自变量,调整复判定系数与判定系数相差过大考虑调整变量)

  1. 建立因变量y和自变量x1,…,xm之间的回归模型(经验公式);
  2. 对回归模型的可信度进行检验;
  3. 判断每个自变量对因变量的影响是否显著;
  4. 利用回归模型对y进行预报或控制;
  • 数据表的基础知识
    • 样本矩阵、样本协方差矩阵
    • 数据标准化处理(中心化、无量纲化(常用压缩处理,使每个变量方差变为1)、标准化处理(即中心化-压缩处理))
  • 一元线性回归
    • 模型 y = b0+b1x+e; b0、b1是回归系数,e是随机误差项(随机误差项总假设e~N(0,(sigma)2))
      则y~ N( b0+b1x,(sigma)2)
      进行n次独立观测,得到(yi,xi), i=1,…,n,yi = b0+b1xi+ei.其中xi是定值,是在第i次观测时的取值.yi是随机变量.(ei、ej(i!=j)独立)
    • 最小二乘估计方法
      估计b0^ 、b1^ ,使得yi与yi^ = b0^ +b1^ x的误差平方和最小.可以得到b0、b1的最小二乘估计b0^ 、b1^.
      标准化数据特点(均值0,方差1)可以化简估计的式子.
      公式性质详见 (pdf p241)
      最小二乘法拟合的回归方程的性质
      最小二乘法得到的两个估计量满足无偏性,且无偏里方差最小(CRLB?)
    • 拟合效果分析
      残差的样本方差MSE 越小说明观测点在拟合直线周围聚集的密集程度越高,离散范围越小,模型越精确。
      拟合优度/判定系数R2=SSR/SST,可以说明回归直线拟合的优良程度,也可以说明因变量y与拟合变量y^ 的相关程度(R2为y与y^的相关系数的平方)不必过分追求
    • 显著性检验
      • 回归模型线性关系检验 yx存在显著线性关系,F检验
      • 回归系数的显著性检验,检验每个总体参数是否显著不为零,t检验
        (问题2、3) 具体见 (pdf p249)
        回归方程的假设检验:
      1. 模型检验,自变量与因变量之间的关系能否用一个线性模型表示,F检验;
      2. 回归参数检验,检验每个自变量对因变量的影响程度是否显著(一元线性分析中自变量只有一个此处1,2统一,效果等价),t检验.
  • 多元线性回归
    • 模型 y = b0+b1x1+…+bmxm+e;
    • 进行n次独立观测,得到(yi,xi1,…,xim),i=1,…,n,n>m
    • 最小二乘法进行参数估计(使误差平方和最小,得到 b0、b1、…+bm、y的估计值)
    • 假设检验(模型F、参数t) 具体见 (pdf p254)
  • MATLAB中的回归分析
    regress、rcoplot
    • 多项式回归(从数据散点图上发现y与x呈较明显的二次或高次函数关系或用线性模型效果不太好,可以选用多项式回归)
      • 一元多项式回归 polyfit
      • 多元二项式回归 rstool
  • 偏相关系数/净相关系数
    针对多个变量线性相关程度,为更真实准确反应变量之间的相关关系
  • 变量筛选方法
    • 回归建模首选遇到的问题就是选择哪些变量作为因变量的解释变量,参数节省原则。需要有效筛选变量,变量筛选的统计依据就是偏F检验
    • 向前选择变量法、向后删除变量法、逐步回归
  • 复共线性与有偏估计
    最小二乘估计后计算均方误差,MSE太大,估计结果不满意。常常是因为回归自变量之间存在近似线性关系,称复共线性。
    • 岭估计、主成分估计
  • MATLAB非线性回归
    nlinfit、nlparci、nlpredci、nlintool

第二十三章 现代优化算法

目标:求NP-hard组合优化问题的全局最优解

  • 模拟退火算法
  • 遗传算法
  • 禁忌搜索算法
  • 改进的遗传算法
  • MATLAB遗传算法工具
  • 蚁群算法

第二十四章 时间序列模型

数据序列按时间排序、随时间变化且相互关联。
一个时间序列往往是长期趋势变动、季节变动、循环变动、不规则变动的叠加或耦合。
常见时间序列模型有加法模型、乘法模型、混合模型。
方法中经验参数选择:根据实际实验,选预测误差小的

  • 移动平均法
    • 当时间序列时之受周期变动和不规则变动影响,起伏较大,不易显示发展趋势时可以使用移动平均法消除这些因素影响。
    • 根据时间序列资料逐渐推移,依次计算包含一定项数的时序平均数
    • 有 简单移动平均法(适合近期预测且预测目标发展趋势变化不大)、加权移动平均法(对近期数据给予较大权重,适于预测目标发展趋势变化不大)、趋势移动平均法(时间序列出现直线增加或减少的变化趋势时前两种方法会出现滞后偏差需要修正,利用移动平均滞后偏差建立直线趋势的预测模型,二次移动平均,此方法既能反映趋势变化又能有效分离出来周期变动) 等。
  • 指数平滑法
    • 对各期观测值依时间顺序进行加权平均作为预测值,符合一般系统动态性,且具有简单递推(需要确定初始值)形式
    • 可根据平滑次数分类:一次指数平滑(直线趋势时数据不满足模型要求,存在滞后偏差)、二次指数平滑、三次指数平滑(序列变动表现为二次曲线趋势时使用)
    • 用新预测值修正原预测值,加权系数选择
  • 差分指数平滑法
    • 改变数据变动趋势,改进指数平滑法,预测更加合理(克服一次指数平滑带来的滞后偏差,显著改进了初始值问题),但是加权系数选择和只能逐期预测问题没有改进。
    • 一阶差分指数平滑模型:时间序列呈直线增加
    • 二阶差分指数平滑模型:时间序列呈二次曲线增加
  • 自适应滤波法
    • 预测模型简单,数据用计算机处理,应用较广泛
    • 同移动平均法、指数平滑法一样是以序列历史观测值进行某种加权平均预测,它寻找一组“最佳”(不断调整初始权数使误差最低)权数
    • 权数个数N(季节值,若无用最高自相关系数的滞后时期)、学习常数k、初始权数
  • 趋势外推预测法
    • 比较常用的预测方法
    • 主要包括六个阶段:选择应预测的参数、收集必要的数据、用数据拟合曲线、趋势外推、预测说明、研究预测结果再决策中应用的可能性
    • 趋势外推法常用的典型数学模型
      趋势线选择方式:散点图、数据本身取值规律、比较MSE大小,在有几种趋势线可供选择时,选择S最小的趋势线
      • 指数曲线
        一般来说技术进步和生产增长在未达到饱和之前是遵循指数规律增长的,可以用指数曲线对发展中的事物进行预测
        数学模型:y = y0eKt
        y0和K由历史数据用回归方法可以取得(取对数、最小二乘)
      • 修正指数曲线
        预测值不会无限增大,会趋于饱和,才符合客观规律
        适于初期增长增长迅速,随后增长率逐渐降低,最后趋于常数K
        数学模型:yt^ = K+abt
        K、a、b需要用历史数据确定
        K可预先确定时用最小二乘法确定a、b,K不能预先确定时用三和法 (三和法见 (pdf p504)
      • Compertz曲线
        用于描述初期增长缓慢,以后逐渐加快,到达一定程度后,增长率又逐渐下降
        采用此方法前应对数据进行检验,看给定数据的对数增长比率是否接近某一常数
        曲线形式和参数估计方法见 (pdf p506)
      • 生长曲线(Logistic曲线)
        技术和产品发展进程均有类似发展过程,在预测中有相当广泛应用
        发生、发展、成熟三个阶段,第一阶段增长缓慢,第二阶段增长加快,第三阶段又趋于缓慢,形成一条S曲线
        曲线形式和参数估计方法见 (pdf p508)
  • 平稳时间序列
    • 宽平稳(均值与时间无关、协方差只与时间差有关),序列的统计特性不随时间平移变化
    • 平稳性检验(其中一种是Daniel检验)、自协方差函数与自相关函数估计
    • 一种重要的平稳时间序列——ARMA时间序列,分为下列三种类型: (pdf p513)
      • AR模型,自回归序列
      • MA序列,滑动平均序列
        平稳白噪声通过线性系统,输出服从MA模型
      • ARMA序列,自回归滑动平均序列
    • 消除趋势性、季节性得平稳序列,假设为ARMA序列,再操作研究
  • 异方差(非常数方差)性 (pdf p550)
    • 金融
    • ARCH、GARCH模型
    • 检验

第二十六章 多元分析

多变量的统计分析方法

  • 聚类分析(cluster analysis)
    聚类分析作为一种定量方法,从数据分析角度,给出一个更准确、细致的分类工具
    聚类分析又称群分析,是对多个样本或指标进行定量分类的多元统计方法
    对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析
    • 相似性度量
      用数量化方法描述事物之间的相似程度
      • 样本相似性度量
      • p个变量描述样本,每个样本点可以堪称Rp空间中一个点,用距离度量样本点间的相似程度,对于定量变量,最常用的是Minkowski距离 (pdf p594)
      • Minkowski距离中,欧氏距离最常用,坐标轴进行正交旋转时,欧氏距离保持不变。使用时注意采用相同量纲变量,最好首先进行数据标准化处理,再计算距离,还应尽量避免变量的多重相关性(带来信息重叠问题)
      • 马氏(Mahalanobis)距离,是Minkowski距离的改进,其不受量纲影响,马氏距离对一切线性变换是不变的 (pdf p595)
      • 类与类间相似性度量(样本类)
      • 最短距离法、最长距离法、重心法、类平均法、离差平方和法(Ward法) (pdf p595)
    • 系统聚类法
      系统聚类法是聚类分析方法中最常用的一种方法,优点在于可以指出由粗到细的多种分类情况。典型的系统聚类结果可以由一个聚类图展示出来。书中给出了作聚类图步骤。
      结果与计算类与类间的距离有关,采用不同距离定义,有可能得出不同的聚类结果
      • 最短距离法(最近邻法)与最长距离法
        MATLAB实现(pdist,linkage,cluster,zsore,dendrogram,clusterdata,squareform,cophenet) (pdf p598)
    • 变量聚类法
      一开始选取指标时,尽可能考虑所有相关因素,结果是变量过多,变量间相关度高,系统分析和建模带来很大不便,按变量相似关系把它们聚合成若干类,进而找出影响系统的主要因素
      需要有变量的样本,计算相似性,再计算两类变量距离
      • 变量相似性度量
        常用的变量相似性度量:相关系数、夹角余弦(定义见 pdf p601
      • 变量聚类法
        与系统聚类法相同的思路和过程,最常用的由最长距离法、最短距离法
  • 主成分分析
    实际上是一种降维方法
    主要目的通常是选出主成分比原始变量个数少,能解释大部分资料中的变异中的几个新变量
    希望用较少的变量解释原来资料中的大部分变异,将许多相关性很高的变量转化成彼此相互独立或不相关的变量
    主成分分析有严格的数学理论作基础
    变量变换,原始变量的线性组合表示新的综合变量,即主成分
    最大问题:结果受量纲影响,因此实际中经常先把各变量数据标准化(回归分析没有此影响)
    思想:约束条件下下方差(差异)最大(表明越分散,区分得好) (pdf p608)
    使方差最大的主成分分析不用转轴(因子分析往往需要转轴)
    主成分的保留,SPSS软件有默认操作,需要注意。
    实际中一般选取少量主成分,不超过6个,只要能解释变异的70%~80%(累积贡献率)就行。
    主成分方向、各个主成分方向正交(协方差为零),具体确定每个主成分、确定主成分个数 的方法见 (pdf p608)
    • 主成分估计
      主成分估计是回归系数参数的一种线性有偏估计,是为了克服最小二乘估计在设计阵病态时表现的不稳定性而提出的
      将原来的回归自变量变换到另一组变量(主成分),选择一部分重要的主成分作为新的自变量(降维),用最小二乘法对选取主成分后的模型参数进行估计,最后变换回原来的模型求出参数估计
  • 因子分析
    多元统计分析中常用的一种降维方式
    因子分析是一种数据简化的技术,它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假象变量来表示其基本的数据结构。假象变量是不可观测的潜在变量,称为因子(是一个比较抽象的概念)。需要构造因子模型。潜在的假象变量和随机影响变量的线性组合表示原始变量。
    涉及计算和主成分分析类似,差别在于:1)方差分析把方差划分为不同的正交成分,因子分析把方差划分为不同的起因因子;2)因子分析中的特征值计算只能从相关系数矩阵出发,且必须将主成分转换为因子。
    观察数据在模型中被分解为公共因子、特殊因子、误差三部分
    原理和MATLAB例子、与主成分分析对比 (pdf p619)
  • 判别分析
    根据所研究个体的观测指标来推断该个体所属类型的一种统计方法
    (pdf p637)
  • 典型相关分析
    估计后要假设检验
  • 对应分析/R-Q型因子分析
    是研究变量间相互关系的有效方法
  • 多维标度法
    经典例子:利用城市之间的距离绘制地图

第二十七章 偏最小二乘回归分析

提供一种多对多线性回归建模的方法,优点多。

你可能感兴趣的:(《数学建模算法与程序》部分学习笔记)