2020暑期数学建模(数据分析)学习笔记

总算忙完所有课程论文,购买了视频课程。

第1讲 层次分析法

综合评价课已学,B站视频也看了,略过。

第2讲 TOPSIS法(优劣解距离法)

综合评价课已学,B站视频也看了,略过。

第3讲 插值算法

针对较少数据,数据不够的情况下,根据已有数据,推算出我们想要的数据(还可以用来预测)。
先求插值函数(插值函数不唯一)
多项式插值
龙格现象:高次差值会使两端波动极大,精度降低(避免使用高次,所以采用分段插值)
分段插值
分段二次插值:选最近的三个节点进行二次插值,用分段抛物线代替原图形
拉格朗日插值法:
2020暑期数学建模(数据分析)学习笔记_第1张图片
牛顿插值法:(计算过程有继承性,但是也有龙格现象)
2020暑期数学建模(数据分析)学习笔记_第2张图片
拉格朗日插值法和牛顿插值法不能反映被插值函数的性态(函数值相同,导数值有时也有要求)
埃尔米特插值(函数值和导数值都相等)
实际应用中分段三次埃尔米特插值较为常用
三次样条插值(条件更多,曲线更加平滑,更加接近原函数曲线)
2020暑期数学建模(数据分析)学习笔记_第3张图片

第4讲 拟合算法

和插值的区别:
插值算法:必须经过所有的点
拟合算法:不必经过所有的点,误差足够小就可以
散点图——拟合曲线
利用最小二乘法求得拟合曲线
2020暑期数学建模(数据分析)学习笔记_第4张图片
绝对值不容易求导
3次方会导致正负相抵
4次方会导致异常值的干扰变大

评价拟合的好坏:
2020暑期数学建模(数据分析)学习笔记_第5张图片
MATLAB 曲线拟合工具箱
简洁性和精度的平衡
使用较多的类型:
Polynomial 多形式逼近(可以更改阶数)
Custom Equations 自定义函数类型

第5讲 相关系数

一般默认为皮尔逊相关系数
协方差会受到两个变量的量纲的影响,不适合直接做比较
皮尔逊相关系数就是将X和Y标准化后的协方差
2020暑期数学建模(数据分析)学习笔记_第6张图片

2020暑期数学建模(数据分析)学习笔记_第7张图片
皮尔逊相关系数只是衡量两个变量线性相关程度的指标(首先这两个变量是线性相关的),越大相关性越强;
如果不确定两个变量什么关系,画散点图来看。
2020暑期数学建模(数据分析)学习笔记_第8张图片
SPSS 24 描述性统计 标度/有序

MATLAB计算描述性统计:
2020暑期数学建模(数据分析)学习笔记_第9张图片
EXCEL 条件格式 对相关系数表进行美化

假设检验(学过)
2020暑期数学建模(数据分析)学习笔记_第10张图片
显著性标记
一颗 在99%的置信水平上拒绝原假设
两颗 在95%的置信水平上拒绝原假设
三颗 在90%的置信水平上拒绝原假设
2020暑期数学建模(数据分析)学习笔记_第11张图片
如何检验数据是否是正态分布:2020暑期数学建模(数据分析)学习笔记_第12张图片
正态分布JB检验
大样本n>30 雅克-贝拉检验(JB检验)
小样本3≤n≤50 夏皮洛-威尔克检验(需要用SPSS)

如果样本数据不是呈正态分布,采用斯皮尔曼相关系数
2020暑期数学建模(数据分析)学习笔记_第13张图片
2020暑期数学建模(数据分析)学习笔记_第14张图片
根据查表来得出结论(样本相关系数必须大于等于表中的临界值,才能得出显著的结论)
两种相关系数的比较
2020暑期数学建模(数据分析)学习笔记_第15张图片

第6讲 典型相关分析

研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法。
它能够揭示出两组变量之间的内在联系。
2020暑期数学建模(数据分析)学习笔记_第16张图片

注意量纲对结果的影响,SPSS所求标准化/非标准化
计算出标准化典型相关变量对应的线性组合系数,更进一步进行典型载荷分析
典型载荷分析:分析原始变量和典型变量之间的相关性分析

第7讲 多元线性回归分析

通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
常见的回归分析有五类:线性回归、0-1回归、定序回归、计数回归和生存回归。
相关性≠因果性
Y:因变量;被解释变量
X:自变量;解释变量

回归分析要完成的三个使命:
1.识别重要变量
2.判断相关性的方向
3.估计权重(回归系数)

回归分类
2020暑期数学建模(数据分析)学习笔记_第17张图片
数据的分类
横截面数据:在某一时间点收集的不同对象的数据 (2018年各省GDP数据)
时间序列数据:对同一对象在不同时间连续观察所取得的数据(2008-2018年江苏省GDP数据)
面板数据:横截面数据与时间序列数据综合(2008-2018我国各省GDP数据)

不同数据类型的处理方法
2020暑期数学建模(数据分析)学习笔记_第18张图片
数据收集
2020暑期数学建模(数据分析)学习笔记_第19张图片
一元线性回归模型
2020暑期数学建模(数据分析)学习笔记_第20张图片
要使得残差最小
不一定是严格的线性关系,需要先对数据进行预处理
matlab较麻烦,使用stata

回归系数中遗漏变量会导致内生性
2020暑期数学建模(数据分析)学习笔记_第21张图片
误差量是包含了所有与y相关,但未添加到回归模型中的变量
2020暑期数学建模(数据分析)学习笔记_第22张图片
什么时候取对数
2020暑期数学建模(数据分析)学习笔记_第23张图片
四类模型回归系数的解释
2020暑期数学建模(数据分析)学习笔记_第24张图片
2020暑期数学建模(数据分析)学习笔记_第25张图片
2020暑期数学建模(数据分析)学习笔记_第26张图片
在回归中有定性变量,那么采用虚拟变量(性别、地域等)
为了避免完全多重共线性的影响,引入虚拟变量的个数一般为分类数减1

Stata软件(运算速度比SPSS快)
具体操作见视频
2020暑期数学建模(数据分析)学习笔记_第27张图片
去量纲影响
2020暑期数学建模(数据分析)学习笔记_第28张图片
多元回归 数据进行归一化处理,会影响数据的解释。
不要随意添加高次项
置信区间最好不要包含原点

异方差检验

向后逐步回归

你可能感兴趣的:(学习,数学建模)