这篇博客主要写给统计或者数学专业的小白,以供快速上手建模比赛;本人将在这里整合参加建模比赛的经验以供大家。本人有幸拿到过高教杯全国大学生数学建模竞赛山东赛区一等奖、美国大学生数学建模竞赛H奖、华数杯数学建模竞赛二等奖、统计建模比赛成功参与奖()
.
无论是参加数学建模比赛还是统计建模比赛都应该先知道整体的建模思路以及框架。下面我们来谈一下建模过程中的建模思路以及框架。
根据实际的问题以及这个问题的目的来选择合适的模型(分类模型、回归模型、传统的统计模型、计量模型、金融模型),找到几种适合该问题的模型,再去选择模型的自变量和因变量(变量选择方法)
模型估计阶段中应该根据提供的数据选择合适的样本数据进行估计
横截面数据:
同一时间,不同统计单位相同指标组成的数据集
横截面数据最为常见,下面我们来看一个数据实例,数据是从午夜开始的24个小时中所测量的一氧化碳在整个夏天的平均值,另外还有三个关于时间、地点、风速的变量:
下面来看一下整体的数据:
Hour CO Traffic Wind
1 1 2.4 50 -0.2
2 2 1.7 26 0.0
3 3 1.4 16 0.0
4 4 1.2 10 0.0
5 5 1.2 12 0.1
6 6 2.0 41 -0.1
7 7 3.4 157 -0.1
8 8 5.8 276 -0.2
9 9 6.8 282 0.2
10 10 6.6 242 1.0
11 11 6.6 200 2.3
12 12 6.3 186 3.8
13 13 5.8 179 4.6
14 14 5.5 178 5.4
15 15 5.9 203 5.9
16 16 6.8 264 5.9
17 17 7.0 289 5.6
18 18 7.4 308 4.9
19 19 6.4 267 3.8
20 20 5.0 190 2.5
21 21 3.8 125 1.4
22 22 3.5 120 0.6
23 23 3.3 116 0.4
24 24 3.1 87 0.1
时间序列数据:
一统计指标在同一单位按照时间先后的顺序记录的数据列。
DATE VALUE
1 1918-01-01 4.874
2 1918-02-01 4.834
3 1918-03-01 4.914
4 1918-04-01 4.993
5 1918-05-01 4.954
6 1918-06-01 5.022
面板数据:
面板数据既包含横截面数据又包含时间序列数据
混合横截面数据
:是指一统计指标在两个或者多个不同时期的横截面数据混合集。比如说随机抽查了300个家庭2013年的资金总额,又随机抽查了250个家庭2023年的资金总额,其中两次抽查的家庭可相同,可部分相同,可完全不同。
在模型估计的步骤后要对所得到的参数估计值以及模型的表达式进行检验(几乎没有一种是完美的),传统的模型都对数据做出了一定的假设,因此在模型建立参数估计后要对建立的模型进行检验
合适的模型将用于分析实际的问题;如果建立的模型不能通过检验,则需要重新建立模型
希望各位参加建模比赛的同学取得好成绩。