1.1 什么是数学建模
先来看看官方的解释:数学建模是运用数学的语言和方法,通过抽象,简化建立能近似刻画“解决”实际问题的一种强有力的数学手段。数学建模就是用数学语言描述实际现象的过程。这里的实际现象既包涵具体的自然现象比如自由落体现象,也包含抽象的现象比如顾客对某种商品所取的价值倾向。这里的描述不但包括外在形态,内在机制的描述,也包括预测,试验和解释实际现象等内容。
我理解的数学建模就是运用数学工具去刻画从而解决我们在现实中遇到的一些问题(当然在数学建模比赛中这些问题就是官方给的赛题,这些题目也都是来自真实生活),那么运用什么样的数学工具去刻画这些实际问题便是整个比赛的核心所在,找到合适的数学工具便是建模。我们知道现实问题是很复杂的,不可能完全用数学模型表示,我们建立的模型也只能无限的接近实际情况,通过求解优化我们所建立的数学模型从而达到解决实际问题的目的。
1.2 建模比赛有哪些
每个省份的时间都有所差异,详细信息大家关注所在省份的时间安排即可;
不收取报名费,参加深圳杯决赛答辩的成员差旅费自理,决赛答辩期间的活动经费由活动主办方承担。4月15号前公布竞赛题目:6月10号前通过email提交论文(提交论文时间会根据各赛区调整有所差异)
比赛时间在二月份,基本都是在过年那两天,报名费较贵。
每年的9月份,一般都是在中秋节的三天,题目共有5个,A、B、C为本科组,D、E、为专科组。题目难度比省赛难。
2.1 参考书籍
统计分析 数学软件 数学模型 历年优秀论文
这里给大家推荐几本书,可以去你们学校的图书馆借阅。
如果你们团队是第一次参加数学建模竞赛,我的建议是有一个大体的分工,在拿到书后,先看看历年的优秀论文,负责写作的同学多看论文格式,看论文的构成有哪几部分,这样在写作的过程中就会有一个大体的框架,其次看论文中的表达技巧,这就对写作论文的同学的表达能力有了较高的要求 ;负责建模的同学需要研究历年的论文中的一些模型和建立过程,主要学习建模思路,对数学功底有较高的要求,如果对常用数学模型不了解,后期就会有很多困难;负责编程的同学看常用的数据处理、常用统计分析方法,看需要编程的软件书籍,熟悉语法。注意各自的重点。但遇到问题时应该共同解决共同面对。
2.2 软件安装
在比赛前,软件安装一定要到位,如果在建模期间安装软件,一方面会耗费宝贵的时间,二来有些软件激活第一次还不一定成功,多多少少会影响团队的士气,这会严重影响进度。
统计分析:Excel是目前运用最广也是最好用的数据分析软件;SPSS作为比较著名的统计分析软件在数学建模中也是经常用到,建立模型时只需导入整理好的数据点击相应的菜单按钮就可以得出我们想要的结果,可以和Minitab结合使用。再说说python吧,如果你们团队中有编程大佬,那么Python是首选,从前期的数据爬虫获取、数据处理、建模计算是非常方便的。
数学软件:Matlab作为数学与工业仿真中的王者,功能非常强大,在数学建模中几乎是必用的求解软件。还有Lingo在求最优解时很好用。
计量经济软件:EViews、STATA,前者的优势处理时间序列,后者的优势处理面板数据,在随着各自的版本不断更新几乎没有什么区别,不再多说,功能都很强大。
3.1 数据预处理
获取的数据往往是不能直接使用的(除非题目给一些可用数据数据,例如2019国赛A题),需要通过填补缺失值,平滑或删除离群点来达到清洗的目的。简单来说,就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。
数据清洗是一项繁重的任务,是一个耗时耗力的任务,需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据,从而得到标准的、干净的、连续的数据。
实际获取信息和数据的过程中,会存在各种原因导致数据丢失和空缺。针对这些缺失值,会基于变量的分布特性和变量的重要性采用不同的方法。若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况用基本统计量填充(最大值、最小值、均值、中位数、众数)进行填充,这种方法被称为缺失值填充。对于缺失的数据,一般根据缺失率来决定“删”还是“补”。
离群点(异常值)是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。
当量纲差异很大时,标准化处理
3.2 常用模型
(1)几何模型 (2)代数模型 (3)规划模型
(4)优化模型 (5)微分方程模型 (6)统计模型
(7)概率模型 (8)图论模型 (9)决策模型
常用方法有:
(1)类比法、二分法
(2)数学规划法(线性规划、非线性规划、整数线性规划、目标规划、动态规划)
(3)量纲分析法
(4)图论法
(5)差分法
(6)回归分析法(一元线性回归、多元线性回归,线性回归的衍生模型、非线性回归)
(7)层次分析法
(8)主成分分析、因子分析
(9)时间序列预测
(10)聚类分析、判别分析
(11)灰色理论
(12)蒙特卡罗(适用于排队论、检验类问题)
(13)现代优化算法(神经网络、遗传算法、模拟退火算法)
4.1 选题
4.2 数据获取
有些模型必须要以数据为基础进行求解,巧妇难为无米之炊,可见数据的重要性,下面给大家列举了一些数据网站。(有些敏感数据是很难获取的,甚至无法获取,处处充满了挑战性,这也是这场比赛的魅力所在)
(1)常用数据公开网站
(2)财经数据
(3)数据竞赛网站
4.3 时间安排
4.4 建议
以上是我个人的一些经验和建议,希望可以帮助到同学们。
在后期我将会写有关数据分析的一些常用模型和方法,希望我们一起学习,一起进步,大家拭目以待吧。