本文总结了作者在美赛前大量阅读美赛获奖论文的心得以及总结
目录
O奖特点
美赛建模注意事项
问题和模型的层次
模型本身
指标确定
函数形式确定
模型和算法的深入探究
模型的假设
模型的合理性
模型的推广
模型的分析
对问题的理解
结果分析
美赛建议信和背景资料
编程和图表
首先介绍一下美赛最高奖项(O奖)获奖论文的一些特点。
可以从理论角度探索正确性; |
可以从实践角度探索有效性,即结合实际数据(这一点比较重要,特别是模型中含有某些主观确定的函数形式时,这样可以说明自己假设的正确性,这个好像很重要,评价说评委比较看重模型和算法的研究程度和合理性的证明,因为这涉及到科研的本质); |
可以从技术角度分析灵敏性。更改各种参数,但是不要只是简单更改,要说明探索这种灵敏性的其实际意义,即对应实际中的哪种情况。总的来说就是分析是什么造成了系统的变化以及系统对某些变化有多敏感,还希望预测系统会发生什么样的变化以及何时发生变化; |
可以从综合角度讨论优劣性(与其他算法相比较); |
可以从理想的假设方面探究模型的稳健性。更改题目中的某些假设,分析模型结果的变化; |
探究平衡性、稳定性、渐近性、振动性、周期性 |
O奖论文很多参考了类似的参考文献,尤其是当时在这个领域具有开创性的工作(这一点是一个评委介绍的,显然比较新颖的方法,使得自己用的方法比较高级,同时人家的论文是做过合理性探究的,越高级的论文合理性越强,可以放心地借用),并且在文中或多或少借鉴了这些论文的工作(借鉴人家的公式比自己主观定义的式子往往更有理论支撑,甚至不用证明合理性) |
当然也有该领域经典的论文,这些用在介绍背景时放在前人的工作总结里,并且说明他们各自的不足,从侧面凸显了自己的优点,同时显得自己对该题的背景了解很充分 |
美赛ABCDEF六道题的结果要求:C、D也有标准答案的范围,但是相对A、B来说,这个范围比较宽,只有E、F是全开放的
美赛不同于国赛,常常是一个模型可以解决好几个问题,为解决后面的问题可以对前面建立的模型考虑更多,对其进行改进,对于一开始相对较简单的问题不需要考虑一些因素,这样使得解决简单的问题有简单的模型,解决复杂的问题有改进的模型,并且建模过程具有层次感。
举个例子,比如D题的复杂网络,要求分析现状、预测变化、提出针对措施。可以先建立一个静态网络模型,参数设置为定值,这样就可以对现状进行分析;接着使用动力学方程组或者时间序列等方式将某些参数设置为变量,改进模型,建立动态网络模型,进行预测;最后提出措施,可以再建立优化模型,并且与动态网络模型结合,对模型进一步改进,分析应该采取的最佳措施。注意每一步最好都有现实数据进行合理性验证,比如机场排队论的时候人家就借用了实际机场数据,研究信息传播的社交网络模型人家就用了twitter的数据。
也可以再基本模型建立之后指出缺点,然后改善。
这样不会让你每个题都建模型,美赛问题比较多,但是模型却没有实际的数量要求,我看好多论文都是通篇只有一两个模型,但是对这两个模型的分析就特别丰富、特别到位,而且篇幅也不会很多。
用更多的时间建立更多可有可无模型,不如多一些对必须要用的模型做更多的研究,或者使其更加合理。(很多O奖在介绍算法的时候都是结合该问题本身,没有什么空话,这一点感觉之前有一点忽视,特别是在仿真时的一些重点信息需要体现出来,使其看起来更加合理,夏彬仿真的时候其实考虑的东西挺全面的,但是有些东西需要简单的体现出来,评委很看重合理性)
问题太少可以自己加戏,比如分析是否在所有地区都适用,建立的几种相似模型的对比,以及对模型特性进行一定的分析
一般都需要包含:验证您的模型,评估优势和劣势,并提出改进的想法(未来的工作)。
指标最好用官方的算法,所以要查背景资料,不能只靠自己想,最好能找到官方提出来的指标及其量化方法(参照2017F—64486 P6),指标的时候需要查阅很多资料,合理的引用加上自己的一些操作
先是选指标,自己建立新的指标,自己建立的指标着重强调,然后对指标进行处理
对于相互协同的优化目标,仅优化一个就可以了,因为另一个也随之优化了
对于相互矛盾的优化目标,可以提出不同策略(多目标转单目标)
单项模型:参考文献为Applications, Basics, and Computing of Exploratory Data Analysis 作者 Velleman, Paul F.; Hoaglin, David C. P49 |
低阶多项式:高阶多项式小的误差能招致所得高阶多项式系数的巨大差异,低阶多项式克服了这个缺点 |
确定形式需要追踪数据的趋势,既保证基本关系的特征,同时减少摆动的倾向和数据变化的灵敏性。这个在线性回归/多项式拟合的时候特别重要。对此用残差图进行处理
残差应该随机地分布在与数据精度同量级的、相当小的界限内 |
遇到特别大的残差时,应对相应的数据点做进一步的研究,去发现问题 |
残差一旦出现了变化趋势,则说明拟合不合理,需要重新设计函数形式 |
不要仅仅把残差算出来,这个图在分析合理性的时候很重要 |
对于拟合效果,可以通过增加某个特异点做灵敏性分析,说明拟合对此不敏感
一共五类,详细见O奖优点中的第四点。
美赛中为了追求层次感,对每个模型的探究都几乎是把探究直接放在了模型后面,只有灵敏性分析有时候是单独放在后面一起研究。模型需要具有改变和控制影响该模型的诸多条件的能力,才能做更加深入的分析。
这种探究往往可以得到更多结论,不管是关于模型还是有现实意义的结论都可以,同时要把结果结合现实进行合理性分析(查资料,得到实际中的允许范围)。
必须指出当参数变化时所产生的影响,必须在论文中指出当参数变化时模型的稳定程度如何,以及模型对哪些参数的变化更为敏感。
打动评委的不仅仅是建立的模型,也包含对这个模型如何发挥作用及模型局限性的理解。K.S.Cline在“MCM的秘密”一文中指出:
最好的论文常常应用的是很基本的方法,建立的是很简单的模型,但是他们在建立模型时做得非常细致、解释得非常透彻,显然,他们对所用的方法是真正理解的。一篇优秀论文的标志是:选择了针对问题的正确数学工具,并且清晰地表明了作者对此方法全面透彻的理解——它的主要长处与短处、它的局限性、它为何有作用以及它何时会失效。
微分方程:研究平衡状态的稳定性
差分方程:特别性质(平衡性、稳定性、渐近性、振动性、周期性等),只要牵涉到关于变量的规律、性质,就可以适当地用差分方程模型来表现与分析求解。
对正在研究的行为做特定的观察并识别看来是有关联的因素。通常不可能考虑、或者甚至是识别行为中所有有关联的因素,所以做出消去某些因素的简化假设。但是由于建模时间有限,选取的基本要素不是越多越好,但是主要的东西必须抓住。
假设需要结合现实,考虑得越全面越好,建模时先不管能不能解决,全部提出来,模型不能解决的地方进行理想化处理,全部放在模型假设里面。考虑全面这个问题建议三个人一起来想,多一个考虑得就可能更全面。
假设必须要结合实际,把影响因素考虑得很周全,甚至包括一些完全无法量化的因素,比如天气因素等等。虽然很多影响因素在模型中不会用到,但是重要的不可量化的影响因素可以放在假设里,影响因素的全面性(只考察重点因素)考虑也是建模的考察点。
记得对假设的合理性做出说明,最好能验证。
如果对于相对重要的部分,模型中没有涉及到,同时模型假设中也没有,评委会判定为考虑不全面。同时评委也会看假设是否合理,很多理想化的假设是为了简化模型,但是不合理的理想化假设会被认为模型过于简单。
美赛不注重模型的推广性(有推广性当然更好),更看重的是模型是否能够较合理地解决题中的问题(这一结论来自美赛解析与研究的书)。因此结合实际做合理性验证特别重要。记住引用的数据出处。
除了结果的合理性,对于某些理想化处理或者简化也需要结合现实说明其合理性。
任何事情都没有绝对的,因此很多理想化的行为可以以概率描述不同的情况。
合理性可以将两种策略对比分析,也可以直接对结果进行分析
可以用现实数据来说明指标的重要性
算法和数据的引用描述要到位,参数的来源和预处理介绍清楚
对不同问题采用不同的量化方法,制定规则量化为适合模型的值,使得模型可以推广
最好都说明一下如何应用我们的模型,在现实中帮助别人解决一些问题
进一步细化某些东西也是将来的工作
结合现实考虑,即使简化了也要表明出来
一定要选择合理的指标,很多O奖都考虑了相同的关键指标,对于一些不重要的考虑到的指标,全部简化为假设
对传统模型的改进,就是一种创新
拿到问题第一步应该是理解题意,美赛的题目比较奇怪,有的题目描述和要求过于简单(比如04年的A题),很难找到建模的方向和思路,需要自己探究限制和需要解决的问题。多数竞赛问题都有一些关键词需要建模者自己指出其准确的数学含义,不管如何解释这个问题,都应当将其含义清晰地表达出来。
对题目的理解应该是三个人共同完成,把题目中的要求和目标全部自己归纳出来,注意是每一个问题全部罗列,一开始就定好一共要完成哪些东西,预估好工作量,这样才能合理的安排时间和论文的篇幅。
接着,对于不熟悉的背景赶紧查资料,同时对之前确定的题目解读看是否有误解的地方,并且找一些比较前沿的论文,得到一些启发和可能需要用到的公式,以及前人的工作。最好是能够想到可以类比的模型(比如用电路类比交通流、用传染病类比信息的传播网络),因为不容易想到,所以很容易引出创新点。
这个过程是在建模之前完成的,非常重要,因为这决定了建模的方向和解题策略,模型只是对问题的抽象化数学处理,因此问题的理解一定要准确。一定要三个人一起完成。
题意需要自己解释,那些只给出一种解释的对在竞赛中都成绩不佳,而那些没有任何其他解释,仅按照题目所给解释建立模型的论文,很多都没有能够通过第一轮评审。
对于决策性问题,需要从多种最优进行建议选择的策略:最优往往是相对的,最常见的方法是采取保守方法(某种抽象利益至上)、经济方法(成本最低为主导)、组合方法(用加权和将多目标优化转化为单目标优化的最佳策略)。
不光是前人的成果及其优缺点,还可以是实际的问题背景,这里的问题背景是指结合实际实践说明重要性。
比如建立反恐怖主义的模型,就可以列举911事件来说明重要性。建立网络安全模型就可以列举出世界每年出现过多少次网络犯罪事件。
每个小问也可以介绍背景中前人的研究
对于一些名词的定义或者某种现象等的定义,最好查维基百科