2021年 美国大学生数学建模竞赛 赛题解析!

2021年美国大学生数学建模竞赛已经结束,参赛的同学们完成的怎么样呢,可以在下方留言哟~

本次竞赛的成绩将在5月1日(北京时间)前公布,敬请期待。

模小数邀请了几位老师为大家带来了本次竞赛的部分赛题解析,供大家参考。我们一起来看一下吧~

目录

A题

A-前言

A-问题一

题目

解析

A-问题二

题目

解析

A-问题三

题目

解析

A-问题四

题目

解析

A-问题五

题目

解析

A-总结

C题

D题

F题


A题

A-前言

       MCM/ICM 是 Mathematical Contest In Modeling 和 Interdisciplinary Contest In Modeling 的缩写。MCM 始于 1985 年,ICM 始于 1999 年,无论是从MCM的竞赛名还是其创办时间来看,其侧重点都是数学方法的应用而非ICM提倡的“学科交叉”;而A题在MCM中又是很固定的“连续模型”的题型定位。因此,解题时注意不要被题目的背景的专业性误导,重点关注连续模型及其数学方法即可。

       本文是MCM2021A题的赛题解析,题目提供了中英文对照翻译,以方便理解。需要说明的是,本文主要是个人思路,仅供参考。同时每道题主要提供的是完成赛题任务的思路,至于加分项、出彩点需要各参赛选手思考。

A-问题一

题目

Build a mathematical model that describes the breakdown of ground litter and woody fibers through fungal activity in the presence of multiple species of fungi.

建立一个数学模型,描述在多种真菌存在的情况下,通过真菌活动分解地面垃圾和木质纤维的情况。

解析

       建模问题的第一问一般不会太难,一般是作为后续模型的基础,因此应当重点关注其与各问题之间的联系,建模侧重细致全面而非复杂的大模型。

       本题也是如此,从题目来看,只需要确定地面垃圾和木质纤维的分解率和哪些因素有关,即对于单菌种建立一个多元回归模型,形如:

图片 ⑴

       其中,CR代表该菌种的分解率,GR、MT分别代表题目中已经明确指出了两个因子的真菌的生长速率和真菌对水分的耐受性,图片代表其他各种影响因子。至于f,就是参赛选手需要建立的模型,我个人是建议使用传统方法建立一个简单的多元线性/非线性回归模型,不要一看到多因子就用神经网络模型,神经网络后续的解释性、拓展性都很差。

除此之外再引入一些因子,说明他们的获取(或计算)方法,对引入的因子进行主成分分析、特征降维等工作,最后建模即可。请大家记住这个模型,后续问题都将在其基础上进行拓展。

A-问题二

题目

In your model, incorporate the interactions between different species of fungi, which have different growth rates and different moisture tolerances as shown in Figures 1 and 2.

在您的模型中,加入不同种类真菌之间的相互作用,它们具有不同的生长率和不同的耐湿性,如图1和2所示。

解析

       这里需要正式考虑相互作用,我们需要对第一问的模型进行一次拓展。

图片 ⑵

       记其为(2)式,这个公式的意思就是,将基础模型中的一个或多个影响因子重定义为受其他菌落影响的因子。这里举个例子:假设图片代表菌落的数量占比,我们可以很容易给出图片的定义式:

图片

       那么这个因子就受到其他菌落的作用了。至此,我们的基础模型完成了题目中“加入不同种类真菌之间的相互作用”的要求。当然这里只是举个例子,分析的越详细越合理越好。

A-问题三

题目

Provide an analysis of the model and describe the interactions between the different types of fungi. The dynamics of the interactions should be characterized and described including both short and long term trends. Your analysis should examine the sensitivity to rapid fluctuations in the environment, and you should determine the overall impact of changing atmospheric trends to assess the impact of variation of local weather patterns.

提供模型分析,并描述不同类型真菌之间的相互作用。应该对相互作用的动态进行描述,包括短期和长期趋势。您的分析应该检查对环境快速波动的敏感性,您应该确定不断变化的大气趋势的总体影响,以评估当地天气模式变化的影响。

解析

本题可以拆成3个小问回答

       第1小问是对模型二的拓展,需要动态地描述我们的模型。不要被动态吓到,其实就是开始建立微分方程模型,让你的模型随时间t变化。依然以第二问中的(3)式为例,该式中我们令式中本菌落数量、其他菌落数量是时间的函数,建立微分方程即可。

       具体来说,菌群的微分关系应当参照多种群竞争模型进行建立,这里给出一篇参考资料:

https://blog.csdn.net/weixin_44537194/article/details/87830139?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control

       模型中的参数需要参数选手定义,注意要将不同菌种的成长率、耐湿性融入模型。并且注意刻画题目中提到的“缓慢生长的真菌菌株往往在湿度和温度的环境变化下能够更好地生存和生长,而生长速度较快的菌株往往对同样的变化不太健壮”这个特性。

       应用参考资料中的图来说明,假设你分析了两种菌落,最后求解出了两种菌的数量变化情况如下图所示:

2021年 美国大学生数学建模竞赛 赛题解析!_第1张图片

       我们改写(3)式为(4)式再进一步带回(2)式即完成了动态描述。

图片

       第2小问我们来回答长短期,可以这么理解,上图中两种群数量基本保持平衡是长期的趋势。而起步阶段是短期趋势。由于需要分析快速波动的敏感性,不能简单的看图说话,我的分析思路是:将微分方程中的与环境有关的参数也设置为有波动的变量,比如环境的湿度。将这种波动部分应用于菌群平衡前和后(部分应用指平衡前加波动之后就不加,以形成对照),评价各阶段对于波动的敏感性。

       第3小问让我们分析不断变化的大气趋势的总体影响,其实就是第二小问的变体。第二小问中,我们自行添加波动以分析敏感性。这一小问,我们只需要将天气的变化应用于菌落动态变化的全阶段,和天气变化不变形成对比即可。

A-问题四

题目

Include predictions about the relative advantages and disadvantages for each species and combinations of species likely to persist, and do so for different environments including arid, semiarid, temperate, arboreal, and tropical rain forests.

包括对每个物种相对优势和劣势和可能持续存在的物种组合的预测,并针对不同环境进行预测,包括干旱、半干旱、温带、树栖和热带雨林。

解析

       本问和第三问类似,我们需要考虑不同气候环境,其实也很简单,将气候刻画为温度和湿度的函数,然后收集题目中提到的五种气候类型的数据,代入模型即可。与第三问不同的是,这里需要一个相对优势劣势的物种组合的结果,我认为用堆叠直方图效果会比较好,给个例图:

2021年 美国大学生数学建模竞赛 赛题解析!_第2张图片

A-问题五

题目

Describe how the diversity of fungal communities of a system impacts the overall efficiency of a system with respect to the breakdown of ground litter. Predict the importance and role of biodiversity in the presence of different degrees of variability in the local environment.

描述系统中真菌群落的多样性如何影响系统分解地面垃圾的整体效率。在当地环境存在不同程度的可变性的情况下,预测生物多样性的重要性和作用。

解析

       这一问探讨群落多样性的重要性,思路也很简单,单群落与多群落对照,凸显重要性即可。如果精力允许,可以设置多个对照组(如单与2、3、4..N种群落的结果都跑一遍)。这里的重点就是,如何凸显?

       题目中提到了整体效率,我们首先需要对这个效率一个定义公式。题目的意思是将其作为评价指标,那么我们只要按照群落越多样,整体效率越高这个结果导向去定义即可。

       另外,题目还暗示利用变化环境的影响去凸显多样性的重要性,其实这也很好理解,缓慢生长的真菌菌株往往在湿度和温度的环境变化下能够更好地生存和生长,而生长速度较快的菌株往往对同样的变化不太健壮。环境不怎么变,生长快速的菌种占优;环境经常变化,生长缓慢的菌种占优,任何时间都至少有菌种参与分解,总体效率必然比单一菌种高。这一部分,将我上述描述画成几张对比图就能很好说明问题。

A-总结

       和2020A一样,题目非常清楚,并且题目已经提供了基本思路,对于问题的理解不容易出现大的偏差。但是题目背景相对专业,笔者并没有仔细参看背景知识相关文献,许多模型建立描述的较为容易,与参赛者实际感受可能有出入。可能背景冷门、数据不易查找是本题的难点之一。因为题目的清晰,出彩点或集中在对于问题理解的深度上,对于参赛者的思维能力和认知水平有较高要求。

本题分析人:华中科技大学李学长,2020年美赛O奖

C题

图像识别,涉及图像灰度化、图像降噪、图像滤波、特征提取等简单操作。感觉数据量大,Matlab适合进行图像批处理,没有想象中的那么难。

大概看了一下数据集,看到有的人说有视频好复杂0-0,那个视频就几秒钟,而且视频量不多而已,截图成图片就可以。

先做一下数据分析:

首先是Lab status:

Unverified 2342 Negative ID 2069 Unprocessed 15 Positive ID 14

正负样本极度不平衡。

然后再可以根据经纬度画一下蜂的分布地点,最好可以根据时间再看看蜂的数量变化和分布转移情况,然后再决定第一题怎么做。如果规律明显就容易了,有个脑洞是可以加上某个范围内的黄蜂数量和分布的影响,做一个类似于种群繁衍的模型。

至于错误分类的可能性,直接上深度学习吧,无脑一点,输出概率值,可以找一些小目标检测论文搞搞,本身小目标检测就是CV的一个难题,不好搞,不过这里是数模,懂的都懂。然后做一下深度学习模型可视化。

这里比较有趣的是Unverified的蜂,当做好了分类模型,就可以来将Unverified的也分类一下。

如果有其他新报告,如何更新模型,以及更新的频率。这里的话,感觉可以根据第一题的基础来做,当种群繁衍达到某个阈值,就怎样怎样。这里应该可以结合时间序列方法拟合一下。

有什么证据可以证明华盛顿州已经消灭了这种有害生物,这一问的话,感觉也是可以继续搬第一题。

大数据题目,不得不说数据真的很大。

国家必须决定如何将其有限的资源优先用于后续补充调查。

再提观点:

1.大黄蜂是害虫,看到了要报告。

2.一报告,过来看,发现不是,这就是错误报告。

3.哪些可能是真的,哪些可能是假的,以便进一步调配资源。

数据很大,但是不要怕,可以分析的重点在于:

时间密集与空间密集:一只新蜂王的筑巢距离估计为30公里。那么真的目击报告应当是时间与空间密集的。

图片:不一定非得上机器学习高玄学,一个是时间短做不出来,一个是数据量不大样本不够(三千多张还不都是图,甚至还有视频和doc文档,未经标准化的数据集拿来炼丹?流批)。图片不是这么用的,如果可以的话,蜂占整张图的比例(大小),图的明暗程度,图片的杂乱程度(环境乱你咋认)

提交人的描述:都说了Not sure,评分下降!

实验室的commit:this is a XXXX 反正就不是大黄蜂

本题分析人:清华大学张博士,将会带来赛题讲解直播。

D题

第一步先进行数据处理,对表格里的数据进行检查,看是否存在有误信息。然后对full_music_data的数据进行归一化处理,便于后面的评价模型或者回归处理。

对于第一问题目要求根据influence_data数据文件建立音乐影响力的定向网络关系,可以采用复杂网络分析的软件来建立影响者与追随者之间的关系,从而可以得到哪些音乐家的影响力较大。这里需要注意的是因为数据有点大,对于全网络很难看清楚,因此有必要取出其中的一个流派或者一个音乐家的小网络来进行说明,着重分析里面的相互影响的关系。

对于第二问题目要求根据full_music_data数据文件进行音乐评价模型建立,因此可以采用聚类分析灰色综合评价神经网络评价等评价模型建立相应的音乐因素(包括特征,类型等所列的三种特性)与评价值之间的关系。通过对不同流派或者相同流派不同音乐家之间的评价值对比,来说明相似性问题。

对于第三问主要是比较不同流派之间的相似性,根据第二问建立的评价模型增加一个时间维度,对不同的流派进行模型计算分析,从而得到不同流派对应的评价值,进行相似度比较。通过对评价模型的回归分析,可以发现不同流派可能对应的系数权重和主要因素略有不同。因此从权重系数上可以对比从而到哪一因素是主要的区分因素。以及从评价值上分析不同流派之间的关联。

对于第四问根据建立的相似度模型对不同的音乐家进行模型计算,并根据第一问的结果进行对比分析,说明影响者对追随者的影响。对于具体哪个特征的影响比较大,可以通过不同的因素的权重系数来进行说明,以及计算不同音乐家之间的系数权重来看一下是否都满足这一要求。

对于第五问主要是建立音乐发展的时间模型,可以根据音乐评价模型或者流派流行程度与时间维度进行建立相应的时间模型。这里主要考虑音乐发展革命的定义,可以考虑设计指标来衡量相邻年份之间的关系,如计算不同年份的评价模型的系数权重的变化情况,从变化情况来看是否出现变革性的发展。对于哪些音乐家可以考虑之前的第四问来衡量不用音乐家之间的因素权重变化情况。

对于第六问可以在第五问的基础上建立,流派或者音乐家随时间的发展模型,并进行相应的分析评价。也可以采用图论的方法在第一题的基础上采用子图进行分析。

对于第七问主要是在前几问的基础上,对时间轴上的重大变化进行分析,并查找到相应的事件。

最后根据上述的回答求解对音乐影响的价值进行分析,写好最后的备忘录。

本题分析人:上海交通大学张博士

F题

“检查高等教育的脉搏和温度”作为今年美赛的F题,延续了美赛ICM-F题出题的一般套路,依旧为政策类题目,整体来说是评价类问题,是对不同国家高等教育系统进行评价。也很符合历年美赛F题的综合评价和决策方法的风格。

首先我们可以看一下问题的解析:

一个国家拥有健康,可持续的高等教育体系意味着什么?什么问题重要?是成本,获取权,公平性,资金,学位价值,教育质量,研究水平,世界上最聪明的人的思想交流,以上某些,以上全部还是其他?对于这一段描述,显然这是可以应用层次分析法来建立层次结构模型。也可以采用模糊综合评价,事先需要确定各个因素的权重,基于此模型可以解决美赛F题中的第一问,用来评估任何国家的高等教育系统的健康状况。

对于第二问将模型应用到多个国家,可以选择自己熟悉的一个国家,评价其高等教育系统的健康状况,此题主观性较强,而且对于改善空间建议需要根据模型参考一下专业的文献,此题的另外一个难度是数据的查找,第三,四问可以说是第二问的延伸,具体来提供一些建议来支持健康可持续的高等教育系统,可以将二三四问成一个章节

针对性的意见和政策实施表,以支持从当前状态到提议状态的迁移,可以根据GDP建立回归模型,得到回归方程根据政府教育经费或者占比和年份的关系可以做一下回归预测,也可以建立时间预测模型。

或者根据自己模型的指标(比如粗入学率)或者其他的指标用系统聚类的方法对样本进行处理或者建立更多的类别运用聚类的方法进行判别分析,据此可以提供政策实施表,如果你选的国家是中国可以参考一下21世纪中叶我国高等教育发展模式探讨及我国三步走的战略思想,政策建议根据自己所建立的模型可以提出扩招增加入学率,高等教育可持续发展的一些建议等等,以及扩宽办学渠道,社会与民间力量办学,竞争发展。还有大力发展现代远程网络教育等等。

对于最后一问评估政策有效性讨论在过渡期和最终状态下实施计划的现实世界影响(例如,对学生,教师,学校,社区,国家的影响),承认现实的变化是困难的可以采用马尔科夫链蒙特卡罗方法(MCMC),运用马尔科夫链来进行蒙特卡罗估计,通过以前政策的有效性预测未来政策的有效性,最终要使马尔科夫链的运行达到均衡分布。或者使用贝叶斯网络模型,用条件概率表达各个要素之间的关系,根据底层事件分析顶层事件发生的概率。

文章最后需要对所提出的模型进行灵敏度检验。在完成文章全部的建模之后,需要根据当前的发展特征以及提出的建议进行总结,针对提出的建议以及之后的发展形势全方面的归纳。

本题分析人:浙江大学于学长,2020年美赛F奖,将会带来直播赛题讲解。

你可能感兴趣的:(数学建模与实验,数学建模,美国大学生数学建模竞赛,数据建模,matlab,python)