2021美赛C题(大黄蜂传播规律和目击准确性研究)——赛题解读&解题思路

2021美赛C题(大黄蜂传播规律和目击准确性研究)——赛题解读&解题思路

  • 赛题目的
  • 一.胡蜂预测模型
  • 二.目击准确性的深度学习模型
      • 2.1数据分析/预处理
      • 2.2问题解答
  • 三.模型评估
  • 四.模型优化
  • 五.建议模型

赛题目的

赛题目的:预测胡蜂的传播规律,研究公众报道胡蜂踪迹的准确性,并且利用模型研究消灭胡峰的方法
问题描述由于胡蜂(Vespa mandarinia)对当地蜜蜂种群的潜在严重影响, 胡蜂的存在会引起很大的焦虑。 华盛顿州已经建立了帮助热线和一个网站,供人们报告这些黄蜂的目击情况。根据这些来自公众的报告,国家必须决定如何将其有限的资源优先用于后续补充调查。 虽然一些报告已被确定为胡蜂, 许多其他目击已证明是其他类型的昆虫。
你的论文应该探讨和解决以下几个方面:

(1)说明并讨论是否可以预测这种有害生物随时间的传播,以及精确程度如何。
(2) 大多数报道的目击都把其他黄蜂误认为是胡蜂。仅使用提供的数据集文件和(可能)提供的图像文件来创建、分析和讨论预测错误分类可能性的模型。
(3) 使用你的模型讨论你的分类分析如何导致优先调查最有可能是正面目击的报告。
(4) 说明随着时间的推移,如果有额外的新报告,如何更新模型,以及更新的频率。
(5) 使用你的模型,有什么证据可以证明该害虫已被消灭在华盛顿州

一.胡蜂预测模型

问题分析分析大黄蜂的出现量随时间的变化、创新点:考虑空间分布的差异。
预测模型选择:LSTM、RNN、ARIMA、MLR、SVR

二.目击准确性的深度学习模型

2.1数据分析/预处理

2021美赛C题(大黄蜂传播规律和目击准确性研究)——赛题解读&解题思路_第1张图片

#问题分析=;通过题目给的公众报告准确度情况excel表格,上图可见Positive ID、Negative ID、Unverified数据中Positive ID数据很少。数据严重不均衡会影响深度学习模型的偏好,也就是说给你新公众报道信息,模型更容易预测为Negative ID、Unverified两种情况,这是我们不希望的。针对这样的问题又两种解决办法:
(1)数据扩充,数据为文本数据:

  • 1、传统文本数据增强的技术:EDA
    • (1). 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。

      • Eg: “我非常喜欢这部电影” —> “我非常喜欢这个影片”,句子仍具有相同的含义,很有可能具有相同的标签。
    • (2). 随机插入(RI: Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。

      • Eg : “我非常喜欢这部电影” —> “爱我非常喜欢这部影片”。
    • (3). 随机交换(RS: Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。

      • Eg: “如何评价 2017 知乎看山杯机器学习比赛?” —> "2017 机器学习?如何比赛知乎评价看山杯
    • (4). 随机删除(RD: Randomly Delete):句子中的每个词,以概率p随机删除。

      • Eg: “如何评价 2017 知乎看山杯机器学习比赛?” —> "如何 2017 看山杯机器学习 “.
  • 2.深度学习数据增强技术
    • 1.半监督 Mixmatch
    • 2.无监督数据增强UDA
      2021美赛C题(大黄蜂传播规律和目击准确性研究)——赛题解读&解题思路_第2张图片
      (2)加权损失函数
  • 让对Positive ID预测错误的惩罚更重,即下面的公式中w1设置的更大点:
    w1*LossPositive + w2*LossNegative+w3*LossUnverified
    对Negative ID、Unverified数据预测错误的惩罚更轻,最后w1+w2+w3=1

2.2问题解答

方法:训练图像分类模型,模型需要构建深度学习框架:
(1)首先将数据分为训练数据和验证数据,
(2)然后利用深度学习网络进行特征提取。
(3)建立损失函数,方向传播进行训练
模型选择:CNN、SVM、决策树等

三.模型评估

问题分析:即对第二个模型进行评估,可以从准确率方面说明

四.模型优化

解释模型的更新机制、复杂度、时效性、不同区域的适用性等。

五.建议模型

给出黄蜂数量减少至认定的安全范围的证据
本博客参考文章链接:
【1】让机器自动生成文本数据–NLP文本数据增强方法简述

你可能感兴趣的:(数学建模,数学建模,美国大学生数学建模竞赛,matlab)