2021美赛C题反思与总结

2021美赛C题反思与总结

开始

参加美赛的第二年,这次的比赛做起来比去年顺利很多(队友配合不错),我在队伍中担任写代码的工具人,这次我们选的C题,C题比较符合我的方向,于是在开始比赛的第3个小时,经过讨论,我们就定下来了题目为C题,大黄蜂(Asian Giant Hornets)!2021美赛C题反思与总结_第1张图片

1.思路

因为C题是一个预测+分析类型的题目,所以,我们先从数据开始入手;

1.1 数据

打开几天前官网发的数据包(当时就猜测,可能为图片或者视频/音频,果然),发现里面的东西十分凌乱,数据集中含有.ZIP, .RAR, .pdf, .doc, . QuickTime, .mov,.mp4的格式,我们使用python库中的os函数读取目录配合shutil库对于压缩包文件(.ZIP, .RAR)进行解压保存;cv2库对于视频流文件(.mov,.mp4)进行帧解码,即对于视频每帧截图并保存为.jpg格式;由于文档(pdf, .doc)数量不多,手动进行提取信息;对于图片文件(.jpg, .png)我们使用os函数对于目录文件进行文件后缀统一化,统一为.jpg,制作 GlobalID-FileName 映射表,做了一下简单的数据处理。

1.2 数据的简单分析

Lab Status为negative的数据得占总数的47.74%(2032/4256),positive占0.33%(14/4256),unprocessed占0.31%(13/4256),unverify得数目占51.62%(2197/4256)。那就说明我们的训练集数量很少,所以在训练前我们得先做一下图像的处理,比如,图像的去噪和增强;数据集中有很多模糊的图片,所以对于该类图片我们有必要进行锐化和增强来提升训练效果。哎嗨,就在这时候,突然看到官方允许自己扩充样本,这就很香了。

1.3 P1预测

首先呢,我们知道这个蜂类的习性,根据官方提供的文件,我们可以得知,30km筑巢,8km活动,那么我们可以从这一个点,来根据时间的进行来预测蜜蜂的走向;
由于是短时间内的预测我们使用了SVM结合GM-BP来进行预测的过程;发现在8,9月活动比较频繁,然后,我们将预测的迁徙和实际的迁徙方向,分别做拟合,得到迁徙的方向夹角,得到评价预测模型的评价函数。

1.4 P2识别、P3参数更新

我们将识别分为了两个部分:

1.4.1 图像识别

两个字:炼丹;
我们在这个题目中用的是CNN跑的,中间加了一些小track,最后达到了0.9的f1-score,网络结构等比赛结果出来详细总结。

1.4.2 文本识别

我们在这个里面用的是:NLP,使用到了Python的一个包,叫NLTK,比较好用,中间用到无监督的学习用于获取单词向量表示,并使用SVM分类器对于Notes进行分类,对于Lab comments进行关键词提取,进行分类,后续详细讲解;

1.4.3 动态更新系数

对于图像识别的结果和文本识别的结果,都是对于是否为胡蜂进行评价的,也就是说,是否为胡蜂的可能性,对于识别结果我们当然给他们规制一个系数mAP,f1-score;对于结果进行线性回归,来建立一个动态的变化方程来预测结果;

1.4.5 分类模型

我们将该模型分为三个通道:
通道1:如果数据为Positive ID,进入图像分类检测模块,使用Faster-RCNN对输入的案件发生的“元凶”的照片进行匹配检测是否为胡蜂,如果为胡蜂,那模型将确认这是一只胡蜂,如果不是判断为非胡蜂;
通道2:如果数据为Negative ID,进入图像分类检测模块,使用Faster-RCNN对输入的案件发生的“元凶”的照片进行匹配检测是否为胡蜂,如果不为胡蜂,那模型将确认这不是一只胡蜂,如果是判断为胡蜂;
通道3:当然,这个是一个特殊情况,用来进行模型内部调解,如果通道1识别为Negative ID与开始输入的Positive ID不一致,那么进入Parameter Comparator模块,对于该 “案件”进行重新评分,根据文本分类和图像检测得分进行判断,当任意一方大的时候则服从该方的初始评判结果。

1.5 最优调查

当然,最优秀的调查方案是要根据回归方程对于是否为胡蜂的概率来进行评价的,在这里,我们还可以对于胡蜂出现可能性最大的地点进行风险分析,来对于资源进行更好的调配来解决“重灾区”,也就是在胡蜂出现的活动范围中重叠分数较高的地区。

1.6 根除依据

不多介绍,语文建模

2.总结

好了,这也就是我最后一次的建模比赛,经过一年的修炼,国赛、中间的大大小小的建模比赛,再到这次的美赛,感慨其实还是挺多的,自己的编造水平还是提升了不少(哈哈),也感谢队友,就写到这里吧,等出成绩后更新一下详细的模型介绍。

你可能感兴趣的:(建模,python,图像识别,深度学习,机器学习,人工智能)