2022年美赛思路题解

总体描述概况

纵观本次美赛题目基本依旧是针对于资本效益的功利性问题。首先提醒读者请注重自己模型的功利性和利益化,也就是说你的模型是对资本产生有直接或间接的正面效益的。本文主要针对各个选题为读者进行梳理,相关资源会在文末给出,并陆续更新。

文章目录

    • 总体描述概况
  • 一、题目C解题思路
    • 1.数据预处理
    • 2.模型选择以及注意事项
  • 二、题目D的概况解读
  • 三、关于其他题目
  • 资源

一、题目C解题思路

和以往一样,C题依旧是大数据类题目,对计算机类以及统计类学生较为友好。做题之前需要了解统计学、数理金融、量化分析相关背景的知识。且C题的求解工具也更加丰富,除了matlab、python还可以是用无需编程的SPSS;R、stats、SAS等传统统计软件也都可能会用到。
笔者看来C题是目标与背景最为明确的题目,并且数据量充分,最不容易写偏的一个题目,并针对该题做了最详尽的解读。

1.数据预处理

机器学习的必不可少的阶段,对于缺失值的填充以及数据的可视化可以为大家提供以下代码进行参考。(使用python的常规库进行可视化可能大家都一个样子,所以在资源中笔者提供了多种不常见的可视化代码供选择,并且图片的B格也很高)本题是一个较为常规的预测类和方案规划类大数据题目。
部分缺失值可视化代码如下(示例):

import pandas as pd
import numpy as np 
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns 
import scipy.stats as st
%matplotlib  inline
plt.style.use('seaborn-darkgrid')
sns.set(style = 'darkgrid')
import  warnings
warnings.filterwarnings('ignore')

data = pd.read_csv('data.csv') //当前目录下你的数据文件
data.info()
import missingno as msn
msn.bar(train.sample(1000))

分布查看:

sn.set(style='dark',)
dist_cols = 8
dist_rows = len(test.columns)
plt.figure(figsize=(4*dist_cols,4*dist_rows))
i = 1
for col in column:
    if col == 'price':
        continue
    ax = plt.subplot(dist_rows,dist_cols,i)
    ax = sns.kdeplot(train[col],color='green',shade= True, cbar=True)
    ax  = sns.kdeplot(test[col],color='blue',shade=True,cbar=True)
    ax.set_xlabel(col)
    ax.set_ylabel('Frequency')
    ax = ax.legend(['train','test'])
    i+=1
plt.savefig('distribution.png')
plt.show()

## 2.读入数据

<font color=#999AAA >代码如下(示例):



```c
data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

部分可视化效果图演示:
缺失值可视化(为避免抄袭本文图片并非与本数据相关,希望读者自己跑图并加以修改,本文的图片是笔者在jupyternotebook跑的,用pycharm的话各位记得加plt.show()或者相应库的显示函数)
2022年美赛思路题解_第1张图片
2022年美赛思路题解_第2张图片
对于缺失值的常规填充就不再赘述,但想要数据更为合理,读者可以考虑神经网络或其他模型的预测填充。

2.模型选择以及注意事项

不可忽略的是题目要求仅根据价格给出策略。特别注意请勿使用价格以外的其他(读者自行查找的数据)作为规划的参数。要注意题目中已经将基本决策变量规定好,读者可以自行分析进行使用或添加,原则上需要包含出题者意愿的所有决策变量。
关于模型选择建议大家选目前比较先进的集成学习模型,因为预测的准确性性可能是很重要的一个评价论文的指标。读者可以考虑诸如LightGBM等模型,可供参考的模型较多,就不一一列出。需要注意的是:无论是哪个模型,均需要读者进行多次实验,确定最佳参数(可以通过网格搜索)以及交叉验证。并且不要忽视随机种子对预测结果的影响。
相关的模型代码我会放在文末资源中供大家参考。

该处使用的url网络请求的数据。


二、题目D的概况解读

总体来讲D题是一个相对开放性的题目,对于建模了解程度低的同学较为友好。
针对题目要求进行解释:
(1)衡量ICM公司当前D&A系统成熟度水平的一个指标。包括衡量其D&A人员、技术和流程的成功程度的关键绩效指标。很明显第一问是一个运筹学问题,主要变量设置为该三项指标。对于指标影响的研究无非是探究指标的权重。关于权重的探究提供以下模型思路:层次分析,TOPSIS和灰度评价模型。就方法来看针对权重的决策方案在没有数据支撑的情况下较为主观,建议先查找文献再确定使用哪种决策模型。笔者针对该题查找的参考文献在文末附有。
(2)使用您的模型来确定其当前的D&A成熟度水平,演示他们如何使用您的
模型推荐对系统的更改,允许公司最大限度地发挥其数据资产的潜力。
本题可以看做是对问题一种的模型的优化题目。传统做法为添加限制条件以及增加特殊情况对模型进行改进并加以验证。
(3)制定有效性的协议。该问较为合理的做法 需要以数据作为支撑,并使用问题二中的评价指标确定该系统是否有效。可以看做0,1规划或分类问题。
(4)体现模型的效益,针对应用于海港的方案,资源文献可供参考。

三、关于其他题目

个人能力原因,如果有时间会后续更新其他题目,读者可以再评论区留言。

资源

提示:辅助性资源可以参考使用,代码部分最好修改使用,避免查重。

下面是笔者总结的全部资料,后续获得的资料以及代码会陆续更新。

https://mianbaoduo.com/o/bread/Ypebl5xy

码字不易,感谢阅读。

你可能感兴趣的:(机器学习,算法,数据挖掘,机器学习,美国大学生数学建模竞赛)