2020年美赛C题优质基金挑战(学习笔记)

2020年美赛C题优质基金挑战(学习笔记)

2020年美赛C题

    • 2020年美赛C题优质基金挑战(学习笔记)
  • 题目
  • 怎么解决问题
  • 算法的选择
  • 背景
  • 数据处理
  • 数据填充
  • 最大最小数据归一化
  • 模型选择
  • 优点好处

题目

该Goodgrant(格兰特)基金会就是要帮助提高本科生参加在美国学院和大学教育表现的慈善组织。要做到这一点,该基金会拟共$ 100,000,000(100万美元)捐给每年学校提供适当的小组,已经运行五年(短期)了,从2016年7月开始这样做,他们不希望重复投资和其他重点大型授予组织如盖茨基金会和Lumina的基础。

您的团队已被要求由Goodgrant基金会建立一个模型,以确定最佳的投资策略,确定了学校,每所学校的投资金额,对投资回报率,以及持续时间,(feture)并希望该组织的资金应提供有最高可能产生对学生的表现有很强的正效应。(预测,投资应有价值和帮助)该战略应包括学校,你是根据每个候选学校的证明潜力有效地利用私人资金,建议投资适当的方式定义的1到N优化并优先候选名单,和投资回报(ROI)(核心问题)的预计收益慈善组织如Goodgrant基金会。

为了帮助你的努力,附加的数据文件(ProblemCDATA.zip)包含来自美国国家中心教育统计(www.nces.ed.gov/ipeds),它在几乎所有的后拥有大量的调查信息数据库中提取信息二级学院和大学在美国,与大学记分卡的数据集(https://collegescorecard.ed.gov),其中包括各种机构的性能数据。您的模型和随后的战略必须建立在这两个数据集的一些有意义的,可防御的子集。(给定的数据有残缺

怎么解决问题

怎么解决问题:
这个C题目核心问题是建立一个投资回报率模型,然后我们可以通过赛题提供的数据抽取相关影响的投资回报率模型features(投资金额,投资回报率,持续时间),以及过去5年的投资结果对我们未来的投资项目进行优化和预测。

算法的选择

算法的选择:
看到这个题目属于建立优化和预测的模型,我们就可以想到很多和这个模型相关的算法
比如时间序列算法,灰色预测算法,K-mean聚类,线性预测,主成分分析,拉格朗日插值,AR预测模型等等算法来搭建模型。
然后我们这篇论文根据它的概述外面也很容易了解到它也是选择基础的如时间序列算法,灰色预测算法,K-mean聚类等算法
因为美赛的题目大概都是从以下6个框架来提取的
① 拟合和分析
② 关联和因果
③ 分类和判别
④ 评价与决策
⑤ 预测和预报
⑥ 优化和控制
启示:这给我们的启示是我们要注重6个模型的基本算法,在分析完题目就大概了解到我们需要什么样的算法来建立模型了

背景

正文的话选择大数据为切入点,这也刚好符合我们C题目的类型,并且在最后也简要概述了我们这个模型。

数据处理

数据处理:
因为原始数据量大,首先要根据信息的完整性和有用性进行数据筛选。比赛的数据文档提供了7805所学校
对7805所学校进行数据筛选:
我们只考虑文件问题中的2978所候选学校,并将这些学校与文件问题C- Most Recent cohordata(记分卡元素).xlsx中的95个属性进行匹配。(为了让我们的投资有意义,我们选择的投资学校必须拥有严格的制度体系,注册信息,信息评价良好等正确的因素,不然的我们的投资毫无意义)
操作步骤:
① 删除那些目前不是运营机构、受教育部严格资金监控的学校,这意味着它们面临经济萧条、缺少学生、没有或非常有限的学位授予比例信息。在这些学校上投资毫无意义。
② 删除50%属性为空的学校。如果缺失数据的百分比超过50%,则归算会产生很大的误差,我们将其作为缺失数据的阈值(阈值又叫临界值,是指一个效应能够产生的最低值或最高值)

数据填充

数据填充:
K-means聚类算法(K代表质心)
操作步骤:
① 先把拥有完整信息的学校按照不同属性聚类(“PCIPXXXXX”指不同学科(包括38个学科)所授予学位的百分比,表示各学校的学科构成;“UGDS”指学校的规模,“UGDs xXXXX”指白人、黑人、亚裔等学生的比例(包括9种不同的属性),表示学校的学生构成;而“PCT- FLOAN”指的是所有获得联邦学生贷款的联邦本科生的百分比,表示学生的学校经济状况。)
② 再把具有相同属性的聚类后的数值取平均值填到缺失的数据中。

最大最小数据归一化

最大最小数据归一化:
数据的离散性大大降低,数据之间的内聚性增加,数据更加密集

模型选择

用了什么模型:
ROI评价模型(投资回报率(ROI)=产出/投入紧迫感100%)
产出(毕业后工资、留职率、还款能力、教育提升率)
投入(学费)
紧迫感(助学金、贷款)
通过层次分析法、主成分分析法获得各个属性所占有的权重
通过灰色预测模型、时间序列模型求取最优解,预测未来收益最大化

优点好处

优点好处是什么:
① 把题目归类
② 使用的典型算法(K型聚类算法、层次分析法、主成分分析法、灰色预测模型、时间序列模型)来建立模型
③ 对论文的写作排版内容有了更深的理解

你可能感兴趣的:(za的建模总结,美国大学生数学建模竞赛,数学建模,matlab)