如下为美赛春季赛Y题思路解析:
Problem Y: Understanding Used Sailboat Prices
像许多奢侈品一样,帆船的价值随着它们的年龄和市场状况的变化而变化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括大约3500艘36至56英尺长的帆船的数据,这些帆船将于2020年12月在欧洲、加勒比海和美国进行广告销售。
一位划船爱好者向COMAP提供了这些数据。像大多数真实世界的数据集一样,它可能有丢失的数据或其他问题,需要在分析之前进行一些数据清洗。Excel文件包括两个选项卡,一个用于单壳帆船,另一个用于双体船。在每个选项卡中,列标记为Make、Variable、Long(以英尺为单位)、地理区域、国家/地区/州、价目表价格(以美元为单位)和年份(制造年份)。对于给定的Make、Variant和Year,除了提供的Excel文件之外,还有许多其他来源可能提供特定帆船的详细特征描述。
背景分析:以上内容引出了问题,核心是需要利用题目所给的数据进行建模求解。写到了需要在分析前进行数据清洗,也就是说,论文的开始必须先写数据预处理工作。
常见的数据预处理方法有数据清洗、数据集成、数据变换、数据归约与数据的离散化。根据数据指标的特性可以针对不同问题做不同的处理。题目中特别提到了数据丢失问题,常见的方法为以下三种:(1)删除元组 也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。(2)数据补齐 这类方法是用一定的值去填充空值,从而使信息表完备化。除了常规方法,也可以使用随机森林、神经网络等智能算法进行数据补全。(3)平均值填充(Mean/Mode Completer) 将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就根据该属性在其他所有对象的取值 的平均值来填充该缺失的属性值;如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多 的值(即出现频率最高的值)来补齐该缺失的属性值。(在附1 数据集分析中会给出这道题目具体的预处理方案,可供参考)
您可以使用您选择的任何附加数据来补充提供的数据集;但是,您必须在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的数据。确保充分识别并记录所使用的任何补充数据的来源。帆船经常通过经纪人出售。为了更好地了解帆船市场,香港的一位帆船经纪人中国委托您的团队编写了一份关于二手帆船定价的报告。经纪人希望您:
背景分析:由于可以使用附加数据来补充提供的数据集,所以这道题目搜集数据也是重中之重,群内会更新部分数据给大家。由于是以中国作为帆船经纪人,所以出售地可以选择亚太地区为主,可以搜集部分已有的数据。
问题一 建立一个数学模型,解释所提供的电子表格中每艘帆船的标价。包括任何您认为有用的预测值。你可以利用其他来源来了解一艘帆船的其他特征(如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠能力、净空、电子设备等)。以及按年份和地区划分的经济数据。确定并描述所使用的所有数据来源。包括您对每个帆船变种的价格估计的精确度的讨论。
提示:在做第一问前需要先对题目给的数据集进行数据预处理。
问题一分析:第一问可以划分为三小问,首先需要解释说明其他来源的数据集,这需要团队获取信息的能力,可以多看看国外统计网站,以及在网上搜集好资料。这里最好对数据集做一个初步的EDA(探索性数据分析),包括一些数据可视化。包含但不限于:
这里推荐的数据可视化方法有:
单变量可视化:查看数据分布-直方图、箱线图
两个变量的可视化:相关性分析-线图、散点图、热力图,比如:
第二小问需要建立模型,去解释数据集中标价的合理性,这里可以简单一点,可以先使用相关性分析,提取相关性高的指标,然后使用多元线性回归去拟合,以判断标价的合理性。(小白使用)还可以使用因子分析、关联规则、一些预测算法等进行判别分析。
第三小问需要讨论模型价格估计的精确度,这里可以做置信度、置信区间分析。还可以划分训练集、测试集来直接计算精确率。这里还可以可视化ROC曲线等。
1.精确率(precision)
就precision而言有很多版本,各种说法不一,有精确率也有正确率更有甚者把准确率也搞出来了实在受不了,反正咱们看英文precision。
precision是表示预测为正样本中,被实际为正样本的比例。可以看出precision是考虑的正样本被预测正确的比例.根据图1-1可得其计算公式为:P = TP / (TP + FP)
2. 召回率(recall)
召回率是表示实际为正样本中,预测为正样本的比例。可以看出,召回率考虑的是正样本的召回的比例.根据图1-1可得其计算公式为:P = TP / (TP + FN)
3.准确率(accuracy)
准确率表示所有的预测样本中,预测正确的比例.其计算公式为:A = (TP + TN) / (TP + FN + FP + TN)
总结:精确率(accuracy)和召回率(recall)计算公式的分子都是TP也就是正样本被预测为正样本的数量,可知其为正样本的精确率和正样本的召回率.而准确率(accuracy)主要表征的是整体预测正确的比例.
这里提供部分数据集处理建议:
1 根据年份可以做时间序列分析
2 有很多量化指标,可以对此类数据进行归一化
3 Listing Price (USD)需要先把数据格式从$204,921处理为204921
4 Geographic Region可以以国家做聚类分析
5 一些非数值型数据,如果需要用到,可以利用one hot编码转化为数值型
以上仅为第一问部分思路(后续完善),剩余部分思路、数据集和其他全网具体配套代码、参考论文,以及其他题目思路,可以看我的这篇文章:
问题二:讨论您对给定地理区域的建模如何在香港(特区)市场有用。
从提供的电子表格中选择一个信息丰富的帆船子集,分为单体船和双体船。
从香港(特区)市场查找该子集的可比挂牌价格数据。
如果香港(特区)对你所在的帆船的每艘帆船的价格有影响,那么香港(SAR)的地区影响会是什么?
对双体船和单壳帆船的影响是一样的吗?
问题三:
问题四:
总共不超过25页的PDF解决方案应该包括:
·一页的摘要表,清楚地描述您解决问题的方法以及您在问题背景下分析得出的最重要的结论。
·目录。
·您的完整解决方案。
·向经纪人提交一到两页的报告。
·参考文献列表。
注:MCM大赛以25页为限。
您提交的所有方面都计入25页的限制(摘要表、目录、报告、提交给经纪人的一到两页报告、参考列表和任何附录)。
您必须引用您的想法、数据、图像和报告中使用的任何其他材料的来源
数据集说明
数据文件输入说明Make:船的制造商的名称。Variant:识别船的特定型号的名称。长度(Ft):船的长度(英尺)。
地理区域:船只所在的地理区域(加勒比海、欧洲、美国)。
国家/地区/州:船只所在的特定国家/地区/州。挂牌价(美元):以美元计算的购买船只的广告价格。
年份:该船制造的年份
术语表:(翻译不准,下面是原题)
以上仅为第一问部分思路(后续完善),剩余部分思路、数据集和其他具体配套代码、参考论文,以及其他题目思路,可以看文末群名片获取
如下是选题建议:2023美国大学生数学建模竞赛(春季赛)选题建议 - 知乎