2023_MCM_Problem_Y Understanding Used Sailboat Prices
背景:
和许多奢侈品一样,帆船的价值会随着老化和市场条件的变化而变化。附件中所附的 “2023_MCM_Problem_Y_Boats.xlsx”文件包括了2020年12月在欧洲、加勒比海和美国登 广告出售的大约3500艘36至56英尺长的帆船的数据。一位划船爱好者向COMAP提供了这些 数据。像大多数真实世界的数据集一样,它可能有缺失的数据或其他需要在分析之前进 行一些数据清理的问题
Excel文件包括两个标签,一个为单体帆船和一个为双体帆船。在每个标签、列分别标记为“制造”、“变量”、长度(英尺)、地理区域、国家 /地区/州、挂牌价格(美元)和年份(制造)。 对于给定的制造、变体和年份,除了提供的Excel文件之外,还有许多其他来源可以提供 对特定帆船特性的详细描述。您可以用您所选择的任何附加数据来补充所提供的数据集 ;但是,您必须在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的数据。请确保完全识别和记录所使用的任何补充数据的来源。 帆船经常通过经纪人出售。为了更好地了解帆船市场,香港(特区)的一位帆船经纪公 司委托你的团队准备一份关于二手帆船定价的报告。经纪人希望您能够:
思路:
问题1:建立一个数学模型,解释所提供的电子表格中每艘帆船的上市价格。包括任何你认为有用的预测因素。你可以利用其他资料来了解特定帆船的其他特征(如船宽、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠容量、净空、电子设备等),以及各年和各地区的经济数据。识别和描述所有使用的数据来源。包括讨论你对每个帆船品种价格的估计的精确性。
这道题目标是对每艘帆船的上市价格进行预测,可以以帆船价格作为Y,其他变量作为X,具体解题方法如下:
step1:尽可能构造或者收集得到更多相关数据,这个是得分的关键,也是这道题的最难点。我们需要尽可能多地找到相关数据进行补全,
例如帆船数据:
例如各地区的经济数据:
经济与吞吐量数据均为2019年数据,数据来源:世界银行、国际货运与贸易协会、世界经济论坛。
step2:用图表描述以上这些数据
step3:以帆船价格作为Y,任何可能影响到预测价格的变量作为X,构建回归预测模型,可以采用线性回归、Xgboost、LGBM、随机森林、神经网络、决策树等等,这里推荐用机器学习。
step4:对模型进行评价与模型调优,模型调优可以结合想PSO、遗传算法等等启发式算法,提升文章逼格。
问题2:用你的模型来解释区域对上市价格的影响(如果有的话)。讨论一下任何地区性的影响是否在所有帆船的变体中都是一致的。讨论任何区域效应的实际和统计学上的意义。
问题3:讨论如何利用所给出的地理区域模型在香港特别行政区市场上有用。从提供的电子表格中选择一组信息量大的单体帆船和双体帆船子集,并找到这个子集在香港特别行政区市场上的对比售价数据。模拟香港特别行政区对于每种船只价格的地区效应,如果有的话,这种效应对于单体帆船和双体帆船是否相同。
问题4,5: 识别并讨论你的团队从数据中得出的任何其他有趣的、有信息量的推论或结论。为香港(特区)的帆船经纪人准备一份一到两页的报告。包括一些精心挑选的图形,以帮助经纪人理解你的结论。
思路详细讲解可看B站视频
2023美赛春季赛Y题保姆级思路及完整解题代码 了解二手帆船的价格_哔哩哔哩_bilibili