2022 年 MathorCup 高校数学建模挑战赛——大数据竞赛高级版代码(迁移学习+kmeans聚类)

下面给出针对问题二的整体思路和代码(后续继续分析,不再重复收费,购买后加好友一对一指导):

骚操作,让评委眼前一亮(迁移学习+Kmeans聚类特征生成)

https://mbd.pub/o/bread/Y52Zk55s

方案一,迁移学习:源域与目标域。材料所给有两个训练集,一个语音满意度样本一个上网满意度样本。两个样本有重复特征,因此考虑通过一定规则将语音满意度样本迁移到满意度样中,即选取分布一致的样本加入其中,作为新的训练集进行预测。然后继续训练lightgbm、xgboost、catboost、lr、knn、随机森林等五种模型训练,最后选择预测效果最好的几类模型融合。融合方法(Stacking,几何加权等)

方案二,通过分析发现训练集已有特征,测试集没有,并且损失特征与label具有强相关,分析发现发现'网络覆盖与信号强度', '手机上网速度', '手机上网稳定性'与'手机上网整体满意度'呈现高相关,而这类特征只出现在训练集,并未在测试集出现,因此,类别特征将测试集进行Kmeans聚类,如果是连续特征则使用回归预测。补充这类特征。

你可能感兴趣的:(数据挖掘,python)