MathorCup大数据竞赛-北京移动用户体验影响因素问题思考

针对本次2022年MathorCup大数据竞赛-赛道B初赛题是关于北京移动用户体验影响因素问题。问题一,二呈递进关系。客户语音业务和上网业务满意度研究内容方法大同小异。这里给出客户语音业务满意度研究内容方法以供参考。

首先,对数据集进行数据预处理。针对已有数据集进行缺失值识别结合附件五根据缺失原因修正。由于数据包含类别数据与数值数据,为选择有效变量首先对数值变量利用相关系数法剔除相关系数超过一定阈值的成对变量的其中一个变量。对类别数据进行数据编码,对编码后的数据利用方差过滤法剔除方差不超过一定阈值的变量,并对数据进行描述性统计,发现数据存在类别数据分布不均衡的问题。利用孤立森林,One-class SVM 等多种异常值识别算法识别异常数据。

针对问题1,推荐使用树模型进行指标权重量化。因为如果采用评价类方法,只会对选择出的重要指标进行权重判断,而忽略了其他可能不是特别重要的指标权重。考虑基于不纯度的树模型特征重要性受到从训练数据集得出的统计数据的影响:即使对于无法预测目标变量的特征,其重要性也可能很高,只要模型有能力使用它们来过度拟合。故使用置换重要性(permutation_importance)作为可以减轻这些限制的替代方法。可选择利用xgboost,随机森林,ExtraTrees来进行置换重要性计算,得到最终结果。选择重要性大于0.01的指标作为影响语音业务的主要因素。

针对问题二,选择问题一中主要因素的指标数据,连接需要预测的数据集与原始数据集相应数据进行数据预处理。训练多种机器学习模型,利用Stacking集成方法集成,得到最后的打分预测。由于数据数据存在类别数据分布不均衡的问题,可考虑重采样进行解决。

部分结果如下所示

类别计数发现类别分布不均
MathorCup大数据竞赛-北京移动用户体验影响因素问题思考_第1张图片
缺失值识别
MathorCup大数据竞赛-北京移动用户体验影响因素问题思考_第2张图片

相关系数法选变量

MathorCup大数据竞赛-北京移动用户体验影响因素问题思考_第3张图片

重要性量化

MathorCup大数据竞赛-北京移动用户体验影响因素问题思考_第4张图片

你可能感兴趣的:(大数据)