本题主要是一个研究预测模型,以中国移动通信集团北京公司为背景,让客户根据 自身在网络覆盖与信号强度方面的体验和语音通话过程中的整体体验来进行语音通话 整体满意度的打分,统计出客户语音业务体验中的影响因素,从而提升客户语音业务满 意度。通过分析影响满意度的各项因素,得出量化分析结果,进而进行预测研究。本文 主要建立了决策树分类模型,随机森林和梯度提升树分类模型,基于这三个模型,进行 附加 1 和附件 2 的满意度评估,附件 3 和附件 4 的打分预测。
针对问题一,主要有三个小问题,首先分析影响客户语音业务的主要因素,然后分 析影响客户上网业务的主要因素,最后给出各因素对客户打分影响程度的量化分析和结 果,也就是说给出个影响因素的影响权重。在解决问题时,首先进行了数据预处理的操 作,对附件 1 和附件 2 中的数据进行了数据的删减与补充、数据编码和整体性分析等操 作,同时进行了异常值的处理。然后,我们建立决策树分类模型,随机森林分类模型来 解决该问题,训练数据的过程中,对数据的预测精度进行了较好的把控,根据预测精度 选择合适的模型,合适的参数值。主要使用了决策树的分类模型,得到了语音业务和手 机上网业务是相关影响因素的权重,在文中也给出了相应的表格。之后得出结果:影响 客户语音业务满意度的主要因素有 4 个,分别是当月 ARPU、是否遇到网络问题、前三 月 MOU 和 GPRS 国际漫游流量;影响客户手机上网业务满意度的主要因素有 4 个,分 别是上网过程中网络时断时续或时快时慢、重定向次数、优酷视频使用流量和当月 MOU。 最后计算数据得出了各因素对客户打分项目的影响程度,得出了量化分析结果,在文中 主要以权重表格的方式呈现。
针对问题二,根据题目要求,需要建立客户打分基于相关影响因素的相关数学模型, 该题仍然可以使用第一问的模型,在这里补充使用了梯度提升树模型,根据预测精度选 择合适的模型。首先我们根据问题一的预测结果,对相关训练集进行预测精度的检查, 发现预测精度高于 97%,证明该模型具备较高的合理性,接着开始进行实际性预测,先 对附件 3 和附件 4 的表格数据进行预处理,预处理之后使数据成为了与问题一的训练数 据完全一样的格式,接着代入模型,得出了所有客户打分的分类预测结果,根据题目要 求,将预测结果填入到 result 表格中,完成预测任务,最终我们对结果的合理性进行了 分析和解释说明。
关键词:决策树分类 数据预处理 随机森林分类 影响权重 梯度提升树分
一、问题的重述...................................................................................................................... 1
1.1 问题背景..................................................................................................................... 1
1.2 问题要求..................................................................................................................... 1
二、问题的分析...................................................................................................................... 1
2.1 问题一的分析............................................................................................................. 1
2.2 问题二的分析............................................................................................................. 1
三、模型的假设...................................................................................................................... 2
四、符号说明.......................................................................................................................... 2
五、模型的建立与求解.......................................................................................................... 2
5.1 问题一的初步分析求解............................................................................................. 2
5.1.1 数据预处理....................................................................................................... 3
5.1.2 数据整体性分析............................................................................................... 4
5.2 问题一模型建立与求解............................................................................................. 5
5.2.1 基于决策树模型的建立................................................................................... 5
5.2.2 影响客户满意度主要因素............................................................................... 7
5.2.3 各因素对客户打分的影响程度..................................................................... 11
5.3 问题二模型建立与求解........................................................................................... 14
5.3.1 决策树分类模型的训练................................................................................. 14
5.3.2 基于决策树分类的预测................................................................................. 15
六、结果检验和误差分析.................................................................................................... 17
6.1 结果检验................................................................................................................... 17
6.2 误差分析................................................................................................................... 17
七、模型的评价与推广........................................................................................................ 18
7.1 模型的优点............................................................................................................... 18
7.2 模型的缺点............................................................................................................... 18
7.3 模型的推广............................................................................................................... 18
八、参考文献........................................................................................................................ 18
九、附录................................................................................................................................ 19
客户对运营商开发产品的服务满意程度即客户满意度,反映出了客户对产品的期 望与实际使用体验之间的差异。随着信息越来越透明,产品同质化,客户满意度愈来 愈能体现各大运营商市场运营状况。在我们熟知的数字信息时代,客户体验是很重要 的一项指标,客户反馈是有利于商业决策的,商业决策有时候可以为公司带来丰厚的 回报,各大公司运用合适的经营手段,建立起客户相关的改善体系,进一步实现客户 满意度评价的数字化方向转型,从而来推动移动网络这一领域的的高质量和 可持续发 展。传统提升客户满意度的方法是根据客户投诉,逐点解决影响用户体验的问题。但 是用户的数量,产品的种类,客户的需求促使运营商们需要寻求更加有效的方法,从 而实现更早、更全面的提升客户满意度。
中国移动通信集团北京公司,让客户根据自身在网络覆盖与信号强度方面的体验 和语音通话过程中的整体体验来进行语音通话整体满意度的打分,统计出客户语音业 务体验中的影响因素,从而提升客户语音业务满意度。同时,中国移动北京公司还让 客户根据自身在手机上网中的整体体验,以及在网络覆盖与信号强度方面的体验来进 行手机上网整体满意度的打分,并统计整理出影响客户上网体验中的影响因素,从而 提升客户的上网体验。
问题一:首先第一小问是根据附件一和附件二,分别研究影响客户语音业务和上 网业务满意度的主要因素,然后第二小问是在第一小问的基础上给出各因素对客户打 分影响程度的量化分析和结果。
问题二:结合问题一中的分析,由此分别建立基于客户语音业务和上网业务中影 响客户打分的相关因素的数学模型;据此对附件三和附件四中的客户打分进行预测研 究分析,并将预测结果分别填写在 result.xlsx 的 sheet1“语音”和 sheet2“上网”两个工作 表中,上传到竞赛平台说明预测的合理性。
在解决问题一时,根据题目要求,将题目分为三小问。首先分析影响客户语音业 务的主要因素,然后分析影响客户上网业务的主要因素,最后给出各因素对客户打分 影响程度的量化分析和结果,也就是说给出个影响因素的影响权重。解决问题时,需 要对数据进行数据预处理操作,通过观察表格发现,表格中有一些数据缺失,而且为 了方便数据处理,需要删减一些数据,同时在经过异常值检测后,完成数据预处理的 工作。接下来为了解决问题,引入决策树分类模型,我们又根据预测精度合理的进行 了模型的选用和参数选取,最终,我们给出了影响相关满意度的权重,得到了主要因 素,同时给出了相关权重表格和统计图。
在解决问题二时,根据题目要求,我们发现我们已经建立了客户打分基于相关影 响因素的相关数学模型,也就是决策树模型,首先我们根据问题一的预测结果,对相 关训练集进行预测精度的检查,发现预测精度高于 95%,证明该模型具备较高的合理 性,同时,我们又对该模型的合理性进行了分析和解释说明。然后,解决问题时,首 2 先对附件 3 和附件 4 的表格数据进行预处理,预处理之后使数据成为了与问题一的训 练数据完全一样的格式,接着在模型进行引入后,得出了所有客户打分的分类预测结 果,最终,我们对结果的合理性进行了分析和解释说明。
为了便于模型求解,现做如下假设:
忽略影响因素之间彼此的影响,便于量化分析的计算;
检测分析时,不考虑可能产生的极端因素的影响;
假定实验数据在进行处理的过程中没有人为的操作误差;
假定在试验的过程中除因素自身外其他影响指标的因素都保持不变;
预测研究时,不考虑极端异常值对实验预测结果的影响。
首先根据题目的要求将题目分为三个小问。首先分析两个主要因素,也就是影响 客户语音业务的主要因素和影响客户上网业务的主要因素,其次分析影响权重,也就 是给出各因素对客户打分影响程度的量化分析和结果。在解决问题时,需要对数据进 3 行数据预处理操作,通过观察表格发现,表格中有一些数据缺失,因此需要添加一些 数据,而且为了方便数据处理,需要删减一些数据,同时在经过异常值检测后,完成 了数据预处理的工作。接下来引入决策树分类模型,我们又根据预测精度合理的进行 了模型的选用和参数选取,也就是引入了随机森林等模型。最终,我们给出了影响相 关客户打分满意度的权重,得到了主要因素,同时给出了相关权重表格和统计图,并 进行了分析说明。
为了方便数据的分析与计算,首先对数据进行预处理,从而更加简便而且更加直 观的分析出影响满意度的主要因素,也更加便于通过结合决策树分类的类型,分析出 各个主要因素之间的统计规律。
在进行数据的处理之前,需要对表格进行比较深度的理解,通过对表格 5 的一定 行分析理解,对表格数据尤其是表格中空白的数据进行理解,接下来去进行数据预处 理操作,我们重点关注表格中一些空白的数据。 对于附件一中的用户描述数据是空白的,根据附件 5 中的文字说明,即除了前面 几个场景之外的情况,-1 表示没有,98 就表示有,用户描述是具体的情况,没有的时 候是空的,可以分析得到这一行数据可以直接删去。 对于附件一中的重定向次数和重定向驻留时长,虽然其数据不是完全缺失,但数 据值明显缺失较多,根据附件 5 的相关文字说明,发现这两个数据和上网满意度有较 大的关系,和语音满意度几乎没有关系,因此说这一行数据可以直接删去。 对于附件一中的是否关怀用户和是否去过营业厅数据,根据附件 5 的相关信息, 发现空白的即为“否”,所以说将空白表格填上“否”即可。下表展示了附件一的数 据处理方法
GitHub - Ggy-king/MathorCup-University-Mathematical-Modeling-Challenge-big-Data: MathorCup高校数学建模挑战赛大数据 本科组省一MathorCup高校数学建模挑战赛大数据 本科组省一. Contribute to Ggy-king/MathorCup-University-Mathematical-Modeling-Challenge-big-Data development by creating an account on GitHub.https://github.com/Ggy-king/MathorCup-University-Mathematical-Modeling-Challenge-big-Data
不愿意学全栈的小白 / MathorCup University Mathematical Modeling Challenge Big Data · GitCodeMathorCup高校数学建模挑战赛大数据 本科组一等奖https://gitcode.net/qq_63438888/MathorCup-University-Mathematical-Modeling-Challenge-big-Data