python数据分析与挖掘实践大作业_数据挖掘大作业最终报告.PDF

数据挖掘大作业最终报告

数据挖掘

大作业最终报告

学 院:计算机学院

专 业:计算机应用技术

年 级:2016级

组 号:第六组

成 员:赵 颖 2620160012

王晓媛2620160007

李昱燃2620160009

用户行为预测——以某电信公司为例

摘要

本文讨论了一个关于用户行为预测的数据挖掘问题,在对某电信公司客户数据集的处理、

Random Forest AdaBoost

特征选取之后,尝试使用随机森林 ( )、与 结合的决策树、梯度提升

决策树 (Gradient BoostingDecision Tree)三种算法进行分类,最终较好地实现了对客户忠诚

度、购买欲、增值性三个属性的预测,并且对三者的结果进行了分析和比较。

关键词:特征选取、决策树、分类器

1 导论

1.1 问题描述

本文所尝试解决的问题是根据2009年KDD Cup 竞赛的问题改编而来,目的是预测客户三

个维度的行为,包括:1、忠诚度(Churn):用户切换运营商的可能性;2、购买欲(Appetency):

购买新服务的可能性;3、增值性 (Up-selling):客户升级或追加购买高利润产品的可能性。

我们需要根据现有数据训练出分类器,分别对客户的忠诚度、消费欲和增值服务倾向性做出二

元判别,并计算各分类器的准确率,比较它们的分类效果。

竞赛中的数据集来自法国Orange 电信公司的客户特征描述数据,我们使用的数据集则是

从比赛数据集中随机抽取的10000个带标签的训练数据和10000个无标签的测试数据(为了减

轻类分布的不平衡,保留了大多数正值的数据),均有230个特征变量,前190个特征变量是

数值型变量,后40个是类别型变量。

1.2 相关工作

在KDD Cup 2009 中,参赛者对该问题主要采取了以下方案:Miller[2]等人采用交叉验证方

[5]

法进行特征选取,分类器采用流行的Boosting+决策树的融合方法;Lo 等人则分别采用了多

[12]

种分类方法,比如选择朴素贝叶斯分类器、与AdaBoost 结合的决策树等;Xie 等人采用了封

[3]

装类型的特征选取方法,分类器则是随机梯度提升树。总的来看 ,特征选取的方法相对多样

化,封装类、过滤类以及混合类都有;分类方法则比较类似,虽然也有采用其它方法甚至多种

方法的,但决策树类的方法仍然是最受参赛者青睐的方法。

1.3 问题分析及文章结构

本文分三步解决这一问题:数据预处理与特征选择,分类算法的选择,分类算法的实现。

首先,由于数据集本身的特性,比如有大量缺失数据需要处理,或者类分布的不均衡,需要我

们对数据集中的数据进行预处理,并且选择合适的特征变量,方便分类器的训练。之后,出于

提高准确率、加快训练速度的目的,需要选择适当的分类算法。最后,实现了分类算法并进行

了分类器的训练。

本文第二部分对给出的特征值进行处理,以构造便于进行分类器训练的数据集;第三部分

选择合适的分类算法并实现分类;第四部分为不同条件下的实验结果;最后是总结与分析。

2 特征值处理

在构建分类器之前,首先要对原始数据进行有选择的加工,得到合适样本。

10000 230 190

给定的训练集共 条数据,每条数据分别包括 个特征值,特征值的前 个

你可能感兴趣的:(python数据分析与挖掘实践大作业_数据挖掘大作业最终报告.PDF)