showswoller

【Python机器学习】决策树、逻辑回归、神经网络等模型对电信用户流失分类实战（附源码和数据集）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

电信用户流失分类

该实例数据来自kaggle，它的每一条数据为一个用户的信息，共有21个有效字段，其中最后一个字段Churn标志该用户是否流失

1：数据初步分析

可用pandas的read_csv()函数来读取数据，用DataFrame的head()、shape、info()、duplicated()、nunique()等来初步观察数据。

用户信息可分为个人信息、服务订阅信息和帐单信息三类。

1）个人信息包括gender（性别）、SeniorCitizen（是否老年用户）、Partner（是否伴侣用户）和Dependents（是否亲属用户）。

2）服务订阅信息包括tenure（在网时长）、PhoneService（是否开通电话服务业务）、MultipleLines（多线业务服务：Yes，No或No phoneservice）、InternetService（互联网服务：No、DSL数字网络或光纤网络）、OnlineSecurity（网络安全服务：Yes、No或No internetserive）、OnlineBackup（在线备份业务服务：Yes、No或No internetserive）、DeviceProtection（设备保护业务服务：Yes、No或No internetserive）、TechSupport（技术支持服务：Yes、No或No internetserive）、StreamingTV（网络电视服务：Yes、No或No internetserive）、StreamingMovies（网络电影服务：Yes、No或No internetserive）。

3）帐单信息包括Contract（签订合同方式：月、一年或两年）、PaperlessBilling（是否开通电子账单）、PaymentMethod（付款方式：bank transfer、credit card、electronic check或mailed check）、MonthlyCharges（月费用）、TotalCharges（总费用）。

2.流失用户与非流失用户特征分析

1）对于用来描述分类的对象型特征的分布，可用统计图来直观显示。

部分代码如下

import matplotlib.pyplot as plt
import seaborn as sns
fig, axes = plt.subplots(2, 2, figsize=(10, 8))
sns.countplot(x='gender', data=df, hue='Churn', ax=axes[0][0])
sns.countplot(x='SeniorCitizen', data=df, hue='Churn', ax=axes[0][1])
sns.countplot(x='Partner', data=df, hue='Churn', ax=axes[1][0])
sns.countplot(x='Dependents', data=df, hue='Churn', ax=axes[1][1])

2）对于数值型特征的分布，可用密度图来直观显示

实线表示流失用户，虚线表示非流失用户，可见新用户流失率要高一些

3：分类预测

数据的类型分为对象型和数值型两类。对象型是离散的类别数据，需要对它们进行编码才能形成训练模型的特征。

如果是二值的对象型数据，可以直接用0和1来对它们进行编码。如果取值类别个数多于2，一般可用独热编码。

对于需要进行距离计算的模型，一般还需要对数值型特征进行归一化处理或标准化处理。

经过上述处理后，采用保持法将训练样本切分为训练集和验证集，用来建模并验证模型。

各种方法的准确度及AUC如下