携程作为中国领先的综合性旅行服务公司,每天向超过2.5亿会员提供全方位的旅行服务,因此每天都会产生海量的用户行为数据,这些数据蕴含着丰富的信息资源。另外,客户是企业的重要资源,也是企业的无形资产,客户的流失,也就意味着资产的流失,因此客户流失率是考量业务成绩的一个非常关键的指标。
本项目致力于深入了解用户画像及行为偏好,找到最优算法,挖掘出影响用户流失的关键因素。从而能更好地完善产品设计、提升用户体验,针对不同类型的用户给出个性化运营策略。
本报告可以分为一下几个部分:
官方共提供2个数据集,分别为训练集userlostprob_train.txt
和测试集userlostprob_test.txt
。训练集为2016.05.15-2016.05.21期间一周的访问数据,测试集为2016.05.22-2016.05.28期间一周的访问数据。
本项目的评估标准官方用的是precision≥97%下,recall的最大值。我自己的话,选择准确度、AUC值。
精确度:(预测为流失且实际发生流失的样本数量)/(预测为流失的样本数量)
召回率:(预测为流失且实际发生流失的样本数量)/(实际流失的样本数量)
查看数据集各特征字段,其中,label=1
代表流失客户,label=0
代表非流失客户。其他指标主要可以分为三种类型的数据指标:
#导入基础包
%matplotlib inline
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
# 解决中文乱码问题
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
#显示全部特征
pd.set_option('display.max_columns', None)
#读取数据
df = pd.read_csv('./data/userlostprob_train.txt',sep='\t')
df.head()
查看数据情况,数据总体有一些特点:
继续查看数据信息
# 查看每列数据
df.info()
# 查看数据形状
df.shape # (689945, 51)
# label分布
df.label.value_counts()
# 0 500588
# 1 189357
可以看出:
d
和arrival
列特征为离散型特征(字符),其余均为连续性的数值型特征arrival
和d
的时间格式可以进行转换,并增加衍生字段来获取间隔天数描述性统计
df.describe()
由描述性统计观察数据集的位置、集中趋势(平均值、中位数、众数),离散程度(方差、标准差、离散系数、四分位差),数据分布的统计图形(偏斜系数)。
由描述性统计可以看出,数据存在以下问题:
historyvisit_7ordernum
仅有82915条,存在数据缺失。后面进行缺失值填充的时候要注意分布的形态。delta_price1
(用户偏好价格-24小时浏览最多酒店价格)、lowestprice
、delta_price2
、customer_value_profit
(客户近一年的价值),这些负值属于异常情况,后面需要对负值进行处理decisionhabit_user
看出可能呈现右偏态的形式。后面对数据的缺失填充、异常值处理时,要结合偏态状况考虑。查看缺失值比例
#查看缺失值比例
df.isnull().mean().sort_values(ascending=False)
看出字段缺失情况严重,其中historyvisit_7ordernum
缺失值高达88%。除了arrival
,d
,h
,sampleid
,iforderpv_24h
,sid
,label
外,其余44列字段各有不同程度缺失。因此后面要根据缺失情况,结合数据特征分布,选用合适的方法填充缺失值。
查看数据分布情况,有助于特征工程根据数据分布选择合适的数据处理办法(包括缺失值、异常值处理,连续特征离散化),还有助于深入了解用户行为。
# 数据分布偏态情况
df.skew().sort_values()
当数据呈左右对称分布时,偏度系数等于0。偏度系数大于1或小于-1,视为严重偏斜分布;偏度系数为0.5~1或-1~-0.5,视为中等偏斜分布;偏度系数为**-0.5~0或0~0.5**,视为轻微偏斜分布。
由上面可以看出,除了businessrate_pre2, businessrate_pre, customereval_pre2,其他数据基本都呈很大的偏态分布。
# 查看数据分布图
df.hist(figsize=(20,20))
plt.savefig('./images/data_distribution_raw.png')
# copy一份数据保存
cdf = df.copy()
# 构建访问时间和到达时间的表格
cdf_d = cdf.d.value_counts().to_frame().reset_index()
cdf_arrival = cdf.arrival.value_counts().to_frame().reset_index()
time_table = cdf_d.merge(cdf_arrival, how='outer', on='index')
time_table.fillna(0, inplace=True)
time_table.set_index('index',inplace=True)
time_table.sort_index(inplace=True)
# 获取字段
x = time_table.index
y1 = time_table.arrival
y2 = time_table.d
# 画图
plt.figure(figsize=(14,5))
plt.style.use('seaborn-colorblind')
plt.plot(x, y1, c='orange', label='入住人数')
plt.bar(x, y2, align='center', label='预定人数')
plt.title('访问和入住人数图',fontsize=20)
plt.xticks(rotation=45,fontsize=12)
plt.yticks(fontsize=14)
plt.xlabel('日期',fontsize=14)
plt.ylabel('人数', fontsize=14)
plt.legend(fontsize=14)
由图看出,520前预定人数和入住人数逐渐攀升,在520当天达到峰值,过了521,入住人数断崖式下降,随后酒店入住人数较为稳定,后面的两个下波峰是由于周末的原因。
plt.figure(figsize=(15,6))
plt.hist(cdf.h.dropna(), bins=48, align='mid') # 由于是24h,所以分箱48,使得中间有间隔。
plt.title('访问时间段',fontsize=20);
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.xlabel('访问时间',fontsize=14);
plt.ylabel('人数',fontsize=14);
由访问时间段可以看出,在 凌晨四五点的时候访问人数最少,此时大多数人在睡觉,因此这符合人的作息。随后访问人数在白天总体呈上升趋势,在17点-19点时稍微回落,因为此时是人的下班通勤时间或者晚饭时间,过了这段时间访问人数又开始逐渐上升,在22时达到峰值。
plt.figure(figsize=(12, 4))
plt.style.use('bmh')
# 看看customer_value_profit 和 ctrip_profits 两者分布
plt.subplot(121)
plt.plot(cdf.index, cdf.customer_value_profit,linewidth=0.5)
plt.title('客户近1年价值')
plt.subplot(122)
plt.plot(df.index,df.ctrip_profits,linewidth=0.5)
plt.title('客户价值')
plt.savefig('./images/客户价值.png')
customer_value_profit
和ctrip_profits
进行相关性分析验证,如果相关系数很大,可以考虑进行PCA降维。plt.figure(figsize=(12, 4))
plt.hist(df.consuming_capacity,bins=50,edgecolor='k')
plt.xlabel('消费能力指数')
plt.ylabel('人数')
plt.title('消费能力指数图')
plt.savefig('./images/消费能力指数图.png')
我们可以看到,消费能力指数的值范围是0-100。消费能力指数值基本呈现一个右偏的正态分布,平均消费能力在30附近,我们也能看到消费能力达到近100的人数也特别多,达到了21000多人,从这一点上,我们可以看到,酒店的入住客户中仍然存在较大群体的富裕人士。
plt.figure(figsize=(12, 6))
plt.hist(df['price_sensitive'].dropna(),bins = 50, edgecolor = 'k')
plt.xlabel('价格敏感指数')
plt.ylabel('人数')
plt.title('价格敏感指数分布')
plt.savefig('./images/价格敏感指数分布.png')
plt.show()
在价格敏感指数图中,出现两头存在极值现象,中间的分布也总体上呈现一个右偏正态分布,大部分人对价格并不敏感,对于这些用户来说,价格不是考虑的最重要因素。当然,我们也会发现,价格敏感指数为100时的人数也并不少,针对这一部分客户,我们可以考虑用一些打折优惠的方式吸引消费
plt.figure(figsize=(12, 4))
plt.subplot(121)
plt.hist(df.avgprice.dropna(),bins=50,edgecolor = 'k')
plt.xlabel('酒店价格')
plt.ylabel('偏好人数')
plt.title('酒店价格偏好')
# 由于酒店价格主要在2000以内,因此针对这个区间进行进一步可视化查看
plt.subplot(122)
plt.hist(df[df.avgprice<2000]['avgprice'].dropna(), bins = 50, edgecolor = 'k')
plt.xlabel('酒店价格')
plt.ylabel('偏好人数')
plt.title('2000元以内酒店偏好')
plt.savefig('./images/酒店偏好.png')
看出酒店价格偏好呈现一个正太分布微左偏态的分布,大多数人的价值偏好在150~600元之间,,在1500过后就没有什么人了。平均价格在250左右。
plt.figure(figsize=(10, 4))
plt.hist(df.starprefer.dropna(), bins = 50, edgecolor = 'k')
plt.xlabel('星级偏好程度')
plt.ylabel('选择人数')
plt.title('酒店星级偏好')
plt.savefig('./images/酒店星级偏好.png')
分布规律性没有酒店价格偏好强,在40、60、80、100的分段存在极值情况,后面可以这些极值情况进行数据预处理。但总体来看,星级偏好主要集中在60~80之间。
plt.figure(figsize=(10, 4))
plt.hist(df.ordercanceledprecent.dropna(),bins=50,edgecolor = 'k')
plt.xlabel('订单取消率')
plt.ylabel('人数')
plt.title('订单取消率')
plt.savefig('./images/订单取消率.png')
存在大量的用户订单取消率为0的情况,说明大多数用户订了酒店后就会入住。而同时也存在部分极端用户,订单取消率为1的情况。订单取消率为0.5的用户第三多。
plt.figure(figsize=(12, 6))
plt.hist(df[df["ordernum_oneyear"]<100]["ordernum_oneyear"].dropna(),bins = 50, edgecolor = 'k')
plt.xlabel('用户年订单数')
plt.ylabel('数量')
plt.title('用户年订单数100内的分布')
plt.savefig('./images/用户年订单数100内的分布.png')
plt.show()
绝大部分用户年订单数是小于50的,订单数在5次之内的人数占比比较大
# 新老客户,可以由sid来判断。流失与否,用label来判断
# 计算新老用户流失率
s_table = cdf[['label','sid']]
s_table['sid'] = np.where(s_table['sid']==1, 1, 0) # 将sid处理为0和1两种情况,对应新客户和老客户
s_table['flag'] = 1 #
s = s_table.groupby('sid').sum().reset_index() # 按照新老用户区分,label是流失和没流失的人数,flag是新、老用户数
s['rate'] = s['label'] / s['flag'] # 新老用户流失率
# 画图
# 新老客户占比
plt.figure(figsize=(12, 5))
plt.subplot(121)
percent=[s['flag'][0]/s['flag'].sum(), s['flag'][1]/s['flag'].sum()]
# color=['steelblue','lightskyblue']
label=['老客','新客']
plt.pie(percent,autopct='%.2f%%',labels=label)
plt.title('新老客户占比')
# 流失率
plt.subplot(122)
plt.bar(s.sid, s.rate,align='center',tick_label=label,edgecolor = 'k')
plt.ylabel('流失率')
plt.title('新老客户中的客户流失率');
我们可以看到,众多客户中,94.42%的客户是老客户,新客只占5.58%,另外,老客的流失率达到28%,新客的流失率占20%,总体来说,我们应该采取措施,谨防用户流失,并且采取拉新手段获取更多新客户。
根据探索性分析中观察到的结果,我们需要对数据进行一系列预处理,包括数据格式转换、缺失值处理、异常值处理。
rawdf = df.copy()
sampleid
列表示的是每一条的样本记录,firstorder_bu
列表示首笔订单的bu,从实际意义来看,对用户是否流失影响不大。另外,label
列也要去掉。
drop_columns = ['sampleid', 'firstorder_bu' ]
rawdf.drop(drop_columns, axis=1, inplace=True)
rawdf.drop_duplicates(inplace=True)
时间特征处理
访问日期d
和入住日期arrival
字段为字符串类型,从实际意义来看,将其转换为星期几的int类型是种更好的方式。
另外是否为周末对实际的用户行为影响颇大,需新增判断是否为周末的特征列。
另外预定与入住间隔时间越久,用户的决策受影响的风先越大,所以也新构造关于间隔天数的特征列。
# 将两个日期变量由字符串转换为日期格式
rawdf['arrival'] = pd.to_datetime(rawdf['arrival'] )
rawdf['d'] = pd.to_datetime(rawdf['d'])
# 生成提前预定天数(衍生变量)(到达日期-访问日期间隔)(看提前多少天订)
rawdf['day_advanced'] = (rawdf['arrival']-rawdf['d']).dt.days
# 时间格式
rawdf['d'] = pd.to_datetime(df['d'], format = '%Y-%m-%d')
rawdf['arrival'] = pd.to_datetime(df['arrival'], format='%Y-%m-%d')
# 用户周几入住
rawdf['arrival_weekday'] = rawdf['arrival'].map(lambda x:x.weekday())
# 用户入住那天是否为休息日
def is_weekend(a):
if int(a) in [0,1,2,3,4]:
return 0 # 0代表是工作日
else:
return 1 # 1代表是周末
rawdf['is_arrival_weekend'] = rawdf['arrival_weekday'].map(lambda x: is_weekend(x))
rawdf.drop(labels=['d','arrival'], axis=1, inplace=True)
结合探索性分析中观察到的可视化图,
delta_price1
(用户偏好价格-24h浏览最多酒店价格)、delta_price2
(用户偏好价格-24h浏览酒店平均价格)、lowestprice
(当前酒店可定最低价格)三者理论上酒店价格不可能为负,并且由可视化图观察到数据分布比较集中,因此负值采取中位数处理。customer_value_profit
(客户价值_近1年)、ctrip_profits
(客户价值)也不应该为负值,结合可视化数据分布图看出它们的分布较为分散,因此将其填充为0filter_one=['customer_value_profit','ctrip_profits']
filter_two=['delta_price1','delta_price2','lowestprice']
for f in filter_one:
rawdf.loc[rawdf[f]<0, f] = 0
for f in filter_two:
rawdf.loc[rawdf[f]<0, f] = rawdf[f].median()
rawdf[['customer_value_profit','ctrip_profits','delta_price1','delta_price2','lowestprice']].describe()
由探索性分析中数据分布情况害能看出,较多特征有极大和极小的异常值,比如上文可视化的customer_value_profit,ctrip_profits,starprefer等。因此对所有字段使用1%和99%分位数替换超过上下线的值。
for i in rawdf.columns:
value_1_percent = np.percentile(rawdf[i], 1) # # 1%的值
value_99_percent = np.percentile(rawdf[i], 99) # 99%的值
rawdf.loc[rawdf[i]<value_1_percent, i] = value_1_percent
rawdf.loc[rawdf[i]>value_99_percent, i] = value_99_percent
# 查看表现
rawdf.skew().sort_values()
常用缺失值处理方法
对于缺失率>80%的特征,删除对应的字段与特征
print('原来数据维度是:{}'.format(rawdf.shape))
# 定义删除空值行列的函数
def nan_drop(df,axi, rate=0.5):
# rawdf.shape[1-0]是比如,如果要删除的是行,则看列的数量,然后*比率,即改行有多少列是缺失的
# 反过来,如果要删除的是列,则看行的数量*比率,即该列有多少行缺失,从而删除
# thresh是至少有多少存在则保留,否则删除
df.dropna(axis=axi, how='any', thresh=df.shape[1-axi]*rate, inplace=True)
# 删除缺失值比例大于80%的行和列
nan_drop(rawdf, axi=0, rate=0.2)
nan_drop(rawdf, axi=1, rate=0.2)
print('删除缺失率较多的字段后的维度是:{}'.format(rawdf.shape))
原来数据维度是:(684406, 50)
删除缺失率较多的字段后的维度是:(684401, 49)
对于缺失值小于80%的字段,结合数据分布形态填充。服从正态分布的使用均值填充,呈偏态分布的,使用中位数填充。
# 查看含有缺数的数据的偏态
rawdf.skew()[rawdf.isnull().mean(0)>0].sort_values() # 查看含有缺数的数据的偏态
由数据偏态信息可知,对starprefer、businessrate_pre2、businessrate_pre、customereval_pre2、 ordercanceledprecent、consuming_capacity、cancelrate_pre进行均值填充。
对其他缺失的列进行中位数填充。
# 正态分布字段用均值填充
def nan_fill(df):
filter_mean = ["businessrate_pre2","cancelrate_pre",
"businessrate_pre",'starprefer','cancelrate_pre',
'customereval_pre2','ordercanceledprecent',
'consuming_capacity']
for col in df.columns:
if col in filter_mean:
df[col] = df[col].fillna(df[col].mean())
else:
df[col] = df[col].fillna(df[col].median())
return df
rawdf = nan_fill(rawdf)
对用户特征相关分析
# 用户特征提取
user_features=['visitnum_oneyear','starprefer','sid','price_sensitive','ordernum_oneyear','ordercanncelednum','ordercanceledprecent','lastpvgap',
'lasthtlordergap','landhalfhours','iforderpv_24h','historyvisit_totalordernum','historyvisit_avghotelnum','h',
'delta_price2','delta_price1','decisionhabit_user','customer_value_profit','ctrip_profits','cr','consuming_capacity','avgprice']
# 生成用户特征的相关性矩阵
corr_mat = rawdf[user_features].corr()
# 绘制用户特征的相关性矩阵热度图
fig, ax = plt.subplots(figsize=(18,12))
sns.heatmap(corr_mat, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap="YlGnBu")
plt.savefig('./images/用户特征相关性分析热力图.jpg', dpi=400, bbox_inches='tight')
plt.show()
从热图中看出:
delta_price1
和delta_price2
的相关性高达0.93,前者表示用户偏好价格-24小时浏览最多酒店价格,后者表示用户偏好价格-24小时浏览酒店平均价格,说明浏览24小时内浏览最多的酒店价格会影响到浏览酒店的平均价格,这可以理解为众数和平均数的关系。因此可以选择PCA提取一个主成分表示用户价格偏好。ordernum_oneyear
和historyvisit_totalordernum
的相关性高达0.93,两者都是表示用户1年内订单数,特征选取时可以只选择其一,这里选择ordernum_oneyear作为用户年订单数的特征,也可以用PCA降维;decisionhabit_user
和historyvisit_avghotelnum
的相关性达到了0.93,前者表示用户决策习惯,后者表示近三个月用户日均访问酒店数。说明决策时间久的用户近三个月访问酒店数的平均影响也越多,反过来也是,访问的酒店越多,该用户决策时间越久。customer_value_profit
和ctrip_profits
之间的相关性达到了0.86,前者表示用户近一年的价值,后者也表示用户价值,细分区别在于衡量的时间长度不同,这里也选择PCA提取一个主成分表示用户价值。consuming_capacity
和avgprice
之间的相关性达到了0.85,前者表示用户消费能力指数,后者表示酒店平均价格。很明显,消费能力越高,所选择的酒店平均价格大概率也越高。这里选择consuming_capacity
来代表用户消费能力特征,也可以考虑用PCA降维综合这两个特征。酒店信息特征的相关性分析
# 酒店信息特征相关性分析
# 酒店特征
hotel_features=['hotelcr','hoteluv','commentnums','novoters','cancelrate','lowestprice','cr_pre','uv_pre','uv_pre2','businessrate_pre',
'businessrate_pre2','customereval_pre2','commentnums_pre','commentnums_pre2','cancelrate_pre','novoters_pre','novoters_pre2',
'deltaprice_pre2_t1','lowestprice_pre','lowestprice_pre2','historyvisit_visit_detailpagenum']
# 生成酒店特征的相关性矩阵
corr_mat1 = rawdf[hotel_features].corr()
# 画图
fig, ax = plt.subplots(figsize=(18, 12))
sns.heatmap(corr_mat1, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Oranges')
plt.savefig('./images/酒店信息特征的相关性分析热力图.jpg',dpi=400, bbox_inches='tight')
plt.show()
novoters
和commentnums
的相关性高达0.99,两个特征高度相关。因此取commentnums
特征进入后续的预测与分析就好,或者选择PCA提取一个主成分表示酒店评论数cencelrate
和commentnums
三者的相关性也很高达到了0.86,可以看出酒店的评论数和取消率有很高的关系,可能是由于用户选择酒店后会查看酒店的相关评价,酒店的评论信息越多,用户对酒店也越了解,因此退订数量越少。因此要鼓励用户对酒店进行评价。uv_pre
和uv_pre2
的相关性达到了0.9,它们都表示24小时历史浏览次数最多的酒店的独立访客数信息,因此可以选择PCA提取一个主成分分析表示4小时历史浏览次数最多的酒店的独立访客数信息。commentnums_pre
和novoters_pre
的相关性高达0.99,两个特征高度相关。因此选择PCA提取一个主成分表示24小时历史浏览次数最多酒店点评数。commentnums_pre2
和novoters_pre2
的相关性高达0.99,两个特征高度相关。因此选择PCA提取一个主成分表示24小时历史浏览次数最多酒店点评数均值。订单字段相关性分析
order_features = [ 'day_advanced', 'arrival_weekday', 'is_arrival_weekend' ,'ordercanceledprecent' ,'ordercanncelednum',
'lasthtlordergap', 'cityuvs', 'cityorders']
order_corr=rawdf[order_features].corr()
# 画图
fig, ax = plt.subplots(figsize=(18, 12))
sns.heatmap(order_corr, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Blues')
plt.savefig('./images/订单信息特征的相关性分析热力图.jpg',dpi=400, bbox_inches='tight')
plt.show()
同理,看出cityorders
和cityuvs
存在0.99的相关性,需要PCA降维
降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。这里使用主成分分析(PCA) 对相关度大于0.8的变量进行降维。
由上图的相关性分析矩阵,我们分别筛选用户和酒店很相关的维度进行降维度。
c_value=['customer_value_profit','ctrip_profits'] # 用户价值维度
consume_level=['avgprice','consuming_capacity'] # 用户消费水平
price_prefer=['delta_price1','delta_price2'] # 用户偏好价格
ordernum_1_year = ['ordernum_oneyear', 'historyvisit_totalordernum']# 用户一年历史订单数
hotel_hot=['commentnums','novoters'] # 酒店热度
hotel_hot_pre=['commentnums_pre','novoters_pre'] # 24h内浏览次数最多的酒店热度
hotel_hot_pre2=['commentnums_pre2','novoters_pre2'] # 24h内酒浏览酒店的平均热度
hotel_uv_pre = ['uv_pre', 'uv_pre2'] # 24小时历史浏览次数最多的酒店的独立访客数
order_cityuvs_orders = ['cityorders','cityuvs'] # 昨日访问当前城市同入住日期的app uv数和订单数
from sklearn.decomposition import PCA
pca=PCA(n_components=1)
rawdf['c_value']=pca.fit_transform(rawdf[c_value])
rawdf['consume_level']=pca.fit_transform(rawdf[consume_level])
rawdf['price_prefer']=pca.fit_transform(rawdf[price_prefer])
rawdf['ordernum_1_year'] = pca.fit_transform(rawdf[ordernum_1_year])
rawdf['hotel_hot']=pca.fit_transform(rawdf[hotel_hot])
rawdf['hotel_hot_pre']=pca.fit_transform(rawdf[hotel_hot_pre])
rawdf['hotel_hot_pre2']=pca.fit_transform(rawdf[hotel_hot_pre2])
rawdf['hotel_uv_pre']=pca.fit_transform(rawdf[hotel_uv_pre])
rawdf['order_cityuvs_orders']=pca.fit_transform(rawdf[order_cityuvs_orders])
rawdf.drop(c_value,axis=1,inplace=True)
rawdf.drop(consume_level,axis=1,inplace=True)
rawdf.drop(price_prefer,axis=1,inplace=True)
rawdf.drop(ordernum_1_year,axis=1,inplace=True)
rawdf.drop(hotel_hot,axis=1,inplace=True)
rawdf.drop(hotel_hot_pre,axis=1,inplace=True)
rawdf.drop(hotel_hot_pre2,axis=1,inplace=True)
rawdf.drop(hotel_uv_pre,axis=1,inplace=True)
rawdf.drop(order_cityuvs_orders,axis=1,inplace=True)
print('PCA降维后维度是:{}'.format(rawdf.shape)) # (684128, 40)
from sklearn.preprocessing import StandardScaler
y=rawdf['label']
x = rawdf.drop('label', axis=1)
scaler = StandardScaler()
scaler.fit(x)
X = scaler.transform(x)
数据准备
from sklearn.model_selection import train_test_split, GridSearchCV
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size= 0.2,random_state=420)
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn import metrics
lr = LogisticRegression()
lr.fit(X_train, y_train)
y_prob = lr.predict_proba(X_test)[:, 1] # 预测1类的概率
y_pred = lr.predict(X_test) # 模型对测试集的预测结果
print(y_prob)
print(y_pred)
fpr_lr, tpr_lr, threshold_lr = metrics.roc_curve(y_test, y_prob) # # 获取真阳率、伪阳率、阈值
auc_lr = metrics.auc(fpr_lr, tpr_lr)
score_lr = metrics.accuracy_score(y_test, y_pred)
print('模型准确率为:{0}, AUC得分为:{1}'.format(score_lr, auc_lr) )
print(classification_report(y_test, y_pred))
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB() # 实例化一个LR模型
gnb.fit(X_train,y_train) # 训练模型
y_prob = gnb.predict_proba(X_test)[:,1] # 预测1类的概率
y_pred = gnb.predict(X_test) # 模型对测试集的预测结果
fpr_gnb,tpr_gnb,threshold_gnb = metrics.roc_curve(y_test,y_prob) # 获取真阳率、伪阳率、阈值
auc_gnb = metrics.auc(fpr_gnb,tpr_gnb) # AUC得分
score_gnb = metrics.accuracy_score(y_test,y_pred) # 模型准确率
print('模型准确率为:{0},AUC得分为:{1}'.format(score_gnb,auc_gnb))
print('============================================================')
print(classification_report(y_test, y_pred, labels=None, target_names=None, sample_weight=None, digits=2))
from sklearn.svm import SVC
svc = SVC(kernel='rbf', C=1, max_iter=100 ).fit(X_train, y_train) # 径向基核函数,C是惩罚项,max_iter最大迭代次数,gamma, coef也常用
y_prob = svc.decision_function(X_test)
y_pred = svc.predict(X_test)
fpr_svc, tpr_svc, threshold_svc = metrics.roc_curve(y_test, y_prob)
auc_svc = metrics.auc(fpr_svc, tpr_svc)
score_svc = metrics.accuracy_score(y_test, y_pred)
print('模型准确率为:{0},AUC得分为:{1}'.format(score_svc,auc_svc))
print('============================================================')
print(classification_report(y_test, y_pred, labels=None, target_names=None, sample_weight=None, digits=2))
from sklearn import tree
dtc = tree.DecisionTreeClassifier() # 建立决策树模型
dtc.fit(X_train,y_train) # 训练模型
y_prob = dtc.predict_proba(X_test)[:,1] # 预测1类的概率
y_pred = dtc.predict(X_test) # 模型对测试集的预测结果
fpr_dtc,tpr_dtc,threshod_dtc= metrics.roc_curve(y_test,y_prob) # 获取真阳率、伪阳率、阈值
score_dtc = metrics.accuracy_score(y_test,y_pred)
auc_dtc = metrics.auc(fpr_dtc,tpr_dtc)
print('模型准确率为:{0},AUC得分为:{1}'.format(score_dtc,auc_dtc))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier() # 建立随机森林分类器
rfc.fit(X_train,y_train) # 训练随机森林模型
y_prob = rfc.predict_proba(X_test)[:,1] # 预测1类的概率
y_pred=rfc.predict(X_test) # 模型对测试集的预测结果
fpr_rfc,tpr_rfc,threshold_rfc = metrics.roc_curve(y_test,y_prob) # 获取真阳率、伪阳率、阈值
auc_rfc = metrics.auc(fpr_rfc,tpr_rfc) # AUC得分
score_rfc = metrics.accuracy_score(y_test,y_pred) # 模型准确率
print('模型准确率为:{0},AUC得分为:{1}'.format(score_rfc,auc_rfc))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))
import xgboost as xgb
# 读取训练集和测试集
dtrain = xgb.DMatrix(X_train, y_train)
dtest = xgb.DMatrix(X_test)
# 设置xgboost建模参数
params={'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc',
'max_depth':8,'gamma':0,'lambda':2,'subsample':0.7,'colsample_bytree':0.8,
'min_child_weight':3,'eta': 0.2,'nthread':8,'silent':1}
# 训练模型
watchlist = [(dtrain,'train')]
bst=xgb.train(params,dtrain,num_boost_round=500,evals=watchlist)
# 输入预测为正确的概率
y_prob = bst.predict(dtest)
# 设置阈值为0.5,得到测试集的测试结果
y_pred = (y_pred >= 0.5)*1
# 获取真阳率、伪阳率、阈值
fpr_xgb,tpr_xgb,threshold_xgb = metrics.roc_curve(y_test,y_prob)
auc_xgb = metrics.auc(fpr_xgb,tpr_xgb) # AUC得分
score_xgb = metrics.accuracy_score(y_test,y_pred) # 模型准确率
print('模型准确率为:{0},AUC得分为:{1}'.format(score_xgb,auc_xgb))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))
plt.style.use('bmh')
plt.figure(figsize=(16,16))
plt.plot(fpr_lr, tpr_lr, label='lr:%.3f' % score_lr ) # 逻辑回归
plt.plot(fpr_gnb,tpr_gnb,label='gnb:{0:.3f}'.format(score_gnb)) # 朴素贝叶斯
plt.plot(fpr_svc,tpr_svc,label='svc:{0:.3f}'.format(score_svc)) # 支持向量机
plt.plot(fpr_dtc,tpr_dtc,label='dtc:{0:.3f}'.format(score_dtc)) # 决策树
plt.plot(fpr_rfc,tpr_rfc,label='rfc:{0:.3f}'.format(score_rfc)) # 随机森林
plt.plot(fpr_rfc,tpr_rfc,label='xgb:{0:.3f}'.format(score_xgb)) # XGBoost
plt.legend(loc='lower right', prop={'size':25})
plt.xlabel('伪阳率')
plt.ylabel('真阳率')
plt.title('ROC曲线')
plt.savefig('./模型比较ROC曲线图.jpg',dpi=400, bbox_inches='tight')
plt.show()
RFM模型,即为:
由于本数据集并没有直接给出这三个指标,经过分析,选择选择lasthtlordergap
(距离上次下单时长)、和经过PCA降维处理的ordernum_1_year
(用户年订单数)、consume_level
(消费能力水平)分别作为R、F、M值,从而对我们的用户群体进行分群
rfm_features = ['lasthtlordergap','ordernum_1_year','consume_level']
rfm = rawdf[rfm_features]
# 归一化(用于给RFM值打分)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(rfm)
rfm = pd.DataFrame(scaler.transform(rfm), columns=['recency', 'frequency','monetary'] )
# 分箱
rfm['R'] = pd.qcut(rfm['recency'], 2)
rfm['F'] = pd.qcut(rfm['frequency'], 2)
rfm['M'] = pd.qcut(rfm['monetary'], 2)
# 根据分箱情况进行编码,二分类可以直接用标签编码方式
from sklearn.preprocessing import LabelEncoder
rfm['R'] = LabelEncoder().fit(rfm['R']).transform(rfm['R'])
rfm['F'] = LabelEncoder().fit(rfm['F']).transform(rfm['F'])
rfm['M'] = LabelEncoder().fit(rfm['M']).transform(rfm['M'])
#定义RFM模型,需要特别注意的是,R值代表距离上次消费时间间隔,值越小客户价值越高,与F和M值正好相反。
def get_label(r,f,m):
if (r==0)&(f==1)&(m==1):
return '高价值客户'
if (r==1)&(f==1)&(m==1):
return '重点保持客户'
if((r==0)&(f==0)&(m==1)):
return '重点发展客户'
if (r==1)&(f==0)&(m==1):
return '重点挽留客户'
if (r==0)&(f==1)&(m==0):
return '一般价值客户'
if (r==1)&(f==1)&(m==0):
return '一般保持客户'
if (r==0)&(f==0)&(m==0):
return '一般发展客户'
if (r==1)&(f==0)&(m==0):
return '潜在客户'
def RFM_convert(df):
df['Label'] = df.apply(lambda x:get_label(x['R'], x['F'], x['M']), axis=1)
df['R'] = np.where(df['R']==0, '高', '低')
df['F'] = np.where(df['F']==1, '高', '低')
df['M'] = np.where(df['M']==1, '高', '低')
return df[['R','F','M','Label']]
rfm0 = RFM_convert(rfm)
rfm0.head()
# 可视化
# label_cnt = rfm0.groupby('Label').size()
label_cnt = rfm0['Label'].value_counts().values
labels = rfm0['Label'].value_counts().index
explode=[0.1,0.1,0.1,0,0,0,0,0]
plt.figure(figsize=(14,18))
# colors=['orangered','lightsalmon','sienna','seashell','chocolate','peru','sandybrown','peachpuff']
plt.pie(label_cnt, labels=labels,radius=1, explode=explode, autopct='%.1f%%',pctdistance=0.75,
wedgeprops={'linewidth':0.5,'edgecolor':'black'},
textprops={'fontsize':14,'color':'black'})
# plt.pie([1],radius=0.6,colors='w')
plt.title("RFM客户分群情况")
plt.legend(labels, fontsize=14, loc='best')
plt.savefig('./images/客户分群情况.jpg',dpi=400, bbox_inches='tight')
plt.show()
上面RFM模型只用到数据集中lasthtlordergap、ordernum_1_year、consuming_level三个直接相关变量,但这些变量并不能完全涵盖用户特征,所以,接下来用K-Means聚类的方法引入其他变量进一步探究分析,观察不同类别客户的特征。
from xgboost import plot_importance
# 解决f特征名字
def ceate_feature_map(features):
outfile = open('xgb.fmap', 'w')
i = 0
for feat in features:
outfile.write('{0}\t{1}\tq\n'.format(i, feat))
i = i + 1
outfile.close()
ceate_feature_map(rawdf.columns)
fig, ax = plt.subplots(figsize=(16,16))
plot_importance(bst, height=0.5, ax=ax, max_num_features=40, color='green',fmap='xgb.fmap' )
plt.savefig('./images/xgb的分析出的重要特征图.jpg', dpi=400, bbox_inches='tight')
plt.show()
看出重要特征超过2000以上的有:h, cr, visit_num, visit_oneyear, consume_level, price_prefer, businessrate_pre2, hoteluv, starprefer,后面分析时也会重点查看这些特征的影响
K-Means算法是一种基于划分的无监督聚类算法,它以 k 为参数,把 n 个数据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。
由上文的特征相关性分析,我们对相关性高的特征进行降维
visit_num=['decisionhabit_user','historyvisit_avghotelnum'] #用户访问数
pca=PCA(n_components=1)
rawdf['visit_num']=pca.fit_transform(rawdf[visit_num])
rawdf.drop(visit_num,axis=1,inplace=True)
# 选取出几个刻画用户的重要指标
user_feature = ['ordercanncelednum','ordercanceledprecent','consume_level','starprefer','lasthtlordergap','lastpvgap','h','sid',
'c_value','landhalfhours','price_sensitive','price_prefer','day_advanced','ordernum_1_year','visit_num']
user_attributes = rawdf[user_feature]
# user_attributes.head(30).T
# 数据标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(user_attributes)
user_attributes = scaler.transform(user_attributes)
# 对选出的关键特征k-means聚类,来做用户画像
from sklearn.cluster import KMeans
Kmeans = KMeans(n_clusters=3)
Kmeans.fit(user_attributes)
k_char = Kmeans.cluster_centers_ # 得到每个分类的质心
persons = pd.DataFrame(k_char.T, index=user_feature, columns=['0类','1类','2类'] )
plt.figure(figsize=(6,12))
sns.heatmap(persons, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Oranges')
plt.savefig('./images/用户画像表.jpg',dpi=400, bbox_inches='tight')
plt.show()
1类用户消费水平(consume_level)和价格偏好(price_prefer)为三类用户中最高,同时较高的星级偏好反应出该类型用户对酒店有一定的质量要求,但同时该类型用户对价格的敏感度(price_sensitive)最高,最近一年下单频率是三类用户中最低的,上次消费时间间隔很久,他们一般会提前较早的时间预定酒店,并且订单取消率是三类用户中最低的,因此可以推测该类型用户为旅游客户,结合sid来看他们是高价值客户。
2类用户最近一年下单频率(ordernum_1_year)为三类用户中最高,但同时该类型用户的订单取消率也是最高的。他们的消费水平一般,对酒店的偏好也一般,但对价格敏感度不高,一般不会提前预定酒店。他们使用携程浏览酒店的次数较高,基本是老用户,并且用户价值是三类用户中中等的,因此将2类用户定义为中等价值客户。
0类用户的可视化数据基本是白色的,客户消费水平和使用频率都是最低的,因此将这类用户归为“低价值用户”,但sid反映出他们大部分是新客户。
对三种客户占比进行可视化
plt.figure(figsize=(9,9))
class_k=list(Kmeans.labels_) # 每个类别的用户个数
percent=[class_k.count(0)/len(user_attributes),
class_k.count(1)/len(user_attributes),
class_k.count(2)/len(user_attributes)] # 每个类别用户个数占比
fig, ax = plt.subplots(figsize=(10,10))
colors=['peachpuff','sandybrown','chocolate']
types=['低价值客户','高价值用户','中等价值用户']
ax.pie(percent,radius=1,autopct='%.2f%%',pctdistance=0.75,colors=colors,labels=types)
ax.pie([1], radius=0.6,colors='w')
plt.savefig('./images/用户画像占比.jpg',dpi=400, bbox_inches='tight')
plt.show()
从饼图看出,高价值用户占比13.26%;中等价值用户占比偏低,仅有6.19%,需要扩大中等价值用户群体,同时,低价值用户占比高达80.55%,其中很多是新用户,需要把这些新用户转化。
高价值用户特点:消费水平高、客户价值较大、追求高品质的酒店(有星级偏好),老客户居多,他们对酒店价格很敏感,一般会提前较早的时间预定酒店,订单取消率是三类用户中最低的,但最近一年下单频率也是最低的,上次消费时间间隔很久。因此可以合理推断,这类用户预定酒店的目的可能多为出门旅行。
针对这部分客户,我们需要:
中等价值客户特点:消费水平一般,对酒店的偏好也一般,基本是老客户,用户价值大,同时对价格敏感度不高。他们经常浏览酒店信息,24小时登录时长较长,因此可能再对比价格选择酒店。他们经常下单预定酒店,但一般不会提前,同时订单取消率也很高。可以合理推测改类型用户的商务属性比较重,他们可能需要经常出差,一般不会提前太久预定酒店,出差行程可能有变动因此可能取消订单。
这部分客户仅占6.19%,因此针对这部分客户,我们需要:
低价值客户特点:最明显的特征就是浏览次数和浏览时长都很低,消费水平、用户价值都是最低的,浏览次数和订单都很低,这部分用户可能偶尔才在携程上预定酒店,几乎没有消费过,对酒店品质几乎不追求,因此重点在于激活用户。同时,由于sid值很低,说明大部分是新客户刚注册或者注册后就不使用了的。
由于低价值客户占比高达80%,因此需要促进改用户群体的转化: