在数据分析中经常会进行用户分层,本文我们来了解一下常见的用户分层模型RFM。
RFM是由R(Recency)、F (Frequency)、 M(Monetary) 三个维度构成的,其具体含义如下:
R:最近一次消费时间间隔
F:消费频率
M:消费金额
这里对于这三个维度的概念简单的做一个说明:
一般情况下,在具体分层的时候,我们可以从RFM三个不同的维度进行高或低的评分,最终得到8种不同的结果(2*2*2=8),不同组合对应的分层类型如下表所示:
R(时间间隔) | F(消费频率) | M(消费金额) | 分层结果 |
---|---|---|---|
高 | 高 | 高 | 重要价值用户 |
高 | 低 | 高 | 重要发展用户 |
低 | 高 | 高 | 重要保持用户 |
低 | 低 | 高 | 重要挽留用户 |
高 | 高 | 低 | 一般价值用户 |
高 | 低 | 低 | 一般发展用户 |
低 | 高 | 低 | 一般保持用户 |
低 | 低 | 低 | 一般挽留用户 |
根据结果我们不难看到RFM分层的内容主要是由不同维度评分的高低决定的,接下来我们再来拆解一下评分的高低是如何划分的。
对于评分首先我们要思考几个问题:
弄清楚了这三个问题之后,我们再来思考评分是如何得到的。在进行RFM不同维度评分的时候根据不同的业务具有不同的业务评分表,示例如下所示(如何进行评分表的设计后文会说明):
打分 | 消费间隔(R)(天) | 消费频率 (F) (次) | 消费金额(M) (元) |
---|---|---|---|
1 | [20,inf] | [0,2] | [0,1000] |
2 | [11,20] | [3,5] | [1001,1500] |
3 | [6,10] | [6,8] | [1501,3000] |
4 | [4,5] | [9,16] | [3001,5000] |
5 | [0,3] | [16,inf] | [5000,inf] |
根据上表所示的评分表我们将所有用户的数据进行对照打分即可,示例如下:
用户ID | 消费间隔(R) | 消费频率(F) | 消费金额(M) | R值打分 | F值打分 | M值打分 |
---|---|---|---|---|---|---|
1 | 5 | 2 | 6500 | 4 | 1 | 5 |
2 | 3 | 10 | 1700 | 5 | 4 | 3 |
3 | 2 | 7 | 2600 | 5 | 3 | 3 |
得到了每个用户对应的打分之后,我们还需要有一个标准进行对照,超出这个标准的就记为高分,低于则记为低分即可,通常情况下我们会选择所有用户打分的均值作为对照标准,计算RFM三个维度评分的均值结果为:
接下来我们接可以讲上述对于每个用户的打分与这个标准进行对比,得到每个用户最终的RFM评分和结果:
用户ID | R | F | M | 分层结果 |
---|---|---|---|---|
1 | 低 | 低 | 高 | 重要挽留用户 |
2 | 高 | 高 | 低 | 一般价值用户 |
3 | 高 | 高 | 低 | 一般价值用户 |
当没有具体的业务规定时,我们可以使用如下的方法进行评分表的设计。
假设一共有10000个用户,用M(消费金额)维度举例,我们首先将所有人的消费金额进行排序,然后按照人数将整体等分成5个连续的区间,区间的评分分别对应[1,2,3,4,5]即可。
了解完了RFM的概念与分层方式,我们再来了解一下RFM分层后的实际应用,根据分层结果,通常我们会对重要的用户进行运营,策略如下:
创建虚拟数据
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
# 随机创建用户数据
df = pd.DataFrame({
'用户ID': np.arange(1, 10001),
'时间间隔': np.random.randint(1, 10, 10000),
'消费频次': np.random.randint(1, 100, 10000),
'消费金额': np.random.randint(1000, 10000, 10000),
})
构建评分规则区间
def score_list(data):
re = list(data.values)
re.sort()
return re[2000:10000:2000]
r_score = score_list(df['时间间隔'])
f_score = score_list(df['消费频次'])
m_score = score_list(df['消费金额'])
根据评分规则进行打分
def func1(x, score):
if x <= score[0]:
return 1
elif score[0] < x <= score[1]:
return 2
elif score[1] < x <= score[2]:
return 3
elif score[2] < x <= score[3]:
return 4
else:
return 5
df['R'] = df['时间间隔'].apply(func1, score=r_score)
df['F'] = df['消费频次'].apply(func1, score=f_score)
df['M'] = df['消费金额'].apply(func1, score=m_score)
区分打分的高低
R_avg = df['R'].mean()
F_avg = df['F'].mean()
M_avg = df['M'].mean()
def score(x,avg):
if x > avg:
return 1
else:
return 0
df['R_S'] = df['R'].apply(score,avg=R_avg)
df['F_S'] = df['F'].apply(score,avg=F_avg)
df['M_S'] = df['M'].apply(score,avg=M_avg)
# R的逻辑和F/M相反,进行倒置
def rev_r(x):
if x == 1:
return 0
else:
return 1
df['R_S'] = df['R_S'].apply(rev_r)
进行RFM映射
def get_sum_value(series):
return ''.join([str(i) for i in series.values.tolist()])
# 添加RFM字符串列
df['data_rfm'] = df[['R_S','F_S','M_S']].apply(get_sum_value, axis=1)
dic = {
'111': '重要价值客户',
'011': '重要保持客户',
'001': '重要挽留客户',
'101': '重要发展客户',
'010': '一般保持客户',
'110': '一般价值客户',
'000': '一般挽留客户',
'100': '一般发展客户'
}
# RFM字符串数据映射成对应类型文字
df['data_rfm_re'] = df['data_rfm'].map(dic)
结果示例如下