用户存续期价值评估(CLV) 一

用户存续期价值评估(CLV) 1

一. 定义

​     用户存续期价值(Customer Lifetime Value),也可称为CLTV、LCV或者LTV,是企业对未来一个客户与其的关系所带来的净收益的预测。这个预测模型可以有不同水平的复杂度和精确度,从一个直观感觉到使用复杂的预测技术。CLV可以被简单理解为客户关系的价值,也就是未来由于与客户的关系所带来的现金流的现值(未来现金流折现到今天)。实际上,CLV鼓励企业把与客户建立长期健康的关系凌驾于短期利益之上。

​     CLV是一个非常重要的概念,因为它决定了获得一个新客户的成本的上限,企业可借助CLV模型来计算其市场和广告花费的回报。CLV与CP(Customer Profitbility)是不同的概念,后者指的是在一定时间内在客户上获得的收益与维系客户关系所付出的成本之间的差,CLV主要关注未来而CP关注历史已发生的事。

二. 用途

​     CLV的一个最直接用途就是评价客户的金融价值,也可以用来做客户分段模型(有兴趣可参见本人的另一篇博客customer segmentation model)。基于CLV的客户分段模型可以帮助企业理解不是所有的客户都是同等重要的,预测更具备可盈利的客户群体并了解他们的共同特性,另外可以和SOW(Share of Wallet)模型结合使用来定位那些可以最大化企业利益的客户,即高CLV且低SOW的客户。

​     CLV这个指标主要用于关系敏感的业务模型,特别是那些有客户合同的,例如银行、保险、电信和大多数B2B企业。然而,CLV的理念可以延展到属于事务聚焦的业务体系中,例如通过使用个体客户的随机购买模型或集合行为的大众消费品。在这些情况下,留存率都会对CLV产生重大影响,因为低留存率会导致CLV长期不能增长。

二. 传统模型

1)定义式

​     首先,我们先考虑一个基本的模型,假设边缘利益(Margin)和留存率不变的情况下:

C L V = M a r g i n × 留 存 率 1 + 折 现 率 − 留 存 率 CLV=Margin\times \frac{留存率}{1+折现率-留存率} CLV=Margin×1+

​ 显然CLV模型有三个参数,分别是:

  • 边缘利益:不变变量,每期的客户贡献减去了包括维系客户的成本

  • 留存率:不变变量,每期客户留存的概率

  • 折现率。

    上式是由几何序列求和推到出来的,且假设该企业是永续经营的。CLV可以理解为Margin与某个乘数因子的积,而该乘数因子代表着客户关系长度的期望现值。当留存率为0时,显然CLV为0;当留存率为1时,CLV则成为了永续年金的形式,即Margin除以折现率。

2)简约式

​     工业界有很多实现采用如下的简约式:

C L V = 平 均 客 户 月 贡 献 × 边 界 利 润 率 流 失 率 CLV=\frac{平均客户月贡献\times 边界利润率}{流失率} CLV=×

流 失 率 = 1 − 留 存 率 流失率 = 1 - 留存率 =1

3)计算式

    CLV的相对精确计算包括以下四步:

  • 预测客户的生存时间。

  • 预测未来收入,基于对未来产品购买和价格的估算。

  • 估算成本

  • 计算现值

    很明显,对未来的估算的准确性非常影响CLV的计算。公式之一为:

    C L V = G C × ∑ i = 1 n r i ( 1 + d ) i − M × ∑ i = 1 n r i − 1 ( 1 + d ) i − 0.5 CLV=GC\times\sum_{i=1}^{n}\frac{r^i}{(1+d)^i}-M\times\sum_{i=1}^{n}\frac{r^{i-1}}{(1+d)^{i-0.5}} CLV=GC×i=1n(1+d)iriM×i=1n(1+d)i0.5ri1

        其中, G C GC GC 是客户的年毛贡献(Gross Contribution), M M M是客户的年留存成本, n n n 是期限长度; r r r 是年留存率, d d d 是年折现率。上式假设留存成本会在一年的中期支出,且只影响前一年的留存率。

​      可见,CLV的估算同时需要估计客户所带来的收入(GC)和留住客户所需要的成本(M),一般来说成本估算比较容易而收入估算比较困难,因此业界多集中在上式中的前半部分,我们可以看到当 n → ∞ n\rightarrow \infin n 时就得到了1)中的结果。

三. 基于大数据的机器学习模型

​     要预测由客户带来的收入,一般会把与客户的业务模型分为有合同的和无合同的、连续的和离散的。我们这里讨论应用最为广泛的适用于无合同连续业务模型的概率模型:Pareto/NBD (negative binomial distribution) 模型和其增强版本BG(Beta Geometric)/NBD模型。

​     解决类似问题的模型其实采用的框架时一样的,都是对以下变量进行建模:

  • 客户存续时间

  • 购买率

  • 现金价值

    Pareto/NBD模型集中在客户购买次数和存续时间,它并不解决现金价值问题,后者由Gamma-Gamma模型来解决。

    1)Pareto/NBD

    ​ 想象你有一批客户,可能会重复购买,有些频繁一些而有些不太频繁。对于预测CLV来说,你希望知道哪些客户是活跃的,会继续从你这里购买产品;每个客户会购买多少?

    ​ 为这些问题建模看似简单实则非常困难。比如说,一个客户以前每天都在你这里购物,但有一个星期没有购物了,这很可能表示这个客户已经流失了;而另一个客户每月购买一次,在同样情况下就不会被认为是流失了。也就是说,流失率和购物频率是非常相关的。其难点在于,我们很难观测到任意客户的流失瞬间,只能对其进行概率建模。

    ​ Pareto/NBD模型做了如下假设,

    • 一个活跃客户在时间 t t t 内的交易次数为以交易率 λ \lambda λ 为参数的泊松分布

    • 所有客户的交易率是非齐性的,服从Gamma分布,以 r r r 为形状参数, α \alpha α 为尺度参数

    • 每个客户都有一个不可观测的生存时间 T T T,呈指数分布,以dropout rate(失效率)参数为 μ \mu μ

    • 失效率参数在所有的客户中也是非齐性的,服从Gamma分布,形状参数为 s s s, 尺度参数为 β \beta β

    • 交易率参数 λ \lambda λ 和失效率参数 μ \mu μ 在客户中的变化是独立的。

      实际中基本上都是通过历史数据作为输入,采用最大似然估计获知吉布斯采样来估算这些参数。

      到这里我们似乎看不到与Pareto分布和负二项式分布的关联,笔者理解指数分布与Gamma分布的混合分布为Pareto分布;而泊松分布与Gamma分布的混合分布为负二项分布。

      简单理解一下,考虑用投“硬币”来确定用户的流失;用扔“骰子”来决定用户交易次数;而“硬币”以Pareto分布建模,“骰子”以负二项式分布建模。

    1. BG/NBD 模型

    ​     如同前面提及的,BG/NBD模型是Pareto/NBD模型的增强版,它做了如下假设:

    • 活跃客户的交易次数是一个泊松过程,以 λ \lambda λ 为交易率。

    • λ \lambda λ 是非齐性的,服从Gamma分布。

    • 在任意交易之后,一个用户以概率 p p p 转为不活跃,因此用户的失效点呈现几何分布。

    • p p p 是非齐性的,服从Beta分布。

      参数估算方法和Pareto/NBD模型类似

未完待续

你可能感兴趣的:(金融模型,客户价值模型,帕累托分布,负二项分布,客户存续期,数据挖掘建模)