用户画像——用户流失率的计算

目录

  • 1.流失概率预测需求
  • 2.特征工程—— 选择特征
  • 3.特征工程—— 特征数据源
  • 4.算法选择
    • 4.1逻辑回归分类算法
      • 4.1.1步骤
        • 4.1.2 向量规范化
        • 4.1.3 按照步骤写demo
    • 4.2朴素贝叶斯算法
      • 4.2.1特征值离散化
      • 4.2.2模型训练
      • 4.2.3 demo

1.流失概率预测需求

根据用户的活跃度以及消费情况,判断用户的流失意向。可以对有流失意向的用户及时召回。

其中表包括:模型预测时间,用户id,模型预测得分,模型预测流失等级,模型插入时间。
不能够仅仅通过普通的运算就得出来流失率。而要通过历史既定事实的经验(满足某些特征的人群中,哪些流失了,哪些没流失来得出才更靠谱)。

2.特征工程—— 选择特征

特征选择的原则应该跟用户流失有关系:
活跃属性:登录次数,访问时长,访问深度;
消费属性:消费金额,订单均价,最大单笔消费金额,最小单笔消费金额,退货次数与占比,拒绝收货次数占比等,最后一次登录距今天数,最后一次购买距今天数。
事件属性:好评数。差评数,分享数。

3.特征工程—— 特征数据源

从公司大量的流失与未流失用户中各挑取一万人
将这两万人组成先验样本集。
在数仓中进行抽取。

4.算法选择

4.1逻辑回归分类算法

朴素贝叶斯天生就具备概率的意义;线性回归算法具备概率的隐含含义

4.1.1步骤

加载样本数据;
将样本数据向量化;
构建逻辑回归算法工具;
用算法对样本数据训练模型;
用模型来对未知数据做预测。

4.1.2 向量规范化

对于数据特征的值域差别太大的问题,值域范围大的,对最终结果的影响会明显超出值域范围小的特征,带来预测准确度的降低,相当于把值域特征给忽略掉了。所以需要对值域特征进行规范化处理。可以参考 sparkmllib的规范化工具api。

4.1.3 按照步骤写demo

用户画像——用户流失率的计算_第1张图片

4.2朴素贝叶斯算法

用户是否流失是一个典型的概率分析问题

4.2.1特征值离散化

连续数字的区间化处理,减少值的种类数
由于本案例里面的各个特征,都是一些连续的“数字”,无法在概率计算上体现同类别的共同特征,所以此案例中的特征向量化,需要做数据离散化处理。
将特征值区间化
用户画像——用户流失率的计算_第2张图片

4.2.2模型训练

加载样本特征数据;
数仓的用户活跃度统计报表;
数仓的用户消费订单画像统计报表;
数仓的用户商品画像统计报表;
事实标签。

将特征数据向量化
用户画像——用户流失率的计算_第3张图片

特征向量的处理:统一特征值的排序,对需要进行区间化的做区间化。
sparkmllib提供了四种向量规范化的工具
用户画像——用户流失率的计算_第4张图片

用户画像——用户流失率的计算_第5张图片

4.2.3 demo

对调用完训练模型的数据整理为标签模型
gid 模块名 标签名 标签值 权重值

你可能感兴趣的:(spark)