算法与实战 - (3) 常见数据分析项目类型

文章目录

      • 1. 用户特征分析(用户分层)
      • 2. 活跃度定义(指标定义)
      • 3. 路径分析与漏斗分析
      • 4. 交叉销售模型
      • 5. 商品推荐模型
      • 6. 信用风险模型
      • 7. 客户预测模型
      • Reference

本文主要参考 《数据挖掘与数据化运营实战 思路、方法、技巧与应用》,作者总结了在数据化运营中常见的数据分析项目类型。

在这里结合自己的理解,简单介绍下图所示的分析项目,涉及的算法或技术原理可能在后续笔记中详细介绍。

各个分析项目之间不是互相独立的,各个分类间会有重叠部分,实际项目中也可能涉及多种类型。
算法与实战 - (3) 常见数据分析项目类型_第1张图片

1. 用户特征分析(用户分层)

不同于过去的粗放式运营,在精细化运营的要求下,我们可以通过数据分析挖掘不同用户细分群体的特点,针对不同群体提供精细化、个性化的运营或服务,提高用户满意度,最终提高产品变现能力。

这类以挖掘用户特征为目标的项目,可以统称为用户特征分析。这类项目的核心是用户分层,一般需要对用户分层,在分层时或分层后,分析细分群体的特征。

用户特征分析根据不同的侧重点,有几个典型的业务场景——

  • 寻找目标用户,不同行为习惯的用户,定位高质量用户及其特征
  • 寻找运营的抓手,帮助寻找运营方式,以提高或改善用户满意度
  • 用户群体细分
  • 新产品开发依据,即判断新产品要针对谁、满足什么需求,实现PMF(产品-市场匹配)

用户特征分析项目中有以下几种常见分析思路和方法——

  • RFM模型(Recency、Frequency、Monetary),一种根据三个核心变量,对用户进行分组的方法
  • 聚类算法,用户分层是聚类算法的重要应用,可以根据核心变量进行聚类,根据聚类结果对用户分层,再针对细分群体分析其余特征
  • 监督模型的核心变量,一些算法模型可以帮助定位核心变量,如随机森林的特征重要性指标、决策树的划分规则等,根据模型定位到的核心变量,对核心变量进行大致划分得到分层结果

2. 活跃度定义(指标定义)

在产品日常的监控或是各种分析中,用户的活跃度是很常见的指标。书中将活跃度的定义单独归为一类,但个人觉得其思路在其他的指标定义中也是适用的,比如留存定义、流失定义等。

同一个指标的定义在不同产品会有差异,但一般需要根据以下两点来确定——

  • 指标本身需要满足什么条件,如活跃度的组成指标是产品/业务场景最核心的行为
  • 特定的业务场景和运营需求,不同的需求可能有不同的定义、技巧、注意点

以活跃为例,举两个不同场景的例子——

为了产品的日常监控,需要定义用户活跃的口径,即如何判定用户是否活跃,用于统计DAU等指标。

除了核心行为的条件,该业务场景要求指标简单、容易理解,因此用户活跃应该只用到尽量少的指标,通常是1个,如是否登陆、观看视频数>1等。

为了提高产品付费率,需要定义用户的活跃度,使得满足一定活跃度分值的用户比较容易转化为付费用户。

该场景下,要求将多个核心行为转化为分值,涉及的主要技术有两种——

  • 数据标准化/归一化,通过数据标准化/归一化,将不同的指标缩放至相同区间,不同指标才能平等比较,加权转化为一个综合分数
  • 主成分分析,是一种降维算法,在这里将多个核心行为转化为一个或几个主成分,最终转化为一个综合分数

3. 路径分析与漏斗分析

路径分析和漏斗分析都是分析用户在产品使用过程中不同页面、不同行为的流转情况,漏斗分析是路径分析的特殊情况,即只有一条路径。

不过,由于两者的应用场景、分析目的有较大差异,所以一般会将两者分开——

  • 路径分析挖掘用户每一步的来源、去向、转化率,挖掘用户的主流使用路径,常用于用户典型路径识别、用户行为特征识别、网站设计优化等
  • 漏斗分析是对已知的关键路径,监控各个环节的转化率,对转化率异常的环节定位原因并优化

路径分析的主要算法有——

  • 社会网络分析,也叫做链接分析(Link Analysis)
  • 基于序列的关联分析,也叫做序列分析,在关联分析的基础上增加关联项之间的先后顺序
  • 朴素遍历方法,按照时间顺序计算各个页面的来源、去向和占比,得到路径的流转情况,如GA提供的路径分析功能也是使用这种方法

路径分析结果的可视化通常使用如下的桑基图(图片与路径分析无关),可以使用R、Python或其他绘图工具制作。
算法与实战 - (3) 常见数据分析项目类型_第2张图片

4. 交叉销售模型

在电商领域中,用户购买后成为付费用户,企业一般希望从保留或延长这些用户的利润贡献。一般有两种思路——

  • 延缓用户流失,这种思路通常使用流失预警模型,对可能流失的用户指定关怀策略等
  • 让用户消费更多商品或服务,找出用户感兴趣的商品或服务,挖掘用户的消费或使用需求,这种思路主要就涉及到交叉销售模型

交叉销售模型是指通过分析用户的历史数据,找出具有明显关联性质的商品组合,根据这些组合为后续的运营提供思路策略,如捆绑销售、精准营销推广等。“啤酒与尿布”的案例就是比较经典的交叉销售模型应用。

交叉销售模型的分析思路主要有——

  • 关联分析,也称为购物篮分析,根据支持度、置信度等指标找到容易一起出现/购买的商品,进行针对性的捆绑促销。常用的关联分析算法有Apriori,若有先后顺序则可以使用序列分析。
  • 建立预测模型,为特定的商品进行组合,对潜在消费者预测是否会购买,选择最有可能的一批用户进行精准营销
  • 基于决策树的树状规则,为发现具体的商品组合规则提供灵感和思路

交叉销售模型在电商等领域应用广泛,但其思路可以类推至很多类似的场景,比如将商品类推至产品的不同功能、游戏的不同任务、关卡等。

5. 商品推荐模型

推荐系统在互联网产品有很多应用,如淘宝的商品推荐、知乎的问题推荐、微视的短视频推荐等等。

推荐系统的常用算法有——

  • 基于关联分析进行推荐,如Apriori算法,从数据中找到商品(或其他推荐的对象)的关联规则,基于该关联规则进行推荐
  • 协同过滤算法,有基于用户(User-based)的协同过滤和基于项目(Item-based)的协同过滤,核心思想是相似的用户会喜欢相似的东西

由于其广泛的应用和对于产品的重要性,推荐模型已经是一个独立的分析应用领域,相比其他的项目类型,对模型效果的要求更高,有更多的问题要考虑,比如特征提取问题、冷启动问题、稀疏性问题等。

6. 信用风险模型

信用风险模型主要是应对在产品中可能遇到的风险,并作相应的预警。如欺诈预警、高危用户判断、违禁信息过滤等。

信用风险模型本质上也是一个预测模型,与常规数据挖掘项目的算法和思路都是通用的,但由于其特殊的场景,通常有如下的特点——

  • 从数据上看,风险占比通常很低,即数据严重不平衡,通常会有对正样本抽样使数据平衡等操作
  • 由于欺诈的变化快,因此对模型分析结果的优化/更新频率会更高

7. 客户预测模型

预测模型实际上不是分析项目的类型,而是一种在数据分析/挖掘中的常用方法。

很多时候我们会将遇到的业务问题转化为一个分类、回归问题,再通过构建预测模型来帮助我们解决这一业务问题,这个思路是常见且通用的。

比如流失预警模型、付费/续费预测模型、活动点击预测模型,都是根据具体的场景去转化为类似的问题。

预测模型除了可以预测个体目标标签的概率外,模型本身显示出的重要输入变量与目标变量的关系也有重要的业务价值,如决策树的规则、树模型的特征重要性等,这些重要因素的提炼,可以作为数据分析中的规则和启发。

Reference

  1. 《数据挖掘与数据化运营实战 思路、方法、技巧与应用》,卢辉

你可能感兴趣的:(数据分析)