本文主要参考 《数据挖掘与数据化运营实战 思路、方法、技巧与应用》,作者总结了在数据化运营中常见的数据分析项目类型。
在这里结合自己的理解,简单介绍下图所示的分析项目,涉及的算法或技术原理可能在后续笔记中详细介绍。
各个分析项目之间不是互相独立的,各个分类间会有重叠部分,实际项目中也可能涉及多种类型。
不同于过去的粗放式运营,在精细化运营的要求下,我们可以通过数据分析挖掘不同用户细分群体的特点,针对不同群体提供精细化、个性化的运营或服务,提高用户满意度,最终提高产品变现能力。
这类以挖掘用户特征为目标的项目,可以统称为用户特征分析。这类项目的核心是用户分层,一般需要对用户分层,在分层时或分层后,分析细分群体的特征。
用户特征分析根据不同的侧重点,有几个典型的业务场景——
用户特征分析项目中有以下几种常见分析思路和方法——
在产品日常的监控或是各种分析中,用户的活跃度是很常见的指标。书中将活跃度的定义单独归为一类,但个人觉得其思路在其他的指标定义中也是适用的,比如留存定义、流失定义等。
同一个指标的定义在不同产品会有差异,但一般需要根据以下两点来确定——
以活跃为例,举两个不同场景的例子——
为了产品的日常监控,需要定义用户活跃的口径,即如何判定用户是否活跃,用于统计DAU等指标。
除了核心行为的条件,该业务场景要求指标简单、容易理解,因此用户活跃应该只用到尽量少的指标,通常是1个,如是否登陆、观看视频数>1等。
为了提高产品付费率,需要定义用户的活跃度,使得满足一定活跃度分值的用户比较容易转化为付费用户。
该场景下,要求将多个核心行为转化为分值,涉及的主要技术有两种——
路径分析和漏斗分析都是分析用户在产品使用过程中不同页面、不同行为的流转情况,漏斗分析是路径分析的特殊情况,即只有一条路径。
不过,由于两者的应用场景、分析目的有较大差异,所以一般会将两者分开——
路径分析的主要算法有——
路径分析结果的可视化通常使用如下的桑基图(图片与路径分析无关),可以使用R、Python或其他绘图工具制作。
在电商领域中,用户购买后成为付费用户,企业一般希望从保留或延长这些用户的利润贡献。一般有两种思路——
交叉销售模型是指通过分析用户的历史数据,找出具有明显关联性质的商品组合,根据这些组合为后续的运营提供思路策略,如捆绑销售、精准营销推广等。“啤酒与尿布”的案例就是比较经典的交叉销售模型应用。
交叉销售模型的分析思路主要有——
交叉销售模型在电商等领域应用广泛,但其思路可以类推至很多类似的场景,比如将商品类推至产品的不同功能、游戏的不同任务、关卡等。
推荐系统在互联网产品有很多应用,如淘宝的商品推荐、知乎的问题推荐、微视的短视频推荐等等。
推荐系统的常用算法有——
由于其广泛的应用和对于产品的重要性,推荐模型已经是一个独立的分析应用领域,相比其他的项目类型,对模型效果的要求更高,有更多的问题要考虑,比如特征提取问题、冷启动问题、稀疏性问题等。
信用风险模型主要是应对在产品中可能遇到的风险,并作相应的预警。如欺诈预警、高危用户判断、违禁信息过滤等。
信用风险模型本质上也是一个预测模型,与常规数据挖掘项目的算法和思路都是通用的,但由于其特殊的场景,通常有如下的特点——
预测模型实际上不是分析项目的类型,而是一种在数据分析/挖掘中的常用方法。
很多时候我们会将遇到的业务问题转化为一个分类、回归问题,再通过构建预测模型来帮助我们解决这一业务问题,这个思路是常见且通用的。
比如流失预警模型、付费/续费预测模型、活动点击预测模型,都是根据具体的场景去转化为类似的问题。
预测模型除了可以预测个体目标标签的概率外,模型本身显示出的重要输入变量与目标变量的关系也有重要的业务价值,如决策树的规则、树模型的特征重要性等,这些重要因素的提炼,可以作为数据分析中的规则和启发。