数据分析的点、线、面
前言
在告别了人口红利之后,对于成熟或平台型产品而言,增长的核心不再是对增量用户的扩张,而是对存量用户的精细化运营,提升转化效率及用户价值挖掘,其中数据分析、运营扮演着一个重要的角色,但如何正确科学地分析数据并驱动业务改变和增长却一直成为困扰,本文将梳理数据分析体系及数据运营一般方法论,帮助提升对数据分析的理解。
什么是数据分析
数据分析是对产品运营有标准、统一、客观且直观的理解,通过数据应用的种种方法帮助提升对产品、用户、趋势、渠道、营销的理解和洞察,发现问题与潜在机会,从而驱动产品改变与提升。
数据分析的价值并不在于数据本身,而在于隐藏在海量杂乱的数据背后的行为洞察与规律。
为什么要做数据分析
数据分析解决的是一个决策路径的问题,不再是“我觉得式”的拍脑袋,而是还原事物本来“应该是”的客观规律。
数据证明规律,规律带来洞察,洞察改变产品。
最近几年来火热的以头条、ins为代表的增长黑客理论,就是在基础数据平台及技术革新的基础上,实现了对用户和内容的精细化运营,从而达到增长,可以理解为是一种以数据为核心驱动力的产品哲学。
在互联网发展的历史中,沉淀下来的数据分析方法论有很多,建立在深浅不一的数学统计学原理之上,下文会介绍一些数据分析体系规划的一般方法论及案例,从“点、线、面”三个维度依次讲述数据分析的三个层级。
一、“点”:概念与趋势
概念:指标、维度与多维分析
指标与维度,是在了解数据分析之前必须要理解的概念,也是最困扰的问题之一:
指标:指标是指通过特定的统计逻辑计算出来能量化事物发展程度的度量,如pv,uv等
维度:维度可以简单理解为我们观察数据指标的角度,如时间、年龄、渠道、终端等
在统计学中,根据性质可以将指标分为绝对指标和相对指标:
绝对指标:是指统计量的绝对值,用于反映规模、大小的量级指标,如活跃用户数
相对指标:是指统计量的比率值,用于反映程度、质量的健康水平指标,如人均使用时长
相对指标是由绝对指标通过计算得来,可以说绝对指标是相对指标的基础,而相对指标常常蕴含着更大的信息量,这也是为什么在分析过程中,需要构建相对指标来辅助分析的原因。
单一的指标没有意义,至少需要有一个维度以上的对比才能产生价值,且只有放在同一个维度下对比才有意义,对比的维度根据观察粒度可以分为宏观、中观、微观三个视角:
多维分析:下面以消息量为例,演示多维分析的递进式下钻分析
考虑的维度越多,洞察就可能越深入
维度不是越多越好,分析维度最好控制在五维以内
通过求和或均值的方式聚合某一些维度,可达到降维分析的效果
机器学习:相比于人类肉眼而言,机器具备同时处理更多维度数据的分析与挖掘能力,辅以合适的算法,机器学习是可以获取比人类更深入的数据洞察,这也是为什么机器学习成为了一项越来越热门技术的原因。
二、“线”:分析与洞察
数据分析按照时间逻辑可分为原因分析、现状分析及预测分析,分别反映过去、现状及未来的产品情况。由此,我们得出了数据分析的三个阶段,分别是描述性、验证性及探索性分析:
描述性分析:是对数据源最初的认知,使用几个关键数据来描述整体的情况,如结构、逻辑树、漏斗分析
验证性分析:侧重于验证之前假设的真伪性,探索两个时间之间的相关性,如相关、因子、关联分析
探索性分析:侧重于在数据中探索新的特征,挖掘数据潜在的内在联系,如聚类、回归、预测分析
描述性分析
结构分析法:基于某些维度计算组成成分,进而分析某一总体现象的内部结构特征的统计方法
逻辑树分析法:通过不断用更小的量化指标去细分一个大的指标,从而达到定位问题的目的
漏斗分析法:用来分析从潜在用户到最终用户这个过程中用户数量的变化趋势,从而寻找到最佳的优化空间
验证性分析
AB测试:AB测试是通过对n组相似用户群体,分别下发不同版本的配置/UI/文案,通过收集数据反馈,来做出最优决策一种在线测试方法,是目前主流的科学决策方法,但需要注意,AB测试不能度量长期目标。
魔法数字:当新用户在一定时间里、以某种频率使用了某个功能时,会有更大的可能留下来,成为忠诚用户,而一旦发现了这样的功能,反过来引导用户多次使用,达到一定次数,就可能为产品带来更高的留存,这些能够大大提高用户留存的神奇数字。
相关性与因果性:忽略了外部的关键因素,会得出荒谬的因果结论。A和B的数据高度相关,有人就片面认为A影响了B,或者B影响了A;但是,有时候真实原因是C同时影响了A和B,而C被忽略掉了。
探索性分析
聚类分析:“物以类聚,人以群分”,聚类是通过统计学原理计算样本之间的距离从而达到无监督分类的一种多元分析方法,其优势在于不需要加入人为的干预就能达到分类预测的效果,是典型的机器学习的应用场景。
场景分析:场景定位是获取产品洞察及挖掘用户需求重要的手段,通常通过文本挖掘、归纳总结、抽样调查等方式细分场景,同时对不同场景进行分析及深耕,挖掘用户潜在需求。
三、“面”:体系与精细化
数据指标体系
在维度和指标的基础上进行多维分析后,我们获取了对产品和用户更好的理解,在此基础上,我们按照产品逻辑进行模块、分析维度及指标集的归纳整理,使之成为一种有机、条理化的体系,就是我们所说的数据指标体系。
时间序列预测与异动监控平台
在完成数据指标体系搭建后,一个棘手的问题来了,对于每天产生的数以千计的数据指标来说,如何做到日常的异动监控?
这个问题可以简化成一个时间序列分析问题,其核心在于通过历史数据来预测未来的发展趋势,通过模型预测解决异动监控的问题,我们引入了Facebook开源的时间序列框架Prophet,其原理在于将一个时间序列,拆解为趋势、周期性、季节性、节假日及随机性五个模块:
g(t):趋势函数,用来拟合时间序列中的非周期性变化,判断序列处于上升或下降趋势;
s(t):周期性变化,周期性包括每周、月、季节等变化趋势;
h(t):变点,潜在的具有非固定周期的节假日及变点对预测值造成的影响;
ϵ(t):噪声项,表示未预测到的随机波动。通过模拟数据分析师日常的分析视角,可以对一个核心序列进行各个关键维度的拆解,组合使用Prophet对每一个下钻指标进行建模,可以达到迅速定位异动原因的效果,其结果常常可以与经验丰富的数据分析师媲美。
用户价值模型:用户群的精细化运营
对于一个成熟的产品来说,产品功能、产品设计、交互方式及营销方案都是多种多样的,同时用户需求和偏好也是多样化的,两者随着产品发展阶段会出现不同程度的矛盾,精细化运营就是通过各种手段进行用户分群,对不同需求和偏好的用户群进行差异化的产品侧运营。
同时,在产品发展的各个阶段,我们需要对用户进行拉新、促活、留存的运营,但由于资源的有限性,需要对不同的用户群体实行有针对性的运营策略,从而实现投入产出比的最大化。因此,准确且全面的用户分群显得尤为重要。
RFM用户价值模型:由三个神奇的要素构成(R、F、M),通过这三个要素的有机结合可以帮助我们更为客观、全面地看待用户价值:
R:最近一次消费时间(Recency),越近越好,响应更为及时,运营产生的效果更加好
F:消费频率(Frequency),越高越好,说明用户满意度高,复购意愿更强,忠诚度更高
M:消费金额(Monetary),越高越好,说明用户本身付费意愿更强,对收入的贡献度更高
个性化推荐系统
个性化推荐是精细化运营的一种,如果分群是对用户群的精细化运营,那么推荐系统可以理解为对单个用户粒度的精细化运营,通常是我们数据应用的加工程度和工艺达到最大化的一层,也是数据对产品所能产生的最直接的影响与变现。
推荐系统是基于用户的历史行为、社交关系、兴趣点、所处上下文环境等信息,去判断用户当前需要或感兴趣的物品/服务,或帮助用户进行决策的一类应用。
搜索与推荐本质上都是帮助用户快速发现有用信息的工具,其输出的结果常常是相同的,但同样是建立用户与信息之间的连接,两者在结构上有天然的差别,其差别主要源于在用户动机及信息流动机制上。
推荐系统产生的原因有很多,其核心原因在于信息过载、用户偏好、无明确需求。推荐系统的任务和作用就在于在于连接,缩短用户与有价值信息之间的路径,让用户离偏好的东西更近一步,提升产品体验与转化效率。
推荐系统的组成会根据不同的业务场景而有所不同,但通常会包含以下五个通用模块,我们暂且称之为“AFRRF”,五个模块环环相扣,互为依赖:
一个好的推荐系统,需要平衡和连接用户、内容和产品三方的需求,在提供准确推荐结果的前提下,提供信息活水流动的机制,其中长尾信息的挖掘是至关重要的一部分,系统化的设计保持生态系统处于自我迭代发展的自循环机制,也就是我们说的产品的可持续发展。
其他杂谈
在当前所处的大数据趋势与环境下,无论是数据规模还是数据加工程度和工艺都正在得到了持续且长足的发展,数据采集、分析、挖掘对于产品的发展已经变得越来越重要,可以说对数据的理解程度决定了对用户和产品的洞察能力,也决定了产品能否持续迭代优化,提升用户体验。