阅读之前看这里:博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。
博主之前关于产品和数据的的文章::
数据分析师之所需要了解的产品系列知识(一)——产品的演化周期
数据分析师之所需要了解的产品系列知识(二)——如何测试产品健康
数据分析师之所需要了解的产品系列知识(三)——定义产品成功:指标和目标
数据分析师之所需要了解的产品系列知识(四)——如何提高用户留存率
数据分析师之所需要了解的产品系列知识(五)——如何保持产品的可持续增长
数据分析师之所需要了解的产品系列知识(六)——如何打造成功的产品框架
指标的监测对于判断产品是否成功至关重要。一旦选定了某一个能够准确反应产品整体目标的指标,努力让该指标朝着正确的方向变化便成了首要之事。那么应该如何判断哪些因素是关键指标变化的主要驱动因素,以及如何对其进行分析呢?
指标变化分析将从产品变化、季节性因素、竞争及其他外部因素、比例变化、行动指南这几个部分入手,深入探讨针对每个因素应作何考虑,以及如何分析产品指标的改变。
近年来,随着实验产品迭代的兴起,新产品的开发出现了爆炸式增长。当产品发生变化,往往伴随着关键指标的变化。因此,理解推出某一产品将会带来何种影响,确保能取得理想的结果,这点至关重要。
例如,2014年7月,当Facebook开始通知用户他们将无法使用手机上的Facebook软件发送消息,此后一个月内近2000万美国iOS用户下载了另外的聊天软件(见图1)。
再举一个例子,试想下如果改变某一产品的通知算法,哪些指标会受到影响?看到通知的人数、对通知做出反应的人数百分比、进入登录页面的人数百分比、和产品积极互动的人数百分比……当产品发生变化的时候,这些指标以及其它等等都可能受到影响。
当然,产品变化不总是有意而为的。妨碍用户下载、更新软件或发送消息和接收通知的漏洞,也可能会严重影响关键指标。因此,认真追踪关键指标,当产品发生重大变化或是更新版本时,尤其要留心观察,争取发现和理解漏洞,以及采取措施减少漏洞造成的损害。
A/B测试是评估变化给产品带来的影响的最好办法。进行A/B测试时,给不同用户随机呈现两个不同的版本中的一种,采用数据分析来判断哪个版本更符合预设目标。当变化相对较小的时候,进行A/B测试尤其重要,而大多数情况下变化也都是小改变。像上面Facebook例子中的较大变化时,可能被观察到。但是通常来说,如果没有A/B测试,则其影响几乎不可能被轻易发现和测量到。
Tips: 产品变化(不管是新产品推出,一个变更的通知策略还是一个意外的bug)都将不可避免地导致指标发生变化。
季节性因素通常会引起关键指标的剧烈波动。随着时间和环境的变化,人们做出的表现也是不同的。季节性是可以使用数据进行分析的最显著的影响之一。
季节性是用户行为周期性变化的一个明显特征。例如,当人们在新年下定决心时,便会在每年年初有所改变——至少在短时间内如此。在图2中,我们发现,1月1日之后,锻炼时间在30分钟甚至更久的人的百分比明显增加。季节性的其他例子还包括基于一天中不同时刻、一周中不同日子、一年中不同季节等出现的行为变化。将这些与外部因素分开是很重要的,例如游戏《精灵宝可梦》的发布,它对人们的锻炼行为也有着类似的影响(见图2)。我们将在未来的文章中继续讨论这些外部变化。
季节性通常是关键指标出现变化的根本原因;因此,这是第一个需要研究的行为变化因素。
要正确分析任何行为变化,就必须了解产品的整体生态系统。例如,了解年轻人在暑假期间做什么,中年女性如何购物,使用Android系统的人与使用iOS系统的人相比表现如何,或者谁可能是你公司产品的早期使用者,了解这些可能会很重要。
了解这个生态系统可以让你提出一些好问题并建立正确的假设,对行为变化的有效分析几乎都是这样开始的。问问你自己:关键指标发生变化,其根本原因可能是什么?然后,你可能会假设原因是季节性,用户感到了厌倦或是对产品的看法(正面的或负面的)发生了变化。一旦你对关于关键指标可能发生变化的原因有了综合的判断,你就可以进行进一步的调查了。
如果你正在验证季节性是发生变化的影响因素这一假设,你可以采取以下几种方法:
(注:社交应用程序通常也有类似的日内效应,因为大多数人晚上花在社交应用上的时间比白天多得多。如果你为这样一个应用程序研究的最低粒度级别是每日,你将错过这一信号。)
例如,图5上方的图表显示了电子商务公司明显上涨的7天滚动平均收入。在某些情况下,如果变化不那么明显,那么较长的滚动平均值(例如28天)(参见图5下方图表)可以帮助演示某一指标是如何随时间推移而变化的。
然而,关于一个关键指标是如何逐年增加的,我们从28天的平均滚动率中能看出的不多;我们看到年底(度假季)增长势头强劲,但其他模式则几乎没有这一现象。相反,我们应该看看年度指标(见图6上方图表),就能从中发现更多的季节性模式的信息。
图6下方的图表显示了同比28天的滚动平均值模式;而一年之内的变化更加明显。现在我们可以清楚地看到,5月到7月之间的收入受到季节性的影响。5月份收入减少,6月初开始大幅增加,然后再次减少,直到7月4日左右,此时我们看到2016年和2017年都出现了大幅增长,可能是由于开展了促销活动。因此,了解每年发生的这些事件将有助于为未来规划。
通过绘制一年到下一年的收入比率可以更好地理解同比变化(参见图7上方图表)。2016年收入增长同比下降,但2017年,这一情况显著改善。“指数归为1”(参见图7下方图表)是另一种有效的方法,可以观察从年初开始事情如何变化。在这种情况下,它表明2017年是同比增长表现最好的一年,因为该公司设法扭转了局面。
Tips:
- 基于季节性的行为变化通常会突然改变关键指标
- 可以使用多种技术来减少季节性的影响
用户行为也会受到竞争及其它外部事件的影响,如政府行为、新产品广告和社交媒体广告。这些因素会显著地改变用户使用你的产品的方式。优步就因为“卸载优步运动”而损失了大量用户,整体市场份额也因此缩水(见图8)。
通常,关键指标的变化越大,变化发生的时间段就越短,原因也更容易发现。对于许多外部事件尤其如此,尽管竞争带来的影响往往难以量化。我们从下面几个对不同外部因素影响的分析入手:
竞争对你的产品的影响可能微妙而难以识别,消除其影响也更难。这是因为竞争的影响通常以客户流失为表现。虽然我们能够发现用户在流失,但如果不进行用户体验调查,则几乎不可能知道用户离开是否因为选择了竞争对手的产品。
如图9所示的音乐行业的例子,Pandora原本稳步增长的趋势在Spotify开始迎头赶上的时候陷入停滞。
有可能用户开始由Pandora转向使用Spotity,进一步加速Spotify的增长,并使得Pandora的增长走平。但是,很难将这一变化精确地量化。
利用覆盖你所在行业的第三方数据集(如通过App Annie了解使用信用卡情况和消费者消费情况等),频繁地开展用户调查,这能帮助你更好理解竞争如何侵蚀了你的用户基数。但是在这方面你很难做到很好,即便是最好的分析也常常只是方向性的。我们之后会发一篇文章专门探讨竞争、市场吞并和渐进性增长。
了解某个异常的外部事件的影响通常相对容易,因为此类事件通常会导致关键指标的突然变化,从而使相关性变得清晰。图8所示的“卸载优步运动”就是这样的例子。
与竞争导致的行为变化类似,长期行为趋势难以发现,但可以通过用户体验调查获得指导。
这些宏观变化通常受到外部事件的驱动。例如,印度引入低成本4G连接(运营商为Reliance Jio)使该国的互联网接入更便宜可靠,反过来又大大增加了印度人花费在YouTube上的时间(见图10)。
当然,这种宏观变化的影响并非都是积极的。在图11中,我们看到宽带互联网使用的增加改变了消费者获取新闻的方式。谷歌的广告销售大幅增加,而美国报纸的印刷发行量迅速下降,之后表现为报纸广告销售收入大幅下降。
外部因素可以极大地影响产品的表现,而且除了宏观趋势之外,大多数外部因素都很难预测。但是,如果你严格地监测关键指标,确保公司具有强大的分析DNA,那么你将能够更好地利用机会,减轻外部事件的负面影响。
Tips:
- 竞争的影响很难衡量和解决,但是行业数据源可以提供指导。
- 单个外部事件通常会导致指标突然改变。
- 宏观趋势可能会极大地影响产品的指标,而且通常会在很长一段时间内产生影响。
缺乏对指标变化准确而有效的监测和分析,就无法完全掌握一个产品,更无法将它完善。想要打造一个好的产品,就必须运用科学的指标变化分析。
“比例”有多种含义,有时候也称作辛普森悖论。一家公司的“销售比例”指的是其各个产品销售额相对于总销售额的权重。与此类似,“用户群比例”指的是某个特定用户基数(如某个国家的用户人数)在总用户基数中所占的比例。
比例随时间的变化称作“比例变化”。例如,可能t1时刻的日活跃用户量(DAU)美国用户占了75%,其他国家用户(ROW)占了25%;在t2时刻,前者则变为60%,后者变为40%。在这个例子中,每位美国日活跃用户和每位其它国家的日活跃用户所花费的平均时间(TS/DAU)单独来看没有改变,但是总体的TS/DAU却有所增加。
以亚马逊的Prime会员服务为例。如图1所示,Prime平均交易价值一直随着时间而变化,一方面是因为价格调整,另一方面则是因为各消费群体所占比例发生变化。Prime会员服务为一般用户、学生用户和低收入用户提供不同的价格,拥有年付和月付的不同付费计划,偶尔会有折扣活动。
2016年到2017年平均价格的下降主要是因为低收入群体会员、月付会员和学生会员的增加,这些群体支付的价格均低于其他客户。每种产品的定价在这一时期都是固定不变的,变化的是不同客户的比例。客户比例的完整信息可以让我们准确地将图1所呈现的变化归因于比例变化因素。
想象你分别在t1时刻和t2时刻调查某一家公司的日活跃用户的平均时间,想要把TS/DAU的变化归因于比例变化而不是其它变化,下面就是两个极端的例子来展示发现比例变化影响的方法。
例1:纯比例变化的影响
在t1时刻,美国用户的TS/DAU是每天10分钟;而其它国家用户则是每天5分钟。80%的用户为美国用户,因此总体的TS/DAU为每位用户9分钟。
在t2时刻,美国和其它国家用户的TS/DAU均保持不变。但是,不同用户群所占比例变了:美国用户现在只占20%,而其它国家用户占80%。新的TS/DAU数值变成了每位用户6分钟,减少了3分钟,而这一改变完全来自于比例的改变。
正如上述例子所示,即使产品或是每个用户参与度没有发生变化,比例的变化仍可能导致整体参与度降低。
例2:无比例变化因素的影响
在t1时刻,美国用户的TS/DAU依然是每天10分钟,其它国家用户5分钟。美国用户仍占80%,总体的TS/DAU仍为每位用户9分钟。
但在t2时刻,美国用户的TS/DAU变了,增加到每天20分钟,而其它国家用户保持不变,比例也保持不变。而新的TS/DAU数值则因此变成每位用户17分钟,这增加的8分钟完全由美国用户参与度发生了变化导致,没有受到比例变化的影响。
上面两个例子都是极端的案例,整体参与度的改变通常同时受到比例变化和参与度变化的影响,提出量化这些影响的公式也相对比较简单。
比例变化的影响可以通过国家、地区、平台、年龄、性别、连接类型、设备类型等多个维度来分析。要使得比例变化分析最为有效,首先你应该认真思考这一问题,提出关于比例变化影响的假设。
Tips: 分析比例变化可以帮助你确定人口比例变化与用户参与度固有变化之间的关系。
最近几年,企业负面新闻、监管环境改变和大型金融机构的倒闭等因素,使得人们开始给予企业信息质量必要的关注。例如,Facebook因为数据错误面临多项问题。数据质量低下会侵蚀相关群体对产品的信任,包括消费者、投资者和产品开发者,不利于人们对产品健康的准确评估。
无法简单加以解释的突然而剧烈的变化,是数据质量问题最常见的表现。为了更好理解数据质量问题的深层根源,我们可以制定解决这些问题的行动计划。但在要做到这点之前,首先我们必须找到问题,限制它的范围,这两项任务都具有挑战性。
数据不一致往往是因为数据记录错误。要解决这些问题,需明确记录错误可能发生的各个环节:
数据丢失
如果你最近刚发布新产品,或是在新的国家发布了产品还未有数据记录,你可能会低估关键指标的总值。因为在刚开始,数据丢失这类错误通常不会显著影响指标总值,而是会随着时间逐渐增加影响,因此难以被我们所发现。
重复记录
一些情况下,数据的提取、转化和上载过程中,可能会出现某个值重复多次记录的情况,导致总值人为上升。同样地,重复记录这类错误也难以一开始就被发现,其影响会随着时间的过去逐渐显现。
错误记录
数据质量问题的出现常常是因为数据记录出错。例如,将变量2的数值输入给变量1或是输入了错误的数值等等。
虽然对原始数据进行“转化”可以增加数据的可用性,但同时也会导致错误的发生。重复记录会导致多种问题,包括错误的连接、对象之间关系错误(如对两个不同对象使用同一名称)、合并不正确的来源及老化问题(如新旧数据组前后不一致)。在过程中的每一关键节点进行检查,实施质量控制,可以确保数据转化问题的识别。有些问题更容易发现(发现的代价较低)和解决,但所有问题都可以参照下面列举的最优做法来解决。
保证数据质量的最优作法分为三类:如何正确记录、如何识别问题和如何解决问题。
正确记录
产品开发的早期阶段,理解记录哪些数据、变化将如何发生并如何体现于这些数据中,这点十分关键。你还应将任何可能影响数据质量的公司规定及技术要求记录在案,有利于更全面地发现问题。
识别问题
监测数据质量问题时,要主动去发现而不是被动地反应。可从以下两个角度寻找问题:自下而上和自上而下;在上下两端均采用警报系统是识别问题最有效的办法。
解决问题
一旦你找到了某一数据质量问题的原因,解决问题就相对容易。评估问题对企业的影响和产生的成本也同样重要;这些对下游造成的影响往往难以量化,特别是如果问题本身难以发现。
解决措施的有效实施要求企业对此全力以赴,形成长期机制,这也会让企业上下更加注重质量和追求卓越。
Tips:
- 数据质量问题通常源于日志记录问题。识别丢失的数据,重复的日志记录或逻辑错误将有助于诊断此问题。
- 转换原始数据的过程也可能导致错误。
一旦确认确实存在值得认真研究的指标变化,你需要制定系统性和结构化的解决办法来找到每个可能的原因,并努力消除它们。
首先要做的就是选取两个最能体现你要研究的指标变化的时间点(变化越大,时间越短,发生变化的原因就更容易被发现)。然后确定究竟哪些因素可能导致关键指标的变化,你要对此提出多种可能性。列出所有可能性后,逐个因素地去排除或调查。
数据质量
首先调查是否存在数据质量问题,因为它们最容易发现。寻找和产品变化有关的记录问题,如导致某个地区、语言、国家、设备的日活跃用户量记录错误的漏洞。
为了确认问题是否为局部性问题,需要调查变化是否涵盖了所有维度的系统性变化还是只局限于某些维度。另外,检查其它相关指标是否同样发生变化。例如,如果会话次数与日活跃用户量相关,而你仅看到日活跃用户量发生变化而会话次数没有改变,原因可能是记录过程存在漏洞。
产品变化
列出指定时间段内产品发生的变化。如果没有变化,可以排除此项因素,但要注意这项因素很可能被忽视。需要通过对变化进行追踪,找到一种方式对此进行解释。
如已有实验框架(进行了A/B测试),需要量化每项产品变化对关键指标的影响。
寻找由产品变化导致的行为变化。检查每个群体的行为变化(如不同国家、使用不同设备的用户群体等)来判断变化是否仅限于局部,然后看看这些群体的这一指标变化发生的时间。如果这个时间不在你根据产品变化发生的时间而推测的时间段内,则很可能是行为变化导致了产品变化。还要记住,网络效应还可能导致某一问题的影响扩散到首先抵达的人群范围以外。例如,如果某个漏洞导致一个国家的人无法使用某个交流平台,它同样也会减少其他国家或地区的用户参与度。
行为变化
季节性通常是导致行为变化的最大原因,但是外部事件和竞争也可能导致行为变化。关于如何调查行为变化的具体建议可以参考之前的《爆款的诞生:打造成功产品的必备DNA——指标变化分析 | 投资人说》的内容。
比例变化
要判断是否存在比例变化,首先要提出变化发生在哪个维度的假设。在上文中我们已经对如何量化比例变化的影响提出了具体的建议。需要额外注意的是,比例变化可能是长期变化发生的主要原因,但不太可能是周和周之间的变化原因。
Tips:
- 指标的变化几乎总是归因于数据质量,产品变化,行为变化或比例变化。
- 由于改变很少仅是由一个因素引起的,因此可能难以诊断。
感谢大家读到最后,相信大家知道如何去对产品指标变化进行分析了。
后续博主会继续更新关于数据分析师所需要了解的产品知识的系列文章。
————————————————————————————————
此系列的其它文章:
数据分析师之所需要了解的产品系列知识(一)——产品的演化周期
数据分析师之所需要了解的产品系列知识(二)——如何测试产品健康
数据分析师之所需要了解的产品系列知识(三)——定义产品成功:指标和目标
数据分析师之所需要了解的产品系列知识(四)——如何提高用户留存率
数据分析师之所需要了解的产品系列知识(五)——如何保持产品的可持续增长
数据分析师之所需要了解的产品系列知识(六)——如何打造成功的产品框架
博主码字不易,大家关注点个赞转发再走呗 ,您的三连是对我创作的最大支持^ - ^
参考:
红杉资本数据科学团队研究成果