《数据分析思维课》郭炜

内容来自https://time.geekbang.org/column/intro/100084801?tab=catalog

一、数据分析基础

1.1、平均值:不要被骗了,它不能代表整体水平

看到一个平均值的时候,你一定要留个心眼,看看它的数据构成情况,而不是简单地用平均值去代表所有的整体。

1.2、大数定律与小数陷阱:生活是随机还是有定数的?

大数定律:当随机事件发生的次数足够多时,发生的频率才会趋近于预期的概率。
如何理解“足够多”?以抛硬币来看,10次、100次乃至1000次都不算多,上万次可能才趋近于50%,因此我们在博弈、彩票时很难撑到“足够多”的那一刻
小数陷阱:每次的事件其实和上一次的事件是独立且随机的,并不是前面都是“大”,后面开“小”的概率就会高。

大数定律说的是当随机事件发生的次数足够多时,发生的频率就趋近于预期的概率。对于一件事情,你需要持续不断努力,才可以达到你的期望值。而“小数陷阱”则告诉你,每个事件都是独立的事件,“否极泰来”需要足够多的次数才可能出现,做事情要少一些“赌徒心态”,多一些平常心,不要盲目跟风和下注才能获得最后的成功。

1.3、数据的期望值:为什么你坐的飞机总是晚点?

均值(期望)vs平均值

  • 均值(也叫做期望值)英文是 Mean,它是事前预测的,这个值完全是由概率分布决定,也就是我们前面所说的“对可能出现的结果的概率加权平均”;
  • 平均值叫做 Average,它是事后统计,统计样本值的总和除以样本的个数。

1.4、随机对照试验:章鱼保罗真的是“预言帝”么

幸存者偏差是当取得资讯的渠道仅来自幸存者时,我们得出的结论可能会与实际情况存在偏差。 因为这样做看上去结果的确是由随机对照试验产生,但在逻辑上是错误的,这其实是在用结果来倒推整个前期数据的产生过程。
并没有“预言帝”和“赌神”的存在,我们看到的只是大规模数据背后的“幸存者”。
在我们工作和生活当中,一定要注意不能犯同样的“错误”(采用非随机的结果来证明我们的观点),更不能用幸存者偏差(拿结果倒推原因)来解释我们的一些结论。
注意自己“不犯错”是一方面,另一方面我们也要学会“发现错误”,学习前人失败的经验教训。
当你在工作生活里别人和你兜售一些貌似合理论调时,希望你对“沉默的数据”留一个心眼,在看向那些闪闪发光的成功数据时,也要意识到有很多“话少”甚至“不说话”的数据存在。

1.5、直方图与幂分布:为什么全世界1%的人掌握着50%的财富?

幂率分布也叫做指数分布,少数派占据大多数资源。比如帕累托法则(即二八法则)

1.6、数据分布:房子应该是买贵的还是买便宜的?

在信息透明和市场竞争的情况下,工资、房价、股票都会符合一个特点:越塔尖的个体越具有资源吸附能力。那么在整体资源恒定的情况下,这已经不是一个简单的符合随机分布(即正态分布)的市场了,而是拉普拉斯分布。

可以去评估一下,你所在城市资源是否比较平均?会不会出现聚集效应?如果你认真用这两个分布去判断一下,你会发现如果你所在的城市是三四线城市,那么房价的分布大概率会呈正态分布。那么在这种情况下你要投资买房就可以选择价格在曲线腰部的房子,这种房子的房价将来涨跌以及抗风险性都比较适中。

而如果你准备买大城市里的房子,情况就不一样了。因为对于一线城市的房价而言,大概率是呈拉普拉斯分布的,这也就意味着越贵的房子周边资源越好,进而这些房子将来增值空间越大。那我们买房子的时候就应该买资源最好的最贵的房子,未来的收获也最大(当然,如果最贵的已经天价了,那么我们可以退而求其次)。
反之,当你看到一些铺面房非常便宜的时候,你要留个心眼了:是不是这些铺面房处于拉普拉斯分布的最两侧?如果是,那么这些铺面房不但增值空间小,将来还有可能买了亏本的风险。所以,只有了解整体市场的分布我们才能够更好地把握市场大势,顺势而为。

上述内容可以总结为:

  • 小城市房价符合正态分布,投资买房可以选择价格在曲线腰部的房子
  • 大城市房价符合拉普拉斯分布,投资买房可以选择资源最好最贵的房子

1.7、散点图和相关性:怎样快速从数据当中找到规律?

散点图样例

1.8、标准差

标准差

不同量纲的标准差不同,不方便直接进行波动的比较,引入离散系数(也叫变异系数)消除量纲的影响。
离散系数 = 标准差 / 平均值

标准差(Standard deviation)= 一次统计中个体分数间的离散程度,反映了个体对样本整体均值的代表性,是针对具体实例的描述性统计。
标准误差(Standard error)= 多次抽样中样本均值间的离散程度,反映了样本均值对总体均值的代表性,是针对推论的估计。

1.9、数据抽样

抽样误差大小:分层抽样<系统抽样<简单随机抽样<整群抽样

背景:印度的新冠肺炎疫情现在很严重,我们想知道大概印度新冠肺炎疫情发病率是多少。
整群抽样:将总体中若干个单位合并为组(这样的组被称为群),抽样时直接抽取群,然后对所选群中的所有单位实施调查。
简单随机抽样:从总体 N 个单位中随机地抽取 m 个单位作为样本,使得每一个样本被抽中的概率相同。
系统抽样:依据一定的抽样距离,从整体中抽取样本。
分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而保证样本的结构接近于总体的结构,提高估计的精度。

  • 如果你要抽样的样本总量比较小,你对人群比较了解,人群构成也比较单一,你就可以直接使用简单抽样方法进行统计;
  • 如果针对某一些场景下且这些人群你接触概率基本相同,你就可以用系统抽样来做统计。例如,现在北京大街上看到做问卷的人,基本上都是针对逛街一族或者上班一族的系统抽样统计;
  • 如果你想要比较精确地统计,同时你的抽样动用的资源比较多时,你可以使用分层抽样,这样得到的结果会比较科学,但是动用的资源比较多;
  • 如果你的资源不够,可以通过各种方式把一些分层或者一些组织机构合并成群,针对群来抽样(整群抽样),当然代价就是降低了整体的准确度。

《大数据时代》作者舍恩伯格提出的三种大数据时代的思维变革:

  1. 要全体不要抽样
  2. 要效率不要绝对精确
  3. 要相关不要因果

既然如此,那大数据时代为什么还需要抽样呢?
1、在允许一定误差的情况下,抽样可以大幅缩减参与计算的数据量,这和舍恩伯格提到的“要效率不要绝对精确”是一致的
2、在做数据分析的时候,对数据质量的要求是要远远大于数据量的,所以数据并不是越多越好。而抽样过程能帮助我们控制有效数据的比重
3、合理的抽样方法可以有效提升计算效率,没必要每次花费大量时间来进行全量计算

大数据中的抽样算法:蓄水池算法

蓄水池算法:
1、将 1~n 条数据,存入待定长为 n 的集合序列,从这个序列里随机抽取 k 条数据,每条被抽取的概率为:k/n。
2、读到于第 k 条数据时:
1)定义第 k 条数据选中的概率为:k/n;
2)如果被选中,在原集合序列中的 n 条数据中随机选择一条,替换为第 k 条的新数据;
3)前 k 条数据被选取后,第 k+1 条数据要么被选取替代为前 k 条中的一条,要么不被选取,概率为 k/n。再依此规则遍历所有的数据。

我们需要把抽中做统计的印度人都放到一个游泳池(蓄水池)里。假设我目标是只抽 n 个人,这就有一个有 n 个人容量的游泳池,抽中的人都站在这个游泳池里面。当游泳池站满了以后,再往里加人的话有一定的概率会把游泳池里面的人给挤出来,也有一定的概率是新加的人根本挤不进去游泳池。

这样无论一共有多少人进来,他都有一定概率挤进游泳池里或者被挤出去,游泳池里面最后留下来的人,就是我们要的随机的 n 个人,这些就是我们的抽样结果。我们最后统计这些人的新冠阳性情况时,就可以说我们是随机抽样的,而不用管印度一共有多少人口了。

1.10、因果倒置:星座真的可以判定你的性格吗?

精选评论:星座判断人的性格,以偏概全,和广告投放的例子类似。星座判断的比较准的人会告诉别人,不准的人一般不会宣传出来。得到的结果是星座判断人的性格很准。 另外,星座判断人的性格,有些性格写的比较模棱两可,让人看了之后会往上想,确实是那样。

二、数据算法基础(内容略)

精确率与置信区间

置信区间是参数估算的一种。我有90%的把握长到165 ~ 175之间,90%即为置信度,165~175即为置信区间。

2.1、精确率与置信区间:两种预测,你究竟应该相信哪一个?
2.2、趋势分析与回归:父母高,孩子一定高么?
2.3、初识聚类算法:物以类聚,让复杂事物简单化
2.4、初识分类算法:分而治之,不断进化
2.5、关联规则:为什么啤酒和尿布一起卖?
2.6、蒙特卡洛与拉斯维加斯:有限时间内如何获得最优解?

蒙特卡罗:每次计算都尽量尝试找更好的结果路径,但不保证是最好的结果路径。用这样寻找结果的方法,无论何时都会有结果出来,而且给的时间越多、尝试越多,最终会越近似最优解。
拉斯维加斯:每次计算都尝试找到最好的答案,但不保证这次计算就能找到最好的答案,尝试次数越多,越有机会找到最优解。

蒙特卡罗基本思想是精益迭代,进行多次求解,最终让结果成为正确结果的可能性变高。而拉斯维加斯不断进行尝试,直到某次尝试结果满意,当然这个过程中也会一直产生你无法满意的随机值。所以拉斯维加斯的算法效率通常比蒙特卡罗的算法低,但是最终得出的解一定是这个问题的正确解,当然也有可能无法得到问题的解。

2.7、马尔可夫链:你的未来,只取决于你当下做什么
2.8、协同过滤:你看到的短视频都是集体智慧的结晶
2.9、人工智能初探:阿尔法狗是怎样的一只“狗”?

三、如何用数据说话

3.1、确定问题:与利益无关的问题都不值得数据分析和挖掘

省流:
1. 界定问题范围,避免资源浪费;
2. 量化问题与目标,使其具有明确性;
3. 用6W2H 法梳理问题的各个维度,多维度拆分问题,使其具有可执行性

和利益无关的问题都不值得做数据分析。我们经常能看到很多数据分析报告,除了博人眼球之外都是一些无关痛痒的结果。这样的报告看了也就图一乐,并不能够给企业和个人带来实际的业务价值(说的就是我自己,平时公众号上推了一些有趣的报告,但看了和没看也没啥区别)。
哪些方向值得分析呢:开源+节流
但凡不在这些象限里面的数据分析问题,其实都可以忽略不计,因为它不是在公司的主干线上要解决的问题。

针对一个具体问题,正确的步骤是确定问题、探索数据、总结讨论,实践、迭代你的理论。这个过程是把问题逐渐收敛聚焦到关键问题上,而且并不是单向的,后面在执行步骤过程中,可能还会反复到上一个步骤里进行数据优化或者数据补充。

工作中经常遇到“现在 XXX 情况不太好,你来给我们分析总结下问题在哪里。”这种问法其实只有一个大致方向,而没有具体任务。需要:
第一步,现实vs理想

第二步,6W2H法拓展思考范围

  1. Who:指的是涉及这件事情的人、组织职务等等,一般会涉及到决策者、行动者、客户等;
  2. What:列出跟我们讨论相关的这个方向整体的事实或者架构,这些问题和哪些因素有关?他们的条件是什么?重点是什么?与什么有关系?
  3. Whom:紧接着列出这个目标是针对谁来做的,工作对象是谁?关键干系人有哪些?谁会受益?
  4. When: 明确实施的时间周期,预期何时能完成?需要几天才合理?
  5. Where:确认渠道、地点位置、周边的环境,资源在什么地方;
  6. Why:列出可能的原因,一些前提条件或者意图;
  7. How:思考一下现在的问题,未来有可能用哪些手段、方法提高和改进这个问题;
  8. How Much:确认最后要花的时间、人力资源、费用等。

案例

假设我们现在供职于一个做销售工具的 SaaS 公司,老板让我们针对现在运营投入的情况做一份数据分析,我们应该怎么下手呢?
大多数人遇到这样的问题时,第一反应都会想到先把过去运营的数据做一下统计,然后用柱状图和折线图对比一下每年的增长,接下来再根据不同的产品和用户群进行分类做相关分析。 -->错,这不叫分析,这只是数据的罗列,罗列完之后,接下来应该怎么做呢?不知道! 所以单纯的罗列数据无法帮助决策
之所以我们会陷入这种困境中,是因为我们只看到了一些代表结果的数据,没有分析具体问题
1、现实vs理想
通过和领导的访谈,你发现在领导心目中,现在的问题是运营获客效率低,开销占成本一半,他期待的是提高运营效率,成本降低到 50%。
这个问题只是大方向,我们可以想象,降低到 50% 其实并不是最终目标,我们跳出这个框架,来想一下理想状态下,这个目标应该是什么。这个时候其实你可以和老板一起头脑风暴一下,沟通过后未来的目标更清楚了,理想为:“形成自动化获客体系、提高运营效率、长期获客成本逐年降低”。这些目标虽然看上去宏大,但是即使短期内无法达到,也不会整体方向上错误,让我们陷入短视的陷阱里。
2、6W2H


然后我们去每一个相关部门带着现实vs理想的设想以及6W2H来访谈,细化问题。
例如我们现在去市场部门进行访谈,进一步拆分问题如下:
Who:市场部;
Whom:新客户;
When:从公司成立以来;
What:购买大量关键字费用很高;
How Much:费用在每月 100 万元;
Where:搜索引擎和抖音;
Why:关键字转化 ROI 没法获得,没有数据支撑;
How:希望前后台数据拉通,评估数据。
类似的,我们还可以去走访运营部、电销部、产品部,还可以访谈部分客户,可能有些数据情况还不清楚,不过没有关系,我们可以在第二步采集数据之后再设计具体目标,现在我们先把具体方向列出来。

有了这个鱼骨图,基本上我们把领导的这一句让你找“运营问题”的话,已经拆解成若干部门的若干问题了。

数据分析重点在要分析的问题,而不是在数据,不要一上来就先用手头数据进行分析,要先针对问题利用【现状vs理想】和【6W2H】方法进行细化。

3.2、采集数据:用好一手数据和二手数据

3.1节讲了如何确定要分析的数据问题,为整个数据分析的过程指明了方向。
现在有了方向和问题列表,就需要进行数据采集了。

一手数据

一手数据主要来自企业内部的大数据平台、数据仓库以及相关系统,还有部分数据来自用户访谈和调研问卷以及内部沉淀的历史文档。
1、数字化升级转型应该先从核心或者创新业务流程开始
这个是针对决策者而言的,比如互联网公司优先升级用户行为采集、广告投放系统,智能制造企业会优先建立物联网数据采集、供应链系统等
2、数据的采集和计算一定要从最明细的数据开始
使用最底层的数据,数据分析师可以直接自己定义计算口径,针对明细数据进行数据探索,这是数据分析的基础要求。否则,数据质量和数据治理这部分的问题往往会花费我们特别多的时间(笔者亲身经历:接手了别人的业务之后,发现KPI指标的sql代码是一层套一层,除了原主人,谁都改不了)。
3、数据质量>数据量
数据分析时,质量比数量更重要

二手数据

二手数据主要是来自行业内的数据,它们不是自己企业内部产生的。一般二手数据用于让我们看到行业内的竞争对手或者整体行业的趋势,这些数据可以帮助我们分析自己公司在行业里整体的水平,从而判断我们自己的目标值。

数据探索

将前面采集到的多种数据进行横向纵向的深度挖掘,才能发现其中的“知识”。常用的三种拓展方法:趋势分析法、快照扩展法和衍生指标法。

《如何用数据解决实际问题》也有说到“通过趋势和快照两个视点来把握数据特征”

1、趋势分析法
1、折线图、散点图和回归来分析趋势并确定离群点。关注离群点,因为这些离群点发生的原因往往就是解决问题的答案。
2、关注呈指数分布增长的数据,他们往往是有意义的。
3、对于平直的曲线来说,关注整体数据的波动情况(也就是看离散系数大不大,因为这代表着业务的稳定性)

2、快照扩展法:截取某个时点的情况,然后通过下钻的方式来扩展这个指标的分布情况。在这个时点里,各部分对于整体的占比和影响程度。

3、衍生指标法:如果用上面趋势和快照还没有找到原因,可以进一步加工数据,制造出一些衍生指标。比如销量和品牌广告几乎没有太大关系,中间建立【用户忠诚度】后发现,品牌广告宣传越多,用户忠诚度越高,越容易复购。

在进行数据探索的时候,有三个点需要注意:

  1. 关注数据质量的把控。例如我们在进行新冠统计的时候,往往会发现统计死亡率要比统计得病率更加准确。
  2. 注意避免辛普森悖论。这就要求我们在看快照扩展法状态值数据的时候,尽量细分领域和时间。
  3. 注意避免因果陷阱。例如:普通人1米7,篮球选手2米,打篮球有助于长高(此数据无法论证!只是高的人才去打篮球而已);购买产品的用户中70%都看过广告,没买产品的用户只有30%看了广告,看广告的转化率更高(此数据无法论证!没买的人可能看了广告但没印象了。看广告40%的转化率vs大盘20%的转化率,这样才能证明看广告提升了转化率)

案例

以获客购买流程为例,梳理为:


每个指标,都能拆解为不同的维度。
访问量:渠道对比(百度vs抖音vs直播的 落地页访问、注册访问、Demo访问),百度关键字对比(不同关键字的 落地页访问、注册访问、Demo访问)
销售量:不同客服,不同渠道,不同百度关键字 进行对比
--光有这些数据其实并没有解决老板提到的大方向投入成本问题,还需要过程数据。因此我们要衍生出来一些指标去和我们的最终目标进行挂钩,比如转化率、转化成本等:
1、百度的渠道成本、关键字成本、转化率、ROI
2、抖音的渠道成本、转化率、ROI
3、直播的活动成本、主播成本、转化率、ROI
--有了这些数据,再根据趋势法看看这些指标的波动情况。以下图为例,就知道应该尝试关键字投放。

附录:常用的一些网站和信息来源渠道

一、宏观数据
经合组织开放的数据网:https://stats.oecd.org/
世界银行公开数据:https://data.worldbank.org.cn/
中国统计年鉴:http://www.stats.gov.cn/tjsj/ndsj/
统计局网站:http://www.stats.gov.cn/
新华社 - 全球经济数据:http://dc.xinhua08.com/
中国互联网络信息中心:https://www.cnnic.net.cn/hlwfzyj/hlwxzbg/
中财网:http://data.cfi.cn/
二、互联网数据
Alexa: https://alexa.chinaz.com/
百度指数: https://index.baidu.com/
微指数: https://data.weibo.com/index/
淘宝指数: https://shu.taobao.com/
阿里价格指数:http://topic.aliresearch.com/
Similarweb:https://www.similarweb.com/
netmarketshare:https://netmarketshare.com/
Statcounter:https://gs.statcounter.com/
三、行业数据库
数据汇: http://www.shujuhui.com/database/
数据圈: http://www.shujuquan.com.cn/
镝数聚:https://www.dydata.io/
联合国图书馆:http://www.oecd-ilibrary.org/
票房数据:https://www.boxofficemojo.com/charts/
中国票房数据:http://cbooo.cn/
行业分析机构:Gartner、Forrester、Bloomberg、易观、艾瑞、新榜
四、企业数据
巨潮资讯:http://www.cninfo.com.cn/new/index/
EDGAR:http://sec.gov
企业招股说明书、年报、半年报、季报、券商分析报告
五、投融投资数据
IT桔子:http://www.itjuzi.com/
投资中国: http://www.chinaventure.com.cn/
创业邦: http://www.cyzone.cn/
36氪:http://www.36kr.com/

3.3、写好故事线:你能用好数字推翻众人的理解吗?

回顾之前的发现
前期需要广泛的思考,后期需要聚焦思维,对面临的问题形成清晰的判断,特别是对关键问题的关键变量要有明确的定义。
针对老板提出获客成本高的问题,经过访谈和数据采集,在前期规划的 6 个方向当中,发现【获客流程】、【客户】和【产品】是成本高的主因,因此将问题收敛为获客的购买流程、客户意愿度以及产品设计方面。

假设现在的数据现象是:

  • 关键字成本没有优化,也没有打通关键字->购买转化率的数据。经数据发现,大量热门关键字虽然转化率高,但价格贵,加上购买其他转化率低的关键字,造成市场投入过高。
  • 根据同行产品的二手数据研究发现,从demo到注册的转化率应该在 3% 左右,而公司只达到了 0.5%,证明我们的 demo 体验流程不好,也说明产品注册的转化和流程不好。
  • 经过客户访谈和调查问卷发现,客户购买 5 万以上金额单的销售流程都比较长,通过电话销售无法购买高客单价产品。

如果你只是把这些数字直接摆到老板的面前,老板肯定会问“然后呢?”所以现在你要设计整个的故事线,你要多想几步:

  • 我们把目标提升 10%,我们可以做哪些事情?
  • 如果我们想获得 100 倍的成果,那我们应该怎么办?
  • 我们这些分析背后是有哪些假设,在什么条件下我们的模式和假设是无效的。

提高10%,可以优化线索:剔除ROI低的线索(对每条线索计算ROI等数据);
提升100倍,做未成单目标用户访谈:调研发现,由于没有线下销售和服务团队,对于这些高客单价客户我们无法成单。进一步分析这些客户的接触点,我们可以设计新的获客和产品定价体系,例如产品 + 服务进行区分销售、招聘有客户资源和行业知识的高级销售、参加线下专业行业讨论会、对客户推荐进行大力补贴等等。

设计故事线

三段论结构:情节(陈述) - 起伏(惊喜) - 结尾(结论)
1、在陈述部分,我们可以由以下内容来进行陈述:

  • 开场,用 30 秒陈述痛点和整体问题的背景;
  • 针对问题本身的分析,也就是我们定义问题的部分;
  • 结合内外部数据针对问题举例说明。

2、在起伏部分我们可以采取以下类似内容进行阐述:

  • 阐述要提升 10% 的话有哪些办法和选择,并给出不采取行动或不发生变化会怎样?
  • 阐述更高倍数的提升办法和潜在选择是什么?
  • 还有哪些你发现而别人没有发现的观点问题?能带来什么?

3、在结论部分

  • 用简要的话或者数据分析思维导图进行总结和升华;
  • 结尾不要用谢谢,要用召唤型的语言或强有力的金句对整个分析报告进行收尾。

篇幅
一般来讲根据汇报层次的不同,粒度和整个汇报的篇幅会有所不同。对于数据分析报告来说,高层汇报一般建议在 20~30 分钟,PPT 在 10~20 页;中层和执行层面汇报可以 40~60 分钟左右,整体内容可以在 30~40 页。

标题
很多小伙伴在写 PPT 标题的时候,往往是用一个短语(例如现状分析、系统架构图),这是不可取的。既然叫做故事线,它就是应该用一句话来阐述这一页的中心思想。看 PPT 的标题,这几句话串起来应该就能把你这个故事完全讲明白,而不是要看完标题之后还要到每页里面去理解,这才是一份好的数据分析建议书。

案例回顾

现状分析:运营投入成本过高无法使公司盈利。

  • 当前市场线索量够大,但质不佳;
  • 运营活动消耗大,效果有限;
  • 公司整体获客转化效率较低。

解决之道:盈利需要断舍离,提升线索 ROI。

  • 抖音直播与线上活动 ROI 很低,建议停止;
  • 现有关键字转化率整体较低,需进一步优化关键字投放;
  • Demo 转化率低于业内预期,需加强客户引导注册页面。

特别分析:如何发现公司的宝藏客户?

  • 部分高价值客户潜力巨大,未能形成有效收入。

落地建议与讨论:打通内部运营数据,深入行业解决方案。

  • 组建线下行业销售团队,优化电销话术,提高客单价;
  • 建立市场后向指标,打通成单与投放 ROI 指标;
  • 优化产品注册流程,减少流失率;
  • 讨论建立私有化版本,提高整体产品单价?

总结:客户潜力巨大,练好内功,目标投入减半,收入翻番。

3.4、实践你的理论:数据驱动最终就是用结果说话

精益实践

你在进行数据实践时不要选一个巨大的目标,而是去选择一系列快速的实验,小步快跑来迭代验证你的数据理论。
理论上,前面所有的设计数据实验过程都会比较愉快,但一涉及落地,一般业务部门都是不愿意去改变的。

无论多坏的改变都会有人受益,不论多好的改变都会使一些人受损。不害人的需求是不完整的需求。
——Gerald M. WeinBerg

创新扩散模型和理性行为理论
创新扩散模型
理性行为理论

从这个图里面你能看到,一个人从认知到最后的实践,中间有很长的一段距离。例如我们都认知自己应该去健身,但是大多数人都没有办法坚持下来。那些能够执行下来的人,一般是他对健身有充分的认知,同时他周围的人也会给他一些舆论和示范性的作用(例如健身红包罚款群),这样他的健身的意图就会大大增强,从而最后能够把健身落在实际行动里。
同样,前期你对创新者进行大量数据思维和实践的布道,这一步是加强他们对整个数据实验的认知,影响创新者对这个实验付出的努力程度以及承担风险和获得收益的态度。
同时你需要面向全公司高层进行布道,让高层感受到这是一个主流行为。当这些态度和规范大于他们自己的风险和付出的时候,他们才会有明显的意图并采取实际的行动。

实例实践

通过前期沟通和会议现场的表现,找到企业当中对你想法接受程度较高的创新者。
假设你观察到,运营部门总监觉得现有工作已经太忙了,不想发生改变。但市场部门的负责人很早就希望能有一些后期数据,能支持市场优化的过程。这个时候你可以和市场部负责人单独约一次会议,你可以设计一个代价比较小的实验,让他来体验一下你设计的数据分析思维的变化。一方面说服他知道这件事情的改变代价较小,获得收益较大;另一方面给他讲目前相比业内其他公司在这个方面的做法,我们相对落后,应该要赶上其他公司的做法。这样通过改变他的态度和主观规范来影响他的行为意图,再把这个实验落地的计划写出来,促进这件事情的落地。
例如我们就是一次关键字转化的跟踪试验,那么我们可以通过设计一个落地页的方式,针对某几个关键字的效果进行统计。我们不要进行大量的系统的改造,先用手工统计的方式来进行,这样可以快速地在两周获得一些投放的结果,首先解决数据透明度的问题。
然后我们做一次简单数据分析汇报,给一个第一步的行为反馈。再根据投放的结果和动态的价格和市场的投放优化人员一起进行一些关键字的优化后,再进行一次展示,让负责人对结果有信心。此时就可以推动市场部负责人要求产品技术部领导给出资源,把前期的手动过程固定下来成为公司数据驱动系统的一个部分。类似地,继续在理性行为理论的指导下,再争取其他部门认可,最终把我们整个数据分析方案落实下去。

四、分析工具

4.1、数据分析:15种数据思维图

从大的战略部分(确定问题、分析自身,产品定位)入手,用于产品和市场的一些思维图。他们分别是:

1、VRIO 分析——分析自身业务;
2、五力模型——分析整体业务赛道与竞争情况;
3、SWOT 分析——分析整体业务场景与竞争优劣态势;
4、同理心地图——如何打动决策者;
5、4P 竞争分析——产品市场营销;
6、奥斯本检验表——拓展思路,获得新观点;
7、SUCCESs 表——新观点创意和商业模式评估;
8、产品组合矩阵——分析产品布局,产品当中的业务布局。
1、VRIO 分析

问题场景:分析自身业务
图形结构:

基本解释及使用:要分析一件事情或者一个产品是否有竞争优势,最基础的分析部分就是资源以及分配方法。分析自身的资源和运用方法就是 VRIO 分析。
VRIO 分析从四个方面来切入,针对各种各样的资源进行打分,评估我们将来的各种方针。

  • 我们在评估经济价值的时候会评估拥有此项资源是不是就能把握机会,是不是就可以削弱竞争对手的优势来一枝独秀;
  • 在评估稀有性的时候,我们会评估一下拥有的这项资源是不是很稀缺;
  • 在评估可模仿性的时候,我们会评估如果其他人想获得这项资源,是不是要付出更高的成本;
  • 评估组织性的时候,看你自己组织具备的资源和实力能否得到有效开发和利用。

进一步分析:在针对这些情况分析之后,我们可以考虑一下,对于自身公司目前的这些情况,你首先想到的资源会是什么?强化哪些资源还可以提升我们的竞争力,加强哪些优势可以补足我们弱势的竞争点?

2、五力分析

问题场景:整体业务赛道与竞争情况
图形结构:

基本解释及使用:常见的竞争分析方式,五力强度越强,代表这个行业里的竞争力越激烈,你面对的挑战越大,也就是你现在的赛道是红海。当然红海也证明这个市场是有刚需的,不代表你不能胜利。你可以找到其中一些突破点来颠覆这个市场,比如今日头条就是通过推荐算法颠覆了以门户网站为主要信息获取的方式,从而获得了成功。

  • 供应商的议价能力是指供方能通过提高投入要素价格与降低单位价值质量,影响行业中现有企业的盈利能力与产品竞争力。供应商(卖方)的议价能力越强,越证明此时处于卖方市场。
  • 买方的影响力是指买方可以通过压价或者提高产品需求来压低卖方的利润。例如你的产品同质化程度高,可选择的类似产品比较多,那就是买方市场。
  • 同行业里的竞争情况指的是这个行业里的竞争对手多不多,竞争强度大不大,一般来说门槛低和利润高的行业会快速涌入大量竞争者。
  • 创新者带来的威胁是指现在你有哪些挑战者,如果不需要太多的投入,没有太多的门槛就可以进入这个行业的话,那其实你的潜在创新者的威胁就比较高。
  • 替代品带来的威胁是指有没有可能出现更高维的一种产品来跨界打击你,它满足客户最终的需求,而不用你现在的这种解决方案。

进一步分析:如果你重新做一遍这个产品,你还会这样定位产品吗?如果我们要扩大 100 倍的市场,你会用什么样的解决方案?10 年后这个市场会是什么样子?这个五力模型会变成什么样子?你可以和竞争对手合作获得其中的某些能力么?

3、SWOT 分析

问题场景:整体业务场景与竞争优劣态势
图形结构:

基本解释及使用:拿公司和周围环境比对的一个分析。SWOT 分析是从内部和外部多个角度审视一件事各个层次的结果,可以帮助我们可以从中找出对自己有利的、值得发扬的因素,以及对自己不利的、要避开的东西,发现存在的问题。你可以试试头脑风暴的方式,想到什么就把它写下来,然后下一步进行整理,这样可以看到更多的机会并补足其中不足的地方。
进一步分析:不仅是用 SWOT 给自己公司做分析,同时也给竞争对手做 SWOT 分析,这样可以补足整体的大环境。

4、同理心地图

问题场景:如何打动你的决策者
图形结构:

基本解释及使用:同理心地图是一种通过换位思考的方式,了解别人所处的状态和情绪的方法。我们通过想法、所见、所言所为、所闻去分析对方到底会怎么看这件事。这样能让我们深刻理解对方的想法和所处环境,换位思考,最终引导对方做出对自己有利的决策。

  • 想法指的是他在心里有这个想法去做这件事,但还没有表达出来;
  • 所见就是他在工作、生活当中遇到的问题,接触的人或产品服务;
  • 所言,就是他在工作生活中发表的言论及做法;
  • 所闻,就是他经常能听到的声音,比如在媒体上看到的新闻或者是内部的开会得到的一些结论;
  • 痛苦就是代表着他对这件事情的承受风险能力、压力、恐惧等;
  • 收获是代表着他能从这件事中获得的东西,包括物质或者精神上的满足。

进一步分析:不仅可以用同理心地图分析重要决策者,我们还要分析重要干系人,包括你的团队的重要成员。

5、4P 竞争分析

问题场景:产品市场营销分析
图形结构:

基本解释及使用:4P 竞争分析是在产品、价格、渠道、销售加上目标和提供的价值这几个层次下,看自身公司和竞争对手之间的关系,制定相关策略来决定我们的产品营销应该有哪一种定位。

  • 产品(Product):功能,要求产品有独特的卖点;
  • 价格 (Price):根据不同的市场定位,制定不同的价格策略
  • 渠道 (Place):经销商培育和销售网络
  • 促销(Promotion):品牌宣传(广告)、公关、促销等一系列的营销行为。

进一步分析:在这个竞争环境下,什么样的产品可以让客户最满意?其他公司它的优势在什么地方?

6、奥斯本检验表

问题场景:拓展思路,获得新观点
图形结构:

基本解释及使用:我们在想新方法时,总有那么一些思路枯竭、缺乏灵感的时刻。这个模型就是为了给你像挤牙膏一样,再挤出新的一些想法。

  • 其他用途指的是现有的东西(如发明、材料、方法等)有无其他用途?稍加改变,有无别的用途?
  • 借用指的是能否从别处得到启发?能否借用别处的经验或发明?外界有无相似的想法,能否借鉴?
  • 改变是指可不可以换一种形式?比如换产品形态、改变产品的状态,改变后的效果会如何?
  • 扩大是指现有的东西能否扩大使用范围?能不能增加一些东西?能否添加部件、拉长时间、增加长度?
  • 缩小是指如果把这个东西变得更小更轻,是否可以减少一些功能和成本或者产生新的产品?
  • 取代是考虑一下是不是可以用其他的素材方法取代它;
  • 重新调整是从调换的角度思考问题,能否更换一下先后顺序?可否调换元件、部件?更换一下,会怎么样?
  • 重整是从相反方向思考问题,倒过来会怎么样?上下是否可以倒过来?左右、前后是否可以对换位置?里外可否倒换?正反是否可以倒换?可否用否定代替肯定?
  • 组合是从综合的角度分析问题,如果尝试各种组件合成到一起会有什么效果?

进一步分析:其它行业,类似的问题是如何解决的?

7、SUCCESs

问题场景:新观点创意和商业模式评估
图形结构:

基本解释及使用:这个框架是从6 个视角来客观判断创新点子。这个框架可以发现你的创意哪里不足,方便你立刻补充。

  • 简单指的是想法是否比较简单,其他人容易懂;
  • 意外指的是从一般角度来讲,是不是打破了消费者的期望,有没有新的切入点;
  • 可信指的是有没有通过可信的事实让其他人产生共鸣,从而在市场培育初期就取得认同,为其进一步发展夯实基础?
  • 整合指的是有没有把相关产品进行捆绑销售。跨界的整合创意往往能带来神奇的效果,例如苹果公司就是将硬件、软件和服务融为一体;
  • 情感指是否容易让用户产生共鸣;
  • 故事指是否以故事的方式加强传播,让人容易记住;
  • 神秘指的是有没有通过制造来之不易的体验让消费者很难得到,从而越发珍惜,例如过去的 iPhone 发布会。

进一步分析:能否用一句话来说明你的创意?一句话无法提炼出来的创意,一般不是好创意。

8、产品组合矩阵(气泡图)

问题场景:产品当中的业务布局。
图形结构:

基本解释及使用:一个赛道里会有各种各样的产品,一个产品会有各种各样的功能,我们每个产品的功能和它的活跃度以及这个产品任何两位维度的评估组合起来就是产品矩阵。
你要有一个产品全局观,可以用气泡的大小表示用户活跃规模,横轴代表变现能力,纵轴是导流能力,让人一目了然公司的产品布局或者内部产品功能矩阵的情况。
进一步分析:图中产品和产品或者产品功能之间有什么关系?它们能相互导流吗?

我把这些思维图叫做“思维的榨汁机”,在我们思路不清晰或者思维创意枯竭的时候,你不妨把这些工具拿出来,把自己的头脑“榨”一遍,往往可以收到奇效。我把所有的这些 PPT 模板已经放在这里(提取码 vdx4),你需要的时候直接引用填写就好。

上面讲了宏观层面的思维图,现在讲获客、拆解和执行相关的思维图,帮助梳理分析思维,它们分别是:

9、商业模式画布;
10、AIDMA;
11、AARRR;
12、SMART;
13、PDCA;
14、RACI;
15、Will, Can, Must。
9、商业模式画布

问题场景:分析自身商业模式
图形结构:

基本解释及使用:商业模式画布可以非常方便地对公司的商业模式进行一个整体的梳理。它通过 9 个关键的因素来分析一个公司整体的脉络。
这个画布的最底层是公司的整体的收支逻辑,左侧是公司的组织能力,右侧是针对客户的价值主张和如何采取措施。你可以根据你个人、公司、部门的情况通过这个图把整个业务的逻辑梳理出来。
进一步分析:九个因素当中最强和最弱的元素是哪一个?如何发挥优势和补充弱势?

10、AIDMA

问题场景:设计整体客户营销策略
图形结构:

基本解释及使用:一个客户在购买你的产品的时候是先注意到你的产品,然后产生一些兴趣,当这些兴趣转化成欲望的时候,他才会有购买的行为。或者当他对你的产品有印象后,再见到你的产品时,他会产生购买的行动。AIDMA 这个策略就是将你换到客户的位置上,根据各个阶段(也就是注意、兴趣、欲望、记忆、行动)来具体分析如何获得用户的关注,最后让用户产生购买行为。我们可以在这个表里写下每个客户在当时的情况以及当时他的需求,针对这种情况和需求,你去设计如何让客户获得你产品的各种特性和信息。
进一步分析:可以结合前面的同理心地图换位思考一下,客户是否还存在一些没有说出的需求?客户在每个过渡阶段之间会遇到什么障碍?我们如何去排除?

11、AARRR

问题场景:获取客户的各个阶段
图形结构:

基本解释及使用:AARRR 也叫做“海盗模型”,它把获得客户到最后变成收入之间分成了 5 个阶段,包括获得客户阶段、让用户活跃起来的阶段、留存住客户的阶段、产生购买用户的阶段以及用户传播阶段。通过这 5 个阶段,我们可以把用户从开始和你接触到最后你可以从用户身上盈利的这一整体流程,在模型里阐释清楚。你可以设置每个阶段的目标以及要用户体验到的内容,最终我们可以通过数据分析来看差距。

进一步分析:在现在信息过载、产品类别过剩的情况下,获客顺序已经不再是 AARRR,而是大多数产品通过朋友的推荐介绍或者平台的推荐被用户看到,用户再去了解和购买。所以在新形势下的模型往往是 RAARR,也就是推荐、获取、激活、留存和购买。如何获得客户的推荐,是你的公司存活下去的重要指标。

12、SMART

问题场景:确定目标是否明确
图形结构:

基本解释及使用:SMART 原则就是首先要具体(Specific),结果可衡量(Measurable),制定的目标应该是可实现的(Achievable),所有的这些动作和言论都是结果导向(Result based),所有的目标都是有时效性的(Time-bound)。符合这 5 个因素,才能够把我们的目标写得更清楚。一个目标如果不符合 SMART 原则,你也就无法进行数据分析和最后的数据确认。

进一步分析:你的目标如果提高 10 倍它还是 SMART 吗?100 倍呢?如果不是,那么倍数变大就无法达成的因素是什么?有没有可能用奥斯本检查表突破它?

13、PDCA

问题场景:反思和改进自己的业务
图形结构:

基本解释及使用:将一个任务按照顺序从计划到执行到检查,再到改善行动,重新去规划,而且不是运行一次就结束,是不停地循环下去。
在这个框架里填写要去反复执行来提高的目标,做相应的计划(Plan),再根据设计和布局进行具体运作,实现计划中的内容(Do),再检查和总结我们能否达到目标,找到哪些对了哪些错了(Check),最后,对总结检查的结果进行处理(Act),然后再做新的行动计划(PDCA)。注意每一个动作里面的每一个目标都要有明确的数字,而不是简单去定性问题。
进一步分析:在这种不断的循环当中,有没有大方向上直接可以产生的变革?局部的最优解往往不是全局的最优解。还记得1.1节的辛普森悖论吗?局部优化可能无法全局优化,我们需要跳出来高维度思考问题。

14、RACI

问题场景:分拆工作职责,进行工作协同
图形结构:

基本解释及使用:在做一件事情的时候,往往会有很多人或者很多部门参与,这时候处理好人和人、部门和部门之间的关系就非常重要了。RACI 矩阵区分出了 4 个角色:

  • Responsible 是要负责执行具体这个任务的执行者;
  • Accountable 是责任人,负责向组织内外说明业务、进度状况,一般是组长或者 Leader 这个角色;
  • Consulted 被咨询者一般是支援的部门和人,也就是在发生困难的时候,可以提供意见或者提供资源帮助你解决的人;
  • Informed 被告知者是需要知道这件事情进度最新消息的人,相当于他们需要邮件抄送。

这里需要注意,在书写每一项任务的时候每一行只会有一个 A,也就是只有一个最后负责人,因为有两个 A 就意味着有两个负责人,这样就会出现踢皮球的情况。

进一步分析:RACI 在最终确认的时候,一般都是由责任人或者和责任人的老板一起来进行规划的,单纯只是你和其他的人员规划不会有太大意义。其中我们的任务拆解是非常讲究艺术的,如果你没有拆解好,可能会出现有的事情没有人负责或者是有的事情由多人负责的情况。此外还有一个叫WBS的工具,你可以通过 WBS 把具体任务分解下去,跟踪相关完成情况和状态。

15、Will, Can, Must

问题场景:寻找做事情的优先级和边界
图形结构:

基本解释及使用:通过这个框架进行头脑风暴,找到做事情的优先级。

  • 我们可以做而且必须做的事情,要马上去做;
  • 我们可以做而且想要做的事情,其实可以不着急去做;
  • 我们想做而且必须做,但是能力不够去做的事情,我们就要寻找解决方案。
  • 这三个方向的交集就是我们最高优先级要做的事情。

在团队能力提高之后,“能做”的这个圈就会越来越大;随着业务规模的扩大,必须做的事情会变多;随着公司市值和愿景上升,想做的事情也会越来越多。所以这三个圈中间的交集交得越多越大,发展也就越好。

进一步分析:每一个人想做的事和他能做的事以及他必须要做的事三者之间,往往很难取得最终的一致,但我们不断加强自己的能力,最终会是我们可做和必做事情越来越多,越来越容易(下面两个圈交集变大),这样才能有时间把想做的事情完成,这也就是我们一直学习的原因吧。

此外,常用的分析思维框架还有STP、双因素理论、PEST、价值链分析、TAPS思维分析、PREP观点表达等

其实无论使用哪种方法,记住,最终使用数据的是人,数据和这些思维框架都是用来帮助你看穿事情本质的,不要被眼前的数据所迷惑,不要迷信于工具,不断探索追求实质,这才是数据分析人的最终归宿

你可能感兴趣的:(《数据分析思维课》郭炜)