视频来源:磨剑之作,七周成“师”!【七周成为数据分析师】
七个方面很重要:数据思维、业务知识、Excel、数据可视化、SQL、统计学、Python
数据分析的结构层次:
(用户行为-变成-原始数据):底层数据的收集/产品端收集:数据采集简称埋点
(原始数据-变成-加工数据):数据业务化/产品需要什么数据?
(加工数据-变成-可视化数据/信息):数据可视化/产品的表现如何?
(可视化数据-变成-数据决策):数据的决策和执行/怎么让产品更好
(数据决策-变成-数据产品/应用):数据模型/产品开始自动化和系统化的运营
(数据工具-数据体系/战略):数据战略/指导未来
什么是好的数据分析思维-三种核心思维:结构化、公式化、业务化
例子:现在有一个线下销售的产品。
我们发现8月的销售额度下降,和去年同比下降了20%。我想先观察时间趋势下的波动,看是突然暴跌,还是逐渐下降。再按照不同地区的数据看一下差异,有没有地区性的因素影响。我也准备问几个销售员,看一下现在的市场环境怎么样,听说有几家竞争对手也缩水了,看一下是不是这个原因。顾客访谈也要做,但是往常一直找不出原因,这次我也不抱希望,姑且试试吧。要是还找不出原因,那我也很绝望啊。
结构化的思考来源于麦肯锡(大名鼎鼎的金字塔思维)-层层递进和拆解
将分析思维结构化:
具体金字塔的思考方式是:
核心论点:寻找金字塔的塔顶,它可以是假设,是问题,是预测,是原因
结构拆解:自上而下,将核心论点层层拆解成分论点,上下之间呈因果或依赖关系
MECE:相互独立,完全穷尽。论点之间避免交叉和重复,分论点们要尽量完善。例如销售金额和销售量就有一定的重合,这样是不好的。
验证:不论核心论点还是分论点,都应该是可量化的,用数据说话。它们必然是可验证的。例如宏观环境不好,造成士气下降这种很虚的,难以量化论证的,就不是一个好的论点。
结构化最核心的就是一个思维导图(推荐工具-XMind)
将结构化的思考方式应用到例子上:
可以画出如下的思维导图
画出思维导图后,可以借助一些思维分析方法来找原因,对某些分支节点,可能要去做调研验证,查表,查数据验证。还可以通过标颜色:如标红色表示不相关,标灰色表示相关。
思维导图更适合个人,团队性的数据分析可以进行类似头脑风暴的方式,具体地:
结构化不是完美的。
结构化是分析的思维,但它还不够数据,而且难免有发散的缺点。
公式化的核心是把一切都变成可量化。
公式化的原则是最小不可分割,即拆解之后一定是一个很细很细的指标或者维度。
公式化实际上主要就是依赖+、-、*、/四则运算。
公式化的举例:
销售额=销量*客单价
利润=销售额收益-成本
销售额=多个商品的总和
地区的销量=不同线下渠道的累加
销量还能继续细挖嘛?可以考虑人均销量和购买人数。
一般的:不同类别的业务叠加可以用加法,减法常用来计算业务间的逻辑关系,乘法和除法是各种比例或者比率。
讲一个结构化和公式化结合的关于运营的案例:
所以在考虑公式化之后,上一小节结构化后的思维导图则可以被修改为:
注意:虽然我们一步步细分,可以分的非常细,但是有时候太细也不好。例如上表中的掠夺率,因为虽然掠夺这种可以分细,但是未必准确。因为是从竞争对手那里得到的数据,不容易获取,而且一定保真,所以这些数据分析的价值和带来的收益就会直线下降。所以掠夺率那一块我们可以作为分析的论点,但是本身能产生的价值有限。
结构化和公式化能解决大部分问题,但不能解决所有问题。
一个例子引出业务化:
如何预估上海地区的共享单车投放量?
可以考虑的分论点有:
虽然我们找出了很多点,但是我们找的很多点可能是孤立的,因为这些点往往因为我们坐在电脑端,拿着思维导图画,导致这些点是有缺失的,连不起来面。例如上面的例子中,我们就没有考虑到:
单车是有损耗的,计算公式中应该考虑单车的消耗因素。
所以光有结构化+公式化,容易产生为分析而分析,没有深入理解业务,俗称不接地气。而好的数据思维,则还要考虑业务化,具备业务思维。
所以你的分析贴不贴合业务,要问自己三个问题:
真的分析出原因了吗?例子:
一家销售公司业绩没有起色,对它进行了分析
如何从业务化的思维考虑:
总结:
结构化思维(捋顺思路)-结构化数据(将其可数据化)-结构化业务数据(落地,贴合业务)
三种核心思维是框架性的指引,实际应用中也应该借助一些技巧工具和方法,它们应该足够简单和有效。
例如:
象限法最经典的应用就是RFM(8个象限),
象限法:
核心:策略驱动
优点:直观,清晰,对数据进行人工的划分。划分结构可以直接应用于策略
应用:适用范围广,战略分析,产品分析,市场分析,客户管理,用户管理,商品管理等
须知:象限划分可以按中位数,也可以按平均数,或者是经验划分
划分出一个个维度之后,我们就可以组成一个个立方体,通过这些立方体,我们就可以进行多维分析,例如我想知道某个地区某段时间的销量是跌了还是上升了。多维法在大数据量,维度丰富的情况下,统计起来更加有优势。
但是多维法有一个缺点(辛普森悖论):
下图是不同学院男女平均录取率的对比,看上去女生比男生录取率高。
但实际上,因为法学院男生多,男生的平均录取率是被法学院拉低了。而单看商学院和法学院,均是男生录取率比女生高。
这个陷阱在统计学里被称为辛普森悖论,可见,在维度分的不够细的情况下的多维法,容易遇到这种陷阱。为了规避辛普森悖论,一个技巧叫钻取(Drill-down):把本身的维度细分,即维度精细,细分挖掘。所以钻取不仅会让分析的粒度更细,同时能规避辛普森悖论。
多维法:
核心:精细驱动的思维
优点:处理大数据量,维度丰富且复杂的数据有较好的效果。但是维度过多,会消耗不少时间
应用:只要数据齐全且丰富,均可以应用
须知:对不同维度进行交叉分析时,需要注意辛普森悖论
先看一个题目:
现在,马上,公司要派你去贝宁出差,如果你只能携带一个背包,你会往里面装什么东西?你为什么要往里面装它?
答案可以有千百种,但是最恰当的答案是:虽然贝宁这个地方我并不熟悉,但我假设它在非洲,那么现在我得考虑炎热的情况…
很多时候,数据分析是没有数据可明确参考的:比如新进入一个市场,公司开拓某样产品。老板让你预测一年后的销量,或者产品的数据基础非常糟糕,你拿不到数据。
例子1:
公司在节日进行了一次营销活动,APP上的销量数据整体比上周上升了20%。因为统计失误问题,拿不到明确数据,也就是说,活动效果是一个黑盒。现在的问题是,销量本身就有可能因为节目而提高,那么怎么证明活动是有效或者无效的呢?
假设活动是有效的
例子2:
你是自营电商的数据分析师,现在想商品提价后,收入会不会有变化?,你会怎么做?
假设法其实是一种启发性的思考,虽然我们拿不到一些具体的数据,但我只能做出假设,然后通过这些假设,或者一种摸索的形式来做出推断。
假设法:
核心:一种启发思考驱动的思维
优点:当没有直观数据或者线索能分析时,以假设先行的方式进行推断,这是一个论证的过程。
应用:它更多是一种思考方式,假设-验证-判断。
须知:不止可以假设前提,也能假设概率或者比例,一切都能假设,只要自圆其说。
有时候我们有很多数据,但是数据不知道怎么使用,因为要探究的问题都是比较开放的,比如,中国今年的经济指标如何?美国NBA最佳球星是谁?竞争对手产品变现的如何?哪位是天善学院最帅的男人?
指数法就是制定一个如何衡量的问题,即制定一个标准(指数)。
例如:
NBA比赛数据贡献值:(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-(失误次数/球员上场比赛的场次)
很多时候,我们有数据,但不知道如何应用。就是因为缺乏了一个有效的方向。这个方向可以称为目标指数。指数法的核心是通过将数据进行加工成指数,达到聚焦的目的。
指数法通常有三种:线性加权、反比例、log
线性加权:设置不同的权重,如c1*用户忠诚度+c2*用户贡献金额+c3*用户社交指数=用户价值
反比例:1-k/x,如1-1/(消费次数)=忠诚指数
注意:1-k/x单调递增,k=1,消费1次,1-1/1=0,消费2次,1-1/2=0.5,相差很大,但消费50次和消费100次则很接近,且消费越多会收敛到1,这就和实际情况比较吻合。
补充:x/(x+1)=1-1/(x+1)也是反比例的一种。
log:和反比例法类似,都是为了让数字达到收敛的目的,反比例法是为了让数字收敛到0和1,而log法纯粹是为了让数字减小,让变量变化很大的情况下,指数表达不大。
指数法:
核心:一种目标驱动的思维
优点:目标驱动力强,直观,简洁,有效。对业务有一定的指导作用。一旦射流指数,不易频繁变动。
应用:和假设法不同,假设法是缺乏有效的数据,指数法是无法利用数据而将其加工成可利用的。
须知:指数法没统一的标准,很多指数法更依赖经验的加工。
二八法脱胎于二八法则,在数据分析中,类似的,20%的数据会产生80%的收益。二八法则本身又被称为帕累托法则,对应有帕累托图。
二八法则在数据分析上的三种应用:
二八法:
核心:只抓重点的思维
优点:和业务紧密相关,和KPI更紧密相关。几乎花费最少的精力就能达到不错的效果,性价比很优
应用:二八法则存在于几乎所有的领域,所以这种分析思维没哟局限。
须知:在条件允许的情况下,数据分析依旧不能放弃全局,否则会让思路变得狭隘。
核心两句话(以前的一些数据分析大师总结的):
好的数据指标,一定是比例或者比率
好的数据分析,一定会用到对比
考虑一个例子:
老王卖水果,今天卖了1000元水果,这个数据有分析价值么?
没价值,不和昨天对比,不知道上升还是下降
老王卖水果,今天卖了1000元水果,昨天卖了800元,这个数据有分析价值么?
数据是上升的,但价值也不大,没和其他竞争者对比
老王卖水果,今天卖了1000元水果,隔壁的老马卖了2000元,这个数据有分析价值么?
老王卖水果,今天卖了1000元水果,昨天卖了800元,隔壁的老马昨天卖了3000元,今天卖了2000元,这个数据有分析价值么?
说明老马跌的比老王厉害,这个数据价值比之前大,但仍然不能说明问题
老王花了3000元的销营销成本卖了1000元水果,这个数据有分析价值么?
老王其实是王健林,他有几百亿资产,他卖水果卖了1000元,这个数据有分析价值么?
例子:
节日大促,女生消费占比从60%变为70%,得出女生节日爱消费,这个结论正确吗?
对比法:
核心:一种挖掘数据规律的思考方式
优点:对比法可以发现很多数据间的规律,它可以与任何思维技巧结合,比如多维对比、象限对比、假设对比等
应用:对比更多是一种习惯,是数据分析的牛角尖,一次合格的分析,一定要用到n次对比
须知:在条件允许的情况下,数据分析依然不能放弃全局,否则会让思想变得狭隘
对应可以画出漏斗图(一个倒三角),从上到下依次是,展现,点击,访问,咨询,订单。我们可以根据漏斗图得到一个过程的转化率。但光得到转化率没用,还必须和竞争对手,过去等作对比。
漏斗法:
核心:一种流程化的思考方式
优点:单一的漏斗法没有用,转化率20%,能说明说明呢?它要和其他分析思维结合,比如多维,比如对比
应用:涉及到变化和流程的都能用
须知:单一的转化率没有用
想要把数据分析变成自己的一个本能的想法,一定要进行大量的练习。而要锻炼好数据分析思维,有2点必不可少:好奇心、多练习
好奇心就是多问自己为什么。大家肯定都听过啤酒和尿布的经典案例。但其实啤酒和尿布是错的(它是美国的一个分析师自己杜撰出来的)。但重要的是我们看到这个案例应该如何思考:
怎么把好奇心用在分析中呢?多练习,怎么练习?
一种是去生活中练习。
走在夜市上,不妨思考:
另一种是去工作中练习。
在工作中,思考: