声音、图像、文字等
(1提出分析目标
(3数据处理
(4数据分析和建模
(5数据可视化
(6提出建议并推动落地
周一的时候,豆浆销量最好,销量比其他日期要高。
晴天的销量最高。
原味豆浆,卖的最快,供不应求。黑豆豆浆每次都卖不完,要剩下一半。
基于上面的分析结果,你给姑娘提了几个建议:
第一,在周末的时候,重点观察周一的天气,如果是晴天,那么备货量提高30%。
第二,减少50%黑豆豆浆的进货量,同时提高原味豆浆的零售价,涨价5毛钱。
姑娘尝试着照做,发现真的在支出不变的情况下,通过提高收入,提高了利润所得,她十分惊喜,同意做你的女朋友。
时间飞逝,转眼间又过了两年,你俩感情稳定,准备结婚……
在这两年期间,你契而不舍的持续收集豆浆铺的销售数据,也会根据需求,不断调整采样字段,并在每个月终进行销售月报分析。
然而近期你发现,销售额逐渐产生了瓶颈。
追其原因,是由于周边街道也有早餐店,在卖同质化产品。豆浆价格透明,涨价空间极低。所以只能通过降低成本的方式来提升利润了。
于是,你开始对着这两年的数据进行整理,思考。
经过对行业指标的研究分析,你发现:
第一,每周妹子都从零售商处进货。她的进货量偏少,进货频次过高,同时由于原料市场价不稳定,她的原材料成本很高。
第二,如果从原料生产商手中进货,只要提高进货量,就可以大幅降低原料单价,同时因为进货频率降低,可以对冲价格波动带来的风险。
而豆浆铺的销售额日趋稳定;对原料的需求量也相对固定;原料贮存期长。所以,你们完全可以通过屯原料的方式,来降低成本。
那么现在需要做的是,研究原料行情,同比环比进行分析,选择在同期行情最低的时候,囤积相应的食品原材料。
同比:和上一年作比较,今年8月份和去年8月份作比较
环比:今年8月份和今年7月份做比较
通过对行业进一步研究后发现,每年三月份,豆子的价格最高。而八、九月份豆子的价格最低。
所以你建议你的未婚妻:在八月份的时候,开始大量囤积豆子,供全年使用。
未婚妻听了你的话,照做。
果然,你们更换进货渠道后,用几乎是原先三分之一的价格,就获得了同品质的食品原料,利润率轻松 提高了150%。
时间又过了十来年,你们通过每年屯原料,降低成本,提高利润率,开了多家分店。隔壁老王看了很眼红,也学着你们开了相似的店,做着同样的事。
随着对原料市场的深入了解,以及对供需关系愈发清晰,你太太开始做豆子等原材料的期货交易。而你,依旧坚持不懈的收集数据,进行数据分析。
但是近期,你通过对多年数据的比对分析,建模检测,忽然发现了一个新的风险点。
什么风险点呢?
你发现,大约每四年为一个周期,由于气候及雨水的原因,导致豆子的行情倒挂。每四年一次,三月份原本贵的豆子便宜了,而八月份原本便宜的豆子变贵了。今年正是产生倒挂风险的周期年。
你扭头看了看太太,她端坐在沙发里拿着手机,正在准备囤积大量原材料呢。
在她下订单前,你紧急叫停了这一切。
还好一切都来得及……
果然今年八月份的豆子价格贵的惊人,隔壁老王由于丝毫没有察觉到周期性风险 ,错误预估行情走势,损失严重。只好通过零售单品涨价的手段维持经营,生意惨淡。
而你们通过对数据的准确预测,避开了昂贵的价格波动期,成功规避了风险。
之后在价格相对较低的12月,补进原料。生意并没有受到大的影响。
案例分析:销售空调,全国有很多线下销售商店,我们发现某月的销量下降,和去年同比下降了20%。现在需要分析原因
结构化思考来源于麦肯锡,金字塔思维,每一个论点都围绕上一个问题目标,层层拆解相互独立,最终会形成金字塔结构。
站在宏观的角度去思考问题,而不是只在几个可能的论点上找原因。
结构化可以帮我们理清数据分析的各个论点,但每个论点不一定靠谱有效,比如说上面案例中的外部原因中的竞争对手销量,这些数据我们是无法得到的。
需要一定的数据量化,会用到很多计算公式,比如利润=销售额收益-成本,利润就可以用销售额收益和成本来量化。
用结构法+公式法可以对业务进行辅助和量化
结构化思维+公式化思维可以解决大部分的数据分析问题,但是不能保证最终的数据分析结论是100%正确的,这只能说是从宏观角度分析的客观结果,不一定适用于特定的业务场景。细看分析的各个论点,有时候会由于对业务的不理解导致漏掉某些原因,这时候就需要第三种思维业务化补全遗漏的点。 有时候为了分析去分析,没有深入理解业务,有时候结果也不理想,好的数据分析思维,本身也是具备业务思维。
业务化思维避免我们为了分析而分析,用结构化思考+公式化拆解,获得的最终分析论点,很多时候,是现象,数据是某个结果的体现,但不代表原因
案例1:卖玉米如何提高收益?价格提高多少才能获取最大收益?
收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销量。
1、提高单位溢价的方法:
品牌打造获得长期溢价,但缺陷是需要大量前期营销投入;
加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉();
重定位商品,如礼品化等;
价格歧视,根据价格敏感度对不同用户采用不同定价,提供优惠券等
2、拓宽渠道,挖掘市场
案例2:如何进行用户流失的分析,新用户流失和老用户流失有什么不同?
1)用户流失分析:
用户流失问题,所以这里细分用户时可以细分用户处在生命周期的哪个阶段。(用户生命周期:引入,成长,成熟,休眠,流失。)
指标拆解:用户流失数量 = 该群体用户数量*流失率。拆解,看是因为到了这个阶段的用户数量多了(比如说大部分用户到了衰退期),还是这个用户群体的流失率比较高
内外部分析:
a. 内部:新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺少留存手段、用户参与度低等
b. 外部:市场、竞争对手、社会环境、节假日等
2)新用户流失和老用户流失有什么不同:
新用户流失:原因可能有非目标用户(刚性流失)、产品不满足需求(自然流失)、产品难以上手(受挫流失)和竞争产品影响(市场流失)。
新用户要考虑如何在较少的数据支撑下做流失用户识别,提前防止用户流失,并如何对有效的新用户进行挽回。
老用户流失:原因可能有到达用户生命周期衰退期(自然流失)、社交蒸发难以满足前期用户需求(受挫流失)和竞争产品影响(市场流失)。
老用户有较多的数据,更容易进行流失用户识别,做好防止用户流失更重要。当用户流失后,要考虑用户生命周期剩余价值,是否需要进行挽回。
Microsoft Excel是Microsoft为使用Windows和[Apple Macintosh](https://baike.baidu.com/item/Apple Macintosh)操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。在1993年,作为Microsoft Office的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。
数据清洗就是将格式错误的数据进行处理纠正,将错误的数据纠正或删除,将缺失的数据补充完整,将重复多余的数据删除。
如:单位同意
描述性统计主要用于计算总体的总量指标、平均指标、中位数、众数、极差、方差、标准差等。
极差=最大值-最小值
方差:VAR.P和VARS
标准差:STDEV.P和STDEV.S
动态数列是指将总体在不同时间上的指标数值按时间先后排列而成的序列,又叫时间数列。
什么是相关分析法?
当研究2种或2种以上数据之间有什么关系时,我们通常会使用相关分析法。
相关分析法有什么用?
研究A与B有什么关系
研究A对B有什么影响
相关分析是研究两个或两个以上变量之间相关程度及大小的一种统计方法,其目的是揭示现象之间是否存在相关关系,并确定相关关系的性质、方向和密切程度。
回归分析法的基本思路是:当数据分布在一条直线(或曲线)附近时,找出一条最佳的直线(或曲线)来模拟它。
当所有点到该直线的竖直距离的平方和∑(y-y′)2最小时,得到的直线(或曲线)最佳,如图所示。这就是最小二乘法原理(二乘就是平方)。
归根结底,回归分析法就是根据最小二乘法原理,将变量之间的关系模拟成一个数学方程(也叫回归方程,或趋势线方程),以此来推断变量之间的关系的一种统计方法,所以回归分析法也叫数学模型法。
当变量之间的关系可以用一个数学模型来模拟时,我们用决定系数(R2)判定数学模型拟合效果的好坏。
在数学上,决定系数R2越接近于1,说明数学模型的模拟效果越好。
(1)在Excel 窗口中,选择“文件”|“选项”命令。
(2)在随后打开的“Excel选项”对话框中,单击左边的“加载项”选项后,再单击下方的“转到”按钮
(3)在随后打开的“加载宏”对话框中,选中“分析工具库”复选项,单击“确定”按钮
(4)加载成功后,会在”数据”选项卡中看到一个新的功能“数据分析”
调查××市多家大型超市的月售量(百万元)与超市面积大小(百平方米)、本月的促销费用(万元)、所在地理位置(1表示市区一类地段用、2表示市区二类地段用、3表示市区三类地段)的数据如图所示,请计算各变量之间的相关系数。数据文件为工作簿“相关与回归分析.xlsx”中“相关系数2”工作表。
当前数据中,利用Excel回归分析工具进行回归分析,预测数值
回归结果中第一组数据的前3个数据分别为:Multiple R(相关系数)R Square(决定系数)Adjusted R Square(校正决定系数)都用于反映模型的拟合度
第4个数据是标准误差,反映拟合平均数对实际平均数的变异程度
第5个数据为观测值(数据的个数)
用回归分析法分析上一小节例3中超市的销量与超市的面积大小、促销费用、所在地理位置的关系,并根据回归方程预测一家在二类地段、面积为1000平方米、月促销费5万元的超市月销售额将会是多少。数据文件为工作簿“相关与回归分析.xlsx”中“多元线性回归”工作表。
RFM模型是衡量客户价值和客户创利能力的重要工具和手段在众多的客户关系管理 CRM的分析模式中,RFM模型是被广泛提到的。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。
R、F、M指标的代表意义
明确目标
1. 确定数据窗口期(快消品一个季度,家电类的要1年)
2、在数据中提取所用的用户
详细步骤
1、点击数据中任意位置,在数据窗口中选择高级筛选,将买家进行去重,提取出来
2、新增三列数据分别为RFM,计算窗口结束日期,求日期列的最大值
3、新增一列为最后一次来的时间,ctrl+shift+回车
4、计算R 分析日期-最后一次来的时间
5、计算F 来了多少次
6、计算M 花了多少钱
7、使用roundown对R向下取整,计算RFM平均值
8、完成RFM指标拼接,匹配用户类型
综合评价分析法是将一系列运用多个指标对多个参评单位进行评价的方法,其基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。
综合评价分析法主要特征:
同时完成多指标评价——避免单一视角带来的局限性;
指标的权重分配——全面考虑不同指标对评价效用的贡献度;
化含义为排名——评价结果不再是有具体含义的统计指标,而是对参评单位综合状况的排序;
某学生某课程的平时成绩为90分,期中考试成绩为70分,期末考试成绩为80分,那么任课老师最后就会根据学校的一贯要求,综合考虑该学生的这3个成绩,给出一个总评成绩90×20%+70×30%+80×50%=79(分),这就是综合评价分析法的具体应用。
当我们处理的数据性质或单位不一致时,就要将数据进行标准化处理,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
标准化处理最典型的就是0-1标准法和Z标准法。在此介绍0-1标准化法。
0-1标准化也叫离差标准化,是对原始数据进行线性变换,使结果落到[0,1]区间。做0-1标准化法时,对一列数据中某一个数据标准化的公式为:
某房地产商对13名销售人员的销售能力做综合评价(原始数据见图),根据专家意见,评价从“咨询人数”“成交量”“总业绩”3个方面进行综合考量,权重分别为10%、30%、60%。请用综合评价分析法对13名销售员的销售能力进行综合评价。
在解释假设分析法之前,我们来做一道小学6年级的数学题:
“小明和妈妈买了10本书,正好花了100块钱,书的单价有8块钱和13块钱2种,那么8块钱的书和13块钱的书各买了几本?
解题思路:
首先,假设这10本书都是8块钱买的,那么10本书一共是80块钱,那还多出来20块钱,是算错账了么?不是,显然多出来那20是13块钱1本的书多出来的。13块钱的书比8块钱的书每本多了5块钱,20块钱可以买4本,那么可以得出结论了,13块钱的书有4本,那么8块钱的书有几本呢?
对了,6本,真棒,奖励你1朵小红花。
这道6年级的数学题里就用到了假设法,假设所有书都是8块钱,那么在数据分析中,什么是假设法呢?简单理解,假设法是在已知结果数据,在影响结果的多个变量中假设一个定量,对过程反向推导的数据分析方法。
场景一:已知结果找原因,做过程变量假设
例如:某内容社区在11月份的发帖数相比10月份下降了20%,针对这个结果,该如何分析原因?
那么影响发帖数的有哪些因素呢?
我们可以将发帖数量按照用户分层进行拆分,
1、例如老用户发帖数量和新用户发帖数量,也可以按照具体发帖篇数进行拆分,例如发帖5篇以上的用户,发帖3-5篇的用户,发帖1-3篇的用户,拆分后将11月与10月份相同维度的数据进行对比,找出变量。
2、例如经过拆解后发现,发帖1-3篇的用户相比10月份减少了40%,其他篇数的用户量还高于10月份,那么问题就出在了发帖1-3篇的用户身上。
3、那么发帖1-3篇的用户为什么减少了呢?我们可以提出2个假设:
4、假设10月份发帖1-3篇的用户成长为更加活跃的用户了,造成发帖3-5篇的用户增加,1-3篇的用户减少;
5、假设10月份发帖1-3篇的用户流失率比较高,同时11月份新用户转化少,导致这一群组用户数量变少。
6、那么针对这2个假设,需要对10月份发帖1-3篇的用户与11月份发帖3-5篇及5篇以上的用户进行追踪分析,同时分析11月份新增用户与10月份新增用户在留存和活跃上的对比。
场景二:已知目标找过程,做结果假设
例如:11月份销售为800万,12月份的销售KPI为1000万,该如何做一份销售方案?
这是在做工作计划时最常见的需求,以12月份需要达成1000万的销售KPI为例,拆分销售KPI的相关影响因素,同样有2个拆解维度:
1.从商品角度做拆分
要达成1000万的销售额,为了实现这个结果假设,去做能够支持200万销售额的的过程方案,例如在推广渠道预算上、仓储物流上、人力配置上等方面做计划;还可以针对几款产品提出销售额增长的假设;
2.从人群角度做拆分
要达成1000万的销售额,一方面挖掘老客户的购买力,另一方面增加新客户的来源渠道,假设老用户复购销售200万,那么针对老用户设计营销活动。
总结:假设分析法是在现实应用中常用的数据分析思路之一,数据分析的过程是不断的提出假设、验证假设的过程,通常我们遇到的不知道如何下手的数据分析,可以通过假设法来破局。
二八法也可以叫帕累托法则,源于经典的二八法则。
比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系,排在前20%的才算是有效数据。二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果
漏斗法即是漏斗图,有点像倒金字塔,是一个流程化的思考方式,常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。
对比分析法在生活和工作的各种场景中广泛应用,如个人发展的进步与否,业务能力是否提高,企业的销售目标能否完成,企业与主要竞争对手的差距等等,具体的分析标准有以下三个维度
1、不同的时间周期对比
即选择不同时间的指标作为对比标准。与上一年的同期进行对比称为同比,主要考虑季节周期和淡旺季的影响。与前一时期的对比称为环比。了解相邻时间周期是进步了或是退步了,以便及时分析原因。
2、与不同的空间指标对比。
即在同一个时间周期内选择不同空间指标数据进行比较。
3、与不同计划标准对比
与计划标准对比即与计划数、定额数、目标数对比。如与全年计划目标、活动计划目标对比,通过对比了解自身的发展进度和完成率,分析目标完成的预期和策略是否需要调整。
业务方向:业务方向是什么?
主体:参与这个业务的有哪些角色?即主体
链路:主体之间通过体系形成链路,各环节链路确定整体模式。
关联业务:跟这个业务相关联的其他相关业务有哪些?如何发生关系?
业务方向:提高销售额
主体:消费者 与 商家
链路:商家(选品,上架,配送) 消费者(下单)
关联业务:消费者(京东白条,分期付)
京东自营优势
业务方向:出行升级,解决乘客和司机信息不匹配问题(提升成单量)。
主体:司机 与 乘客
链路:下单,接单,完成
关联业务:代驾,车险,省心投等
业务阶段判断方法:关注重点,根据业务链路确定整体指标体系,从中根据业务阶段洞察重点关注指标。
方向对了,之后的工作才是对的
北极星指标(North Star Metric),也叫作第一关键指标(One Metric That Matters),是指在产品的当前阶段与业务/战略相关的绝对核心指标,一旦确立就像北极星一样闪耀在空中,指引团队向同一个方向迈进。
北极星指标的作用
如何确定北极星指标
北极星指标的对比及判定标准:
1.能否反映用户从产品中获得的核心价值
2.能否为产品达到长期商业目标奠定基础
3.能否反映用户活跃程度
4.指标变好,能否提示整个公司在往好的方向发展
5.是否简单,直观,容易获得,可拆解
6.是否是先导指标,而非滞后指标
京东自营电商业务
商业目标: 利润=销售额-成本
用户价值: 购买到心意商品
清晰核心指标的评判标准(如何算好):
Target (目标)的制定遵循DUMB原则(Doable: 切实可行、Understandable 易于理解、Manageable 可干预可管理、Beneficial 正向的有益的)
(对核心指标进行正确合理的拆解才能帮助定位问题所在)
核心指标的波动必然是某种维度的波动引起,所以要监控核心指标,本质上还是要监控维度核心指标。
通用的拆解方法都是先对核心指标进行公式计算,再按照业务路径来拆(过程指标)。
过程指标理论上越多越好,越多过程指标,可以越细的追踪流程,发现问题。但在业务上,不见得每个动作都做了数据采集,因此要结合具体业务流程来,在关键节点加以控制。
对子指标及流程指标进行维度划分后更能容易进行归因分析(有利于监控报表的搭建)
利用OSM(Object-Strategy-Measure) 模型使业务目标结构化
S(Strategy):是指清楚业务目标之后,为了达成上述目标,我们应当采取的业务策略。
M(Measurement):是用来反映业务策略有效性、反映策略执行是否能达成业务目标的度量指标。
宣贯:很多人都忽略了这一步,没有指标体系的宣贯和存档,和业务核心人员沟通好之后就开始建报表,然后就完事了。
实际上搭建好指标体系后,要当面触达到所有的业务接口人 ,最好是开会并邮件通知到位
存档:同时要对指标的口径和业务逻辑进行详细的描述存档,如***功能渗透率=该功能的点击人数/日活。
即把相关定义给描述清楚,让人一眼就能看懂
落地:就是核心指标的相关报表了,实际工作中,报表都是在埋点前建好的,这样的话一旦版本上线就能立刻看到数据,
而且这个时候各方的配合度很高。
为设计的指标体系采集数据(需要进行埋点设计)
埋点就是数据采集领域的术语。它的学名应该叫做事件追踪,对应的英文是Event Tracking 指的是针对特定用户行为或事件进行捕获,处理和发送的相关技术及其实施过程。
数据埋点是数据分析师,数据产品经理和数据运营,基于业务需求或者产品需求对用户行为的每一个事件对应位置进行开发埋点,并通过SDK上报埋点的数据结果,记录汇总数据后进行分析,推动产品优化和指导运营。
埋点的作用就是为了对产品进行全方位的持续追踪,通过数据分析不断指导优化产品。数据埋点的质量直接影响到数据,产品,运营等质量。
埋点事件及属性设计:基于对业务和用户流程的理解进行设计
京东直营电商下单环节
滴滴出行呼叫环节
事件设计:点击呼叫按钮
属性设计:用户ID,事件时间,出发地,目的地,预计时间,里程数等