最近上了一个关于数据分析思维的网课,内容比较偏业务上的实际应用,关注点更多在于数据思维。以下是我在学习过程中的笔记整理。
数据是客观的,解读数据是主观的。
使用数据要依靠个人的经验,对于行业和业务的理解,对数据分析思维的掌握
**辛普森悖论:**在分组中比较都占优势的一方,在总评中反而是失势的一方。(结构的不同导致数据会发生倾斜)
统计学定律:
大数定律:当随机事件发生的次数足够多时,发生的频率才会接近预期
做事不要盲目跟风
小数陷阱:要保持一颗平常心。(很多事情是因为做得不够大,时间周期不够长)
慎始尽终
回归:
两个变量有回归的关系不一定有因果的关系
均值回归:
实际发生的数据比我们理论上的预测更趋近平均值
**启示:**所有的数据工具,都要和业务场景结合起来
闭环:熟悉业务、发现业务上的问题、提取数据、数据分析
数据思维才是数据分析师拉开差距的关键所在。
指标:是针对某一事物事物或行为进行量化描述的数值
eg.国名生产总值GDP\销售额GMV \访客量UV
维度:指标的特征
电商常用维度:时间、地区、平台、类目……
准确性:数据质量
可比较性:同环比、不同数据比较
业务指导性:指标具有指导意义
简单易懂:能够快速的让别人理解
虚荣指标:没有任实用意义
产品在应用商店终的曝光量就是虚荣指标,注册量才是有效的指标
后验性指标:往往只能反映已经发生的事情
如活动运营的ROI(投资回报率):只能用作复盘,不能在活动期间用作优化;用户流失率
复杂性指标:它将数据分析陷于指标陷阱中
北极星指标:唯一关键指标,
本质上只是一个指标,但其意义远超其他指标
使命和远景难以测量,理解各异;北极星指标起到量化作用
①企业的经营情况变得有迹可循
②管理人员和执行人员能够把更多的注意力放在改善北极星指标的相应动作上
③心往一处去,力往一处使
一个好的北极星指标能够实现商业目标和用户价值之间的平衡,同时兼顾企业长期和短期发展
能够反应用户从产品中获得的核心价值
能否为产品达到长期商业目标奠定基础
能否反应用户的活跃程度
指标变好,是否能够预示公司在往好的方向发展
是否简单、直观、容易获得、可拆解
是否是先导指标,而非滞后指标
北极星指标并非绝对唯一,且很多指标都具有相关性
北极星指标可能随着公司的不同发展阶段而变化
可以考虑加入反向指标作为“制衡指标”
在实际过程中,往往一个指标没办法解决复杂的业务问题,这就需要使用多个指标从不同维度来评估业务,也就是使用指标体系。
指标体系就是从不同的维度梳理业务,把指标有系统的组织起来。指标体系是相互之间有逻辑联系的指标及维度构成的整体
监控业务情况
通过拆解指标寻找当前业务问题
评估业务可改进的地方,找出下一步工作的方向
指标分级体系能够帮助公司搭建一套完整的数据指标体系,从而及时发现业绩的升高或降低,以及产生的原因。
指标分级可以帮助我们更高效去定位问题,去验证我们的方法论,无需每次都要思考去看那些指标
①一级指标:核心指标,宏观指标,必须是全公司认可,衡量业绩的核心指标
可以直接指引公司的业务达成情况,且要易于沟通传达,比如公司销售额或者社交产品的活跃度。
A.一级指标用于衡量公司整体目标达成情况,对公司所有层级的员工都有指导意义
B.一级指标数量控制在5-8个,与商业结果和公司战略目标紧密结合
C.与行业紧密结合,指标定义最好按照行业标准制定,并有可参考的类似行业指标。
D.不应该仅仅是财务指标,但同时也能够衡量公司的商业结果
E.从公司与用户两个角度出发定义一级指标
②二级指标,是一级指标的路径指标。一级指标发生变化时,可以通过查二级指标,能够快速定位问题的原因所在。
A.是针对一级指标的路径分析拆解,很高效的定位一级指标中波动的原因
B.应通过历史经验选择二级指标,在拆解一级指标中定位的原因,作为监控的对象
C.二级指标是流程中的指标。
③三级指标:对二级指标的路径分析,通过三级指标,可以高效定位二级指标波动的原因,这一步也会给予历史经验拆解
A.是针对二级指标的路径分析拆解,很高效的定位二级指标中波动的原因
B.应通过历史经验选择三级指标,在拆解二级指标中定位的原因,作为监控的对象
C.第三级指标应该有直接指引一线运营、决策的作用;一线市场、产品同学在看到三级指标的结果后,往往应该有直接的行为。
D.三级指标通常以子流程或个体的方式定义
举例:
一级指标:GMV(商品交易总额)、订单数量
二级指标:货品的单价、用户活跃
三级指标:IOS客户端转化率
很多北极星指标是一级指标,但业务发展不同阶段的北极星指标会发生变化,所以把北极星指标独立在指标体系一二三层级之外。
A.明确OKR,找到一级指标
一级指标可能有多个
B.了解业务运营情况,找到二级指标
C.梳理业务流程,找到三级指标
D.通过报表监控指标,不断更新指标体系
A.没有一级指标,抓不到重点
首先要知道一级指标是什么
B.指标之间没有逻辑关系
C.拆解的指标没有业务意义
D.一个人就完成了指标体系和报表,也不和业务沟通
业务部门:市场、运营、产品部门
数据部门:这里指数据分析师所在的部门
开发部门:技术工程师所在的部门
建立指标体系需要各部门沟通,对公司体系要了解
数学上:2倍标准差
实战中:同比(周期性里面,如本周一和上周一)、环比(如今天和作图)、对比(如自己的数据和竞争对手)
数据收集是否全面
数据来源是否有变化
数据任务脚本是否完成
前后代码是否更改
埋点是否变更
统计口径是否发生变化
发版是否带来了数据影响
产品是否改版
算法是否调整
行业、竞争对手是否有活动
运营是否有动作
拉新渠道是否有变化
①将综合指标拆解成单一指标
②将单一指标拆解分析
不同维度拆分:用户属性、生命周期、进入方式、系统、版本……
漏斗分析:转化类指标,如:订单转化率
③对异常指标进行假设检验
经典的业务场景就是经典的商业模式
如淘宝、京东、拼多多
(这里商业模式说的不够清楚,重点看他的指标吧)
指标:
①转化率:用户在发生购买行为的比例。它是评价电商健康程度的最基本指标之一。
转化率=(产生购买行为的客户人数 / 所有到达店铺的访客人数)× 100%
②重复购买率:90天内的重复购买率,这是判断电商所属类型的绝好指标。(不一定是90天)
③订单金额:用户加入购物车商品的价值总和
收入=转化率X重复购买率X订单金额
④弃买率:1-转化率
跟踪每一步的转换
⑤用户获取成本:花多少钱获取了一个新用户
⑥用户终身贡献价值LTV:获取的用户能够为公司带来的总价值。对全部商业模式都是非常重要的一个指标。
LTV是健康程度的唯一标准
⑦关键词和搜索词:通过不同搜索方式为网站带来收益的搜索词和关键词
站内用户搜索词:需要弄清楚大家找什么;是否指向某一特定的商品分类,是否需要调整一下该类别的位置。
⑧推荐接受率:通过推荐引擎,可以给用户推荐还可能感兴趣的其他商品
推荐方法:
从推荐的商品中获得了多少的额外营收?
⑨传播裂变
⑩PUSH点击率
衡量线上产品和运营非常重要的指标:弃买率、用户获取成本、用户终身贡献价值、关键词和搜索词、推荐接受率、传播裂变、PUSH点击率
衡量线下的重要指标:
①运送时间:商品处于运输过程中的事达
次日达、一小时达
与商家处理物流方式密切相关;大多电商公司仅仅通过优化订单处理和送货流程,进而显著高整体的运营效率
②库存可供率:商品缺货时,销售量会随之下降,提升库存管理水平可对业务产生深远影响
初期:转化率
中期:用户终身贡献价值LTV
成熟期:库存可供率
生命周期:
获取用户、用户尝试使用产品并付费、用户邀请朋友使用产品、用户升级产品至高版本、用户遇到技术问题并不再使用
①访问量
②日活跃用户数
③**转化率:**活跃用户转成付费用户,这其中又有多少人升级到了更贵的服务级别。
④**平均每位用户营收:单位时间内平均每位用户带来的营收。
⑤用户获取成本:**获取一位付费用户的所需成本。
⑥**传播裂变:同电子商务。平均每位用户可以邀请多少新用户。
⑦追加销售:**是什么促使用户支付更多费用,以及这种情况的发生频率。
⑧系统正常运行时间和可靠性:公司会面临多少用户投诉、问题升级或服务争端问题。
⑨流失率:流失率是指在一段时间内流失掉的用户比例。单位时间内流失的用户和付费用户人数。
免费用户“流失”:指用户注销账号或再也没有回来使用过
付费用户"流失”:指用户注销了账号并停止支付费用, 或是降级到免费版
流失用户:一般指降级或者未登录90天的用户
用户召回时机:产品功能显著升级或有可触达内容的时候(要有真实的内容)
⑩用户终身贡献价值LTV
如游戏
下载量:应用的下载数量
用户获取成本:获取一-位(付费)用户的所需成本
注册转化率:有多少下载用户真正开启了该项应用,并完成了注册。
**跃用户/玩家比例:**每天/月保持活跃在线的用户比例,即日活跃用户数和月活跃用户数。
付费用户率
**首次付费时间:**用户激活后需要多久才会开始付费
**人均收入:**应用总营收除以活跃人数或玩家人数
**点评率:**在应用商店为应用评分或评论的用户比例
**传播裂变:**平均每位用户可以邀请多少新用户
**流失率:**注意跟踪一日、一周、一月内的流失率,因为用户会以不同原因在不同时间段流失掉。
用户终身贡献价值
收入:广告
广告的点击率
广告的展示率
用户在线时长
页面浏览数量
用户人数
广告库存:广告库存是可供变现的广告展现次数,每次页面浏览都认为是一次展示广告。
过多广告会降低网页的可读性以及用户忠诚度。
如果网站内容只是为了突出广告关键词,以盈利更多
则会使文章感觉不自然,读起来像软文。
广告价格
如知乎 抖音 B站
UGC网站的收入往往来自广告或融资。
网站的核心功能之一便是获取一 次性用户 ,将其转换成注册用户,并最终使其为网站内容作贡献。
**活跃用户数:**扩展-用户回访频率,以及每次来访的停留时间。
**用户参与度:**扩展-最后访问时间,即用户上一次访问网站的时间。
**内容生成:**以某种方式与内容进行互动的用户比例,包括生成内容以及顶/踩行为等。
参与度漏斗的变化:网站是否有效地增加了用户参与度。
PUSH和通知点击率:看到推送通知或其他提醒时,给予回应的用户比例。
传播裂变
流失率
用户终身贡献价值
如滴滴、美团
买卖双方的人数增长和连接:买卖双方人数的增长速率(通过回访人数测定)。
库存增长:卖家新增库存(如新上架商品等)的速率,以及商品页面的完整性。
搜索有效性:买家的搜索内容,以及该内容是否与所建库存相匹配。
**转化漏斗:**商品售出的转化率,以及各种有助于商品出售的细分要素。
评分以及欺诈现象:买卖双方的相互评分、欺诈现象以及评论语气。
**定价指标:**如在市场中实行竞价机制,则需关注卖家的定价是否过高或过低。
建立指标体系,并进行问题分析的步骤方法:
来源
公司内部的大数据平台、数据仓库以及相关系统
部分数据来自用户访谈和调研问卷
内部沉淀的历史文档
特点
数据可控
注意:
数据采集要从最核心的业务开始
数据的采集和计算要从最明细的数据开始
进行数据分析时,数据的质量要求要大于数据量的要求
**来源:**行业内的数据,非自己公司内部产生
特点:
看到行业内或整体行业趋势
帮助分析整体数据,帮助设定我们自己的目标值
常用二手数据来源
注意:
二手数据的可信度:
政府部门>行业协会>企业财报 >投资机构> 研究报告> 新闻稿
本质就是整合多个数据源的数据,进行细粒度的多维分析,为业务提供数据服务和应用,帮助高层管理者做出商业战略决策。
数据仓库的特点:数据仓库是面向主题的、集成的、不可更新的、随时间变化的。
业务数据:收入、销售量、库存等
埋点日志:点击、浏览等用户行为数据
系统日志:系统流畅度、稳定性等
手工录入:用户调研等
外部获取:外部网站爬取的数据信息等
管理数据:财务系统、HR系统等
**埋点:**提前埋伏好,收集信息
主要目的:收集用户行为信息
采用手段:打日志的方法,这个日志通过解析编程可以解读和使用的数据,并存储在数据仓库的数据表中
是最接近源数据的一层,经过ETL把数据装入本层
按照源头业务系统的方式分类
后续可能要追踪元数据的问题,这层不建议做过多的数据清洗工作,尽量完整的接入原始数据即可
ETL贯穿数据仓库
ETL:抽取Extra,转化Transfer,装载Load
DWD层:一般保持和ODS层一样的数据粒度;提供一定的数据质量保证(如去掉空值、重复值、脏数据)
DWM层:对数据进行轻度的聚合操作,生成一系列的中间表;提升公共指标的复用性,减少重复加工
DWS层:数据集市或宽表;按照业务划分,生成字段比较多的宽表,用于提供后续业务查询、分析等;目标是在指标体系的指导下,完成基础指标的完备建设。
提供给数据产品或数据分析使用的数据
常常会存放在MySOL 等系统中供线上使用,也可能会存在Hive等中供数据分析和数据挖掘使用。
因为随着大数据时代的到来,越来越多的企业看到了数据资产的价值,将数据视为企业的重要资产
如果没有数据治理:
官方定义:对组织的大数据管理并利用其进行评估、指导和监督的体系架构
个人经验:严格把控数据规范,实现数据由乱到治、建章立制的过程
先做好数据治理,再做数据分析
数据分析师也常常参与到数据治理的项目中
先总后分
漏斗分析是基于业务流程的一种分析模型,能够科学反应用户从起点到重点各阶段的转化情况,进而定位用户流失的环节和原因
拆解:找到问题在哪、原因、优化地方
GMV
销售
DAU 日活跃用户数量
根据人的信息数据和行为数据,对用户标签分组。
静态标签(属性标签):
行为标签
用户画像标签体系
用户属性的信息,有一些是可以去预测的
用户行为的信息,可以直接收集
最早产生于电商领域,是根据客户的交易频次、交易的金额等信息对客户进行细分的一种分析方法
数据准备
计算
阈值划分
用户分层
优点
缺点
利用四象限分析法,对产品从市场占有率和销售增长率两个维度进行划分:
高市场占有率+高销售增长率:明星类产品:产品处于良好的发展前景,企业具备相应的适应能力
高市场占有率+低销售增长率:金牛类产品:投入尽可能少的成本,支持其他业务发展
低市场占有率+高销售增长率:问题类产品:可能成为明星产品,成为摇钱树,也可能成为瘦狗产品淘汰
低市场占有率+低销售增长率:瘦狗类产品:产品生命周期的下降阶段,应该砍掉非增值的产品和功能
人货场理论、PEST理论、SWOT理论、4P理论