数据化运营速成手册笔记

数据化运营速成手册

胡晨川

这是一本基于excel 2016的数据分析和运营技巧书

让读者正确地理解并应用数据分析 是这本书的目的

1. 全面认识数据图表

1.1 数据图表的基本构成

  • 维度和指标

    Measure/Dimension

    分类变量/有序变量/数值变量/逻辑变量

  • 写标题的套路

    用图表直观地反映信息,代替大段的文字和复杂的逻辑陈述,提高信息传达的效率

    标示性标题/描述性标题/指导性标题

考虑:

* 我最近做的重要决策大致上会反映在哪几个指标?

* 最近我的第一关键指标是什么,与它最相关的指标是哪几个?

* 业务的全局变化如何,与过去我们有哪些方面的改进或者退步?

* 目前的那些执行动作需要调整,对应的指标是什么?
  • 图形元素的本质

    几何对象和图形属性

  • 坐标轴是传达信息的关键

    坐标轴上的变化,能让数据撒谎

  • 图例的位置

    告诉读者各个图形元素分别代表什么指标

  • 辅助线能够突出某些信息

    出现在图表中本身不表达任何既有数据,但能帮助观察者形成认知和推断的图形元素

    数据标注辅助线/数据推断辅助线

  • 数据标签需谨慎使用

1.2 控制数据图表中的信息量

可怕的不是出错,而是产生混淆

图形元素数、辅助线数、辅助坐标轴数一共不超过5

1.3 不需要作图

  • 短期内的了解型需求

  • 多维度相互结合的需求

    表格更有用

  • 作图传达的信息非常有限时

  • 图表中的数据存在复杂的逻辑关系时

2. 建立数据图表的认知

2.1 利用散点图探究数据间的关系

散点图最核心的价值在于发现变量间的关系

  • 最基本的散点图样例

  • 散点图的制作

  • 变种1: 添加平滑线

  • 变种2: 利用气泡图观察更多指标间的关系

    5个变量是二维散点图的极限

  • 变种3: 用分类矩阵形成决策

    波士顿矩阵,根据相对市场占有率销售增长率两个维度衡量企业的各种产品

  • 散点图的局限性

2.2 利用柱形图将对比做到极致

柱形图的核心思想就是对比

  • 利用累加柱形图对比数据结构的变化

    有对比才有信息

  • 多指标组合对比

  • 用平均值优化单指标的对比

  • 用瀑布图观察总量分解后的对比

  • 如何正确对比数值指标与比率指标

    柱形图与折线图结合的表达出一个指标的数值和变化率,保证刻度线一致,横坐标表示时间

2.3 用折线图观察时间序列数据

折线图核心思想是趋势变化

  • 如何观察趋势

    1. 利用趋势线

    2. 趋势变化的速率是否满足需求

    3. 波动情况

    4. 指标的周期性变化

    5. 关注极值

    6. 关注结构性变化

  • 探寻趋势变化原因

    1. 定位问题

    2. 梳理事件

    3. 分析逻辑关系

    4. 得出结论

      认识到记录的重要性。有清晰的时间记录,在我们对时间序列数据进行回溯时才有据可查

2.4 利用面积图观察数据结构的变化趋势

  • 动态的观察数据结构的变化: 堆积面积图

  • 用于队列分析: 堆积面积图

2.5 用雷达图进行静态的多维对比

2.6 其他类型图表

  • 使用饼图的6个坑

  • 提升视觉冲击力: 树状图

  • 量化流程各环节间的转化率: 漏斗图

数据图表进阶

3.1 数据图表到底是什么

  • 分清楚数据中的维度和指标

  • 几何对象就是点线面的结合

  • 标注和坐标系

  • 通过分面来展示数据的子集

3.2 如何正确地选择图表

3.3 数据图表中的细节

  • 图表背景和绘图区背景

  • 坐标轴

    坐标轴是否展示出了足够的差别

    范围是否大于数据序列的4倍标准差

  • 灵活使用辅助线

  • 线性趋势线的应用

  • 应用移动平均趋势线做时间序列的预测

    在时间序列数据中,N期移动平均就是以期值为终点,计算过去N个值的算术平均数

  • 添加信息增强线

  • 用标注线指示必要的信息

3.4 让图表升级的高级技巧

  • 运用组合图表增加信息承载量

    数据可视化的目的是减少观察者思考的时间

  • 运用子母图增加图表中的信息量

  • 条件格式中的几项实用功能

  • 使用迷你图表压缩空间

  • 用不等宽技术优化柱形图和条形图

  • 用Bullet图进行绩效评价可视化

4 数据化运营的基础知识

4.1 最基本的数据获取能力

  • 认知数据库的一般构造

  • 能阅读最基本的取数代码

  • 用excel获取数据

4.2 快速认知数据

  • 仔细审核数据源的质量

  • 提升数据集的质量

    • 清理垃圾数据

    • 处理空值的技巧

      • 用最接近的数据替换它

      • 用平均值替换

      • 合理推断。比如用移动平均数

    • 异常值与异常字段的处理

      数值特别夸张,文本特别长,NULL, 不匹配的数据类型

  • 统一数据类型与单位

  • 描述统计分析

    • 观察数据的一般水平

      • 中位数

      • 众数

      • 加权算术平均数

    • 观察数据的稳定性

      任何风险衡量的模型,其本质都离不开衡量波动性,即方差与标准差

      衡量两个数据序列间相互波动的情况是有办法的,即协方差

    • 初步认知数据的分布特征

      最大值,最小值,中位数,算术平均数,75%分位数和25%分位数

    • 深入认知数据的分别特征

      频率分布图

  • 利用相关系数理解数据之间的关系

  • 通过多维交叉深入认知数据集

    多维分析就是通过多个维度的相互组合,发现数据内深层次的信息

4.3 几套有用的分析思维框架

建立起体系化思维。有套路

  • 66法则与SQVID原则

    从谁/什么?有多少?在哪里?什么时候?怎么样?为什么? 5W1H

    SQVID:

      简单/精细(Simple/specific)
    
      定性/量化(qualitative/quantization)
    
      愿景/执行(vision/validate)
    
      个别/对比(individual/compare)
    
      变化/现状(delta/status)
    
  • 麦肯锡七步成诗

    1. 清晰的陈述要解决的问题

      • 问题要具体存在

      • 问题需要可执行

    2. 使用逻辑树来分解问题

      MECE ( Mutually Exclusive Collectively Exhaustive)

    3. 淘汰非关键问题

      找到那些数量上只占20%,影响力却是80%的重点问题

    4. 制定详细的工作计划

      每个to do都必须有负责人和截止时间

    5. 进行关键分析

      设立假设,然后通过数据进行检验

    6. 综合分析结果,建立论证

      寻找到一条逻辑主线, 将各个分散的结论和信息进行组合

    7. 写一个精彩的故事打动决策者

4.4 创造指标应用指标

  • 什么是指标

    indicator

    过程型指标

      一般需要高频的跟踪(甚至是实时), 根据指标的变化,及时做出调整
    

    结果型指标

      一般从活动中抽象而来,适用于运营活动的评价
    
  • 如何设计高质量的指标

    信度

      指标衡量某事物的准确性、精确性和稳定性
    

    效度

      指标衡量所获得的信息,确实是研究者所期望获得的信息
    

    计算简单快速、易理解、泛化性强,对业务敏感,可持续性

  • 指标组合: 综合指数

    加权综合指数

      各个指标先标准化,转化为统一单位
    
  • 需要关注的核心指标

    • 第一关键指标法构筑指标体系

      找到第一关键指标,然后逐层分解

    • 套用AARRR模型

      用户获取(Acquisition) -> 用户激活(Activation) -> 用户留存(Retention) -> 用户价值转化(Revenue) -> 用户推荐(Referral)

      用户生命周期价值

         将从单个用户端获取的收入分摊到使用产品的每一天,将所有活跃用户每天分摊到的金额进行汇总,就是当天的总的用户价值;若当天用户不活跃,将他分摊的金额计算为负值,将所有负值进行加总,就是损失的用户价值。用柱形图将这两个方向的数据表现出来
      
    • pipeline衡量销售流程

      一种漏斗,衡量整个管道的转化效率

4.5 运营活动的量化

  • 优秀的运营活动的诸要素

    1. 明确的活动目标和预算

    2. 清晰的响应关系和执行流程

    3. 可靠的过程型指标

    4. 准确的结果型指标

    5. 科学合理的效果评价方式

    6. 知识的沉淀

    7. 聪明的负责人

  • 需要哪些过程型和结果型指标

    活动与指标最好是一对一关系

  • 如何评价运营活动

    活动是否有效

    为达成目标我们的投入产出比是否合适

  • 从纵向和横向两个角度全面对比

    活动前后的数据对比,一定要跨满一个业务周期

    基本流程

    1. 产生问题

    2. 利用ICE方法评估方案

      Impact(影响面大小) Confidence(提出者对执行效果的信心) 和 Easy(执行的难易度)

    3. 设计指标

      指标要对问题敏感

    4. 准备工具

    5. 选择对象

    6. 随机分组

    7. 假设检验

    8. 形成结论

    9. 传达部分

      无效也是一个有价值的结论

  • 一种更严谨的测试效果量化方法:DID

    1. 对比施予活动这个时间点后的实验组和对照组在指标上的差别

    2. 对实验组和对照组指标的数值差别进行显著性检验,看是否有足够里有判断他们是存在差别的

    3. difference in difference

  • 相似活动间效果的对比

    目标相同,时间相近可以对比

  • 运营活动量化的总结

4.6 数据化运营的思维方式

  • 信度和效度思维

  • 平衡思维

  • 分类思维

  • 矩阵思维

    重要-紧急矩阵

  • 管道/漏斗思维

    漏斗的环节不该超过5个,漏斗各环节的百分比数值、量级不要超过100倍

  • 相关思维

  • 远近度思维

    确定好核心问题后,分析其他业务问题与该核心问题的远近程度,由近及远,有计划地分配自己的精力

  • 逻辑树思维

    下钻(分解)和上卷(汇总)

  • 时间序列思维

    • 距今越近的时间点,越要重视

    • 同比

    • 异常值出现时,必须重视

      通过添加平均值线和平均值加减一倍或两倍标准差线观察

  • 队列分析思维

    按一定规则,在某些维度上将观察对象切分,组成一个观察样本,然后观察这个样本的某些指标随着时间的演进而产生的变化

  • 循环/闭环思维

    不要用漏斗来衡量一个循环

  • 测试/对比思维

    • 决策前尽量做对比测试

    • 测试时要注意参照组的选择

  • 指数化思维

    遵循独立和穷尽(MECE);注意各指标的单位,标准化之;权重和要等于1

  • 极端化思维

    极端化是一种简化

  • 反向思维

    关注反常情况

4.7 运营数据报告必备要素

  • 关键信息优先

  • 只有单向的逻辑线

  • 有选择地进行维度下钻

  • 不要展示过多的数据图

    精简图表

  • 附上明细数据集和制作过程

  • 给出实质性的建议

5 快速提升量化分析能力

5.1 朴素贝叶斯模型

概率

0和1之间的数字,表示特定结果发生的可能性

几率

某一特定结果发生与不发生的概率比

似然

两个相关的条件概率之比。给定B发生的情况下A发生的几率和A的整体几率之比

贝叶斯公式

P(A|B) = P(B|A) * P(A)/P(B)
  • 全概率公式

    P(E|P) = P(P|E) * P(E) /[P(E)P(P|E) + P(~E)P(P|~E)]

  • 让大数定律给你自信

    实验次数足够多时,某事件发生的概率一定会收敛于他的基本概率

  • 窥一斑而见全豹:中心极限定理

    一个大型样本的正确抽样与其代表的群体存在相似关系

5.2 使用假设检验进行理性的推断

  • 统计分布是一切推断的基础

    这世界上的所有事件,其结果都遵从相对有限的几个概率分布

    正态分布;指数分布;卡方分布;BETA分布;POSSION分布;二项分布;T分布;F分布

  • 以正态分布为例,阐述假设检验的过程

    把一个不容易被推翻的假设当作原假设

    拒绝接受原假设,取决于我们认为在原假设成立的前提下,实验所得出的结论对应的概率为多小时是不正常的

  • 双侧检验与单侧检验

    原假设“B版本的跳出率不比A版本低”,即"B>=A?"。这样的原假设是有方向性的,即大于或者小于,这种假设被称为单侧检验。

    原假设是"B=A?", 其备择假设就是"B!=A", 称为双侧检验

  • 假设检验的细节补充

    • 标准差与标准误差的不同

    • 假设检验的检验指标和其对应的分布并不是局限的

    • 大数据不能替代统计推断,也不能替代假设检验

    • 关注两类错误

      拒绝了该接受的假设;接受了该拒绝的假设

      针对某个业务问题建立一个原假设,然后努力手机信息去挑战它,如果没有充分的证据证明原假设错误,那么就选择接受它

5.2 利用方差分析辨别方案的有效性

  • 用户激活措施的有效性判断

    方差分析的前提

    • 每一组所对应的总体服从正态分布

    • 各总体的方差相同

      方差齐性分析检验

    • 从每一总体中抽取的样本是相互独立的

  • 运用置信区间增强数值估计的可靠性

    数据若服从T分布或者正态分布,它的95%置信区间就是点估计值加减1.96个标准差

  • 两两比较寻找最精确的结论

  • 理解方差分析的思维

5.4 浅谈回归分析的应用

  • 因变量与自变量的相关关系是回归的基础

    只有在相关系数搞得两个指标之间建立回归模型才有意义

  • 线性回归建模的详细过程

    1. 重视回归建模前的分析过程

      数据分析,不仅仅是对建模后的结果进行解释,而是从业务理解,建模前的逻辑推理,模型的适用性分析,数据认知等,直到建模后的结果解释,一整套的过程

    2. 观察因变量与自变量的相关关系并进一步清洗数据

    3. 回归建模的结果怎么来

      最小二乘估计

    4. 利用现实数据建立模型并解读结果

      • 查柜回归模型的 Adjusted R Square,即拟合优度

      • 观察方差分析板块中的结果

      • 需要看回归模型的系数

      • 利用多元回归改进模型

  • 线性回归分析的注意点

5.3 用时间序列分解模型观察波动

  • 怎样观察时间序列数据

    • X轴和Y轴

    • 起点和终点

    • 观察极值

    • 转折点

    • 周期性

    • 波动性

    • 与参考性的对比

  • 何为时间序列分解

    • T 长期趋势

    • S 季节变动

    • C 循环变动

    • I 随机波动

  • 时间序列分解的步骤解析

    • 用移动平均数分离出显性的周期性波动

    • 将业务周期效应和不规则变动进行区分

    • 观察数据波动的拐点,将时间序列分段

    • 利用线性回归,基于移动平均数计算长期趋势

    • 分离出循环效应和随机波动

时间序列数据的预测值就是 长期趋势 + 循环效应 + 周期效应
  • 检验时间序列分解的效果

  • 时间序列分解方法的应用局限性

5.6 如何优化调查问卷

  • 态度型问题,增加选项以支撑量化分析

    包含中间项, 即填写中间项的人表示没有态度

  • 问题要有必要切贴合业务需求

  • 设置过滤器,识别无效回答

    设置互证的问题,即过滤器

  • 避免双重问题和一重半问题

    双重问题即一个提问隐含两个问题

    一重半问题即某个选项实际上暗含了两个甚至多个选择

  • 动态地调查,设置问题库以保障多次调查的质量

6 科学地决策

运筹学问题

6.1 从数据中形成决策

管理科学是将定量因素(quantitative factor) 有关的管理问题通过应用科学的方法(scientific approach)辅助制定管理决策(managerial decision making) 的一门科学(discipline)

6.2 线性规划是什么

线性规划是应用数据模型对所研究的问题进行表述

线性是指建模过程中的数学表达式的形式,即线性方程组

规划就是要确定一组结论(一组数字),而不是一个结论(一个数字)

线性规划一定要有目标,要有决策选项,要有约束条件,要有决策选项对目标的贡献,要有量化指标或者数字依据

线性规划只是规划求解方法的一个细分项,还有整数规划,非线性规划,目标规划

6.3 线性规划建模的操作过程

  • 建立逻辑清晰的表格

  • 设置输出单元格 目标单元格和可变单元格之间的运算关系

  • 设置线性规划建模参数

6.4 如何从数据中形成决策

6.5 4类典型且实用的线性规划模型

资源分配模型

成本收益平衡模型

网络配送模型

混合模型

6.6 线性规划模型小结

取决于我们有没有能力将现实问题抽象为线性规划问题

7 应用优化的工具

8 工作经验杂谈

对业务的理解和思考,永远高于分析技术的选择

你可能感兴趣的:(数据化运营速成手册笔记)