数据分析基础

9种数据分析方法

数据分析的本质:用不同视角去拆分、观察同一个数据指标

  • 对比分析
    比什么?

    含义 应用 缺点
    绝对值 本身具备价值的数字 销售金额/阅读数 不易得知问题的严重程度
    比例值 在具体环境中看比例才具备对比价值 活跃占比/注册转化率 易受极值影响

    怎么比?

    含义 应用
    环比 与当前时间范围相邻的上一个时间范围对比
    对短期内具备连续性的数据进行分析
    需要根据相邻时间范围的数字对当前时间范围的指标进行设定
    同比 与当前时间范围上层时间范围的前一范围中同样位置数据对比
    观察更为长期的数据集
    观察的时间周期里有较多干扰,希望某种程度上消除这些干扰

    和谁比?

    含义 应用
    和自己比 从时间维度/不同业务线/过往经验估计
    和行业比 行业趋势
  • 多维度拆解
    原理:指标/业务流程需要按照多维度拆解来观察变动

    • 分析单一指标的构成(播放量分析/日活分析)
      分栏目的播放量
      新老用户比例
    • 针对流程进行拆解分析(支付漏斗分析【注册-下单-支付】)
      不同渠道的浏览/购买转化率
      不同省份的活动参与漏斗
    • 还原行为发生时的场景(主播打赏分析)
      打赏主播的等级/性别/频道
      是否在WiFi或4G环境下
  • 漏斗观察
    运作原理:通过一连串向后影响的用户行为观察目标
    适用场景:有明确的业务流程和业务目标
    建议漏斗时容易出现的坑
    【坑1】漏斗一定是有时间窗口的:根据业务实际情况,选择对应的时间窗口

    • 按天:对用户心智的影响只在短期内有效(短期活动)
    • 按周:业务本身复杂/决策成本高(理财/美股开户)
    • 按月:决策周期更长(装修/买房/婚礼)

    【坑2】漏斗一定是有严格顺序的

    • 不可以用【ABCDE】的漏斗看【ACE】的数据

    【坑3】漏斗的计数单位可以基于用户,也可以基于事件

    • 基于用户:关心业务流程的推动
    • 基于事件:关心某一步具体的转化率(无法获知事件流转的真实情况)

    【坑4】结果指标的数据不符合预期

    • 自查:是否只有这一个漏斗能够到达最终目标
  • 分布情况
    运作原理:从事件在不同维度中的分布来观察,了解除了累计数量和频次外更多维度的信息
    适用场景:用户层面/事件层面
    用户:已知一群用户完成了指定事件,需要对用户群体进行细分,按不同维度和价值将他们划分为不同的群体,分别进行后续的维护和分析。【RFM模型
    事件: 已知单个事件的完成次数,希望知道这些次数拆分到不同维度上的分布情况,以便更清晰的了解该事件的完成情况。
    常见的群体划分

    • 事件频率(按照一天做几次划分用户)
    • 一天内的时间分布(按照一天累计时长划分用户)
    • 消费金额的区间(按照消费金额划分用户)
  • 用户留存
    运作原理:大盘留存/精准留存
    适用场景:评估产品功能粘性,验证产品长期价值

    • 大盘留存(一般计算方式)
      将某一时间段的用户ID与另一时间的用户ID做交叉去重(产品/运行/技术/市场每个环节都会对留存造成影响,不准确)
    • 精准留存
      • 过滤进行过指定行为的用户ID再计算(计算不同类型小说的用户留存)
      • 将用户分为不同的群体后,观察其之间留存的区别(计算游戏每个区服的用户留存)
  • 用户画像
    运作原理:通过对用户各类特征进行标识,给用户贴上各类标签,通过标签将用户分为不同的群体,以便对不同的群体分别进行产品/运营动作
    适用场景:市场营销/个性化运营/业务分析/用户研究
    标签有哪些?

    • 基础属性(年龄/性别/生日/星座/教育/身高/收入/职业...)
    • 社会关系(婚姻/孩子/老人/性取向...)
    • 行为特征(基本行为(注册时间/来源渠道...)/业务行为(买过特惠商品/获得过一些标识...))
    • 业务相关(健身产品:胖瘦高矮/体脂率...)

    标签从哪来?

    • 直接填写
    • 通过用户自己的已有特征推导(成本高,需要思考,不会经常做)
      何时需要推导:做针对性的活动/简单的个性化运营/业务分析/用户研究
    • 通过用户身边的人推断(距离相近(lookalike)/行为相似(协同过滤))
  • 归因查找
    找出事件发生的主要原因
    运作原理:将事件拆解,根据业务性质,确定影响事件完成的关键部分

    • 末次归因:转化路径短,且事件间关联性强的场景(看直播充值)
    • 递减归因:转化路径长,非目标事件差异不大,没有完全主导的(游戏充值)
    • 首次归因:强流量依赖的业务场景,拉人比后续所有事都重要(小额贷款)

    适用场景

    • 将目标的达成拆分到各个模块,方便统计各模块的贡献(【绩效分配】(用户付费是谁的功劳))
    • 获悉当前指标达成的主要因素,获得如何提升业务指标的洞察(【房地产/汽车网站】(用户留下资料方便售卖))
  • 路径挖掘
    运作原理:逐级展开某一事件的前一级(后一级)事件,观察用户流向/行为路径
    适用场景

    • 有明确的起始场景(希望观察这个场景之后用户流去了哪里)
    • 有明确的结果目标(希望观察来的用户是如何到达的)
  • 行为序列
    运作原理:将单一用户的所有行为以时间线的形式进行排列
    适用场景

    • 观察掩盖在统计信息下更细致的信息,还原用户具体的使用场景
    • 通过观察具体的行为特征,找到提升产品价值的机会点

5种常见业务场景

  • 数据涨跌异动如何处理:跌:采取动作,减缓趋势,涨:弄清原因,并放大
    发现异常→确定问题→确定原因→针对性解决问题→执行
    【某天收入跌了10%】考虑思路(【业务洞察】要不断积累经验)
    问题严重吗?
    【假设】是个例,往期应该没这么大幅度
    【证明】周同比/月同比都没有这个跌幅
    【结论】这是个问题(很严重)
    服务挂了吗?
    【假设】是技术问题,会存在断崖式下跌,修复好会回来
    【证明】按小时查看,符合平时流量规律
    【结论】服务没问题
    渠道问题?
    【假设】是渠道问题,会存在某个渠道远低于平时的流量
    【证明】按渠道拆解,某个渠道确实下降将近20%
    【结论】渠道有问题,进一步查询
    地区缺货?
    【假设】是缺货问题,会存在某个地区远低于平时的销量
    【证明】按城市拆解,有城市低了不少
    【结论】怀疑与当地动作有关
    常见通用假设
    ** 活动影响**:查看活动页面及对应动作的数据波动,关注活动是否有地域属性
    版本发布:将版本号作为维度,区分查看(用户注册转化率)
    渠道投放:查看渠道来源变化
    策略调整:策略上线时间节点,区分前后关键指标波动
    服务故障:明确故障时间,按显示为维度进行小时或者分钟级别的拆分

  • 评估渠道质量,确定投放优先级
    常见渠道划分方式

    来源
    具体的流量实体
    媒介
    实体中承载推广的实体
    其他参数
    百度/头条/线下 SEM/自然搜索结果/Bannner 营销活动名称/广告关键词

    渠道质量跟踪(带来的用户是否是目标用户
    完成关键事件就是目标用户(电商【购买】/社区【发帖】)
    关键事件选择要根据业务,不要门槛太高或太低

  • 功能/内容上线后,如何评估其短期效果/长期价值/未来潜力?

    • 上线后的目标与价值清晰明确(用户付费/营收)
      • 借助漏斗分析对比(转化关系明确)
      • 借助用户分群对比(转化关系复杂)
    • 上线后关注其对产品价值的提升(长期留住用户)
      • 借助精准留存对比
    • 上线以探索更长期的产品潜力(占据用户更多时间)
      • 借助分布情况分析
        • 从对使用情况的促进作用来观察(使用次数增加)
        • 从占据用户一日时间段的角度来观察(使用时间段)
  • 使用用户画像了解数字背后的用户

    • 高质量的拉新
      从现有用户中找到我们真正的用户→找到真正的用户特征→按此特征找到类似的用户
      真正的用户:高留存/核心行为频次、完成率高
      特征:是谁?(年龄/受教育程度/地域/消费能力)从哪来?(记录渠道来源/电话访谈)
    • 精准运营推送
      • 运营资源盘活
        不同人群在同一个运营资源位上得到不同的信息(千人千面);同时要在千人千面和千人x面找到ROI(投资回报比)的平衡

        常规做法:出台排期表/一套运营资源使用规则(一天最多只能推3条/同一类型的营销在一周/月内不能重复推送/...)
        问题:整个公司的内部营销资源存在上限
        如果运营策略能够自动化运行,可以实现千人千面。

        更好的做法:精细化的用户分群运营(7~8个标签往往就够了)
        优势:既能提升整个公司的可用资源,也能提升收到推送的用户自己的体验
        问题:运营力量有限,分群太多,运营团队要写太多推送文案/页面
        办法:在ROI上找到一个平衡点,优先选择容易出成绩的(电商的性别标签/首页/每日推送)

        怎么选择最初的7~8个标签
        • 人口统计学意义上的标签(电商:性别/教育:地域)
        • 业务相关的标签(教育:年级/健身:BMI)
      • 推送内容与用户有关
        基于用户行为序列,调整推送内容;使用户感受到私人化的推送
        如何实现?
        向我说话:利用用户留下的信息,在推送文案里使用对应名称
        由我触发:通过挖掘用户的行为序列,将推送行为与用户某个行为挂钩
        和我有关:推送的活动和真正用户的需求有关
    • 辅助产品设计
      谁在用?(用户画像)
      什么情况下用?(行为序列)
      干什么&会遇到什么问题?(行为序列/屏幕录像)
      不要套数据!如果有更直接的方式get用户场景,大胆去用
  • 羊毛党盛行,如何快速查出是谁在薅羊毛?
    抓作弊的方法:找到【1】→找到模式→找到【N】→一网打尽
    找到【1】:发现数据异常(异常高且无理由的流量/工作人员观察/人工举报)
    找到模式:明确目的(刷量/薅羊毛/spam)观察特征【行为序列相似】(机刷/人肉刷/量异常多/留存少)
    找到【N】:按规则爬取并人工审核
    一网打尽:封禁/封禁权限/屏蔽/定向屏蔽|提高关键成本/注册七天后方可发帖/减少库存/提高提现审核力度|如果成本太高或者问题不大就不处理了

你可能感兴趣的:(数据分析基础)