从一个实际问题来入门数据分析(一)

从一个实际问题来入门数据分析

某互联网app日活下跌了5%,作为数据分析师应该如何分析这个问题?

  • 核实相关信息,确定消息来源是否可靠。
  • 确定环比下跌量和同比下跌量
  • 方差分析:波动是否在正常范围内?
  • 交叉分析/相关性分析:与日活下跌存在相关的指标,相关程度?
  • 业务分析:相关指标负责的运营业务部门?是否有某些运营策略或者活动造成了这些指标的变化?
  • 回归分析/预测:还会下跌多久?最坏情况下会下跌到什么程度?
  • 风险/损失评估:对产品的核心KPI会产生什么样的影响?
  • 制定策略:如何挽回损失/下次如何避免?

下面对如上出现的关键词进行详细解释。

数据分析的流程

  • 首先确定要研究的具体业务问题,进而抓取相关数据。
  • 利用描述性统计和可视化工具先观察数据的表象,标注变化的维度或业务指标,对变化的数据进行多维分析和交叉分析。
  • 利用数据挖掘/机器学习等方法对趋势进行预测。 与相关业务部门针对发现的问题生成相关策略。
  • 推动策略的落地,检查策略的效果如何,最后进行复盘分析。

多维分析:将多维度的数据进行拆分、整合后分析。OLAP
交叉分析:分析两个变量时,将变量进一步细化,然后组合交叉分析。
复盘分析:推出的新策略效果如何?如果效果不错那能否继续优化?如果没有效果或反作用,寻找问题原因,记录在册,尝试突破新的方向。

环比和同比

环比:与连续的上个时间周期内的数据相比较

本月用户增长率环比上月增长了30%

同比:与不连续的前几个时间周期内的数据相比较

5月用户的增长率同比2月下跌10%

核心逻辑在于:是否是一个连续周期

方差分析

单因素方差分析适用于三组以上平均数差异的检验。
要求数据满足正态性、独立性和方差齐性的要求,对数据要求较高,数据为连续数据。

维度与指标

指标是反应业务特征及其变化的数据
维度是指可指定不同值的对象的描述性属性或特征。

  • 指标是有业务意义的,要反应业务变化的。
  • 指标是有类型的(业务类型、技术类型、行为指标、交易指标等)
  • 指标最少会关联一个维度
  • 指标是有更新频率的

维度是说明和观察事物的角度,指标是衡量数据的标准。
维度是定语、指标是主语或宾语
从一个实际问题来入门数据分析(一)_第1张图片

A/B Test

  • A/B Test是多方案并行的
  • A/B 的变量只能有一个

灰度、小流量、对照控制组

相关性分析

相关性分析是指对两个或多个具备相关性的变量元素进行分析,并且注意相关性不等于因果性

  • 离散和离散变量间的相关性:卡方检验、信息增益/率
  • 连续与连续变量间的相关性:协方差、线性相关系数(必须线性相关)。
  • 连续与离散变量间的相关性:连续变量离散化后使用卡方检验、箱型图

(1)分类问题
类别变量:用卡方检验
连续变量:先分箱为类别(分段),再用卡方检验(或颠倒自变量与因变量,再采用方差分析检验)
(2)回归问题
类别变量:方差分析
连续变量:用皮尔森相关系数

方差分析、卡方检验的其核心的区别:数据类型不一样
如果是定类和定类,此时应该使用卡方检验;
如果是定类和定量,此时应该使用方差或者T检验。
从一个实际问题来入门数据分析(一)_第2张图片

卡方检验

卡方检验的本质是将样本数据与预期结果进行比较。
适合卡方检验的条件:样本必须是随机的;卡方检验的理论频数不能太小。

常用的卡方检验:

  • 适合度检验(检验某变量各类的出现概率是否与给定的某种概率一致; 检验某个连续变量的分布是否服从某种理论分布。)
  • 独立性检验(检验两个变量是否相互独立。)
  • 同质性检验(检验两个或以上独立样本是否具有相同总体的某种特征。)
  • 总体方差检验与估计

从一个实际问题来入门数据分析(一)_第3张图片

互联网运营中常见的指标

用户数据指标

新增用户:日新增
活跃用户:日活跃率/周活跃率/月活跃率(如何定义根据业务需求)
日活/周活/月活(一个月里面至少一次登录,故统计要去重):DAU/WAU/MAU
留存用户:评估产品功能对用户的黏性效果
留存率:次日留存率/7日留存率/30日留存率 (40/20/10法则)

行为数据指标

访问次数(PV)、访问人数 (UV)、转发率(转发/看到)、转化率(购买/看到广告或进入店铺)、K因子

产品数据指标

成交总额、成交数量、客单价、付费率、复购率、访问时长
人均付费(ARPU)、付费用户人均付费(ARPPU)、人均访问时长

业务分析

漏斗分析

  • 连续流程
  • 转化率不要超过1%
  • 都已第一步为基线算或以上一步作为基线计算

看转化→看流失→每一步结合其他指标分析→转化率的时间变化→每步用户画像变化

核心KPI

北极星指标(核心指标)
好的指标应该是比率
Facebook:月活跃人数
拼多多:GMV
喜马拉雅:用户收听时长
Instagram:照片分享率

虚荣指标:注册用户等


未完待续…

你可能感兴趣的:(数据分析,产品运营,数据分析)