数据分析-导论

1 如何理解数据分析师?

  1. 数据:科学实验、检验、统计、观测等所获得的和用于科学研究、技术设计、查证、决策等的数值。
  2. 数据分析师:在互联网、金融、电信、医疗、旅游、零售等多个行业专门从事数据采集、清洗/处理、分析,能够利用统计数据、定量分析和信息建模等技术制作业务报告、进行行业研究、评估和预测,从而为企业或所在部门提供业务决策的新型数据分析人才。
    (1)数据抓取/采集:埋点(针对特定用户行为或事件进行捕获、处理和发送的相关技术及实施过程。如:点击/交互事件 、曝光事件、页面停留时间)、爬虫、API获取
    【注】 如何规划数据埋点?
    ① 业务需求拆解,转化为数据需求 ;
    ② 定义数据口径和指标统计方式 :
    a. 各类事件的分类和聚合(事件类型,页面位置…)
    b. 确定指标的数值类型、计数方式和记录规则
    c. 4W1H (who what when where how) 模型来选择数据
    (2)数据清洗/处理:唯一性、一致性(字段格式等)、完整性(无缺失值)、准确性(无异常值)
    (3)数据分析:描述性分析、诊断性分析、预测性分析、规范性分析
  3. 数据分析在互联网应用:精准营销 、精细化运营 、产品设计。

2 数据分析一般思路

  1. 分析问题黄金法则
    ① SCQA结构:情境Situation、冲突Conflict、问题Question、答案Answer。
    ② 金字塔模型:中心论点-分论点-论据。
  2. 数据分析师三板斧
    ① 找出问题:描述性分析;着眼变化(同比、环比、增长率),找出异常值。
    ② 分析问题:多维度分析(细分指标,如:用户指标、产品指标、运营指标、营销指标);交叉分析;相关性分析;预测性分析。
    ③ 解决问题:积极沟通促进业务落地。

【例】收入指标异常分析思路:
① 确定数据源是否异常,如服务器异常(跑数据挂了)、底层数据逻辑关联重复(join匹配值不唯一)、计算逻辑错误(分摊逻辑);
② 可视化初步定位问题:分维度考察,时间周期(活动促销)、商品品类(高价值产品)、用户分布(刷单欺诈风险)等。
③ 指标拆解分析具体问题:公式拆解法(如,收入=销售单价*数量 ),业务流程指标拆解法(如,收入=流量*转化率*转换频次*客单价)。

【拓展】
1)定位异常方法:a. 单变量–中心标准化值、对称分布的经验法则、平均值法/切比雪夫不等式(均值3倍标准差外(1-89%))、箱型图/四分位数法(距离上、下四分位点 1.5 倍四分位距IQR外); b. 多变量–快速聚类、折线图/散点图;
2)处理异常值方法-盖帽法/天花板/地板法**:距离均值大于三倍标准差的值使用三倍标准差的值替代,超出1.5倍IQR的值使用1.5倍IQR的值替代。

  1. 数据分析多元思维模型
    ① 数据分析:技术水平、逻辑性、价值体现
    ② 链接业务:有效沟通能力、业务理解能力、思维快速发散收敛能力
    ③ 宏观把握:高维视角、解决问题能力

3 不同业务场景的数据分析技术

  1. 统计学模型:统计学模型旨在挖掘变量之间的联系,因此具有很高的可解释性,但是预测的精准度往往不如使用机器学习算法做出的分析。
  2. 机器学习算法:机器学习算法牺牲了模型的可解释性,提高的预测的精准度。

你可能感兴趣的:(数据分析,数据分析)