数据分析师CDA认证 Level Ⅰ笔记(完结)

**黑色字体部分为考纲(截至2022年),蓝色字体部分为笔记,仅供参考

PART 1 数据分析概念与职业操守

1、数据分析概念、方法论、角色

【领会】

数据分析基本概念(数据分析、数据挖掘、大数据)

数据分析目的及其意义

数据分析方法与流程

数据分析的不同角色与职责

2、数据分析师职业道德与行为准则

【领会】

数据分析师职业道德操守

数据分析师专业行为准则

3、大数据立法、安全、隐私

【领会】

国外隐私相关法律要求(参阅《国际数据保护规则要览》)

国内大数据立法的历程和展望(参阅《中国大数据法治发展报告》)

欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)中企业和个人的数据使用权限

PART 2 数据结构

总体要求

理解表格结构与表结构的数据特征、理解表结构与表结构数据获取操作方法、理解表结构数据连接及汇总的逻辑、能够应用表结构连接及汇总逻辑关联多表进行汇总求值计算、能够制作ER关系图

1、表格结构数据特征

【领会】

表格结构数据概念

表格结构数据处理工具

【熟知】

表格结构数据特征

2、表格结构数据获取、引用、查询与计算

【领会】

表格结构数据获取方法

【熟知】

单元格区域的特征

【应用】

表格结构数据的引用方法

表格结构数据的查询方法

表格结构数据的常用函数

3、表结构数据特征

【熟知】

理解主键的意义

        表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开

理解维度及度量的意义

理解缺失值

表结构数据特征

表结构数据与表格结构数据差异

4、表结构数据获取、加工与使用

【领会】

表结构数据获取渠道及方法

【熟知】

表结构数据连接逻辑

表结构数据汇总逻辑

ETL作用、特征

【应用】

应用E-R图

计算两表连接汇总值

应用ETL获取及处理数据

PART 3 数据库应用

总体要求

理解数据库的基本概念、理解DDL及DML语言、能够根据业务需求及数据特征使用查询语言从数据库中获取准确、完整的数据信息、能够应用数据库函数进行数据处理及计算

1、数据库相关概念

【领会】

数据库分类

SQL语言的功能

【熟知】

数据库、数据库管理系统与SQL之间的关系

2、DDL数据定义语言

【领会】

数据库基本结构

【熟知】

数据类型

约束条件

        数据库三大范式

  1. 数据表中的每一列(每个字段)必须是不可拆分的最小单元
  2. 表中所有的列都必须依赖于主键
  3. 任何非主属性不依赖于其他非主属性

        五大约束

  1. 主键约束
  2. 非空约束
  3. 唯一约束
  4. 外键约束
  5. 默认值约束

        数据完整性

  • 实体完整性
    • 关系中的主属性值不能为Null且不能有相同值
  • 域完整性
    • 字段的值域、字段的类型及字段的有效规则等约束
  • 参照完整性
    • 关系中的外键必须是另一个关系的主键有效值,或者是NULL
  • 可以通过四种方式来实现
    • 约束
    • 规则
    • 默认值
    • 触发器
  • 完整性约束包括
    • 主键约束(PRIMARY KEY)
    • 外键约束(FOREIGN KEY)
    • 唯一约束(UNIQUE)
    • 非空约束(NOT NULL)
    • 检查约束(CHECK)

【应用】

创建、选用、删除数据库

        create database xxxx;

        use xxxx;

        drop database xxxx;

创建、修改、删除表

        create table yyyy;

        alter table yyyy add|modify|drop|rename column

        drop table yyyy;

3、DML数据操作语言

【领会】

添加数据的步骤

【熟知】

添加、修改、删除数据的语法规则

【应用】

添加数据

        insert into table (columns) values (v1s)

修改数据

        update table set column = value where …

删除数据

        delete from table where …

4、单表查询

【领会】

虚拟结果集

【熟知】

运算符

SQL语句的书写顺序和执行逻辑

【应用】

基本查询:去重查询、设置别名

        distinct

        as

条件查询:多条件查询、空值查询、模糊查询

        where

        is null

        like

分组查询:分组聚合、分组后筛选

        group by … having

查询结果排序、限制查询结果数量

        order by

        limit

        row_number()

5、多表查询

        from a,b,c

【领会】

对应关系:一对一、一对多、多对多

连接方式:内连接、左连接、右连接

连接条件:等值连接、不等值连接

【熟知】

连接查询的逻辑和联合查询规则

【应用】

连接查询:内连接、左连接、右连接

        inner join

        left join

        right join

联合查询:去重、不去重

        union/union all

6、子查询

【领会】

子查询分类

【熟知】

子查询位置、子查询操作符

【应用】

子查询语法规则

子查询优化

7、数据库函数

【领会】

计算字段

【熟知】

函数功能及参数

【应用】

数学函数、字符串函数、日期时间函数、分组合并函数、逻辑函数

PART 4 描述性统计分析

总体要求

理解统计基本概念、理解描述性统计相关知识内容、理解描述性统计图表定义及适用场景、能够应用描述性统计知识描述及探索业务问题

1、统计基本概念

【熟知】

统计学含义及其应用

统计学的基本概念:数据、总体、样本、参数、变量

        参数估计

  1. 估计量:用于估计总体参数的随机变量
    1. 如样本均值,样本比例,样本方差
    2. 例如:样本均值就是总体均值的一个估计量
    3. 参数用θ表示,估计量用\hat{\theta }表示
    4. 估计值:估计参数时计算出来的统计量的具体值
    5. 估计方法
      1. 点估计
        1. 矩估计法
        2. 最大似然法
        3. 顺序统计量估计法
        4. 最小二乘法
      2. 区间估计
    6. 点估计
      1. 用样本的估计量直接作为总体参数的估计值
      2. 没有给出估计值接近总体参数程度的信息
    7. 区间估计
      1. 在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到
      2. 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率量度
      3. \mu =\bar{x}\pm z_{\frac{\alpha }{2}}\sigma
        1. x为点估计值
        2. z为置信水平
        3. σ为标准差
        4. ±之后的值称为统计误差
      4. 置信水平
        1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平
      5. 影响区间宽度的因素
        1. 总体样本的离散程度
        2. 样本容量\sigma _{\bar{x}}=\frac{\sigma }{\sqrt{n}}
        3. 置信水平1-σ
    8. 估计量的评价
      1. 一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数
      2. 有效性:D(\hat{\theta })标准差越小越有效
      3. 无偏性:E(\hat{\theta })=
      4. 总体参数

        符号表示

        样本统计量

        均值

        μ

        \bar{x}

        比例

        π

        p

        方差

        ²

    9. 一个总体参数的区间估计
      1. 正态总体、²已知,或非正态总体、大样本(n≥30)
        1. z分布
        2. 正态分布,方差已知\bar{x}\pm z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}
        3. 非正态分布,可由正态分布来近似\bar{x}\pm z_{\frac{\alpha }{2}}\frac{s}{\sqrt{n}}(未知)
      2. 正态总体、²已知,小样本
        1. t分布
        2. \bar{x}\pm t_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}
    10. 总体比例的区间估计
      1. 假定条件
        1. 总体服从二项分布
        2. 可由正态分布近似
      2. 使用正态分布统计量z
      3. 总体比例Π在1-a置信水平下的置信区间为
    11. 总体方差的区间估计
      1. 估计一个总体的方差或标准差
      2. 假设总体服从正态分布
      3. 总体方差2的点估计量为s2,
      4. 总体方差在1-a置信水平下的置信区间为
  2. ​​​​​​假设检验
     
    1. 假设:对总体参数的具体数值所作的陈述
    2. 假设检验:先对总体的参数提出某种假设,然后利用样本信息判断假设是否成立的过程
      1. 类型
        1. 参数检验
        2. 非参数检验
      2. 逻辑上用反证法,统计上运用小概率原理
    3. 原假设H0
      1. 0假设
      2. =,≥,≤
    4. 备择假设H1
      1. 研究假设
      2. ≠,>,<
      3. ​​​​

         

        双侧检验

        左侧检验

        右侧检验

        原假设

        H0:μ=μ0

        H0:μ≥μ0

        H0:μ≤μ0

        备择假设

        H1:μ≠μ0

        H1:μ<μ0

        H1:μ>μ0

        两类错误

        1. 第Ⅰ类错误-弃真错误
        2. 第Ⅱ类错误-取伪错误

        影响β错误的因素

        1. 总体参数的真值:随着假设的总体参数的减少而增大
        2. 显著性水平:当α减少而增大
        3. 总体标准差:σ增大而增大
        4. 样本容量:n增大而减少

        显著性水平α

        1. 是一个概率值
        2. 原假设为真时,拒绝原假设的概率(拒绝域)
        3. 常用0.01,0.05,0.10
        4. 由研究者事先确定

        一个总体参数的检验

        1. 检验统计量的确定
        2. 总体均值的检验

        大样本容量

        σ已知

        z检验=±2~(0,1)

         

        σ未知

        z检验=±2~(0,1)

        小样本容量

        σ已知

        z检验=±2~(0,1)

         

        σ未知

        t检验=±/2~(−1)

        总体比例的检验

        总体方差的检验

        总体比例的检验d 总体方差的检验 通常在t 检验之前我们首选需要进行进行F检验(方差齐性检验),判断两个总体的方差是否存在显著差异

        Z检验

        总体呈正态分布

        总体方差已知

        样本量较大

         

         

        t检验

        总体呈正态分布

        总体方差未知

        样本量较小

         

        最小样本量公式

        n为样本量

        σ2为方差,抽样个体值与整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的样本量越多

        E为抽样误差,由于是倒数平方关系,抽样误差减小1/2,抽样量需要增加4倍

【领会】

描述性统计图表:直方图、散点图、箱型图

  1. 描述性统计图表
  2. 构成类图表
  3. 序列类图表
  4. 比较类图表

集中趋势的描述:众数、中位数、分位数、平均

  1. 众数:出现次数最多的变量值(分类型数据/顺序型数据/数值型数据)
  2. 分位数(顺序型数据/数值型数据)
  3. 均值(数值型数据
  • 简单算术平均数
  • 加权算术平均数
  • 简单几何平均数
  • 加权几何平均数
  • 简单调和平均数
  • 加权调和平均数
  • 算术平均数≥几何平均数≥调和平均数

离散程度的描述:极差、方差、标准差、离散系数、变异系数

  1. 极差R=max-min
  2. 四分位差
  3. 平均差M_{d}=\frac{\sum_{i=1}^{n}\left | x_{i}-\bar{x} \right |}{n}
  4. 方差\sigma ^{2}=\frac{\sum_{i=1}^{n}\left ( x_{i}-\bar{x} \right )^2}{n}
  5. 标准差\sigma =\sqrt{\sigma ^{2}}
  6. 样本方差S ^{2}=\frac{\sum_{i=1}^{n}\left ( x_{i}-\bar{x} \right )^2}{n-1}
  7. 样本标准差S =\sqrt{S ^{2}}
  8. 离散系数(变异系数)V_{S}=\frac{S}{\bar{x}}

分布形态的描述:偏态、峰态

        偏态

  1.                 偏态系数为正,则为右偏分布,平均数>中位数>众数
    1.                 偏态系数为负,则为左偏分布,平均数<中位数<众数

        峰态        

  1.                 由于正态分布的峰态系数为0;若峰态系数的值明显不等于0,则分布比正态分布更平或更尖
    1.                 当K>O时为尖峰分布,数据的分布更集中;当K

【应用】

能够应用描述性统计知识对业务数据进行恰当的数据特征描述,针对数据描述特征阐述业务问题、探索问题原因、提出解决问题方法

3、统计分布

【熟知】

两点分布、二项分布、正态分布、分布、T分布、F分布

  1. 1. 离散分布
  2.     i. 两点分布
  3.     ii. 二项分布
  4. 2. 连续分布
  5.     i. 正态分布
  6.     ii. 标准正态分布
  7. 3. 抽样分布
  8.     i. 卡方分布
  9.         1) 期望E(x²)=n,方差D(x²)=2n
  10.         2) 可加性:两个独立随机变量U、V服从自由度为m、n的x2分布,则U+V服从自由度为m+n的x²分布
  11.     ii. t分布
  12.         1) 定义:X~N(0,1),Y~X2(n),且X、Y相互独立,则t=\frac{x}{\sqrt{\frac{Y}{n}}},自由度为n的t分布
  13.         2) n≥2时,期望E(t)=0,n≥3时,方差D(t)=n/(n-2)
  14.     iii. F分布
  15.         1) 定义:U~X²(m),V~X²(n)且相互独立,则F=(U/m)/(V/n),记F~F(m,n)
  16.         2) 期望E(F)=n/(n-2),n>2,方差t = \frac{2n^{2}(m+n+2))}{m(n-2)(n-4)},n>4
  17.         3) F分布与t分布关系:如果X~t(n),则X²~F(1,n)

4、相关分析

【熟知】

相关分析的描述:散点图、相关分析的类型

相关关系的度量:相关系数

  1. 相对位置的量度——标准化值
    1. z_{i}=\frac{x_{i}-\bar{x}}{S}
    2. 切比雪夫不等式:对于任意分布形态的数据,至少有1-1/k2的数据落在平均数±k个标准差内。其中k是大于1的任意值,不一定为整数
  2. 协方差Cov(Y, X))=\frac{\sum_{i=1}^{n}\left ( y_{i}-\bar{y} \right )\left ( x_{i}-\bar{x} \right )}{n-1}
  3. 相关系数Cor(Y, X))=\frac{Cov(Y,X)}{S_{y}S_{x}}=\frac{\sum_{i=1}^{n}\left ( y_{i}-\bar{y} \right )\left ( x_{i}-\bar{x} \right )}{\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^2\sum_{i=1}^{n}(x_{i}-\bar{x})^2}}

PART 5 多维数据透视分析

总体要求

理解多维数据模型价值、理解多维数据模型逻辑、理解透视分析原理、能够活用多维数据模型结合恰当透视方法观测业务问题实现商业洞察

1、多表透视分析逻辑

【熟知】

熟知透视分析的作用价值

理解多表环境下的连接、透视逻辑

【应用】

能够通过表的字段理解该表所代表的业务维度及业务意义,能够通过表的业务意义倒推回表中字段的主键、维度、度量属性

2、多维数据模型

【领会】

了解使用多维数据模型的业务意义

【熟知】

熟知多维数据模型的创建方法

熟知多维数据模型中连接方式与汇总结果间的关系

熟知多维数据模型下汇总维度与筛选维度间的差异及各自的适用场景

【应用】

能够通过5W2H思维模型梳理业务线索,搜集完整的多表数据

        5W2H模型

  • who
  • where
  • when
  • what
  • why
  • how much
  • how to do

能够根据业务需求,按照正确的连接关系创建完整、准确、全面的多维数据模型

能够根据多维数据模型推导出可探索的业务问题范围,实现业务洞察

3、透视分析方法

【领会】

透视分析的价值及意义

【熟知】

熟知基本透视规则

  1. 合计规则
  2. 计数规则
  3. 平均规则
  4. 最大最小值规则

熟知条件筛选透视规则:多条件透视计算、不同层级维度透视计算

熟知基本对比计算规则:均比、基准比、标准比、百分比、差异百分比

  1. 均比:实际值与平均值之间的对比(同类型产品销售情况)
  2. 基准比:实际值与基准值之间的对比(成绩水平)
  3. 目标比:实际值与目标值之间的对比(销售业绩绩效)
  4. 标准比:实际值与标准值之间的对比(工厂工作水平绩效)
  5. 占比:部分与总体的对比(不同区域销售额占比)

熟知时间维度下的透视计算规则:不同时间段、不同时间位移量下的透视计算规则

  1. MTD
  2. YTD
  3. QTD
  4. 环比
  5. 同比
  6. 对比百分比公式=实际值/对比值×100%
  7. 差异百分比公式=(实际值-对比值)/对比值×100%

熟知行间透视与字段上透视的差异

【应用】

能够根据业务需求选择创建正确的透视规则

能够将透视规则应用在正确的多维模型下描述业务问题

能够通过透视结果理解业务问题

透视结果与预期结果不符时,能够检查、追踪问题原因

PART 6 业务数据分析

总体要求

理解业务数据分析方法、掌握业务数据分析流程、能够使用及设计创建业务指标、能够结合业务模型及业务分析方法正确理解业务问题,找到问题原因,并能够提出解决问题建议

1、数据驱动型业务管理方法

【熟知】

熟知数据从业务中来到业务中去的全过程

熟知数据驱动型业务管理的价值意义

熟知数据驱动型业务管理流程

熟知数据驱动型业务管理思维方式

        经验为主数据为辅,经验比数据更可信

【应用】

能够通过数据驱动型业务管理流程找到业务分析与业务管理需求的结合点,能够正确理解数据的出处及产生逻辑,能够正确的运用数据为业务管理提供有价值的数据分析结果

2、指标的应用与设计

【领会】

指标的作用

【熟知】

熟知从指标结果出发到业务行为落地的思维过程及分析方法

熟知指标与透视计算间的关系

熟知常用指标

流量相关指标

  1. CPM-cost per mille 每千次曝光收费
  2. CPS-cost per sales 实际销售收费
  3. CPC-cost per click 点击次数收费
  4. UV 访问对应维度的非重复用户数
  5. PV 浏览页面的总次数
  6. Visits 统计会话数
  7. 新访客数 新进访客数
  8. 平均访问深度 PV/Visits
  9. 跳失率 跳出次数/Visits
  10. 新访客占比 新访客数/UV

转化相关指标

  • 电商黄金公式: 销售额 = 流量 * 转化率 * 客单价
  • 一级指标(企业中指定指标有一定差异 结合实际情况)流量数量重要指标:前提是时间内 比如1天
    • 访客数( UV):到达店铺页面的非重复用户数
    • 浏览量( PV):店铺内浏览和查看页面的累加次数
    • 访问次数( Visits):一个会话内被用户连续访问的次数(时间内打开到关闭算一次),代表不同渠道带来客户次数
    • 跳失次数: 一个会话内用户只看一次页面就关闭的次数
    • 新访客数: 新进访客数
  • 二级指标流量质量重要指标
    • 平均访问深度:浏览量/访问次数,代表客户对网页兴趣程度,起到流连忘返效果,容易触发成单,=PV/UV
    • 跳失率:跳出次数 / 访问次数
    • 新访客占比: 新访客数 / 访客数

营运、销售相关指标

        成交额:GMV、实际销售额、税后销售额、退款额

        成交量:实际订单量、销量、退款订单量、上架数量

        完成情况:目标达成率、退货率

        效果:屏效、商品关联性

库存类指标

        库龄=存放仓库时长

        库存周转次数=平均库存量/出库总量

        订货满足率=按合理需求正常供货次数/产品被要求供货的总次数

        缺货率=缺货次数/总订货次数

        售罄率=1-库存金额/进货金额

常用财务指标

绩效类指标

客户相关指标

熟知拆解业务需求设计指标方法

【应用】

能够根据指标结果洞察业务问题及影响

能够根据业务场景选择恰当的指标进行观测

能够根据业务需求设计新指标,完善指标体系

3、业务分析方法

【领会】

不同业务分析方法各自的作用

【熟知】

熟知以下业务分析方法:

客户分析:客户来源分析、客户价值分析、客户生命周期分析、客户行为分析

商品分析:商品进销存分析、商品渠道分析、商品耗损分析、商品价格分析

流量、转化分析:流量转化分析、流量渠道分析

行为效果分析:活动效果分析、销售分析、其他行为效果分析

业务分析模型:漏斗模型、RFM模型、客户价值模型

数据分析师CDA认证 Level Ⅰ笔记(完结)_第1张图片

 数据分析师CDA认证 Level Ⅰ笔记(完结)_第2张图片

         右上左下提升难度大

业务分析方法:树状结构分析法、二八分析法、四象限分析法、同期群分析法

        树状结构分析

        二八分析

        四象限分析-波士顿矩阵(明星类-高-高,问题类-低-高,奶牛类-高-低,瘦狗类-低-低)

        同期群分析

        AARRR模型

                Acquisition用户获取

                        日新登用户数(DNU)

                Activation用户激活

                        日活跃用户数(DAU)

                        周活跃用户数(WAU)

                        月活跃用户数(MAU)

                        日均使用时长(DAOT)

                        DAU/MAU

                Retention用户留存

                        次日留存率(Day 1Retention Ratio)

                                定义:日新增用户在+1日登录的用户数占新增用户的比例。

                        三日留存率(Day 3Retention Ratio)

                                定义:日新增用户在+3日登录的用户数占新增用户的比例。

                        七日留存率(Day 7Retention Ratio)

                                定义:日新增用户在+7日登录的用户数占新增用户的比例。

                        日流失率(Day 1Churn Ratio)

                                定义:统计日登录APP,但随后7日未登录APP的用户占统计日活跃用户的比例。

                        周流失率(Week Churn Ratio)

                                定义:上周登录过APP,但是本周未登录过APP的用户占上周周活跃用户的比例。

                        月流失率(Month Churn Ratio)

                                定义:上月登录过APP,但是本月未登录过APP的用户占上月月活跃用户的比例。

                Revenue获得收益

                        付费率(PR或者PUR)

                        活跃付费用户数(APA)

                        平均每用户收入(ARPU)

                        平均每付费用户收入(ARPPU)

                        生命周期价值(LTV)

                Referral推荐传播

                        K因子

                        K=(每个用户向他的朋友们发出的邀请的数量)×(接收到邀请的人转化为新用户的转化率)。

【应用】

能够应用恰当分析方法解决业务问题

能够将数据处理分析技能融入到业务分析方法中,为数据驱动型业务管理提供正确、全面、客观的数据依据

PART 7 业务分析报告与数据可视化报表

总体要求

理解业务分析报告与数据可视化报表的制作方法、能够结合业务需求撰写正确的业务分析报告,能够结合业务需求创建全面的数据可视化报表

1、可视化分析图表

【领会】

业务图表与统计图表的区别

【熟知】

业务图表决策树

熟知比较类图表的使用方法

  1. 油量表
  2. 圆环百分比进度图
  3. 柱状图
  4. 条状图
  5. 雷达图
  6. 树状图
  7. 地图

熟知描述类图表的使用方法

  1. 直方图
  2. 散点图
  3. 箱型图
  4. 气泡图
  5. 关系图
  6. 指标卡

熟知结构类图表的使用方法

  1. 饼图
  2. 环形图
  3. 南丁格尔玫瑰图
  4. 堆积图
  5. 百分比堆积图
  6. 瀑布图

熟知序列类图表的使用方法

  1. 折线图
  2. 面积图
  3. 柱状图
  4. 漏斗图

【应用】

能够根据数据特征及业务需求选择正确的业务类图表使用

能够通过图表展示内容理解业务问题

2、撰写业务分析报告

【领会】

业务分析报告作用

【熟知】

熟知业务分析报告撰写流程

熟知业务分析报告撰写注意事项

熟知业务分析报告设计方法

【应用】

能够根据业务需求选择正确的报告论点

能够根据报告论点搜集并展示充分、正确的数据依据

能够撰写合理严谨的分析报告,并提出有价值的分析建议

3、创建数据可视化报表

【领会】

数据可视化报表的作用

【熟知】

熟知数据可视化报表与业务分析报告的差异

熟知数据可视化报表的创建过程

熟知数据可视化报表的设计思路

熟知数据可视化报表的应用方法

【应用】

能够结合业务需求设计可落地的数据可视化报表内容

能够将抽象的业务需求转化为具象的数据维度与度量描述

能够制作可清晰、准确、全面地描述业务问题、展示业务全面场景的数据可视化报表

 

业务分析报告

可视化报表

数据结构

表格

数据源

单数据源

多数据源

分析侧重点

业务点

业务面

展示形式

静态报告

动态报告

信息获取方式

被动

主动

内容特点

深入阐述业务问题并给出合理建议

全面、深入、不提供建议

载体

word、ppt

BI

你可能感兴趣的:(数据分析,数据分析)