CDA数据分析师Level_1大纲最全解析

PART 1 数据分析概述与职业操守(占比3%

a. 数据分析概念、方法论、角色(占比1%)

b. 数据分析师职业道德与行为准则(占比1%)

c. 大数据立法、安全、隐私(占比1%)

u 1、数据分析概念、方法论、角色

【领会】

数据分析基本概念(数据分析、数据挖掘、大数据)

数据分析:就是用数据来理性思考和决策的过程;

数据分析目的及其意义

数据分析方法与流程

数据分析的不同角色与职责

数据分析的分类:

  1. 数据分析(Data Analysis):是以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标;
  2. 数据挖掘(Data Mining):是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程;

数据化工作:EDIT数字化模型:

E(Exploration)探索:指标体系;业务运行探索:探索关注企业各项业务的运行状态,各项指标是否合规,各项业务的具体数据情况等;

D(Diagnosis)诊断:性质分析法,数量分析法;问题根原因诊断:当业务指标偏离正常值时,采用定性和定量相结合的方式,在中、微观层面定位和分析问题;

I(Instruction)指导:知识库、策略库、流程模板;业务策略指导:在确定获得客群体后,我们就需要考虑如何制定业务策略指导。根据知识库、策略库和流程模板可以便捷的制定优化策略;

T(Tools)工具:数据模型,算法模型,优化模型;智能算法工具:算法架构是EDIT数据化模型的发动机,服务于价值经营,客群运营,全面质量管理,全面风险管理等各个方面;

u 2、数据分析师职业道德与行为准则

【领会】

数据分析师职业道德操守

对于我们数据分析师,在价值观(开放、创新、分享)的基础上,同样有更高的职业道德操守与行为准则,需要我们每一位数据分析师都遵守;

职业道德操守:将数据产权、用户利益和机构利益置于个人利益之上,保护数据资产的安全性,遵循数据的真实性、可靠性,禁止技术欺诈、数据造假、非法交易,损害用户和机构利益;

保持和加强自身职业道德操守以及同行的操守,不参与任何违法行为,包括但不限于:偷窃、欺骗、腐败、挪用或贿赂,不使用或滥用他人的产权,包括数据产品和知识产权,不参与诽谤和侮辱,不宽恕或帮助他人参与违法行为;

数据分析师专业行为准则

数据分析师的行为准则,告诉我们应该怎么去做;

行为准则:专业、审慎、高效的完成各项数据分析的业务流程:

全面了解业务背景、痛点、需求,做出分析建议,与团队充分沟通,确定合理的业务指标,获取符合要求的源数据;

保持工具和算法的前沿性、适用性、高效性。根据业务需要,选择合理的工具、平台、系统和算法。

不断迭代并优化业务指标与数据模型;

撰写专业可视化报告,逻辑清晰展示项目成果,并做出具有商业价值的建议。

尊重契约,按时按质完整交付工作成果,并对相关数据、代码、结果进行保密;

履行后期义务与责任,完整交付结果后,对客户须进行后期解答、咨询、维护等服务,对机构义务须进行后期跟进、优化、指导建议等工作;

u 3、大数据立法、安全、隐私

【领会】

国外隐私相关法律要求(参阅《国际数据保护规则要览》)

国内大数据立法的历程和展望(参阅《中国大数据法治发展报告》)

欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)中企业

和个人的数据使用权限

有关数据隐私和安全的立法,是一个单独的、严谨的领域,而且内容庞杂。无需背诵法条,而是要掌握数据安全法的立场与原则,然后去分析相关实际问题。

隐私与安全:隐私是一种个人的权利,即我的个人信息不被滥用,不被他人知道的权利;

安全是一种机制,即为了确保隐私权得到保护而设立的一种机制。

首先明确个人权利,然后设置机制去保护权利。

外国的相关法律:

GDPR条例:其核心目标是将个人数据保护深度嵌入组织运营,真正将抽象的保护理论转化为实实在在的行为实践;

企业在收集用户的个人信息之前,必须向用户说明:将收集用户的哪些信息、收集到的信息将如何进行存储、存储的信息会如何使用、企业的联系方式。

用户享有的权利有:一、数据访问权。二、被遗忘权。三、限制处理权。四、数据携带权。

我国的相关法律:《刑法》、《中华人民共和国网络安全法》。

《中华人民共和国网络安全法》:网络运营者收集、使用个人信息必须符合合法、正当、必要原则;

网络运营者收集、使用公民信息的目的明确原则和知情同意原则;

公民个人信息的删除权和更正权制度;

2020年6月28日-30日,《中华人民共和国数据安全法》迎来初次审议。

确立数据分析分类管理以及风险评估,检测预警和应急处置等数据安全管理各项基本制度;

明确开展数据活动的组织、个人的数据安全保护义务,落实数据安全保护责任;

坚持安全与发展并重,锁定支持促进数据安全与发展的措施;

建立保障政务数据安全和推动政务数据开放的制度措施。

PART 2 数据结构(占比15%

a. 表格结构数据特征(占比2%)

b. 表格结构数据获取、引用、查询与计算(占比3%)

c. 表结构数据特征(占比5%)

d. 表结构数据获取、加工与使用(占比5%)

总体要求

理解表格结构与表结构的数据特征、理解表结构与表结构数据获取操作方法、理解表结

构数据连接及汇总的逻辑、能够应用表结构连接及汇总逻辑关联多表进行汇总求值计算、能

够制作ER 关系图

u 1、表格结构数据特征

数据类别:结构化数据和非结构化数据。结构化数据:交易记录、财务数据、产品信息等。非结构化数据:网站图片、视频、社交聊天记录等。

正在上传…重新上传取消

【领会】

表格结构数据概念

表格结构数据层级:对象间的父子级关系:父级→子级:一个父级对象下包含多个不同子级对象;子级→父级:一个子级对象只能属于某一个特定的父级对象;例如:省份与城市,月份与日期。

表格结构数据的数据类型:

正在上传…重新上传取消

表格结构数据处理工具

电子表格、数据库软件等

【熟知】

表格结构数据特征

u 2、表格结构数据获取、引用、查询与计算

【领会】

表格结构数据获取方法

从企业后台数据库系统获取:

后台数据库系统获取数据流程

正在上传…重新上传取消

前端操作平台获取数据:前端操作平台 :ERP、CRM等,获取电子表格工具支持的数据文件。

从企业外部渠道获取数据:CSV、TXT、XLSX、ET.

【熟知】

单元格区域的特征

表格结构数据使用方法:

【应用】

表格结构数据的引用方法

单元格值的引用方法:引用同一工作表内单元格值:通过=行号+列号 定位单元格,如=A1;

引用单元格值:通过 =表名!+列号+行号定位单元格,如=Sheet1!A1;

单元格区域值的引用方法:

单元格区域:单元格区域需要由连续的单元格构成,单元格区域需要是一个方形区域;

引用相同工作表内的单元格区域:=左上单元格:右下单元格;如:

引用不同工作表内的单元格区域=表名!左上单元格:右下单元格;

引用多行:=上边行号:下边行号;

引用多列:左边列号:右边列号;

表格结构数据的查询方法

查询方法:a.使用表格工具搜索功能进行查询;b.使用查询函数进行查询;

函数:1.=;2.函数表达式;3.参数;4.操作符;5.返回值。如=sum(A1:A13)返回求和值。

用查询函数进行查找:VLOOPUP;

不同查询函数的基本逻辑相同,都是在某个范围内以某种方式查询与查询条件值相匹配的单元格值。

表格结构数据的计算方法:

  1. 直接计算:使用运算符连接单元格或单元格区域进行计算。常用运算符:

正在上传…重新上传取消

  1. 表格结构数据的常用函数

表格结构数据的计算方法-函数计算:使用函数对单元格及单元格区域值进行计算并返回计算结果。

正在上传…重新上传取消

u 3、表结构数据特征

表结构数据:以字段或记录作为数据的引用、操作及计算的基本单位的数据。

字段:整列数;字段名不能重名,一个字段只能有一种数据类型。

记录:整行数;

【熟知】

理解主键的意义

物理意义:单字段主键:由一个字段构成的主键;多字段联合主键:由多个字段构成的主键,非空不重复,定位记录行、字段名+主键值定位具体数值;多以xxID、XXNO等名称命名;

业务意义:表的业务记录单位,在一个数据表中的所有非主键字段都要围绕主键展开;

理解维度及度量的意义

维度:业务角度;

度量:业务行为结果;

维度字段:文本型;

度量字段:数值型;

维度表:只包含维度信息的表;

事实表:既包含维度信息又包含度量信息的表。

理解缺失值

根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值;

文本型字段:影响不大:可以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换;影响大:与业务人员进行确认后替换,或者与业务人员核实后删除;

数值型字段:综合考虑该数值型字段所代表的度量意义一级针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法;

表结构数据特征

  1. 以字段或记录作为数据的引用、操作及计算的基本单位的数据;
  2. 所有字段记录行数相同,方形结构、记录行数相同、不存在空值、处理缺失值。
  3. 一个表中只有一个主键;

确定主键的方法:如果直接对数据库中的数据表进行操作,可以通过SQL语句来确定数据表的主键字段;如果间接在其他数据分析平台使用表结构数据(数据源是数据库中的数据表,使用时将数据源数据导入到其他平台使用),可以找原数据库中数据表的设计者咨询主键信息,或者直接查看数据表设计者留下的设计资料来对主键字段进行确认;

通过对数据表的业务意义进行分析,推测主键字段后再用物理手段确认推测主键字段中的记录值是否能够满足非空、不重复的要求来对主键字段进行确认;

表结构数据与表格结构数据差异

应用表哥结构数据,引用表结构数据。

u 4、表结构数据获取、加工与使用

【领会】

表结构数据获取渠道及方法

关系型数据库管理系统:关系型数据库管理系统的主要任务是企业业务数据的存储、检索、访问与共享;

商业智能系统-BI:用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察;

ETL功能:将数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库;

数据仓库-DW:用来存储分析所需要的不同数据源上的所有相关数据信息;

OLAP:连接信息孤岛、创建多维数据模型;

【熟知】

表结构数据连接逻辑

表结构数据的横向合并:将不同表中的字段信息合并到同一个表中使用;

通过公共字段匹配:拥有相同记录值的字段;

左表与右表:连接命令左侧的表为左表,右侧的表为右表;

连接方向:决定表的主附关系,主要使用左连接\右连接\内连接;

对应关系:决定连接结果行数是对应项乘积的结果;

  1. R图:多表连接的鸟瞰图;

多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并。

字段个数相同;

相同位置字段的数据类型相同;

去重合并与全合并;

表结构数据汇总逻辑

数据透视-对零散数据进行汇总分析;

维度:业务观测角度;

度量:业务行为结果;

汇总计算规则:衡量业务行为结果好坏程度的测量仪;

维度筛选度量,度量被维度筛选;

汇总计算规则:

正在上传…重新上传取消

数据分析的业务意义:数据分析是连接零散数据域人类认知间的桥梁;

ETL 作用、特征

【应用】

应用E-R 图

计算两表连接汇总值

PART 3 数据库应用(占比17%

a. 数据库相关概念(占比1%)

b. DDL 数据定义语言(占比2%)

c. DML 数据操作语言(占比2%)

d. 单表查询(占比3%)

e. 多表查询(占比3%)

f. 子查询(占比3%)

g. 数据库函数(占比3%)

总体要求

理解数据库的基本概念、理解DDL 及DML 语言、能够根据业务需求及数据特征使用

查询语言从数据库中获取准确、完整的数据信息、能够应用数据库函数进行数据处理及计算

u 1、数据库相关概念

【领会】

数据库分类

SQL 语言的功能

【熟知】

数据库、数据库管理系统与SQL 之间的关系

数据库概述:关系型数据库管理系统(RDBMS)与结构化查询语言(SQL)

数据库是存储、调用、分析数据的仓库,主要分为关系型数据库与非关系型数据库两类。

关系型数据库是数据应用的主流,关系型数据库以行和列的形式存储数据,这一系列的行和列被称为表,一组表组成了数据库。

当前主流的关系型数据库有Oracle、DB2、Mysql等。

操作关系型数据库时使用的语言叫结构化查询语言,简称SQL结构化查询语言;

MySQL是最流行的关系型数据库管理系统之一;

数据库:数据库是表的集合,带有相关的数据;数据库负责数据收集、数据整合、数据调用等工作;

表:一个表是多个字段的集合;

字段:一个字段是一列数据,由字段名和记录组成;

u 2DDL 数据定义语言

【领会】

数据库基本结构

【熟知】

数据类型

约束条件

数据定义语言DDL是用来对数据库管理系统中的对象进行增删改查操作的SQL语句,一般应用DDL语言对数据库不同对象进行定义操作时,需要提前具备相应数据库管理权限;

内容:1.针对数据库对象的操作语言;2.针对数据表对象的操作语言;

【应用】

创建、选用、删除数据库

定义数据库-操作关系型数据库

创建数据库:create database 数据库名称;

查看创建好的数据库:show create database 数据库名称;

查看所有数据库列表: show databases 数据库名称;

使用数据库: use 数据库名称;

删除数据库:drop database 数据库名称;

创建、修改、删除表

数据库是由多个数据表构成的;

每张数据表存储多个字段;

每个字段由不同的字段名及记录构成,每个字段有自己的数据结构及约束条件;

创建数据表:create table 表名(字段名 字段类型);

如创建员工信息表: create table emp(depid char(3),depname varchar(20));

查看表是否创建成功: show tables;

删除数据表: drop table 表名;

位:位(bit)是电子计算机中最小的数据单位,每一位的状态只能是0或1;

字节:8个二进制位构成1个字节(byte),它是存储空间的基本计量单位;

数据类型:不同的数据类型具有不同的字节长度,字节长度越长能取值的数值区间也就越大。

数据表中的数据类型:

  1. 数值类型:1个int整数型数据占用四个字节长度。
  2. 小数型:Float(),只能为有符号的,四字节;double(),只能为有符号的,8字节;decimal(),只能为有符号的;
  3. 日期和时间类型:date,datetime,time,year等;
  4. 字符串类型:char()固定长度字符串;varchar()可变长度字符串;BOLB或TEXT最大长度65537,存储二进制大数据,如图片;

约束条件:约束是在表上强制执行的数据检验规则;用来保证创建的表数据完整和正确;

MySQL数据库常用约束条件:

正在上传…重新上传取消

主键约束:保证表中每行记录都不重复。主键列的数据必须唯一,且不允许为空;

主键分为两种类型:单字段主键,多字段联合主键;

非空约束:指的是字段的值不能为空,语法--字段名 字段类型 not null;

唯一性约束:要求该列的值必须是唯一的:

①允许为空,但只能出现一个空值;②一个表中可以有多个字段声明为唯一的;③唯一约束确保数据表的一列或几列不出现重复值;

语法: 字段名 数据类型 unique

默认约束:指定某个字段的默认值。

当插入记录时如果没有明确为字段赋值时,那么系统就会自动为这个字段赋值为默认约束设定的值;语法:字段名 数据类型 default默认值;

自增字段:一个表只能有一个自增字段,自增字段必须为主键的一部分,默认情况下从1开始自增;

修改数据表:修改数据表是修改数据库中已经存在的数据表的结构;

MySQL使用alter table语句修改数据表结构,包括修改表名,修改字段数据类型或字段名,增加和删除字段,修改字段的排列位置等。

修改表名:rename 如alter table emp rename empdep;

修改字段类型:modify 如 alter table empdep modify depname varchar(30);

修改字段名:change;

增加字段:add;

删除字段:drop;

修改字段的排列位置:modify ...first排序改为第一位;modify...after 排列顺序改到某个字段之后;

u 3DML 数据操作语言

【领会】

添加数据的步骤

数据操作语言(DML)是对表中记录进行添加(INSERT)、更新(UPDATE)、删除(DELETE)等操作的语言,与DDL语言相同,在使用DML语言对记录信息进行操作时,也需要提前拥有相应的操作权限;

【熟知】

添加、修改、删除数据的语法规则

填充数据--用insert into语句为表插入数据;

语法:insert into 表名(字段1,字段2,...)values...

数据填充---导入外部数据

导入外部文本文件:load

检查表数据:对导入表中的数据一般从导入内容、导出数据总行数以及表结构三方面进行检查;

检查导入内容:select * from 表名;

检查导入数据总行数:select count(*) from 表名;

检查表结构:Desc 表名;

为字段赋值update...set...:语法:update 表名 set 字段名=值;

删除记录delete:删除数据表中的数据,语法为delete from 表名 where clause,如果省略where的话则删除表中的全部记录;

【应用】

添加数据

修改数据

删除数据

u 4、单表查询

【领会】

虚拟结果集

【熟知】

运算符

SQL 语句的书写顺序和执行逻辑

Select语句的操作符:

算数操作符:

符号

含义

+

-

*

/

比较操作符:

符号

含义

=

等于

>

大于

<

小于

>=

大于等于

<=

小于等于

!=或<>

不等于

!>

不大于

!<

不小于

聚合类函数:

正在上传…重新上传取消

SQL查询--select 语句的语法:

SELECT 目标列组 from 数据源  where 元祖选择条件 GROUP BY 分列组 HAVING 组选择条件 ORDER BY 排序列 排序要求;

【应用】

基本查询:去重查询、设置别名

条件查询:多条件查询、空值查询、模糊查询

分组查询:分组聚合、分组后筛选

查询结果排序、限制查询结果数量

u 5、多表查询

【领会】

对应关系:一对一、一对多、多对多

连接方式:内连接、左连接、右连接

连接条件:等值连接、不等值连接

【熟知】

连接查询的逻辑和联合查询规则

多表查询指的是将两个以上的数据表通过关键字段连接在一起,并从不同表中取不同字段进行查询的方法;

关键字段:用来连接两表的内容信息能够匹配的上的字段

  1. 相连的两表中都需要有关键字段;
  2. 关键字段中的记录信息能够匹配得上;
  3. 最理想的连接状态是两表中的两个关键字段都是主键,而且两个主键的值能够一一匹配的上;
  4. 语法:select from 表1 xx join 表2 on 表1.key=表2.key

其中xx代表连接的方向,可以是inner、left、right等关键字。在连接语句前边的表是左表,在连接语句后面的表是右表;

内连接查询(inner join):按照连接条件合并两个表,返回满足条件的行。

Select from A INNER JOIN B on A.key=B.key;

正在上传…重新上传取消

左连接查询(left join):结果中除了包括满足连接条件的行外,还包括左表中的所有行;

Select from A left join B on A.key=B.key;

正在上传…重新上传取消

右连接查询(right join):结果中除了包括满足连接条件的行外,还包括右表中的所有行;

Select from A right join B on A.key=B.key;

正在上传…重新上传取消

联合查询:union:用于合并两个或多个select语句的结果集,并消去表中任何重复行;

Union all:用于合并两个或多个select语句的结果集,保留重复行;

如:select t1.* from t1  union/union all select t2.* from t2;

全连接查询:全连接会返回两张表中全部的记录,本质上是对两个表中的记录取并集;

全连接没有主附表的区别,按照连接条件可以匹配到的记录会返回匹配后的结果,匹配不到的记录用null进行填充。

Select * from t1 left join t2 on key1=key2

Union

Select * from t1 right join t2 on key1=key2;

正在上传…重新上传取消

【应用】

连接查询:内连接、左连接、右连接

联合查询:去重、不去重

u 6、子查询

【领会】

子查询分类

【熟知】

子查询位置、子查询操作符

操作符:

1.And:用来联合多个条件进行查询,条件与条件间是“和”的意思。即条件表达式1 and 条件表达式2...and 条件表达式n;

2.Or:用来联合多个条件进行查询,条件与条件间是“或”的意思。即即条件表达式1 or 条件表达式2...or 条件表达式n;

3.in:判断某个字段的值是否在指定的集合中,如果在集合中则满足查询条件,如果不在则不满足查询条件。即in/not in (元素1,元素2,...元素n)

4.between :判断某个字段的值是否在指定的范围内,如果在则满足查询条件,如果不在则不满足查询条件。【not】 between 取值1 and 取值2;

5.like:用来匹配字符串是否相等,如果字段的值与指定的字符串相匹配,则满足查询条件,如果与指定的字符串不匹配,则不满足查询条件;[not] like 字符串,字符串参数的值可以是一个完整的字符串,也可以是包含%或者_的通配符,其中%代表任意长度的字符串;

6.is null:用来判断字段的值是否为空值(null),如果字段的值为空值,则满足查询条件,如果字段的值是非空值,则不满足查询条件。Is [not] null;

7.distinct:用来消除重复记录。Select distinct 字段名;

操作符与子查询的组合应用

子查询:写在()中,把内层查询结果当做外层查询参照的数据表来用;

  1. any:表示满足其中任意一个条件,使用any关键字时,只要满足内层查询语句返回的结果中的任何一个,就可以通过该条件来执行外层查询语句;
  2. all:表示满足所有条件,使用all时,只有满足内层查询语句返回的所有结果,才可以执行外层查询语句;
  3. Exist:表示存在,使用exist关键字时,内层查询语句不返回查询的记录,而是返回一个真假值,如果内层查询语句查询到满足条件的记录,就返回真值,否则返回假值,当返回真值时,外层查询语句将进行查询,当返回假值时,外层查询语句不进行查询或查询不出任何记录;
  4. As重命名:可以将表或字段名重新命名为别的名称使用,只在查询中有效;
  5. Limit:查询后只显示limit指定数字的行数结果;

【应用】

子查询语法规则

子查询优化

u 7、数据库函数

【领会】

计算字段

【熟知】

函数功能及参数

常用函数:

正在上传…重新上传取消

常用的字符串函数:

正在上传…重新上传取消

常用的日期及时间函数:

正在上传…重新上传取消

其他函数:除上述函数之外的一些常用函数

Group_concat():返回由属于一组的列值连接组合而成的结果,常与关键字group by 一起使用,能够将分组后指定的字段值都显示出来;

Cast():将一个值转换为指定的数据类型;

逻辑函数:用来对表达式进行判断,根据满足的条件不同,执行相应的流程;

  1. 空值函数 ifnull(expression,alt_value);
  2. 判断函数if(expr1,expr2,expr3);
  3. 逻辑表达式 case when ... then...end;

开窗函数:对数据的每一行,都使用与该行相关的行进行计算并返回计算结果,有几条记录执行完返回结果还是几条;

  1. over()函数
  2. Partition by 子句:类似group by子句,在over()函数使用它来指定用来分组的一个或者多个字段,开窗函数在不同的分组内分别执行聚会运算,并将每个组的计算聚合结果显示在组内每条记录中;over(Partition by 字段名);

MySQL8.0支持的11种开窗函数:

正在上传…重新上传取消

【应用】

数学函数、字符串函数、日期时间函数、分组合并函数、逻辑函数

E-R图也称实体-联系图,用来描述现实世界的概念模型。

PART 4 描述性统计分析(10%

a. 统计基本概念(占比2%)

b. 数据的描述性统计(占比3%)

c. 统计分布(占比3%)

d. 相关分析(占比2%)

总体要求

理解统计基本概念、理解描述性统计相关知识内容、理解描述性统计图表定义及适用场

景、能够应用描述性统计知识描述及探索业务问题.

1、统计基本概念

【熟知】

统计学含义及其应用

统计学的基本概念:数据、总体、样本、参数、变量

统计学的含义:统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学;

统计学分析数据的方法:描述性分析和推断性分析;

描述性分析:研究数据收集、处理和描述的统计学方法,如总体规模、对比关系、集中趋势、离散程度、偏态、峰态、。。。。

推断性分析:研究如何利用样本数据来推断总体特征的统计学方法;如估计、假设检验、列联分析、方差分析、相关分析、回归分析、。。。。

统计学应用:随着计算机的发展和各种统计软件的开发,作为一门基础学科的统计学在金融、保险、生物、经济等领域得到了广泛应用;

统计学的基本概念-数据

  1. 统计学的对象是数据,数据的形式可以是数字,也可以是文字;

数据的分类:

  1. 按照计量尺度分类:

正在上传…重新上传取消

  1. 收据的其他分类:

正在上传…重新上传取消

正在上传…重新上传取消

统计学的基本概念:

  1. 总体:指研究的所有元素的集合,其中每个元素称为个体;
  2. 样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量;
  3. 参数:指研究者想要了解的总体的某种特征值,主要有总体均值,总体标准差,总体比例等;
  4. 统计量:指根据样本数据计算出来的一个量,即样本的某个特征值,常见的统计量有样本均值)(x),样本标准差(s),样本比例(P)等;
  5. 变量:指描述事物某种特征的概念,如商品销售额等;
  6. 变量与数据的关系:变量的具体表现称为变量值,即数据;
  7. 变量的分类:根据变量的数据计量尺度不同来分,分类变量、顺序变量、数值型变量;

推断统计:估计、检验、预测;

估计:

正在上传…重新上传取消

参数估计:在已知或假定系统模型分布(结构)时,用系统的输入和输出数据计算系统模型参数的过程;

非参数估计:在未知且无法假定系统模型分布(结构)时,用系统的输入和输出数据计算系统模型参数的过程。(常借用秩进行估计,即数据的大小顺序);

半参数估计:是参数估计与非参数估计相结合的估计方法,对总体的模型有一定的先验设定,在此基础上,对某些参数的条件进行放宽,半参数估计和非参数估计相比,有较强的实际背景,和参数估计相比,有较强的稳定性。

参数估计:

  1. 估计量:关于样本的一个函数,用于估计总体参数,如样本均值,样本比例,样本方差等。
  2. 参数用θ表示。
  3. 估计值:估计参数时计算出来的统计量的具体值;

选定参数--确定需要估计的参数

  1. 总体均值的估计:单总体均值,两总体均值之差;
  2. 总体比例的估计:单总体比例,两总体比例之差;
  3. 总体方差(标准差)的估计:单总体方差,两总体方差之比;

抽样分布--已知或假定模型分布

  1. 总体均值的估计:单总体均值,两总体均值之差;

样本均值的抽样分布:

当总体为正态分布时,样本均值的抽样分布仍为正态分布;

当总体不是正态分布时,当样本量比较大,且总体的方差有限时,样本均值仍近似服从正态分布;

中心极限定理:设从均值为μ,方差为δ2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为δ2/n的正态分布;

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

估计-得出结论

  1. 点估计:
  1. 定义:用样本估计量构造的某一个值直接作为总体参数的估计值;
  2. 具体方法:矩估计法、最大似然法、顺序统计量估计法、最小二乘法;

矩估计法:

正在上传…重新上传取消

最大似然法:

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

  1. 区间估计:

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

2、数据的描述性统计

【领会】

描述性统计图表:直方图、散点图、箱型图

集中趋势的描述:众数、中位数、分位数、平均数

离散程度的描述:极差、方差、标准差、离散系数、变异系数

分布形态的描述:偏态、峰态

  1. 总量指标:反映在一定时间、空间条件下某种现象的总体规模、总水平或总成果的统计指标,如营业额、利润;
  2. 相对指标:是两个有相互联系的指标数值之比,如目标完成率;
  3. 集中趋势的描述-平均指标

集中趋势:定义:一组数据向其中心值靠拢的趋势,测度集中趋势就是寻找数据水平的代表值或中心值;

分类型数据可用:众数;

顺序型数据可用:众数、分位数;

数值型数据可用:众数、分位数、均值;

众数:定义:出现次数最多的变量值;表示符号M0;计算:寻找数据中出现次数最多的值;

分位数:指根据对数据位置进行划分,处于某些特定位置上的数,常用的分位数有二分位数(也叫中位数)、四分位数、十分位数、百分位数等;

正在上传…重新上传取消

正在上传…重新上传取消

均值:

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

均值不等式:对于同一组数据,一定满足:算数平均数>=几何平均数>=调和平均数,当所有数据取至相同的时候,等号成立;

  1. 离散程度的描述--变异指标;

离散程度:定义:反映各变量值远离其中心值的程度,是数据分布的另一个重要特征,从另一个侧面说明了集中趋势测度值的代表程度;

极差:

正在上传…重新上传取消

平均差:

正在上传…重新上传取消

方差和标准差:

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

离散系数:

正在上传…重新上传取消

  1. 相对位置的度量-标准化值;

标准化值:

正在上传…重新上传取消

标准化值只是将原始数据进行了线性变换,并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是使该组数据均值为0,标准差为1;

正在上传…重新上传取消

切比雪夫不等式:

正在上传…重新上传取消

正在上传…重新上传取消

  1. 分布形态的描述--偏态与峰态;

偏态:

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

峰态:

正在上传…重新上传取消

正在上传…重新上传取消

描述性统计图表:

  1. 直方图:定义:由一系列高度不等的矩形表示数据分布的情况;
  2. 频数分布直方图:

定义:在统计数据时,横轴按组距分类,纵轴表示频数,每个矩形的高代表对应组距里数据的频数,称这样的统计图为频数分布直方图;

组数:把数据按照不同的范围分成几个组,分成的组的个数称为组数;

组距:每一组数据的极差;

特点:能够显示各组频数分布的情况,易于显示各组之间频数的差别;

  1. 散点图:定义:数据统计分析中,数据点在平面直角坐标系上的分布图,表示因变量随自变而变化的大致趋势;

特点:展示数据的分布情况,发现变量之间的关系;

  1. 箱型图:又称为盒须图或箱线图,显示一组数据分散情况的统计图;

【应用】

能够应用描述性统计知识对业务数据进行恰当的数据特征描述,针对数据描述特征阐述

业务问题、探索问题原因、提出解决问题方法

u 3、统计分布

【熟知】

两点分布、二项分布、正态分布、分布、T 分布、F 分布

  1. 二项分布:X ~B(n,p),E(X)=np, D(X)=np(1-p);
  2. 两点分布:X~B(1,p),n=1时的二项分布,又称伯努利分布,E(X)=p;D(X)=p(1-p);
  3. 正态分布:X~N(μ,δ2);

    正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

  1. 标准正态分布:

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

  1. 卡方分布:

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

  1. t分布:

正在上传…重新上传取消

正在上传…重新上传取消

  1. F分布:

正在上传…重新上传取消

正在上传…重新上传取消

u 4、相关分析

【熟知】

相关分析的描述:散点图、相关分析的类型

相关关系的度量:相关系数

相关关系的描述---散点图:

相关关系的类型:

  1. 从涉及的变量数量:单相关,复相关(多重相关);
  2. 从变量相关关系的表现形式:线性相关(散布图接近一条直线);非线性相关(散布图接近一条曲线);
  3. 从变量相关关系变化的方向:正相关(变量同方向变化,同增同减),负相关(变量反方向变化,一增一减);
  4. 从变量相关程度看:完全相关、不相关、不完全相关;

相关关系的度量---协方差

正在上传…重新上传取消

相关关系的度量---相关系数

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

假设检验:

  1. 什么是假设:对总体参数的数值所做的一种陈述,总体参数包括总体均值、比例、方差等,分析之前必须陈述;
  2. 什么是假设检验:

> 事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立;

> 有参数假设检验和非参数假设检验;

> 采用逻辑上的反证法,依据统计上的小概率原理;

  1. 假设检验的步骤:

①提出原假设和备择假设

正在上传…重新上传取消

正在上传…重新上传取消

假设检验中的两类错误:

正在上传…重新上传取消

假设检验的流程:

  1. 提出假设;
  2. 确定适当的检验统计量;

正在上传…重新上传取消

  1. 规定显著性水平a;

正在上传…重新上传取消

  1. 计算检验统计量的值;
  2. 做出统计决策;

正在上传…重新上传取消

利用P值进行决策:

  1. 什么是P值

正在上传…重新上传取消

  1. 利用P值进行检验

正在上传…重新上传取消

  1. 一个总体参数的检验

正在上传…重新上传取消

总体均值的检验:

正在上传…重新上传取消

两个正态总体参数的检验:

正在上传…重新上传取消

PART 5 多维数据透视分析(10%

a. 多表透视分析逻辑(占比3%)

b. 多维数据模型(占比3%)

c. 透视分析方法(占比4%)

总体要求

理解多维数据模型价值、理解多维数据模型逻辑、理解透视分析原理、能够活用多维数

据模型结合恰当透视方法观测业务问题,实现商业洞察

1、多表透视分析逻辑

【熟知】

熟知透视分析的作用价值

理解多表环境下的连接、透视逻辑

多维数据模型又叫多维数据集、立方体,指的是相互间通过某种联系被关联在一起的不同类别的数据集合;多维数据集可以从多角度用数据全面映射某种业务的实际状况;

多维数据模型的创建方法:

相邻两表间连接汇总:通过公关字段连接两表,选择不同表中字段分别做为维度、度量。选择汇总计算规则;

影响连接汇总的三要素:

  1. 筛选器方向:分为单向及双向两种,筛选器方向决定维度与度量的出处;单向:箭头出发-侧为维度、指向一侧为度量;双向:两表间互为筛选;
  2. 对应关系:分为三类,一对一,多对一与多对多,决定连接汇总的结果;
  3. 汇总角色:维度、度量;

OLAP与数据库连接汇总的逻辑区别:

OLAP连接汇总时,哪个表提供度量,哪个表为主表;

两种汇总方式:

类型一:合并维度,汇总度量、维度筛选度量;

类型二:合并维度,汇总维度下不同公共字段对应的度量、维度选取公共字段,公共字段筛选度量;

相邻两表连接总结:相邻两表间应尽量使用一对多的连接关系,汇总时应遵循一表出维度,多表出度量的规则;

交叉连接:交叉连接下只有一条路径为有效路径;

三种模式:星型模式:一个事实表和多个维度表相连;雪花模式:维度表与维度表相连,进行维度的扩展;星座模式:多个事实表共用某些维度表;

【应用】

能够通过表的字段理解该表所代表的业务维度及业务意义,能够通过表的业务意义倒推

回表中字段的主键、维度、度量属性

2、多维数据模型

【领会】

了解使用多维数据模型的业务意义

【熟知】

熟知多维数据模型的创建方法

熟知多维数据模型中连接方式与汇总结果间的关系

熟知多维数据模型下汇总维度与筛选维度间的差异及各自的适用场景

5W2H思维模型:

正在上传…重新上传取消

销售管理分析:销售漏斗模型:潜在--接触--意向--明确--投入--谈判--成交;

5W2H分析与销售管理分析:

What:销售进度管理--商机维度(商机规模、商机号、商机来源等);

why:发现并控制销售阶段风险----商机维度(销售阶段、上周销售阶段、赢单率等);

where:销售地点----(销售大区、销售城市、销售区域等);

who:销售人员、客户---(商机发现者、商机管理者、销售人员能力、销售人员成本等,客户负责人、与客户以往交易情况、客户需求等);

when:时间维度;

how much:商机金额、商机个数、商机规模等;

how to do :如何制定销售策略;

【应用】

能够通过5W2H 思维模型梳理业务线索,搜集完整的多表数据。

能够根据业务需求,按照正确的连接关系创建完整、准确、全面的多维数据模型

能够根据多维数据模型推导出可探索的业务问题范围,实现业务洞察

3、透视分析方法

【领会】

透视分析的价值及意义

【熟知】

熟知基本透视规则:求和、求平均、计数、最大最小值

熟知条件筛选透视规则:多条件透视计算、不同层级维度透视计算

熟知基本对比计算规则:均比、基准比、标准比、百分比、差异百分比

熟知时间维度下的透视计算规则:不同时间段、不同时间位移量下的透视计算规则

熟知行间透视与字段上透视的差异

基本透视规则:

合计规则:将相同维度值下对应的多个度量值相加在一起,一般用SUM函数代表合计规则;

计数规则:对相同维度值下的度量个数进行技术,COUNT非空计数,distinctcount去重计数;

平均规则:用合计规则的结果除以计数规则的结果(平均=合计/计数)、一般用average函数表示;

最大值规则:求相同维度之下最大的度量值,一般用max函数表示;

最小值规则:求相同维度之下最小的度量值,一般用min函数表示;

透视规则扩展:

对比计算规则:

均比:实际值与平均值之间的对比,同类型产品销售情况;

基准比:实际值与基准值之间的对比,成绩水平;

目标比:实际值与目标值之间的对比,销售业绩绩效;

标准比:实际值与标准值之间的对比,工场工作水平绩效;

占比:部分与总体的对比,不同区域销售额占比;

时间下的汇总规则:

MTD:月初至当前日期的汇总;

QTD:季度初至当前日期的汇总;

YTD:年初至当前日期的汇总;

环比:当期值与上期值之间的对比;

同比:当期值与同期值之间的对比;

对比汇总公式:

对比百分比公式:实际值/对比值*100%;

差异百分比公式:(实际值-对比值)/对比值*100%;

行间透视:针对每行值分别求得整体汇总值,类似于开窗函数;

【应用】

能够根据业务需求选择创建正确的透视规则

能够将透视规则应用在正确的多维模型下描述业务问题

能够通过透视结果理解业务问题

透视结果与预期结果不符时,能够检查、追踪问题原因

PART 6 业务数据分析(30%

a. 数据驱动型业务管理方法(占比3%)

b. 指标的应用与设计(占比12%)

c. 业务分析方法(占比15%)

客户分析

商品分析

流量、转化分析

行为效果分析

业务分析模型

业务分析方法

总体要求

理解业务数据分析方法、掌握业务数据分析流程、能够使用及设计创建业务指标、能够

结合业务模型及业务分析方法正确理解业务问题,找到问题原因,并能够提出解决问题建议

u 1、数据驱动型业务管理方法

【熟知】

熟知数据从业务中来到业务中去的全过程

熟知数据驱动型业务管理的价值意义

熟知数据驱动型业务管理流程

熟知数据驱动型业务管理思维方式

数据的特征:准确可信、不准确不可信、确定性、不确定性、不完整性;

数据的应用过程:DW---分析---决策、执行;

增加数据参与决策的价值:提高数据分析人员的分析能力以及业务理解能力,提高管理人员的数据洞察力,提高业务人员的数据敏感度;

对于不准确不可信的数据:制定激励策略,改善记录方式;

对于不确定性数据:优化数据产生环节行为,提高数据重视度;

对于不完整性数据:构建完善系统,多渠道多方法获取数据;

【应用】

能够通过数据驱动型业务管理流程找到业务分析与业务管理需求的结合点,能够正确理

解数据的出处及产生逻辑,能够正确的运用数据为业务管理提供有价值的数据分析结果

销售漏斗模型:关系型销售业务中最有效的销售管理方法,它是将销售业务与数据分析完美结合的产物,它的本质是对销售过程的风险控制;

  1. 先将发现潜在商业机会开始到现金回收为止的整个销售过程分为不同销售阶段;
  2. 再对每一个销售阶段进行有针对性的细致管理;
  3. 最终达到及早发现并回避潜在商业风险的目的;

销售漏斗模型中的业务及数据都是动态变化的,将每个不确定性尽可能变为确定性,用正确的销售决策最大限度地降低销售风险是设计及管理销售漏斗模型的目的所在;

数据规范:应保证销售漏斗数据的准确性与时效性;

准确性:销售阶段内容准确、上级金额准确、角色准确、时间准确、商机规模准确、其他维度数据准确;

时效性:销售阶段、商机金额、角色、时间、商机规模、其他维度数据。

有效数据为企业创建宝贵销售资源库;有效数据积累越多价值越高;

u 2、指标的应用与设计

【领会】

指标的作用

用简约的汇总数据量化业务强弱;

指标的理解:

解释:对度量的汇总,即数据的汇总规则;

特点:

  1. 指标是游离态的,无法单独实现数据统计,如总销售额、总销售量;
  2. 需与统计维度结合,明确统计指标的对象,如产品时间维度下,X年所有产品的总销售额;
  1. 指标间可自由组合形成新指标,灵活适应多变的业务环境;

【熟知】

熟知从指标结果出发到业务行为落地的思维过程及分析方法

熟知指标与透视计算间的关系

熟知常用指标:

流量相关指标

转化相关指标

营运、销售相关指标

库存类指标

常用财务指标

绩效类指标

客户相关指标

熟知拆解业务需求设计指标方法

基本指标:

求和类:了解各数据的整体情况,往往结合数值型数据使用;

  1. 常规求和:对度量求和计算得到的指标,诸如销售数量、销售金额指标结合特定维度的统计结果,用以帮助决策者了解整体情况;
  2. 累计求和:随时间维度变化,从时间初值点至当前时点时间段内度量的累加值,用以帮助决策者了解事件初期至当前时点的业务状态;
  3. 时间维度下的累计指标:此类指标不受自然年、季度等周期限制,从初始时点至当前时点的时间区间进行分析,不仅体现了时间维度的连续性,还可结合指定维度下的指标值分析变化趋势;

计数类:了解各数据的数量情况,往往结合文本型数据使用;

  1. 对度量计数得到的指标,需注意数据的唯一性;

比较类:作为参照指标,评定主指标的表现;

  1. 差异百分比:指定维度下指标的某个值为基准点,比较当前值和指定值的差异变化率,用以帮助决策者了解当前数值的好坏,如同比、环比、均比等;
  2. 均比:与维度下指标的平均值比较,辅助决策者了解维度下哪些项拉高了均值,哪些项拉低了均值;公式:(当前值-均值)/均值*100%;
  3. 定基比增长率:当期值与某一固定时期值对比,用以描述当期值的发展水平,公式:(当期值-固定时期值)/固定时期值*100%;
  4. 同环比增长率:时间维度下某两个时间项对应指标值对比,用以描述当期值的发展水平,同比公式:(当期值-去年同期值)/去年同期值*100%;环比公式:(当期值-上期值)/上期值*100%;

常用场景指标:

  1. 流量相关指标:

常用计费方式CPM(cost per mille)按每千次曝光收费、CPS(cost per sales)按实际销售收费、CPC(cost per click)按点击次数收费;

作弊方式:用户在浏览多个渠道后最终选择下载、通过程序模拟真实用户、利用多系统间切换时间差,同一用户重复多次操作;

量:访客数(UV):访问对应维度的非重复用户数;浏览量(PV):维度下浏览页面的总次数;访问次数(Visits):统计会话数,一个会话内用户可访问多个页面;新访客数:新进访客数;

质:平均访问深度:浏览量/访问次数;跳失率:跳出次数/访问次数;新访客占比:新访客数/访客数;

  1. 转化相关指标:

转化率:根据业务流程观测阶段间流转后的留存比率,用以辅助决策者了解阶段间衔接的流畅性;公式:当前阶段/初始阶段(或上一阶段)*100%;

  1. 营运、销售类指标

成交额:GMV、实际销售额、税后销售额、退款额;

成交量:实际订单量、销量、退款订单量、上架数量;

完成情况:目标达成率、退货率;

效果:屏效、商品关联性;

  1. 库存相关指标:

库存周转天数=库存量/最近N天平均销量>=安全库存天数

库龄:存放仓库时长;

库存周转次数=平均库存量/出库总量;

订货满足率=按合理需求正常供货次数/产品被要求供货的总次数;

缺货率=缺货次数/总订货次数;

售罄率=1-库存金额/进货金额;

绩效类指标:绩效计划--绩效监控--绩效评价--绩效反馈;

客户相关指标:注册用户数、浏览用户数、登录用户数;活跃用户数、留存率、在线时长、复购用户数;

推广渠道、注册、使用、离开;

设计新指标:

作用:用简约的汇总数据量化业务强弱;

目的:根据需求量化考核点(在技术支持的情况下);

了解业务场景--明确业务考核点--梳理考核点相关数据--定义指标;

指标的分析方法:

正在上传…重新上传取消

【应用】

能够根据指标结果洞察业务问题及影响

能够根据业务场景选择恰当的指标进行观测

能够根据业务需求设计新指标,完善指标体系

u 3、业务分析方法

【领会】

不同业务分析方法各自的作用

行为效果分析:人--货--场

活动效果分析:前提是数据可获取;活动目的(人、物、绩效)---活动形式(发优惠券、营销小游戏)---量化效果(用指标值量化活动目标,同时需量化业务流程中的关键节点);

日常销售分析:在指定时间范围内,回顾日常经营性行为;

【熟知】

熟知以下业务分析方法:

客户分析:客户来源分析、客户价值分析、客户生命周期分析、客户行为分析

商品分析:商品进销存分析、商品渠道分析、商品耗损分析、商品价格分析

流量、转化分析:流量转化分析、流量渠道分析

行为效果分析:活动效果分析、销售分析、其他行为效果分析

业务分析模型:漏斗模型、RFM 模型、客户价值模型

业务分析方法:树状结构分析法、二八分析法、四象限分析法、同期群分析法

业务分析模型:指定业务场景下,经验总结得出的分析框架;

RFM模型:根据用户历史行为数据,结合业务理解,实现用户分类,助力用户的精准营销。方法核心:用户分类;

正在上传…重新上传取消

正在上传…重新上传取消

RFM模型是衡量客户价值和客户创利能力的重要工具和手段;

R:recency最近一次消费:基于当前时点,统计用户最近一次消费时点和当前时点的时间差,F:frequency消费频次:指定时间区间内统计用户的购买次数;M:money指定时间区间内统计用户的消费总金额;

正在上传…重新上传取消

RFM模型的操作步骤:

  1. 获取R、F、M三个维度下的原始数据;
  2. 定义R、F、M的评估模型与判断阈值;
  3. 进行数据处理,获取R、F、M的值;
  4. 参照评估模型与阈值,对用户进行分层;
  5. 针对不同层级用户制定运营策略;

用户忠诚度模型

用户价值分层:选择维度如消费额、消费次数,对用户分层,得到不同的用户类别;

正在上传…重新上传取消

业务分析方法:

树状结构分析:从数据中发现经营问题,且数据分析师需要主导分析内容,输出业务问题发现。由于数据维度的丰富性,不知从哪个维度开始分析,如果每个维度都尝试下探非常耗时,这是可以考虑从总体指标入手,逐层分解总体指标,形成下钻式树结构,分析思路如下:

  1. 梳理行业内经营谈及的指标;
  2. 将指标拆解为另外多个指标的和或乘积(或同一指标不同维度),逐层下钻,直至无法快速理解;
  3. 将指标按拆解思路排放成树状结构,增加对比指标,如同比或环比值,通过观察变化比率快速定位问题。

二八分析:即80%的问题是20%的原因造成的,在项目管理中主要用于找出核心问题;

四象限分析:了解数据在两个核心要素下的表现,从而划分出具备不同特性的数据类;如波士顿矩阵(适用于对商品的描述);

同期群分析:作用:衡量指定对象组在某一段时期内的持续性行为差异;同期群:相同时间内,具有相同特性属性的用户;同期群分析:量化行为指标,分析不同群体的该指标随时间的变化情况;

【应用】

能够应用恰当分析方法解决业务问题

能够将数据处理分析技能融入到业务分析方法中,为数据驱动型业务管理提供正确、全

面、客观的数据依据

 PART 7 业务分析报告与数据可视化报表(15%

a. 可视化分析图表(占比5%)

b. 撰写业务分析报告(占比5%)

c. 创建数据可视化报表(占比5%)

总体要求

理解业务分析报告与数据可视化报表的制作方法、能够结合业务需求撰写正确的业务分

析报告,能够结合业务需求创建全面的数据可视化报表

1、可视化分析图表

【领会】

业务图表与统计图表的区别

【熟知】

业务图表决策树

熟知比较类图表的使用方法

熟知描述类图表的使用方法

熟知结构类图表的使用方法

熟知序列类图表的使用方法

业务图表决策树:

正在上传…重新上传取消

比较类图表1:油量表、圆环百分比进度图;

作用:展示项目进度;

优势:适合在量化情况下显示单一的价值和衡量标准。

局限:只适合展示数据的累计情况,不适合用于比较不同变量或者趋势的分析;

比较类图表2:柱形图、条形图;

作用:相对大小进行比较;

优势:更精确,各类数据大小大致相同时,更容易发现细小的差别;

局限:通常适用于较小的数据集分析,分类过多无法展现数据特点;

比较类图表3:雷达图

作用:显示类别(项目)三个或更多的维度的变量对比情况,以及不同类别(项目)多个维度的变量差异;

优势:对于查看哪些变量具有相似的值、变量之间是否有异常值都很有用;

局限:类别过多或变量过多,会产生覆盖和混乱,难以阅读;由于径向距离很难判断,所以虽然有网格线的参考,但是还是很难直观的比较图表内变量具体的值;

比较类图表4:树状图;

作用:比较层级结构不同级别的值,以矩阵显示层次结构级别中的比例,多个类别构成一个层次结构时,以矩形显示比例;

优势:视觉呈现比较直接;

局限:数据按层次结构组织并具有较少类别,无法对不同类别进行精确的比较;

比较类图表5:地图;

作用:地域间的数据比较;

优势:数据表达方式更为明确直观,让人一目了然,方便发现问题;

局限:数据分布和地理区域大小不对称,容易造成用户对数据误解;无法对不同类别进行精确的比较;

序列类图表1:折线图、面积图、柱状图;

作用:能很好地体现数据趋势,常用于显示随时间变化的数值;

优势:折线图、面积图趋势变化直观展示,较柱形图更方便的展示多个类别数据,不会显得过于拥挤;

局限:可以多类别比较,但不如柱图数据清晰,但类别太多,也容易混乱;无序的类别无法展示数据特点;

序列图2:各阶段递减过程,如漏斗图;

作用:将数据呈现为几个阶段,每个阶段的数据都是整体的一部分,从一个阶段到另一个阶段数据自上而下逐渐下降;

优势:可以直观形象的展示数据值逐渐递减的比例;

局限:无逻辑顺序的数据不适合;

构成类图表1:饼图、环形图、南丁格尔玫瑰图;

作用:展现不同类别数值相对于总数的占比情况;

优势:能快速有效地展示数据的比例分布;

局限:分类过多很难比较(五个内),饼图不适合被用于精确数据的比较;

构成类图表2:堆积图、百分比堆积图;

作用:堆叠柱状图可以显示多个部分到整体的关系;

优势:非常适合处理部分与整体的关系;

局限:堆叠柱状图不适合用于对比不同分组内同个分类之间的数据大小;太多的数据系列会使数据的阅读和分辨变得非常困难;

构成类图表3:瀑布图;

作用:表达两个数据点之间数量的演变过程;

优势:直观且更具观赏性;

局限:各类别数据差别太大时不易比较;

描述类图表1:直方图;

作用:专门体现分组数据差异;

优势:将数据根据差异进行分类,特点是明察秋毫地掌握差异;

局限:无法一下看出各项累计总和;

描述性图表2:散点图、气泡图;

作用:用来识别变量之间的相关性或用来观察他们的关系;

优势:发现某种趋势,对于查找异常值或理解数据分布也很有效;

局限:数据只有极少的信息或者数据间没有相关性;

【应用】

能够根据数据特征及业务需求选择正确的业务类图表使用

能够通过图表展示内容理解业务问题

u 2、撰写业务分析报告

【领会】

业务分析报告作用

定义:时间段内的综合性事件评估;

作用:了解该时间段内的业务事实表现;

静态报告:WORD/PDF/PPT等,根据数据分析师的思路数据业务实际;

可视化看板:交互式可视化,自由根据业务需求调节,查看多维度数据;

【熟知】

熟知业务分析报告撰写流程

  1. 业务理解:抓住问题核心、定位决策者角色、设定报表框架;
  2. 数据收集:系统数据采集、人工维护数据、外部数据支撑;
  3. 数据处理:字段标准统一、多表数据关联、异常数据整理;
  4. 数据分析:数据探索、运用分析方法论、结合高效工具;
  5. 图表制作:选择合适图表、准备图表数据、调整图表细节、撰写图表结论;
  6. 报告绘制:组合图表、撰写报告结论;

熟知业务分析报告撰写注意事项

  1. 条理清晰,注意报告完整性;
  2. 论点明确,有论必有数,有数必好懂;
  3. 图、表、文字结合;
  4. 名词术语规范统一,未知名词标注解释;
  5. 减少不必要的主管猜测,同时需注意语气用词尽量避免生硬霸道;
  6. 切勿为了投其所好而弄虚作假;

常用句式:通过/基于分析【数据事实】,发现【业务强弱】,考虑【业务原因】/建议【改进方案】;

熟知业务分析报告设计方法

数据分析报告的设计:

日常通报型:短周期、高频、持续性核心数据报表;

适用场景:内存饱和度监测、数据传送及时性、网速稳定性等;

周期回顾型:长周期、低频、持续性综合数据报表;

适用场景:年度经营总结、个人季度工作报告、财务年度报表等;

专题回顾型:低频、专项关注点数据报表;

适用场景:活动评估报告、渠道用户表现报告、库存亚健康分析等;

明确背景---找重点---量化重点---拆解重点;

【应用】

能够根据业务需求选择正确的报告论点

能够根据报告论点搜集并展示充分、正确的数据依据

能够撰写合理严谨的分析报告,并提出有价值的分析建议

u 3、创建数据可视化报表

【领会】

数据可视化报表的作用

【熟知】

熟知数据可视化报表与业务分析报告的差异

正在上传…重新上传取消

熟知数据可视化报表的创建过程

  1. 业务理解:业务理解是可视化报表制作的第一步也是最重要的一步,要做到全面、准确、深入地理解业务问题;
  2. 整体设计:整体设计是连接业务需求与可视化报表成果之间的桥梁;

正在上传…重新上传取消

  1. 数据收集到创建复杂汇总规则:用恰当的工具结合正确的操作完成从数据收集到创建复杂汇总规则的工作;
  2. 数据展现:准确、全面、直观的展现数据信息,做到一目了然、过目不忘;

正在上传…重新上传取消

熟知数据可视化报表的设计思路

熟知数据可视化报表的应用方法

【应用】

能够结合业务需求设计可落地的数据可视化报表内容

能够将抽象的业务需求转化为具象的数据维度与度量描述

能够制作可清晰、准确、全面地描述业务问题、展示业务全面场景的数据可视化报表

案例:某电商平台店铺流量分析

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

正在上传…重新上传取消

易错知识点

  1. 在进行缺失值填补时,若数据呈明显的偏态分布,则应该用中位数填补,因为中位数不受数据分布的影响;
  2. 子查询可以出现在select、where、having、from、join子句中;
  3. 当where子句的查询条件是聚合函数时,子查询不能替换为连接查询;
  4. UNION合并数据集时字段个数、字段数据类型、字段顺序必须相同,且UNION为去重合并,UNION ALL为不去重合并;
  5. SQL语句的执行顺序:from--on--join--where--group by--having--select--distinct--union--order by --limit;
  6. Between---and 表示在某个范围值之间,包含范围值。如between 10 and 20,表示10<=a<=20;
  7. SQL表横向连接方式:right join、left join、all join;表的纵向连接:union;
  8. 多维数据模型是数据仓库中数据组织的一种模型,多维数据模型工具功能定位是:OLAP,OLAP是联机分析处理,是搭建多维数据模型的处理过程。关系型数据库功能的核心定位因属于OLTP,OLTP是联机事务处理;
  9. 主键的物理意义:表的行标识符,业务意义:表的业务记录单位;
  10. 表结构数据中不能引用单元格值;
  11. 表格结构数据处理工具:numbers,表格结构数据分析工具:power bi、MySQL、tableau;
  12. 数据分析方法论:CRISP-DM、SEMMA、AB测试;
  13. 数据右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则众数<中位数<平均数;
  14. 描述性统计中集中趋势度量的有:均值、众数等,离散趋势度量的有:标准差、四分位差、极差、异众比率;协方差是度量相关性的;
  15. UV当日到店人数统计,进入首页即为到店,PV是浏览量,VISIT是浏览次数,一进一出即为一次流量;
  16. Having子句中的筛选字段必须是可以出现在分组结果中的字段;
  17. Distinct关键字可以对一个或者多个字段去重,也可以结合count函数进行去重计数,但是distinct关键字必须位于第一个字段的前面;
  18. 星型连接模式:1个事实表与多个维度表连接,从多个不同的业务维度来观测某个特点事实表下的某个事实的好坏程度;
  19. 事实表是多表在汇总过程中贡献度量字段,其余维度表是一表;
  20. 漏斗分析适用于动态监控与分析,适用于对销售阶段变化情况进行管理的模型;
  21. 流量分析任务中的行为包括:1.了解流量渠道特征2.了解引流行为效果3.了解流量人群特征;转化阶段分析任务:1.了解流程付费情况;
  22. 跳失率适用于对付费可能性大小进行描述,跳失率越高,流量付费的可能性越低;
  23. 价值模型中一般右上左下提升难度大,其余阶段随着贡献价值的升高提升难度会随之逐渐增大;
  24. 可以用来进行用户分类的模型是:RFM模型、帕累托模型。波士顿矩阵是商品矩阵,不能用来进行用户分类;
  25. CPISP-DM模型为一个KDD工程提供了一个完整的过程描述,该模型将一个KDD工程分为6个不同的阶段,商业理解--数据理解--数据准备--建模--模型评估--模型部署/发布;
  26. 完整性约束:主键约束(PRIMARY KEY)、外键约束(FOREIGN)、唯一约束(UNIQUE)、非空约束(NOT NULL)、检查约束(CHECK);
  27. 纵向分析指时间周期下指标的变化规律,横向分析指指定维度下不同项指标值的差异;
  28. 人货场中的场指的是与交易行为相关的业务模块;
  29. 在SQL中可以设置表别名和列别名,SQL语句的执⾏顺序是FROM-->-->ON-->JOIN-->WHERE-->GROUP BY-->HAVING-->SELECT-->ORDER BY-->LIMIT,别名是在WHERE⼦句后计算的,所以WHERE⼦句中不能⽤列别名,FROM和JOIN⼦句中可以⽤表别名;
  30. Where 子句不能使用聚合函数;
  31. 销售绩效的对比方式是:同比环比目标比;
  32. 应用count计数应尽量选取主键字段,要尽量针对非空字段计数;
  33. 在指标分析中纵向分析指的是时间周期下指标的变化规律;
  34. 流量行为特征:平均访问深度、访问次数、跳失率;
  35. CPS:按实际付费金额占比收费,cost per sales;cpm:按每千次曝光收费 cost per mille;
  36. 库销比代表进销存流转速度,流转速度越快资金利用效率越高,主要用于查看库存和销售直接的关系,用于库存管理场景分析,动销率主要用于分析是否存在销售行为,非销售的多与少;
  37. SPU是商品品类的细分,比大品类细,比具体商品粗;
  38. 波士顿矩阵:明星类产品(销售增长率高、市场占用率高),瘦狗产品(销售增长率低、市场占用率低)、问题类产品(销售增长率高、市场占用率低)、金牛类产品(销售增长率低、市场占用率高);
  39. BI工具的组成部分:ETL、可视化工具、DW;

你可能感兴趣的:(数据库架构,sql)