CDA知识整理

多表连接模型

星型模型:一个事实表与多个维度表分别直连,维度表之间无连接
星座模型:两个及以上的事实表连接一个维度表
雪花模型:一个事实表和多个维度表连接,维度与维度之间也有连接
交叉连接:两者之间有多种连接方式

业务图标决策树:

1. 四类划分:
    1.比较类图表–油量表、进度图、柱图、条形图、雷达图、词云图、树状图、地图
    2.序列类图表(连续、有序类别的数据波动)–折线图、面积图、柱图、漏斗图
    3.构成类图表–环状图、饼图、堆积图、瀑布图
    4.描述类图表–直方图、盒须图、指标卡、气泡图、散点图

2. 比较图:
	油量表、进度图、柱图、条形图、雷达图、词云图、树状图、地图
    
3. 序列图:
	折线图、面积图、柱图、漏斗图
    
4. 构成图:
	环状图、饼图、堆积图、瀑布图
    
5. 描述图:
	直方图、盒须图、指标卡、气泡图、散点图

帕累托分析(二八分析):

又称为二八法则,即百分之八十的问题是百分之二十的原因造成的。在项目管理中主要用于找出核心问题。

主要特点:
1、柱形图的数据按数值的降序排列,折线图上的数据有累积百分比数据,并在次坐标轴显示;
2、折线图的起点数值为0%,并且位于柱形图第一个柱子的最左下角;
3、折线图的第二个点位于柱形图第一个柱子的最右上角 ;
4、折线图最后一个点数值为100%,位于整张图形的最右上角

AB测试:

1.为同一个目标,设计两种方案,将两种方案随机投放市场中,让组成成分相同(相似)用户去随机体验两种方案之一,根据观测结果,判断哪个方案效果更好,结果可以通过CTR(点击通过率)或者下单率来衡量。
A/B test不是只能A方案和B方案,实际上一个测试可以包含A/B/C/D/E/……多个版本,但是这多个方案之间只能有一个不同的地方,也就是理解未定"量"分析。

2.A/B测试的更清晰的定义:
A/B-test是为同一个目标制定两个方案,在同一时间维度,分别让组成成分相同(相似)的用户群组随机的使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好版本正式采用

销售漏斗:
对商机的风险管控
斜率,粗细,体型,流速

维度,度量
维度筛选度量
度量被维度筛选

BI(Business intelligence 商业智能)

  • BI商业智能,是一套完整的解决方案,将企业中现有的数据进行整合,提供报表和决策依据,以帮助企业作出明智的业务决策
    • BI = 数据仓库+OLAP分析+数据挖掘+可视化
    • BI通常的业务流程为:业务数据库—ETL—数据仓库—OLAP分析—报表展示—数据挖掘—业务决策,流程中的每一步都可以有自己的产品和技术
    • 产品可大致分为:数据仓库产品、数据抽取产品、OLAP产品、可视化产品
    • 对应的技术体系为:数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)、可视化
    • 核心内容:明确业务需求涉及到的维度与度量
  • 分析工具:Power BI,Tableau,Smartbi,IBM

波士顿矩阵
散点图生成波士顿矩阵效果
CDA知识整理_第1张图片
同期群分析:
按时间维度对用户建立分组,观察分组用户的行为特征表现

分析模型

数据库模块

  • 关系型数据库:以行和列形式存储数据,这一系列形式被称作表
  • 主流关系型数据库:Oracle,DB2,Microsoft SQL Server,MySQL
  • mongodb不是关系型数据库
  • PLSQL为数据库的过程性语言,不属于数据库,Oracle数据库是对SQL的扩展
  • SQL中的COUNT,SUM,AVG,MAX,MIN等函数可以出现在SELECT,HAVING,ORDER BY语句中
  • NOW用于返回当前的日期及时间
  • WHERE中不能使用列别名,FROM和JOIN语句中可以使用表别名
  • 添加数据,字段和添加数据个数,数据类型,字段顺序都要一致才能正确添加
  • 主键
    –表的行识别符:物理意义
    –表的业务记录单位:业务意义
    -order by 语句默认状态为升序(ASC:从小到大) 降序为(DESC:从大到小)
  • drop、truncate、delete它们的用法是不同的
    –drop(丢弃数据): drop table 表名 ,直接将表都删除掉,在删除表的时候使用。
    –truncate (清空数据) : truncate table 表名 ,只删除表中的数据,再插入数据的时候自增长id又从1开始,在清空表中数据的时候使用。
    –delete(删除数据) : delete from 表名 where 列名=值,删除某一列的数据,如果不加 where 子句和truncate table 表名作用类似。
  • 全文扫描不需要建立索引
  • union 合并的同时删除任何重复的行,union all 不删除重复的行
  • ALL函数 满足所有条件,ANY满足任意一个条件,ALLEXCEPT函数,ALLSELECTED函数对字段都有筛选作用,ABS(X)返回X的绝对值
  • 去掉不满足条件的分组,先使用GROUP BY字句,再用HAVING字句
  • ROUND(X,D) 数字X保留小数点到第D位 进行四舍五入 ; TRUNCATE(X,D) 数字X保留小数到底D位,不进行四舍五入 ; FLOOR(X)返回不大于X的最大整数

多维数据分析模块

  • 表分类:
    – 维度表:只包含维度信息的表
    – 事实表:既包含维度信息,又包含度量信息
  • 主键:
    – 物理意义:由单个或者多个字段构成的主键,非空不重复,多以编号命名
    – 业务意义:表的业务记录单位,在数据库中所有的非主键字段都要围绕主键展开
  • NUMBER属于表结构工具,不属于分析工具
  • 联机事务处理(On-Line Transaction Processing) OLTP 主要是基本的、日常的事务处理,记录即时的增、删、改、查 ,联机事务处理
  • 联机分析处理(On-Line Analytical Processing) OLAP 数据仓库的核心部心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,搭建多维数据分析模型的处理过程
  • 维度筛选度量,度量被维度筛选 (维筛度,度被维筛)
  • ‘场’指交易场所,主要指事实表
  • 一般情况下:维度表作为一表,度量表和事实表作为多表
  • 坪效:店铺每个面积的效益
  • 纵向分析:时间周期下指标的变化规律 横向分析:指定维度下不同项的指标值的差异
  • ETL:抽取,清洗转换,加载
    – 抽取:进行不同数据源之间的连接,对数据进行引用
    – 清洗转换:过滤数据,错误,重复的数据;对‘粒度‘’不一致的数据进行转换;对业务规则不一致的数据进行转换;
    – 加载:将抽取出来的数据经过转换加载过后加载到数据仓库进行存储和使用
  • 数据仓库(DW):进行数据的存储,BI中会引用dw数据
  • 表结构的纵向合并:字段个数相同;相同位置字段数据类型相同;去重合并与全合并
  • 汇总计算规则: SUM代表合计;COUNT 非空计数;DISTINCTCOUNT 去重计数;平均规则:AVERAGE进行表示;最大值:MAX;最小值:MIN。
  • OLAP :连接信息孤岛,创建维数据模型
  • 对比计算规则:
    – 均比:实际值与平均值之间的对比,同类型产品销售情况
    – 基准比:实际值与基准值之间的对比,成绩水平
    – 目标比:实际值与目标值之间的对比,销售业绩绩效
    – 标准比:实际值与标准值之间的对比,工作水平绩效
    – 占比:部分与总体,不同区域销售额占比
  • 销售漏斗:对于销售过程的风险控制
  • 指标分析方法:
    – 纵向分析:时间周期下指标的变化规律
    – 横向分析:指定维度下不同项的指标值的变异
    – 预警分析:在、指定预警值
  • 一般价值用户(高高低):刺激消费;

描述性分析模块

  • 四分位差不受极端值影响
  • 离散程度:极差、四分位差、平均差、方差、标准差、异众比率、离散系数
    –描述数值型:平均差,方差,标准差
    –分类数据的离散程度描述—异众比率,四分位差
    –相关性:分类变量(卡方检验,计算列联相关系数)
    –t检验之前先要进行F检验,判断方差是否有显著差异
  • 统计学:收集处理,分析,解析数据并从中获取理论的科学
  • 数据分析步骤:收集数据,处理数据,分析数据,解释数据
  • 分类数据:比如(男,女) ;顺序数据:一等,二等,三等 ; 数值型数据:12,13,234等
  • 总体和样本:
    – 总体:研究所有元素的集合,和总体相关的事务,统计学上用希腊字母表述
    – 样本:从总体中抽取出来的一部分元素的集合,统计学上用英文字母表示

业务分析报告模块

  • 数据分析报告撰写流程:
    业务理解–>数据收集–>数据处理–>数据分析–>图表制作–>报告绘制
  • 可视化报表创建过程:业务理解,整体设计,数据收集,数据加工处理,搭建多维数据环境,创建复杂汇总规则,数据展示
  • 分析报告设计(日周专)
    日常通报型;周期回顾型;专题通报型(日常,周期,专题)
  • ARPU(ARPU-AverageRevenuePerUser)即每用户平均收入。用于衡量电信运营商业务收入的指标
  • CRM全称“Customer Relationship Management 客户关系管理”,CRM是一种商业策略,它按照客户的分类情况有效地组织企业资源,培养以客户为中心的经营行为以及实施以客户为中心的业务流程
  • AARRR模型
    • 获取用户(Acquisition) 通过不同的渠道让用户下载APP,获取用户
    • 激活用户(Activation) 通过提醒通知等功能,激活用户
    • 提高留存(Retention) 培养用户习惯与粘性,提高用户的留存率
    • 获取收入(Revenue) 为优质用户提供针对性的服务,获取收入
    • 自传播(Refer) 达到用户忠诚,实现用户传播,达到用户裂变效果(K值)
  • EDIT数字化模型
    –E - Exploration 探索
    –D - Diagnosis 诊断
    –I - Instruction 指导
    –T - Tool 工具
  • 数据分析方法论:CRISP-DR,SEMMA ,AB测试

统计学模块:

  • X~N(0,1) :标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)
  • 箱型图
    CDA知识整理_第2张图片
  • 总体方差已知,样本均值的分布是N分布
  • 总体方差未知,大样本使用可以使用卡方分布
  • 总体标准差未知,总体均值的检验用 t 统计量
  • 样本方差,标准差自由度为 n-1,计算是样本个数值为n-1
  • 样本方差比服从F分布
  • 样本方差乘以自由度再除以总体方差服从 F 分布

你可能感兴趣的:(cda,python,开发语言)