《商业智能数据分析》作者雷元,曾供职于微软等著名IT企业。
书的副标题是【从零开始学Power BI和Tableau】,非常难得地将两个知名BI产品“一勺烩”了。
书中既有入门知识,也有实操说明,值得一读。
BI=Business Intelligence=商业智能
BI的定义:
一种通过数据应用系统来支持商业决策的概念和解决方案。
第一层含义:人的智能,甄别有价值的商业数据,有选择地采集和展现数据。
第二层含义:应用系统的智能,理解人的意图,提供分析报表,帮助管理人员决策。
BI误区:过分强调产品的智能,忽视人的智能。
用户应先确立分析意图,再利用产品智能地进行分析。
DSS=Decision Support Systems=决策支持系统=BI的主要价值
BI价值的4个方面:
(1)准确:将数据转换为准确的信息。
(2)洞察:发现不易被发现、但是对组织影响显著的信息。如啤酒与尿布的关联销售。
(3)及时:及时生成决策所需的信息。
(4)可执行:提供可执行的分析结论。
SSBI=Self-Service Business Intelligence=自助式BI=敏捷BI
CRISP-DM=Cross-Industry Standard Process for Data Mining=跨行业的数据挖掘标准流程
CRISP-DM的6个步骤/阶段:
(1)商业理解:了解需求,描述现状,定义目标,制定计划
(2)数据理解:收集数据,描述数据,识别数据,探索数据
(3)数据准备:选择数据,清理数据,结构化数据,集成数据,格式化数据
(4)建立模型:选择技术,设计测试,建立模型,评估模型
(5)模型评估:评估结果,复审流程,制定部署计划
(6)结果部署:部署步骤,撰写报告,发布结果
BI的成熟度=分析商业问题的能力
成熟度越高,表明分析能越强。
成熟度4阶段:
(1)描述性分析,基于历史数据对过去商业运作的描述分析。
如:销售增长率。
(2)诊断性分析,基于第一阶段的信息,分析造成问题的原因。
如:促成销售增长的主要因素。
(3)预测性分析,对未来商业运作进行预测指引。
如:销售预测。
(4)处方性分析,基于前三个阶段的分析,提供具体的行动指引。
如:为某类商品,对新客户,定向发送优惠信息。
OLTP=On-Line Transaction Processing=联机事务处理,典型例子:SAP的ERP系统。
OLAP=On-Line Analytic Processing=联机分析处理,从OLTP系统产生的海量业务数据中提取出对企业决策分析有用的信息,并加以分析和利用。
DW=Data Warehouse=数据仓库,主要功能是分析和整理数据。
ETL=Extract Transform Load=抽取转换加载,是数据仓库的重要一环,可理解为数据准备或数据清洗。
DM=Data Mart=数据集市,是企业级数据仓库的一个子集,面向部门级业务,或某一特定业务主题。
Data Set=数据集,数据之间的集合,结构类似关系型数据库,由公开表、行和列的分层对象模型构成。
3NF=Three Normal Form=三范式
(1)第一范式(1NF):在关系模型中,所有的域都应该是原子性的。
(2)第二范式(2NF):在关系模型中,要求实体的属性完全依赖于主关键字,不能仅依赖于主关键字的一部分的属性。
(3)第三范式(3NF):在满足第二范式的前提下,非主键列必须直接依赖于主键。
Data Cube=数据立方,是一种用于数据分析与索引的技术架构。运用数据立方,可以对元数据进行任意多关键字的实时索引,能大大加快数据的查询和检索效率。
Meta Data=元数据=Master Data=主数据,用以描述数据的数据
Fact Table=事实数据表=交易数据表
Dimension=维度=同类型元数据的集合。维度表也是主数据表。
Measure=度量=衡量数据的计算公式。
Primary Key=主关键字=主键,一个或多个字段,其值被用于唯一标识表中的某一条记录。
Foreign Key=外关键字=外键。如果公共关键字在一个关系中是主关键字,那么这个公共关键字被称为另一个关系的外键。
Relation=关系=表与表之间的数据联接关系,分为1:1,1:N,N:M三种。
One Table=1表=1:N关系中1端的表=父表=主表
Many Table=多表=1:N关系中多端的表=子表=从表=事实表
Join=联接=基于表与表之间的共同字段(主键与外键),把来自两个或多个表的数据的行结合起来。分4种:
(1)Inner Join=内部联接=二表相交的数据行。
(2)Left Join=左侧联接=左表的集合,右表则只陈列与左表相关的数据行。
(3)Right Join=右侧联接=右表的集合,左表则只陈列与右表相关的数据行。
(4)Outer Join=完全外部联接=左表和右表共同的集合,无相交的记录另一侧以空值显示。
Union=并集=将不同的表合并成一张表的过程。
大表=宽表=使用VLookup引用维度表字段形成的宽表。大表模式属于数据库第一范式。
Star Schema=星型模式=数据立方体=多维模式,数据仓库模型中最简单的样式。所有维度表都与事实表发生直接关联,属于数据库第二范式。
Snowflake Schema=雪花模式,属于高级星型模式,维度表可以作为另一个维度表的延伸,而不直接与事实表发生关联。雪花模式属于数据库第三范式。
暴雪模式=形状复杂、有多层次的雪花模式。
Slice and Dice=数据切片和切块,将整体的数据切成更小的数据块,以利于更加具体的分析。
Drill-down and Roll-up=向下钻取和向上钻取,改变维度的层次,变换分析的粒度。由粗到细为向下钻取,反之则为向上钻取。
Drill-across=横向钻取,发生在两个或更多事实表之间。例如预算表与实际表,通过横向钻取,可在一张表中同时呈现每个业务员的销售任务与实际业绩。
Drill-through=钻透,以相同的过滤条件进行钻取。例如从汇总表钻取明细表时,将之前设定的过滤条件也作用于明细表。
Aggregation=数据聚合,合并数据集的过程。数据聚合度越高,数据的维度就越少。
Granularity=数据粒度,仓库中数据的细化程度。粒度越小,细化程度越高。
Discrete Data=离散型数据,只能以整数为单位进行计算的数据,一般以计数的方法取得,例如,日期中的月份数。
Continuous Data=连续型数据,包含小数、可以进行无限分割的数据,一般以测量的方法取得。例如占地规模、身高体重等。
离散型数据与连续性数据可能互相转换,例如身高,求平均值时为连续型数据,求身高区间时则为离散型数据。
离散型数据一般用作维度;连续型数据一般用作度量。
SQL=Structured Query Language=结构化查询语言。
SSAS=SQL Server Analysis Services=SQL Server分析服务,微软研发的构建于SQL Server之上的OLAP和数据挖掘工具。
SSAS两种运行模式:多维模式(MDX)和表格模式(DAX)。前者适用于大型数据库,后者适用于中小型数据库。
MDX=Multidimensional Data Expression=多维数据表达式。Power BI不能直接使用MDX,但是可以通过SSAS模式连接支持MDX。
DAX=Data Analysis Expression=数据分析表达式,默认使用内存数据库访问数据模型。Power BI直接支持DAX,也支持通过SSAS使用DAX。
Power BI三剑客:Power Query, Power Pivot, Power View。
Power Query=数据准备
Power Pivot=数据建模
Power View=数据展示