商业智能( Business Intelligence ,简称:BI ),指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值(运用一定的技术,进行数据分析,创造商业价值)。
可视化(Visualization),是指利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,从而清晰、有效的传达与沟通信息(通过图表传达信息)。
Microsoft Power BI 是微软2015年推出的自助式BI工具,在中国分为国际版和国内版两个版本。对于Power BI的作用,微软官方给出的解释如下:
Power BI支持3A场景,使用方便、灵活、易于上手:
Power BI主要由Power Query、Power Pivot、Power View三大组件组成。其中,Power Query用作获取和整理数据,Power Pivot负责进行建模和分析数据,Power View实现数据可视化,生成各类交互式报表。
网上下载安装包,安装即可
Power BI主要由Power Query、Power Pivot、Power View三大组件组成。其中,Power Query用作获取和整理数据,Power Pivot负责进行建模和分析数据,Power View实现数据可视化,生成各类交互式报表。
我们以 奶茶连锁店销售数据.xlsx文件作为数据源,实现一个简单的Power BI项目
打开Power BI Desktop,从登录界面或文件选项选择“获取数据”,选择从“Excel”导入,点击连接,找到奶茶连锁店销售数据.xlsx文件并打开。选中四个sheet表,然后点击加载数据。ctrl+s保存为产品数据分析.pbix文件。
数据建模就是将现有的各类数据组织成数据分析需要的有效信息,找出数据的内在联系,是真正意义上的度量分析数据。
在数据建模和数据分析中,从数据源中提取的数据表单,一般分为事实表和维度表。
事实表:通过各种维度和一些指标值的组合来确定一个事实,比如在某时某地做了某事,数据量一般比较大。
事实表结构
总是包含外键,且外键不能为空
事实表的设计完全依赖业务活动
每行对应一个事件
维度表:主要包含类别属性信息,数据是对事实的各方面描述,比如时间维度、产品属性等,数据量较小。
事实表和维度表通常是多对一的关系。
维度表结构
数据表之间存在三种关联关系:一对多、一对一、多对多。
一对多(1:):一个公司里有多个员工、一类产品能产生多次销售数据。
一对一(1:1):一个员工只能有一个身份证号,一个连锁店只能有一个地址。
多对多(:*):一个角色可以属于多个用户,一个用户可以是多个角色。
在Power BI中,使用模型视图界面查看并管理数据关系。菜单栏建模选项卡中集成了Power Pivot数据建模功能及服务,帮助用户完成数据建模。
多维数据模型的概念来源于数据仓库,常用的有星形模式、雪花模式模型。
星形模式:一张事实表和多个维度表组合,所有维度表都直接与事实表关联。
雪花模式:一张事实表和多层维度表组合,每个维度串联起多个维度表,像雪花一样由中心向外延伸。
使用Power BI Desktop导入数据时,系统会尝试查找多个数据表格中的列名,识别是否存在任何潜在关系,如果有则自动创建关系。对于没有自动创建关系的数据表,可以通过鼠标拖动或设置属性的方式创建关系。管理关系功能提供创建、编辑、删除关系等操作。
完成对提供的奶茶连锁店销售数据.xlsx文件中数据表单进行修改,并创建星型模式数据模型。
DAXDAX公式样例:所有DAX函数的使用方法请参考微软官方指定使用手册
销售量 = SUM('销售表'[数量])
销售量:度量值名称
SUM:DAX函数名,表示对销售表数量列中所有数据求和
():包含参数表达式,所有函数都至少需要一个参数
‘ ‘ :引用表名
[]:引用列名
销售表:表的名称
数量:列的名称
文档链接
CALCULATE是DAX语言中最强大的函数,用于完成各种聚合运算。
公式:CALCULATE(表达式,筛选器1,筛选器2,…)
示例:销售额 = CALCULATE(SUM(‘销售表’[金额]),‘销售表’[店铺ID])
仪表图用来描述数据的关键指标。在实际使用中,一般通过设置最大值,使实际数据值出现在仪表盘的右侧,也可以显示仪表盘被广泛应用与经营数据分析、财务指标跟踪和绩效考核等方面。
多行卡片图用于同时展示多个重要指标数据。卡片图和多行卡片图一般出现在仪表板和报表中最重要的几个信息数据,样式一般大而醒目。
KPI一词来源于企业绩效管理,又称关键绩效指标,是衡量流程绩效的一种目标式量化管理指标。KPI图是显示KPI指标及完成状态的有效工具。
创建KPI视觉对象需要有一个基础指标值、一个目标指标值,以及一个目标。
切片器的作用是在画布中进行视觉筛选。通过维度表中数据的控制,显示对应的筛选数据,如查看某一月份、某一个店铺、某一个产品等维度的相应数据,我们就需要设置相应的基于年度、店铺、产品的切片器。
地图用来显示位置
数据可视化的呈现形式和展示可视化对象的选择遵循以下两条原则:
柱形图利用数据柱的高度反映数据的差异,易于比较,辨识效果较好。
柱形图还包含簇状柱形图、堆积柱形图等。
标题:20磅
数据标签:14磅
x轴y轴标签名称:15磅
刻度:12磅
案例:分析不同的产品和产品类别销量
使用簇状柱形图展示每个数据单元中更多细分数据。
案例:不同的产品类别各个季度销量分析
条形图利用条状的长度反映数据的差异,包括简单条形图、堆积条形图、簇状条形图、百分比堆积条形图等。
案例:每个月对应的销售额情况
使用百分比堆积条形图展示不同分类下的不同数据占总分类数据的百分比。
案例:不同产品类别销售额占比分析
折线图连接单个的数据点,能够清晰地展现数据变化趋势,可以与其他类型的图表相结合,提供多维度的序列分析。折线图连接各个单独的数据点,更加简单、清晰的展现数据变化的趋势。
案例:2018年不同产品类别销售额变化趋势分析
堆积面积图中不同颜色的阴影反映不同序列的数据,通过相对高度展现数据序列的值。面积图除了可以像折线图一样表达变化趋势,更能反映差距变化的部分,通过层叠的阴影面积。
案例:分析18年下半年不同产品的销量
通过两个或以上图表合并实现可视化效果,可以进行更直观、更全面的数据比较。
案例:分析18年下半年不同产品类别的销量和销售额
功能区图表能够直观地显示数据和数据排名的变化,使用户快速发现数据类别中的最高排名数据。
案例:分析18年下半年不同类别产品销量
饼图用来显示部分与整体的关系,展现个体站总体的比例,利用扇形面积和角度展示比例大小。饼图一般不适合展示太多类别,如果要显示比例数据,需保证总和为100%。
案例:分析不同产品的销量
环形图和饼图类似,通过环形的长度展示占比的大小,比饼图更适合展示多类别数据。
案例:分析不同店铺的销量占比
散点图用于显示数据在某个坐标系中数据的分布情况,常用于处理数据集数据,可以让大量散乱的数据变得通俗易懂,分析得到规律。可以使用播放轴添加动图效果。
案例:分析每个月店铺销量