0x00 可视化
数据可视化不是简单的视觉映射,而是一个以数据流向为主线的一个完整流程,主要包括:数据采集、数据处理和变换、可视化映射、用户交互和用户感知。一个完整的可视化过程,可以看成数据流经过一系列处理模块并得到转化的过程,用户通过可视化交互从可视化映射后的结果中获取知识和灵感。
可视化的终极目标是洞悉蕴含在数据中的现象和规律,从而帮助用户高效而准确的进行决策。
0x01 可视化过程
一个完整的数据可视化过程,主要包括以下4个步骤:
确定数据可视化的主题;
提炼可视化主题的数据;
根据数据关系确定图表;
进行可视化布局及设计。
0x02 确定数据主题
可视化过程的第一步:确定数据主题,即确定需要可视化的数据是围绕什么主题或者目的来组织的。业务运营中的具体场景和遇到的实际问题,公司层面的某个战略意图,都是确定数据可视化主题的来源和依据。简而言之,一个具体问题或某项业务、战略目标的提出,其实就可以对应一个数据可视化的主题。
0x03 提炼数据
了解拥有的数据,如何组织数据:
1. 确定数据指标
分析和评估一项业务的经营现状通常有不同的角度,这也就意味着会存在不同的衡量指标。同样一个业务问题或数据,因为思考视角和组织方式的不同,会得出截然不同的数据分析结果。
2. 明确数据间的相互关系
基于不同的分析目的,所关注的数据之间的相互关系也截然不同,这一步实质上是在进行数据指标的维度选择。
通常,数据之间的相互关系包含如下几类:
趋势型:
通常研究的是某一变量随另一变量的变化趋势,常见的有时间序列数据的可视化。
对比型:
对比两组或者两组以上的数据,通常用于分类数据的对比。
比例型:
数据总体和各个构成部分之间的比例关系。
分布型:
展现一组数据的分布情况,如描述性统计中的集中趋势、离散程度、偏态与峰度等。
区间型:
显示同一维度上值的不同分区差异,常用来表示进度情况。
关联型:
用于直观表示不同数据之间的相互关系,如包含关系、层级关系、分流关系、联结关系等。
地理型:
通过数据在地图上的地理位置,来展示数据在不同地理区域上的分布情况,根据空间维度不同,通常分为二维地图和三维地图。
3. 确定用户关注的重点指标
确定了要展示的数据指标和维度之后,就要对这些指标的重要性进行一个重要性排序。
因为对于一个可视化展示的终端设备而言,其屏幕大小有限,且用户的时间有限、注意力也极其容易分散。如何让用户在短时间内,更有效率的获取到重要的信息,这是评估一个可视化产品好坏的重要因素。
在可视化设计之前,不妨问用户两个问题:
(1)如果整个版面只能展示一个最重要的信息,你希望是什么?
(2)你希望展现这些信息的理由是什么?通过用户对这些问题的回答,你能了解到,在已确定的指标和维度中,用户最关注的是哪个或哪些。
通过确定用户关注的重点指标,才能为数据的可视化设计提供依据,从而通过合理的布局和设计,将用户的注意力集中到可视化结果中最重要的区域,提高用户获取重要信息的效率。
0x04 确定图表
数据之间的相互关系,决定了可采用的图表类型。
0x05 可视化设计
在做好了以上的需求收集和整理之后,进入可视化的设计和呈现的阶段。主要包括两个方面:一是进行可视化布局的设计,二是数据图形化的呈现。
5.1 页面布局
可视化设计的页面布局,要遵循以下三个原则:
(1)聚焦
设计者应该通过适当的排版布局,将用户的注意力集中到可视化结果中最重要的区域,从而将重要的数据信息凸显出来,抓住用户的注意力,提升用户信息解读的效率。
(2)平衡
要合理的利用可视化的设计空间,在确保重要信息位于可视化空间视觉中心的情况下,保证整个页面的不同元素在空间位置上处于平衡,提升设计美感。
(3)简洁
在可视化整体布局中,要突出重点,避免过于复杂或影响数据呈现效果的冗余元素。
5.2 图表制作
影响图表呈现效果的,主要有两个影响因素,一个是数据层面的,一个是非数据层面的。
(1)数据层面
若数据中存在极端值或过多分类项等,会极大影响可视化的效果呈现,如柱形图中柱形条的高度、气泡图中气泡的大小、饼图中的分类项太多等。
(2)非数据层面
非数据层面,但是影响图表呈现效果的因素,通常在设计过程中就可以解决。
比如图表的背景颜色、网格线的深浅有无、外边框等等,这类元素是辅助用户理解图表的次要元素,但如果不加处理全部放出,视觉上就不够聚焦,干扰到你真正想展示的数据信息。
因此,对于此类非数据层面,但影响图表视觉呈现的元素,应该尽量隐藏和弱化。
0x06 可视化映射
可视化元素由3部分组成:可视化空间+标记+视觉通道
1.可视化空间
数据可视化的显示空间,通常是二维。三维物体的可视化,通过图形绘制技术,解决了在二维平面显示的问题,如3D环形图、3D地图等。
2.标记
标记,是数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。
根据空间自由度的差别,标记可以分为点、线、面、体,分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图,分别采用了点、线、面、体这四种不同类型的标记。
3.视觉通道
数据属性的值到标记的视觉呈现参数的映射,叫做视觉通道,通常用于展示数据属性的定量信息。
常用的视觉通道包括:标记的位置、大小(长度、面积、体积...)、形状(三角形、圆、立方体...)、方向、颜色(色调、饱和度、亮度、透明度...)等。
「标记」、「视觉通道」是可视化编码元素的两个方面,两者的结合,可以完整的将数据信息进行可视化表达,从而完成可视化映射这一过程。
0xFF 总结
作为数据可视化的设计者,应该在可视化设计之前,全面了解此次数据的分布情况、量级,通常几行sql就可以搞定,这样在进行可视化设计的时候,可以避免很多陷阱。
参考阅读:
1.《数据可视化过程》全文,对数据可视化的工作流程和工作内容有个整体的了解,着重把握四个关键步骤。
2.《数据可视化的基本流程》全文,重点看下第3部分【视觉映射的三要素】,因为无论什么图表类型,本质上都是遵循这个映射规则的。
3.《数据可视化的基本原理与方法》p66,有介绍数据可视化流程的相关内容。
延伸阅读:
1.数据可视化的基本流程
2.如何设计数据字典