数据可视化(一):解构数据可视化——学习笔记

一、数据可视化过程

一个完整的数据可视化过程可以分为四个步骤:

(1)确定可视化的主题

首先得确定数据围绕什么样的主题来组织。具体地说,可以是业务的目标、一个需求、一个问题。比如,信贷行业分析不同信用等级的客户按时还款率;制造业分析不同生产线产品的合格率;餐饮业分析客户对某种菜品的评价;物流公司分析不同地区的运输时效等,都可以作为数据可视化的一个主题。

(2)提炼可视化需要的数据

确定好数据可视化的主题之后,我们需要获取并组织该主题需要的数据,这里分三步进行:

  • 确定数据衡量指标。不同的问题和数据,思考方式和角度不一样,衡量的指标也就不同,我们应根据业务需求或者用户需求,选择合适的指标关注。
  • 明确数据间的关系。
数据可视化(一):解构数据可视化——学习笔记_第1张图片 数据之间的相互关系
  • 确定重点指标。根据用户需求,对数据的指标做一个重要性排序,选择较为重要的几个指标,在后续设计过程中考虑到着重显示。

(3) 确定图表

统计图表作为数据可视化形式之一,常用的图表类型有:柱状图、饼图、折线图、堆叠图、直方图、等值线图、散点图、维恩图、热力图等。我们根据数据之间的相互关系以及想要展示的结果来选择合适的图表,常见的数据关系和图表类型的对应关系如下图(参考来源为:木东居士 ):

数据可视化(一):解构数据可视化——学习笔记_第2张图片 数据关系和图表类型的对应关系

 

(4)可视化设计

数据可视化的目的是展示数据所包含的信息。主要包括两个方面:一是进行可视化布局的设计,二是数据图形化的呈现。

1、页面布局设计

  • 简洁

过于复杂的可视化可能会对用户的理解造成麻烦,甚至会引起对数据的误读,因此在可视化布局中要求设计者避免使用复杂的设计效果,做到简洁明了。

  • 聚焦

设计者应该通过适当的排版布局,将用户的注意力集中到可视化结果中最重要的区域,从而使重要的数据信息脱颖而出,抓住用户的注意力,提升用户信息解读的效率。

  • 平衡

平衡原则要求充分利用可视化的空间,尽量使重要元素位于可视化空间的中心区域,同时确保各元素在可视化空间中平衡分布。

2、图表制作

影响图表呈现效果的,主要有两个影响因素,一个是数据层面的,一个是非数据层面的。

  • 数据层面

若数据中存在极端值、空值或过多分类项等,会极大影响可视化的效果呈现,如柱形图中柱形条的高度、气泡图中气泡的大小、饼图中的分类项太多等。

  • 非数据层面

非数据层面大部分是图表的设计问题,比如图表的背景颜色、网格线的深浅有无、外边框等等,这类元素是辅助用户理解图表的次要元素,但如果不加处理,视觉上就不够聚焦,也不够美观,可能会干扰到你真正想展示的数据信息。

二、数据可视化的基本流程

数据可视化的基本流程是一个以数据流向为主线的完整流程,主要包括数据采集、数据处理和转换、可视化展示、用户交互。一个完整的可视化过程,可以看成数据流经过一系列处理模块并得到转化的过程。

数据可视化(一):解构数据可视化——学习笔记_第3张图片 数据可视化基本流程

(1)数据采集

数据采集的方法很多,根据数据来源可分为一手数据和二手数据。一手数据是指通过研究者实施的调查或实验活动获得的数据,因此获取一手数据的方法有调查和实验。二手数据又可以分为内部数据和外部数据,内部数据一般是指企业内部在生产活动和日常运营中产生的业务、渠道、成本、收益等数据,可通过SQL从数据仓库中调用数据或者“埋点”采集数据;外部数据一般是来源公开的数据,例如行业数据、官网公布的数据、统计部门发布的数据等,可通过编写爬虫的方式获取。

(2)数据处理和转换

数据要想进行有效的可视化展示,必须经过转换处理,数据处理和变换包括数据预处理和数据特征挖掘两个过程。首先,采集到的数据可能含有噪声、误差或者缺失值,数据质量不高;另外,数据特征不明确,通常隐藏在大量的数据之中,因此需要挖掘提取特征。

1、数据预处理问题

  • 缺失值填充。由数据本身的缺失值或者记录数据时人为失误造成缺失值,根据数据整体情况进行删除含有缺失值的数据或者用均值填充缺失值。
  • 数据标准化。收集的数据可能存在数据的规格不一样的情况,也可能需要将定性数据转为定量数据表示。
  • 数据值错误。数据中包含非正常的数据值,比如身高一栏中显示性别.
  • 数据不一致。由于数据冗余或者并发控制不当的原因造成同样的信息莫哪些数据显示前后矛盾。
  • 离群数据。某些明显不同于大部分数据对象的值。

2、数据特征挖掘

比如用户想了解某个地区最受欢迎的快递公司,我们可以通过从收集到的该地区的快递数据中,人为选择特征,比如对下单量、客户评价这两列赋予大权重,也可以对数据降维处理,选择相关性高的特征。

另外,根据业务需求以及可视化展示需求,可继续对数据做一些处理。

(3)可视化展示(映射)

数据经过清洗、去噪声等预处理和特征提取之后,就可以进行可视化展示的设计了,可视化展示就是将数据所包含的信息映射成可视化元素的过程,是整个可视化基本流程的核心。

可视化元素由三部分组成:可视化空间、标记、视觉通道

1、可视化空间

数据可视化的显示空间通常是二维,但是三维的也可以在二维空间绘图显示。

2、标记

标记,是指数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。也叫图形元素,是出现在空间中的视觉元素,包括点、线、面、体四种,分别对应于常见的散点图、折线图、矩形树图、三维柱状图。

3、视觉通道

视觉通道就是标记的属性,包括标记的大小(点的大小、线条的长度、面的面积、体的体积)、颜色(色调、饱和度)、形状(圆形、方形、六边形)、位置、方向等。

标记通常和视觉通道结合来在可视化展示中描述信息,例如用点的大小表示数量多少,用不同的颜色来区分不同类别。

(4)用户交互

对数据进行分析和可视化的目的是将数据所包含的信息及其特征直观易懂的传达给用户,交互界面如果混乱不堪,不仅仅影响美观,还对用户获取数据信息造成了困难,降低工作效率。

这里介绍几种常见的交互方式:

1、滚动和缩放:当可视化界面数据较多、图片较大导致无法完整展示时,滚动和缩放是一种非常有效的交互方式,比如地图、折线图的信息细节等;

2、颜色映射的控制:合理的颜色搭配以及对不同数据较明显的色彩对比,有助于美观和用户理解;

3、数据映射方式选择:指用户可以根据自己的需要和喜好选择数据可视化映射元素,探索自己想要的信息;

4、数据细节层次控制:这个指的是隐藏一些详细描述,当点击对应主题时再显示。

 

三、数据可视化实践

数据来源为Iris数据集的两个特征(sepal length (cm) 、  petal length (cm))和类别标签,如下:

数据可视化(一):解构数据可视化——学习笔记_第4张图片

在tableau中以sepal length为x轴,petal length为y轴,class为颜色区分,红色为0类,黄色为1类,蓝色为2类,数据的分布情况绘制结果如下:

数据可视化(一):解构数据可视化——学习笔记_第5张图片

 

你可能感兴趣的:(数据可视化(一):解构数据可视化——学习笔记)