章节内容
数据可视化的概念、原理与各种常用的分析方法
考试内容
数据可视化简介
(1) 数据可视化的基本概念
(2) 数据可视化的发展历史
(3) 数据可视化的基本作⽤
(4) 数据可视化的⼀般流程
(5) 数据可视化的软件⼯具
单变量数据可视化
(1) 条状图
(2) 饼图
(3) 玫瑰图
(4) 词云图
数据预处理
(1) 散点图
(2) 折线图
(3) 平⾏坐标图
(4) 桑基图
空间数据可视化
(1) 地图的基础数据
(2) 空间数据可视化的呈现
(3) 可互动式的空间数据可视化
数据预处理的R软件实现
(1) R软件常⽤的数据可视化系统
(2) 单变量数据可视化的R软件实现
(3) 多变量数据可视化的R软件实现
(4)空间数据可视化的R软件实现
数据可视化的注意事项
考核内容
数据可视化简介
识记:数据可视化的基本概念、发展历史、基本作⽤与软件⼯具。
领会:数据可视化的基本原理与⼀般流程。
单变量数据可视化
识记:条状图、饼图、玫瑰图与词云图的应⽤背景。
领会:条状图、饼图、玫瑰图与词云图的绘制原理与⽅法。
数据预处理
识记:散点图、折线图、平⾏坐标图与桑基图的应⽤背景。
领会:散点图、折线图、平⾏坐标图与桑基图的绘制原理与⽅法。
空间数据可视化
识记:空间数据可视化的类型。
领会:地图基础数据的获取、空间数据可视化的呈现原理与⽅法、可互动式空间数据
可视化的具体⽅法。
数据可视化的R软件实现
识记:R软件中常⽤的数据可视化系统。
领会:利⽤R软件进⾏单变量、多变量以及空间数据可视化的⽅法。
数据可视化的注意事项
识记:数据可视化的基本要求。
领会:在数据可视化过程中如何选择图形元素。
简单应⽤:利⽤R软件对具有实际应⽤背景单⼀变量的数据进⾏可视化分析。
综合应⽤:利⽤R软件对⾏业领域中某些实际问题的多变量数据进⾏数据可视化分析。
研究表明,90%的信息通过视觉形式传到大脑,速度比文字信息要快6万倍。
数据可视化的3个目的:
提取数据信息的方式从分析方法来讲分为三类:
七个阶段。
获得数据。
我的理解:构建结构图,分析后将列数据转换为有用的格式,例如float,索引等。
删除不需要的部分。具有空值的个体数据,或者对于某个维度将所有数据按照某个数学模型进行范式化。
利用统计学及数据挖掘方法辨析数据格式,挖掘其中的规律。这个步骤涉及数学、统计和数据挖掘。
选择一个基本的视觉模型,比如条形图、列表或者网状结构图。
在这个阶段可以重新审视早期的那些阶段。
改善基本的表述方法,使它变得更加清晰和更容易视觉化。其实是对第5步的美化。
增加方法来操作数据或控制其可见的特性。
我的理解:增加动态图功能。
Excel, Tableau, R, Python, Google Charts, D3, Echarts, DataV, Flourish, Gephi
一般地,对于单变量的数据,常常首先会考虑提取数据的频数或取值本身或所占比率等,而所采取的数据可视化可以选择散点图、条形图、饼图等。
bar chart,是对某一个索引或等级数据,规定单位长度表示一定的数量,利用宽度相同的条形元素的高度或长度来表示各索引或等级数据的某个统计量大小的图形。
可以横置或纵置,纵置也称为柱形图column chart。
用来展示频数。
以2011年3月大西洋地区3000名男性工人的婚姻状况为例。
以250频数为单位,选择合适的宽度,条形图如下。
它们可以在婚姻情况的基础上,再多显示一种信息,health_ins。前者是堆积起来,后者是左右对比起来。
饼图,用于表示比例大小、部分与整体之间的关系。详细就不介绍了。
又叫南丁格尔玫瑰图、风玫瑰图、名鸡冠花图、极坐标区域图。
以下面数据为例:
玫瑰图如下所示:
还有堆积玫瑰图的概念,和堆积条形图类似。
word cloud chart,对某一段文本中出现的频率较高的“关键词”予以视觉上的突出。
基本步骤有:
对两个及两个以上的变量进行分析。
分析两个及两个以上浮点或整型变量之间关系时,样本点在直角坐标系平面上的分布图。数据可以在横坐标、纵坐标、也可以是点颜色、点符号。
可用于观察散点是否有一定分布密度的聚集点群,成团状或是带状。或者是否距离很远、正相关、负相关、线性相关等。
有时候数据可以进行适当变换,比如进行对数变换。
与散点图类似,但利用散点的大小来展示第三个变量。它可以半径与数值成正比,也可以面积与数值成正比,前者在显示上会夸大。
分析数值与时间之间的关系,数值随时间起伏变化。
折线图可以有多条折线。
折线图还可以堆积数值,成为堆积折线图。
用于多变量可视化。将数个坐标轴平行的排列在平面上,再利用折线穿过坐标轴的刻度展示每一个样品,并找到样品之间的分类关系或变量之间的相关关系。
又称星状图。可看作是平面坐标系看成星状的结果。
也叫桑基能量分流图、桑基能量平衡图。桑基图最明显的特征是始末端的分支宽度总和相等,即所有主支宽度的总和应与所有分出去的分支宽度的总和相等,保持能量的平衡。
图中延伸的分支的宽度对应数据流量的大小。主要由边、流量和节点组成。边代表流动的数据,流量代表流动数据的具体数值,节点代表了不同分类。边的宽度与流量成比例地显示。边越宽,流量数值越大。
人数随着变量的不同而不同。
是二维桑基图的变形,将各变量的平分类图依次排列在圆上。
看书
略
重点看:什么情况选什么图