接一图胜千言:数据可视化不完全总结(一)继续我们的讨论。
4.3.3.3 用于查找相关性
4.3.3.3.1 散点图
也称为“点图”、“散布图”或“X-Y 点图”。所谓的散点图 (Scatterplot) 就是在笛卡尔座标上放置一系列的数据点,用来显示两个变量的数值(每个轴上显示一个变量),并检测两个变量之间的关系或相关性是否存在。我们可以通过研究散点图上所显示的模式,了解数据之间的各种相关性,如正比(数值一起增加)、反比(其中一个数值随着另一数值的增加而减小)、零(无相关)、线性、指数级和 U 形。我们也可以通过查看图上数据点的密度来确定相关性的强度。远超出一般聚集区域的数据点称为“异常值”。图表中可加入直线或曲线(尽可能靠近所有数据点)来辅助分析,并显示当所有数据点凝聚成单行时的模样,通常称为“最佳拟合线”或“趋势线”,用来进行估计(通过插值)。如您有一对数值数据,可使用散点图来查看其中一个变量是否在影响着另一个变量。可是请记住,相关性并非因果关系,也有可能存在另一个变量在影响着结果。
4.3.3.3.2 气泡图
气泡图是一种包含多个变量的图表,结合了散布图和比例面积图。跟散布图一样,气泡图使用笛卡尔双轴座标来绘制数值点,其中 X 轴和 Y 轴代表不同变量,但与散布图不同的是,每一点都会获分配一个标签或类别(在旁边或图例中显示)。每个数值点再以其圆形面积表示第三个变量。此外,也可以用颜色来区分不同类别或表示别的数据变量。至于时间方面,可以把它设为其中一条轴的变量,或者把数据变量随时间的变化制成动画来显示。通过利用定位和比例,气泡图通常用来比较通常用来比较和显示已标记/已分类圈圆之间的关系。气泡图可用于分析模式/相关性。可是,过多气泡会使图表难以阅读,因此气泡图的数据容量有限。我们可以在图表中加入交互性功能来解决这个问题(点击或把鼠标悬停在气泡上以显示隐藏信息),也可选择重组或筛选分组类别。跟比例面积图一样,圆圈大小需要按照圆的面积来绘制,而非其半径或直径。也就是说,圆圈的大小会呈指数级变化,而且也会导致人类视觉系统出现误解。
4.3.3.3.3 不等宽柱状图
也称为“马赛克图”。不等宽柱状图 (Marimekko Chart) 显示分类数据中一对变量之间的关系,原理类似双向的 100% 堆叠式条形图,但其中所有条形在数值/标尺轴上具有相等长度,并会被划分成段。只有在不等宽柱状图中,两轴才会同时成为具有刻度的变量,这决定了每个分段的宽度和高度。我们可以通过这两个变量来检测类别与其子类别之间的关系。不等宽柱状图的主要缺点在于难以阅读,特别是当含有大量分段的时候。此外,我们也很难准确地对每个分段进行比较,因为它们并非沿着共同基线排列在一起。因此,不等宽柱状图较为适合提供数据概览。
4.3.3.4 层次结构关系
4.3.3.4.1 圆堆积
也称为“圆形树结构图”。圆堆积 (Circle Packing) 是树形结构图的变体,使用圆形(而非矩形)一层又一层地代表整个层次结构:树木的每个分支由一个圆圈表示,而其子分支则以圆圈内的圆圈来表示。每个圆形的面积也可用来表示额外任意数值,如数量或文件大小。我们也可用颜色将数据进行分类,或通过不同色调表示另一个变量。虽然圆堆积看起来漂亮,但不及树形结构图般节省空间(因为圆圈内会有很多空白处),可是它实际上比树形结构图更能有效显示层次结构。
4.3.3.4.2 旭日图
也称为“多层饼形图”或“径向树图”。这种图表通过一系列的圆环显示层次结构,再按不同类别节点进行切割。每个圆环代表层次结构中的一个级别,中心圆表示根节点,层次结构从这点往外推移。之后圆环会按照其与原属切片的层次关系再被分割,分割角度可以是均等平分,或者与某个数值成比例。我们也可以用不同颜色突出显示层次分组或特定类别。
4.3.3.4.3 树形图
也称为“组织图”或“链路图”。树形图 (Tree Diagram) 是通过树状结构表示层次结构的一种方式,其结构通常由没有上级/父级成员的元素开始(根节点),然后加入节点,再用线连在一起,称为分支,表示成员之间的关系和连接。最后是枝叶节点(或称为末端节点),是没有子节点的成员。
树形图通常用于:
- 表示家庭关系和血统
- 分类学(分类的实践和科学
- 进化科学(展示物种起源)
- 计算机科学与数学
- 企业和组织的管理工具
4.3.3.4.4 树形结构图
树状结构图 (Treemap) 是一种利用嵌套式矩形显示层次结构的方法,同时通过面积大小显示每个类别的数量。每个类别会获分配一个矩形区域,而其子类别则由嵌套在其中的小矩形代表。当不同数量被分配到各个类别时,这些矩形的面积大小会与此数量成正比显示:小矩形与小矩形之间(部分对部分)及小矩形与大矩形之间(部分对整体)的面积比例。此外,主类别的面积大小是其所有子类别的总和。如果没有数量分配给子类别,那么其面积则是主类别的总面积平均除以子类别的数目。矩形被划分成子矩形的方式取决于所使用的平铺算法。在众多平铺算法中,最常用的是将每个矩形尽可能保持为正方形的「方格算法」。Ben Shneiderman 最初开发树状结构图用来在计算机上显示大量文件目录,而不会占用太多屏幕空间,因此树状结构图是一种紧凑而且节省空间的层次结构显示方式,可让人快速了解结构。我们也可以通过比较大小来比较类别之间的比例。
4.3.4 概念
4.3.4.1 脑力激荡图
脑力激荡图(也称为“心智图”)将相关想法、单词、图像和概念联合在一起。通常用来产生想法、查找关联、分类想法、组织信息、显示结构和一般学习的有效工具。脑力激荡图经常在项目初期使用,并作笔记用途。它们也可以用于协同工作和建设团队士气。脑力激荡图的结构如下:从中间位置的主类别开始下笔,其他较小的类别从主类别延伸开来成为子类别,这些子类别也可以各自延伸出自己的相关子类别。
绘制脑力激荡图的简单指引:
- 从页面中间开始,写下项目主题/标题,再用任何形状圈起来(通常是圆圈或云状)。
- 想想与主题相关或任何有用/相关的单词或类别。
- 然后从中心标题(往任何方向)开始画线代表每个类别,并在每条线的末端写下类别名称。
- 现在想想每个类别有什么相关单词,并如上一步般添加子类别。
- 如有需要,可重复第 4 步加入新的子类别或相关字词。
4.3.4.2 流程图
也称为“流程地图”、“流程模型”或“工作流程图”。流程图 (Flow Chart) 用于显示流程中的顺序步骤,这种图表使用一系列相互连接的符号绘制出整个过程,使得过程易于理解,并有助于与其他人沟通。流程图可用于解释复杂和/或抽象的过程、系统、概念或算法的运作模式。绘制流程图还可以帮助规划和发展流程,或改进现有的流程图。不同符号代表不同意思,每种都具有各自的特定形状。每个步骤的标签会写在符号形状内;流程图以弧形矩形表示流程的开始和结束;线段或箭头用于显示从一个步骤到另一个步骤的方向或流程;简单的指令或动作用矩形来表示,而当需要作出决定时,则使用钻石形状。除此之外,流程图中还可以使用许多其他符号。流程图可以是水平或垂直。
4.3.4.3 说明图
说明图旨在使用笔记、标签和图例来解释说明所显示的图像,以便:
- 解释概念或方法
- 描述物件或场所
- 显示事情的运作、移动或变化
- 帮助了解所显示的主题
所使用的图像可以是插图、粗略草图、线框或照片;图像可以是象征性、图像化或真实相片。有时会把图像放大或使用其横截面,以更深入分析或显示更多细节。
4.3.5 地理空间
4.3.5.1 气泡地图
在这种数据地图中,指定地理区域上方会显示圆形图案,圆形面积与其在数据集中的数值会成正比。气泡地图适合用来比较不同地理区域之间的比例,而不会受区域面积的影响(如地区分布图。可是,气泡地图的主要缺点在于:过大的气泡可能会与地图上其他气泡或区域出现重迭。
4.3.5.2 地区分布图
地区分布图通常用来显示不同地理分区或区域(不同颜色或图案)与数据变量之间的关系,并把所显示位置的数值变化或模式进行可视化处理。我们在地图上每个区域以不同深浅度的颜色表示数据变量,例如从一种颜色渐变成另一种颜色、单色调渐进、从透明到不透明、从光到暗,甚至动用整个色谱。使用颜色的其中一个缺点是无法准确读取或比较地图中的数值。此外,较大的地区会比较小区域更加显眼,影响读者对阴影数值的感知。绘制地区分布图时的常见错误:对原始数据值(例如人口)进行运算,而不是使用归一化值(例:计算每平方公里的人口)。
4.3.5.3 连接地图
连接地图 (Connection Map) 即是用直线或曲线连接地图上不同地点的一种图表。虽然连接地图非常适合用来显示地理连接和关系,但我们也可使用单一连接链路来显示地图路线。此外,通过研究连接地图上的连接分布或集中程度,我们也可以用它来显示空间格局。
4.3.5.4 点示地图
也称为“点示分布图”或“点示密度图”。点示地图 (Dot Map) 在地理区域上放置相等大小的圆点,旨在检测该地域上的空间布局或数据分布。共有两种点示地图:一对一(每点代表单一计数或一件物件)和一对多(每点表示一个特定单位,例如 1 点 = 10棵树)。点示地图非常适合用来查看物件在某地域内的分布状况和模式,而且容易掌握,能提供数据概览,可是在检索精确数值方面表现则不太理想。
4.3.5.5 流向地图
流向地图 (Flow Map) 在地图上显示信息或物体从一个位置到另一个位置的移动及其数量,通常用来显示人物、动物和产品的迁移数据。单一流向线所代表的移动规模或数量由其粗幼度表示,有助显示迁移活动的地理分布。流向地图的绘制方法:从原点出发,再往外绘制「流向线」。箭头可用于表示方向,或者移动是进入还是外出。不用箭头则可以用来代表贸易往来。建议将流向线合并/捆绑在一起并避免彼此交迭,有助减少地图上的视觉混乱。
4.3.6 分布
4.3.6.1 显示频率及数据在某时间段内的分布或分组状况
4.3.6.1.1 箱形图
箱形图(又称为“盒须图”或“箱线图”)能方便显示数字数据组的四分位数。从盒子两端延伸出来的线条称为「晶须」(whiskers),用来表示上、下四分位数以外的变量。异常值 (Outliers) 有时会以与晶须处于同一水平的单一数据点表示。这种箱形图可以垂直或水平的形式出现。箱形图通常用于描述性统计,是以图形方式快速查看一个或多个数据集的好方法。虽然与直方图或密度图相比似乎有点原始,但它们占用较少空间,当要比较很多组或数据集之间的分布时便相当有用。
下面是可以从箱形图得出的观察结果:
- 关键数值,例如平均值、中位数和上下四分位数等。
- 任何异常值(以及它们的数值)。
- 数据分布是否对称。
- 数据分组有多紧密。
- 数据分布是否出现偏斜(如果是,往什么方向偏斜)。
最常用的两种箱形图:可变宽度和带凹槽的箱形图。
4.3.6.1.2 密度图
又称为“密度曲线图”。密度图 (Density Plot) 用于显示数据在连续时间段内的分布状况。这种图表是直方图的变种,使用平滑曲线来绘制数值水平,从而得出更平滑的分布。密度图的峰值显示数值在该时间段内最为高度集中的位置。密度图其中一个比直方图优胜的地方,是由于它们不受所使用分组数量(典型直方图中所使用的条形)的影响,所以能更好地界定分布形状 。举个例子,仅用 4 个条形的直方图所产生的分布形状,总不及使用 20 个条形的直方图般容易解读。然而,密度图则不会有这种问题。
4.3.6.1.3 直方图
直方图适合用来显示在连续间隔或特定时间段内的数据分布,当中每个条形表示每个间隔/时间段中的频率。直方图的总面积也相等于数据总量。直方图有助于估计数值集中位置、上下限值以及确定是否存在差距或异常值;也可粗略显示概率分布。
4.3.6.1.4 小提琴图
小提琴图 (Violin Plot) 用于显示数据分布及其概率密度。这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,而白点则为中位数。箱形图在数据显示方面受到限制,简单的设计往往隐藏了有关数据分布的重要细节。例如使用箱形图时,我们不能了解数据分布是双模还是多模。虽然小提琴图可以显示更多详情,但它们也可能包含较多干扰信息。
4.3.6.2 按人口年龄和性别显示分布
4.3.6.2.1 人口金字塔
也称为“年龄性别金字塔”。人口金字塔 (Population Pyramid) 是彼此背靠背的一对直方图(每边代表一个性别),显示所有年龄组和男女人口的分布情况。X 轴表示人口数量,Y 轴列出年龄组别。人口金字塔最适合用来检测人口模式的变化或差异。多个人口金字塔放在一起更可用于比较各国或不同群体之间的人口模式。人口金字塔的形状可以用来理解人口结构。举个例子,底部较宽、顶部狭窄的金字塔表示该群体具有很高的生育率和死亡率;相反顶部较宽、底部狭窄的金字塔代表出现人口老龄化,而且生育率低。除此之外,人口金字塔也可用来推测人口的未来发展。如果人口出现老龄化,而且生育率低,最终会导致没有足够后代照顾老人的社会问题。其他理论包括「青年膨胀」,即社会存在大量 16-30 岁的青年(特别是男性),容易导致社会动荡、战争和恐怖主义。因此,人口金字塔对生态学、社会学和经济学等领域都相当有用。
4.3.7 时间维度
4.3.7.1 某时间段内的数据趋势或变化
4.3.7.1.1 甘特图
甘特图 (Gantt Chart) 通常用作项目管理的组织工具,显示活动(或任务)列表和持续时间,也显示每项活动何时开始和结束。甘特图适合用来规划和估计整个项目的所需时间,也可显示相互重迭的活动。我们采用表格来绘制甘特图:水平行代表活动,垂直列则是时间刻度。每项活动的持续时间由沿着时间刻度绘制的条形长度来表示。条形的开始位置代表着活动的开始;而条形的结束位置则是活动结束之时。我们可使用不同颜色的条形来将活动分类。要显示活动完成的百分比,我们可以把条形部分填满、使用不同深浅度或使用不同颜色,来区分已完成的内容和剩下要完成的内容。相连的箭头可用来显示哪些任务相互依赖,而关键路径(完成项目必需的关键活动)也可以通过特别箭头表示。我们也可在甘特图内使用符号来表示各个里程碑,而垂直穿越图表的线段则是当前日期标记。
4.3.7.1.2 折线图
折线图用于在连续间隔或时间跨度上显示定量数值,最常用来显示趋势和关系(与其他折线组合起来)。此外,折线图也能给出某时间段内的“整体概览”,看看数据在这段时间内的发展情况。要绘制折线图,先在笛卡尔座标上定出数据点,然后用直线把这些点连接起来。通常 Y 轴用于定量数值,而 X 轴则是分类或顺序刻度。负值可以显示在 X 轴下方。
4.3.7.1.3 螺旋图
也称为“时间系列螺旋图”。这种图表沿阿基米德螺旋线 (Archimedean spiral) 画上基于时间的数据。图表从螺旋形的中心点开始往外发展。螺旋图十分多变,可使用条形、线条或数据点,沿着螺旋路径显示。螺旋图很适合用来显示大型数据集,通常显示长时间段内的数据趋势,因此能有效显示周期性的模式。我们可以将颜色分配给每个时间段以进行区分,并允许每个时期之间进行一些比较。举个例子,如果我们要显示一年中的数据,可以在图表上为每个月分配不同颜色。
4.3.7.1.4 量化波形图
这种图表是堆叠式面积图的一种变体,但其数值并非沿着固定直线轴来绘制,而是围绕着不断变化的中心基线。通过使用流动的有机形状,量化波形图 (Stream Graph) 可显示不同类别的数据随着时间的变化,这些有机形状有点像河流,因此量化波形图看起来相当美观。在量化波形图中,每个波浪的形状大小都与每个类别中的数值成比例。与波形图平行流动的轴用作时间刻度。我们也可以用不同颜色区分每个类别,或者通过改变色彩来显示每个类别的附加定量值。量化波形图很适合用来显示大容量的数据集,以便查找各种不同类别随着时间推移的趋势和模式。举个例子,波浪形状中的季节性峰值和谷值可以代表周期性模式。波形图也可以用来显示大量资产在一段时间内的波动率。量化波形图的缺点在于它们存在可读性的问题,当显示大型数据集时,这类图就特别显得混乱。具有较小数值的类别经常会被「淹没」,以让出空间来显示具有更大数值的类别,使我们不能看到所有数据。此外,我们也不可能读取到波形图中所显示的精确数值,因为它们都是由代码生成的。因此,波形图还是比较适合不想花太多时间深入解读图表和探索数据的人,它适合用来显示一般表面的数据趋势。此外,当他们以互动形式展示时,比静态或印刷出来更有效率。
4.3.7.1.5 面积图
面积图 (Area Graph) 是折线图的一种,但线下面的区域会由颜色或纹理填满。要绘制面积图,首先在笛卡儿双轴座标上标记各个数据点,再用线把它们连起来,最后把线下方的空间填满。跟折线图一样,面积图可显示某时间段内量化数值的变化和发展,最常用来显示趋势,而非表示具体数值。其中两种较常用的面积图:分组式和堆叠式面积图。分组式面积图在相同的零轴开始,而堆叠式面积图则从先前数据系列的最后数据点开始。
4.3.7.1.6 堆叠式面积图
堆叠式面积图 (Stacked Area Graph) 的原理与简单面积图相同,但它能同时显示多个数据系列,每一个系列的开始点是先前数据系列的结束点。整个图表代表所有数据的总和。堆叠式面积图使用区域面积来表示整数,因此不适用于负值。总的来说,它们适合用来比较同一间隔内多个变量的变化。
3.7.2 显示某时间段内事件的发生顺序
3.7.2.1 日历
在人类历史上,我们曾经开发出各种日历系统作为组织工具,帮助我们提前做好计划。我们也把日历当作可视化工具,适用于显示不同时间段,以及活动事件的组织情况。时间段通常以不同单位显示,例如日、周、月和年。任何日期就是这个系统中所指定的单一日子。今天我们最常用的日历形式是公历,每个月份的月历由七个垂直列组成(代表每周七天),另有约五至六行以水平方式代表星期。可是,日历格式并没有严格规定,所以市面上有各式各样不同的设计,只要能以时间顺序显示日期或时间单位便可。
3.7.2.2 时间线
时间线 (Timeline) 是以时间顺序显示一系列事件的图象化方式。某些时间线甚至按时间长度比例绘制,而其他的则只按顺序显示事件。时间线的主要功能是传达时间相关信息,用于分析或呈现历史故事。如果是按比例绘制的时间线,我们可以通过查看不同事件之间的时间间隔,了解事件发生的时间或即将在何时发生,从中查找时间段内的事件是否遵循任何模式,或者事件在该时间段内如何分布。有时时间线会与图表相互结合,显示定量数据随时间的变化。
3.7.2.3 时间表
时间表 (Timetable) 可用作预定事件、任务和行动的引用和管理工具。使用表格按时间顺序和/或字母顺序组织数据,能有助用户快速进行引用。时间表通常用来显示列车和其他交通工具的到达和离开时间。
4.4 图表元素
了解了大部分的图表类型,下面我们来深入研究一下,一个图表包含的元素:标尺,坐标系,背景信息和视觉编码。
4.4.1 标尺
标尺一般出现在图表的坐标轴上,有四类:线性,分类,百分比和对数。线性标尺最常见,上面刻度的间距处处相等。分类标尺主要用在分类数据上,有序分类要对分类标尺做排序,常见的例子有:年龄段,性别和学历等。百分比标尺是线性标尺的特殊情况,刻度值为百分比,比如上面提到的堆叠式条形图中就出现过这种标尺。对数标尺按照对数化将坐标轴压缩,适合数值跨度非常大的场景,或者需要将分布转为正态分布的场景。
4.4.2 坐标系
从上面对各种图表的介绍就知道,图表中最常见的坐标系就是直角坐标系了,其距离的衡量为欧氏距离。而像饼图,径向柱图等,使用的就是极坐标系,距离的衡量为弧度。地理坐标系常出现在各种地理信息图表中,距离的衡量是经纬度。
4.4.3 背景信息
图表中往往还包含有背景信息,比如图例,各种主/副标题,坐标轴标签以及标记的度量单位。
4.4.4 视觉编码
上面我们说,数据可视化就是将数据空间映射到图形空间。这种映射的关键,就是将数据的信息用视觉编码进行表示,七种最常见的视觉编码有:
- 位置:趋势规律和分布规律,典型例子:散点图
- 长度:人眼对于长度的感受往往是最准确的,典型例子:条形图
- 弧度:弧度越大,值越大,典型例子:饼图
- 方向:坐标系中一个向量的方向
- 面积/体积:面积/体积大则绝对值大
- 形状:代表不同的类别
- 色彩与饱和度:不同的颜色通常用来表示分类数据,饱和度越深代表数值越大
这些视觉编码到底哪个更有效?已经有学者对其进行过研究,上面这个排序就是按有效性从高到低排列的,放心使用吧。
4.5 设计技巧
有一种数据可视化的设计技巧叫做pre-attentive processing,即前意识处理。简单的说就是我们要用醒目的颜色突出数据,然后淡化其他的元素,并高亮显示重点的内容。一种增强数据比较的方法是提升色阶的跨度,即根据要展示的数据合理增大标尺跨度,添加添加参考线(建议采用虚线),参考线作为对比基准,可有效增强数值与基准的比较。这样的一些可视化增强的设计技巧既减少了读者理解的步骤,又合理注解引导,提供了背景信息,分析结论,又补充了必要的统计学概念,比如图表的解释,这方面做的比较好的一个案例是Tableau制作的西班牙首都马德里可视化面板,面板中为不熟悉的读者给出了人口金字塔图表的解释。
另一种系统地衡量可视化图表效果的公式叫做数据墨水比公式(data-ink ratio),定义为用于描述数据的墨水量/用于描述所有其他东西的墨水量。这个比值越高,说明图表中越多的视觉编码被用于传递真正的信息,而不是出现冗余,或者用于描述一些其他的东西。举个例子,下面这个展示食物热量的图表就是一个典型案例。随随便便就能找出图表中的各种问题:毫无意义的纹理背景,加粗显示的文字和坐标轴,五颜六色的柱状图,各种立体阴影效果,重复呈现的信息……很容易让人产生视觉疲劳。
按照少即是多的原则,对于这样的图表我们要进行一步一步的优化,清理各种图表垃圾:去掉了各种纹理背景,去掉了各种坐标轴,直接将数值显示在柱状图上,然后对文字进行淡化,并用颜色突出显示我们想要读者一眼就看到的类别(培根),去掉了一切立体和阴影的效果,最后得到了下面这个图表:
对比来看,下面这个图表的数据墨水比是不是比上面要高很多?整个图表传达的信息也要清晰很多,读者几乎花不了什么时间就能看懂要表达的意思,真正做到了图简意赅!另一种常见的公式为失真系数(lie factor),是用图表中展示的效果大小/数据中展示的效果大小得到的,一般在0.95到1.05之间最佳。
五. 叙事结构
一个好的数据可视化,不光要把每一个图表绘制好,还要把所有的图表以一种适当的方式串起来,给观众讲一个故事。也就是说,好的数据可视化一定是一个优秀的Story Teller。这种串联图表的方式叫做“叙事结构”,有三种常见的数据可视化叙事结构:作者驱动型,读者驱动型和马提尼酒杯型。
5.1 作者驱动型
作者驱动型的叙事结构有明确的开头和结尾,它以一种线性的方式来讲故事,读者没有多少自由选择的余地,它的特点是顺序严谨,信息量大,具有一定的清晰度和速度。阅读数据可视化的方式和顺序已经被作者预先设定好了,读者只能按照这一预先设定来进行。一般来说,这类数据可视化通过一个播放按钮或者按顺序组织的页码标签,读者点击播放或者按顺序一页一页的显示,就能按照作者预设的线性化的思路完成对整个数据可视化的解读。比如关于Facebook IPO这个可视化图表就是典型的作者驱动型。通过点击上面的按钮,读者可以像放幻灯片一样以严格的顺序阅读关于Facebook首次公开募股有关信息,每个阶段都能看到数据的延伸和转换。
5.2 读者驱动型
反过来,如果数据可视化有明确的开头,但给予读者很大的自由去探索数据,与数据自由互动,提出问题,探索故事进展并有机会讲述自己的发现。那么这种数据可视化就是读者驱动型的。Marid In Detail和LinkedIn Top Skills 2016就属于这种类型的可视化:没有任何预先的设定,读者通过自己点击面板上的可视化元素完成解读,每个人解读的方式不一样,得到的结论也就丰富多彩,各有千秋。
5.3 马提尼酒杯型
最后,我们可以把作者驱动型和读者驱动型结合起来,构造更复杂的叙事结构,称为马提尼酒杯型叙事结构,这种叙事结构跟上面两种一样,有一个明确的开头。但首先读者要沿着作者预设的单一路径进行阅读,随后当这一过程结束时,读者会开始他们自己的自由探索,就像下面这个图展示的一样:
马提尼酒杯型叙事结构的一个典型可视化例子是枪击死亡人数,整个数据可视化背景是黑色的,切合主题给人一种很压抑的感觉。它首先通过动画的形式给出了1万多名受害者,并预测了如果没有遭遇枪击,他们可能生存的年数。它使用计数器计数了总的人数,和他们被偷走的年岁,这是可视化之初一个明确的叙事(作者驱动型),如下图所示:
然后读者就可以自由的进行探索了,比如将鼠标移到其中一根抛物线上,然后查看某个受害者的信息:
或者查看实际年龄和预测年龄的分布,很明显看到的是一个严重两极分化的分布:
六. 什么是好的可视化
迈阿密大学教授Alberto Cairo提出,一个好的数据信息的表达应该遵循以下5个原则:真实的,有用的,优美的,有见地的,和有启发性的。
6.1 真实的(Truthful)
第一条原则,你不能欺骗你自己,你是最容易被骗的人。 ——美国物理学家理查德费曼
我们常常容易犯两个错误。一旦有了一个观点或假设,就会竭尽全力的去寻找能支持这个观点的证据,却选择性的忽视否定这个观点的证据,又或者当反对观点出现的时候,我们总会本能的先开始反驳,而不是先考虑其合理性。为了观点而做的可视化是有偏见的,带着观点去解读可视化同样也是有偏见的。除非我们能找到一些数据来佐证我们的观点,否则就不能说“我觉得有就是有”,比如如果问你运动员签了大合同后是否会影响其竞技水平?当然不能说我觉得有不少球员签了大合同后就废了,然后再找一些例子来佐证这个观点。而应该是首先明确多大金额的算是大合同,然后把所有签了这些合同的球员列出来。选择多个综合指标去比较这些球员在签订合同前后的几年间的表现。而且还要排除伤病影响的,是否中间更换过球队,出场时间差别是否过大等等。
6.2 有用的(Functional)
比如问一个问题:这个周末商场促销的效果如何?如果只是得出结论促销过程中销售额增长了60%,单看是正确的,但是是不是有用呢?其实没用,而且还有误导的嫌疑。要做到有用,是不是应该包含销售额增长来自哪部分商品?是仅仅来自促销商品?还是也带动了其他商品的销售? 周末促销是不是应该考虑平时的销售额也是增长的,实际的增长是不是可能没有60%那么高?在停止促销后的几周里,是不是比促销前的几周也做到了持续增长?深入分析并回答了这些问题,我们才应该算是正确回答了“促销是不是达到了效果?”这个问题,这才算是有用的。
6.3 优美的(Beautiful)
数据可视化要简洁明了,关键是要把不包含信息的元素去掉,把信息冗余的部分合并掉,用比较优雅的方式表现。数据墨水比越高的可视化图表越优美。
6.4 有见地的(Insightful)
信息图是为了给人阅读的,要表达出观点,而不只是给人看看就结束了。不光要表达出来,而且最好是有意义. 而不是让人一看,哇好酷炫!却得不出任何有意义的结论。当然在重点要表达的地方可以用文字,或者其他特别的方式标注出来,方便听众或读者迅速的提取信息。
6.5 有启发性的(Enlightening)
做好了前面的4点,我们的数据可视化就是有启发性的。通过数据可视化,读者了解了数据背后发生的原因,以及对未来可能产生的影响。以上就是Alberto所说的关于信息图的五个原则:真实的,有用的,优美的,有见地的,和有启发性的。
七. 参考文献
数据可视化概览
数据可视化过程不完全指南
数据可视化工具目录
关于数据可视化