在Udacity学商业数据分析(探索可视化2)

以下内容是我在Udacity的商业数据分析纳米项目的学习总结,大部分内容是摘抄自课程文案。本章承接上一篇文章。

第四部分——探索颜色

颜色是设计可视化图表的重要工具,使你能够表示另一个变量或对数据分组。但是,在选择使用哪种颜色以及如何应用这些颜色时,需要考虑很多问题。首先,我将讨论如何为要处理的数据选择正确的调色板。然后,我将讨论如何考虑色盲人士。

1.调色板

调色板是指用来表示数据值的颜色范围。对于定量和定性数据,你需要使用不同的调色板。选择正确的调色板非常重要。

在过去一段时间内,可视化工具(例如 MATLAB 和 Python 的 matplotlib 库)使用的默认调色板是 jet。(幸运的是,二者都更新为了新的调色板)。你可能还会听到彩虹调色板这一说法。jet 调色板的颜色从深蓝到深红,然后一直变成绿色和黄色。我在下方提供了该调色板的彩色版本和灰度模式,以显示色谱和亮度。

jet/彩虹调色板存在缺点,因为亮度并没有从一端平滑地过渡到另一端。黄色比其余颜色要亮很多,使某些数据显的格外重要,实际上并非如此。与大片的绿色相比,黄色和蓝绿色异常突出。从图中可以看到 jet 调色板的亮度,并不是平滑的渐变。


在Udacity学商业数据分析(探索可视化2)_第1张图片
jet!

可以看出,从感官上来说,很短的蓝绿色和黄色区域比其他区域要色彩强烈很多。这些区域的数据将被过于强调。通过查看灰度版本,很明显蓝绿色和黄色区域比较突出是因为它们的亮度比其他部分要高。出现这种情况是因为我们的大脑对颜色的感知有所不同。与红色相比,我们的眼睛对绿色更敏感,对红色的敏感性又要比蓝色高。所以在计算机屏幕上,255 的红色比 255 的蓝色看起来要亮。

可以从下面的示例中看到 jet 扭曲了我们对重要性的感知。

在Udacity学商业数据分析(探索可视化2)_第2张图片
黄色和蓝绿色区域的亮度达到峰值

黄色和蓝绿色区域比红色和蓝色区域要亮很多,并引人注目,但红色和蓝色区域实际上才是需要关注的(极端)部分。我们的大脑认为亮度越高的区域越重要。可以从灰度版本中看出,在黄色和蓝绿色边缘部分,亮度出现峰值。

相反,我们应该使用符合以下特征的调色板:亮度呈线性变化,并存在极端值,同时在颜色之间平滑过渡。下面我将使用一个从红色变成浅黄色然后变成绿色的发散性调色板。

在Udacity学商业数据分析(探索可视化2)_第3张图片
发散性调色板从红色变成黄色再变成绿色

这个调色板的正面区域和负面区域之间存在平滑过渡。

对于这个调色板,色带之间的过渡很平滑,红色和绿色区域的亮度相等。通常,jet 调色板是个不太好的选择。我们应该选择线性调色板,如上所示。当前的大部分可视化软件都使我们能够选择调色板,所以在用颜色设计可视化图表时,记住这一点。

2.连续性调色板

线性亮度调色板存在两种基本类型:连续性调色板和发散性调色板(我在上面使用了,并且稍后将再次提到)。连续性调色板的浅色到深色或深色到浅色之间的过渡很平滑。这种调色板适合连续性数据,所有颜色都是正面的,所以低值用浅色表示,高值用深色表示(或者相反的模式)。下面是一个从浅红色到深红色的连续性调色板示例。


在Udacity学商业数据分析(探索可视化2)_第4张图片
从浅红色到深红色的连续性调色板


3.发散性调色板

如果数据存在某些断点,例如值从负数变成正数,经常适合使用发散性调色板。发散性调色板从一个颜色过渡到另一个颜色,经过一个浅色(或深色),亮度呈线性变化。你已经见过一个发散性调色板,即从红色变成绿色的调色板。下面是更多的示例:


在Udacity学商业数据分析(探索可视化2)_第5张图片
几个发散性调色板示例

4.定性数据的调色板

对于定性数据,经常需要对比不同组或类别的数据。为此,你需要选择肉眼看去尽量不同的颜色。

5.为色盲人士设计颜色

大约有 10% 的男性和 1% 的女性存在基因突变,影响到视锥细胞,产生色盲。最常见的色盲形式是红绿色盲,通常是因为中波视锥细胞对光敏感性转移到了红色光线上,这种突变称为绿色弱视。绿色弱视人群无法区分红色和绿色。

实际上有很大一部分人群是色盲,所以在设计可视化图表时要考虑到这类人。避免使用红绿调色板,改为使用蓝橙调色板。


以下展示我这一周的成果(部分)


在Udacity学商业数据分析(探索可视化2)_第6张图片
我的作业

https://public.tableau.com/profile/zhang.liying7413#!/vizhome/Project3_140/Q1

你可能感兴趣的:(在Udacity学商业数据分析(探索可视化2))