谷禾健康
用于生物数据可视化的方法不断改进,但是在一些可视化图形的着色方面仍然存在根本性的挑战。
生物学数据的视觉不应淹没,掩盖或偏倚结果,而应使其更易于理解。这是对于在创建可视化效果时如何有效使用颜色的挑战。
生物数据的可视化处理是计算机图形学,科学可视化和信息可视化在生命科学各个领域的应用。
本文将介绍10条简单的规则来对生物数据进行可视化着色。
总览
规则1:确定数据的性质
规则2:选择色彩空间
规则3:根据所选颜色空间创建调色板
规则4:将调色板应用于数据集以进行可视化
规则5:套用调色板后,检查数据中的颜色上下文
规则6:在数据可视化中评估颜色的交互作用
规则7:要了解特定学科的颜色约定和定义
规则8:评估色差
规则9:考虑网络内容的可访问性和打印实际情况
规则10:黑白分明
数据是有价值的信息记录。可视化数据是将这些数据中包含的想法、经历和故事联系起来的一种重要而有力的方式。
图形和数据可视化促进了生物信息在不同背景下的表达和交流,形成叙述、想法和经验。要使数据中包含的信息具有形状,了解数据的性质是重要的。借用描述性统计的领域知识,数据如性别、年龄、身高、体重和眼睛颜色等被称为变量。变量的类型与数据的性质有关。
区分变量类型的一种方法是依赖于分配给变量的值中的信息的性质。这个被称为测量的水平或尺度,将观察到的变量分为4个级别:名义、序数、区间和比率。这些数据也可以分为两种不同的数据类型:定性或分类(名义、序数)和定量(区间、比率)。
下面我们分别用一个例子来描述和解释:
名义描述了一个变量的属性,只通过名称(类别)来区分,没有顺序(等级、方向或位置)。
例如:性别、生物种类、眼睛颜色,血型(A、B、AB、O),细菌类型(球菌、芽孢杆菌、螺旋菌等)。它们是一个多值变量,没有明确的尺度来适应不同的值。
序数层次描述了按顺序(等级、规模或位置)区分的变量的分类属性,但没有关于它们之间差异相对程度的信息。要注意这种变量可能会用数字编码。
举例:热度(低、中、高);疾病的严重程度(轻度、中度、重度);一致量表,如李克特量表,(强烈不同意、不同意、无意见、同意或强烈同意)。
注:李克特量表是一种心理反应量表。
区间级别描述变量的属性,通过差异程度来区分,没有绝对零度,并且属性之间没有已知的比率。通常,该变量的数值为正、负或零。
例如:公制摄氏温标,温差(摄氏度和开尔文),1年的间隔。20℃和30℃之间的差异与25℃和35℃间的差异相同.。
比率级别描述变量的属性,这些属性通过它们之间的差异程度来区分,绝对为零,并且属性之间的比率是已知的。具有负值是不典型的。
例如:年龄、身高、体重、持续时间、开尔文温标。此外,假设数值的定量数据(区间或比率)可以进一步分为离散或连续。
离散(可计算的)变量仅假设整数和某种计数。
例如:年龄和日期是离散的。年龄在1年内保持不变,而日期在24小时内保持不变。它们都以“1”跳跃或增加。
连续(定义范围内的任何值)变量可以取某个值范围内的任何值。对这种测量的观察会受到测量仪器的限制。
例如:身高(厘米,英寸),体重(公斤,磅),温度(摄氏度,华氏度),时间(小时,分,秒)。温度逐渐升高,时间不断流逝。
当只有两个可能值时,二进制或二分变量类型是一种特殊类型。示例:是或否调查问卷和二进制数字(0或1)。
表1根据4个不同的测量相关类别介绍了4个测量级别,包括从最低到最高的测量分辨率。
表1 四个层次的测量
使用4个与测量相关的类别来比较等级:分辨率、属性、数学运算符和中心趋势。
颜色空间指的是颜色转化为数字的颜色模型。基于一组原色,颜色模型创建许多颜色。每个模型都有其可以产生的特定颜色范围,该范围定义了色彩空间。
通常,红、绿、蓝(RGB)和青色、洋红、黄色和黑色(CMYK)是最常见的系统,当然还有其他系统。例如,色调、饱和度和亮度/值(HSB/HSV)颜色空间是RGB颜色模型或标准红绿蓝(sRGB)颜色空间的替代表示。
注:关于这些维度的更多信息,大卫·布里格斯的网站名为《颜色的维度》是一个关于颜色理论和使用的信息宝库。
传统的颜色工具,如色轮,鼓励艺术/手工颜色选择。颜色或代码的数值是不同的,将颜色视为特定颜色空间中的数字。此外,由于我们选择的数字和输出颜色之间可能会出现差异,颜色空间应该在感知上是一致的。
在颜色科学领域,已经努力建立独立于特定颜色显示或复制设备的颜色空间。人们努力创造出感觉上统一的色彩空间。这些颜色空间背后的动机是使空间与人类视觉感知颜色属性的方式紧密一致。
下表是常用的颜色空间(表2),接下来将要讨论的是解决感知一致性问题的颜色空间。
表2 常用色彩空间的优缺点
由于复杂的颜色转换,光线混合的维度反映了人类视觉的工作方式。下面几种是我们需要考虑的各种特征:模型,线性,直观,组件分离以及设备相关。
模型
一个有序的系统,用于从一小组原色中创建一个完整的颜色范围
线性
颜色值相同的变化应该会产生视觉重要性大致相同的变化
直观
指颜色维度易于重新映射到不同的颜色模型
组件分离
指相对于其他维度分离1个颜色维度。
例如,色调、饱和度和亮度(HSL)分离亮度分量(明度),在图像处理的领域知识中特别有用。
设备相关
颜色空间依赖于所使用的设备来设置、制作和渲染的情况。
亮度是光的可见能量或根据人类视觉系统的逐波长响应加权的物理光能。
色度是一个区域的颜色,它被判断为一个相似的被照亮的区域的亮度的一个比例,这个区域看起来是白色的或高度透射的。虽然色度描述了光的心理物理颜色,但它与光的强度(亮度)无关。
所列出的感知一致颜色空间优于RGB和CMYK颜色空间。RGB用来表示颜色,但它不足以进行颜色处理,并且不是行业标准。
由于CMYK主要用于印刷,它有许多缺点,将在下一篇规则9中进一步讨论。然而,它们并非没有混淆的效果,例如亮度随色调而急剧变化。
LUV和LAB都追求感知一致性。虽然两者都已被CIE(国际照明委员会)采用,但通过依靠三个组成部分并计算相邻颜色之间的椭圆距离,可以观察到空间中不同颜色的相对概念差异。
因为它们是独立的,我们建议使用它的颜色空间。如果选择了,就需要为数据创建一个合适的调色板。
创建一个调色板很像选择一套衣服。重要的是要了解允许选择颜色来给数据可视化着色的规则。
为了根据特定的颜色空间选择调色板,通常使用色轮。它是一种围绕一个圆圈组织不同颜色以显示颜色之间关系的工具。通常,色轮包含12种颜色。
创建色彩和谐是一个选择在图像合成中协同工作的色彩的过程。基于色轮上的颜色组合,有助于为色彩如何协同工作提供共同的指导方针。
我们可以区分有助于使用色轮创建配色方案的软件和/或网络工具,即Adobe color和配色方案设计器Paletton。
除了创造美学上令人愉悦的颜色组合,调和性还可以用来指导调色板的创建。它们包括单色、模拟和互补。
下图描绘了青色调中的三个调和示例。应该注意颜色的小点,以描绘出特定的色调排列(单色、相似和互补)。
单色或单调色度
是一种单一色调,它在色调、色度和饱和度方面有所变化。一个特别的例子是单调方案,但非彩色(没有色调),仅由从黑色到白色的灰度值组成,即灰度。
相似色
是那些位于任何给定颜色的两边或被一个颜色分开的颜色。这些通常是自然界中的配色方案。
互补色
是色轮上彼此直接相对的颜色。他们经常形成对比,相互突出。当用作数据中的高亮颜色时,它们非常有用。
为了更好地将颜色的使用与数据类型联系起来,信息设计师和数据科学家将上述数据类型(规则1)简化为三种主要类型:连续的、发散的和定性的。
这些分类是在ColorBrewer工具中开发的,最初旨在为制图提供颜色建议。这一概念已经被数据可视化社区所采用,反映在蒙兹纳的可视化分析和设计教科书中。该网络工具可以在colorbrewer2.org找到。
下图展示出了每个数据类型的调色板的例子。
顺序调色板
适用于从低到高变化的有序数据。视哪一方对观察者来说最重要,视觉编码是两种颜色之间的变化,分别从白色或较亮的颜色到黑色或较暗的颜色。这种颜色使用是明度逐步变化,通常重要的数据值具有较暗的颜色。这些调色板对应于包含1种颜色变化的单色调色板。
发散调色板
显示两个方向的视觉变化。主要用于在区间数据范围的两端同等强调中间值和极值,它们通常是对称的。颜色在黑暗中增加,以表示断点(如零变化或平均值)周围与数据中特定有意义的中间值之间的差异。
定性调色板
不依赖或暗示类别之间的数量差异。通常,色调以一致的亮度来表示名义和分类数据。还有另外两种变体:成对和强调。处理无序数据时,成对调色板通过视觉关联类来处理成对数据,但强调调色板通过更饱和的颜色来强调相关类。
除了前面提到的工具ColorBrewer,还有两个调色板:一个用于连续数据,另一个用于定性数据。
对于连续数据,推荐 viridis调色板。它在感觉上是均匀的,并以多种色调显示单调增加的亮度。多亏viridis调色板和其他调色板,一个连续数据集的所有数据点都具有同等的视觉重要性。此外,我们将在下一篇的规则8中看到,这些调色板对色弱和色盲是友好的。
对于定性数据,Tableau 10调色板可以推荐给大家。它包含几个非常不同的色调,亮度值范围很广。虽然它是用10种颜色设计的,而且很适合三色异常,但它所有颜色的使用对其他颜色缺陷是一个挑战。我们将在规则4和下一篇规则8中讨论定性数据的颜色限制。
另外还有一个创建调色板的网络工具,即Colorgorical( http://vrl.cs.brown.edu/color)。
要应用选定的调色板,需要考虑将颜色映射到数据点的过程。基于规则3,我们考虑了3种不同的颜色映射调色板:连续的、发散的和定性的。
对于连续调色板,色调应该受到限制,只有亮度或饱和度应该变化。根据背景颜色、手头的任务和数据的性质,将较高的值映射到较暗或较亮的颜色非常重要。
在下图中,我们展示了一个热图,描述了不同字符串之间的Jaccard索引和由分层聚类提供的背景信息。
对于发散的调色板,当数据有有意义的或关键的中断时很重要。通常,关键断点应该采用中性颜色,如灰色,端点应该采用饱和颜色。一般来说是对称的,临界断点可以是平均值、中间值或零变化值。
在平均值或中位数的情况下,通常有低终点和高终点。在负值和正值有零值中断的情况下,端点应使用不同的色调。为了突出分歧,中断可以去饱和,端点可以饱和。
对于定性调色板,建议仅使用5 -6 种颜色,如果绝对需要,也可以使用更多颜色。实际上,当使用ColorBrewer时,限制被设置在3到9的范围内。
如果有理由的话,我们认为颜色是不变的,即使它们在不同的光线下。事实上,颜色恒常性是感知物体颜色的能力,不受光源颜色的影响。这主要是因为颜色是一种相对的媒介。
举个例子,比如我们可以看到一根香蕉在阳光充足的中午或光线微弱的黑暗房间里呈黄色。然而,在某些情况下,相邻的颜色会改变我们的感知和区分某种颜色影响的能力。
下图显示了一个数据视觉的例子,其中白色可以与灰色背景区分开来,比如在你的电脑屏幕上。然而,同样的白线在白色背景下很难区分,也许当打印在白纸上时。当白线变成黄线时,情况就解决了。
有个“Interaction of color”app可以进一步教会你如何意识到颜色的背景,它是约瑟夫·阿尔伯斯50年前写的《色彩交互》一书的数字化延伸。它为在不同的显示背景中学习颜色提供了练习。该应用还允许在interactionofcolor.com创建个性化的色彩研究和调色板。
在生物数据可视化中,通常会看到红色/蓝色的数据可视化。由于同时对比,对红/蓝颜色组合的偏好是可以解释的。下图就是这种情况。
左:红色/蓝色组合。右图:绿色/紫色补色组合改善了数据可视性。
同时对比是指两种不同的颜色相互影响的方式。这也是蓝色背景下很难阅读红色文字的原因。理论是,当两种颜色并排放置时,一种颜色可以改变我们对另一种颜色的色调感知。实际的颜色本身不会改变,但我们认为它们已经改变了。
法国化学家米歇尔·欧仁·切夫勒发展了这种同时对比的规则。它坚持认为,如果两种颜色靠得很近,每种颜色都将呈现相邻颜色补色的色调。类似的结果也可以发生在数据可视化中。然而,同时使用对比色可能难以评估数据趋势的变化。
颜色的使用取决于大量数据和介质特性。除了某些颜色的不良相互作用之外,我们会看到颜色可能带有某种意义。
对于交互,存在红/蓝颜色或文本内容的交互。首先,文本看起来模糊不清,伤害眼睛。这是称为色差的现象的结果,色差对应于不能同时聚焦在两种颜色上。
对于下图中提供的例子,还需要解决色彩不足问题的补色组合。绿色/紫色方案提供了两个数据变量之间的转换组合,同时允许有色觉障碍的个人区分这两个变量。绿色和紫色是这种特殊情况下的最佳组合。
在某些情况下,感知的一致性至关重要。一个简单的例子是,在不规则的颜色空间中,选择一种随机的颜色以便在黑暗的背景下可读,这是很困难的,因为相同亮度或光度的颜色看起来非常不同(蓝色和黄色在HSV中都有100%的亮度,但是蓝色比黄色暗得多)。
为了解决这个问题,需要考虑所选色调的复杂计算,以使随机颜色看起来同样明亮。有一个更简单的方法,即选择更好的颜色空间。
基于jet或彩虹的调色板是最常用的调色板,因为它是在软件工具中作为标准提供的。它具有很高的对比度,这使得它能够突出手头数据的特征。
然而,当查看颜色图表时,色带或色块尤其出现在青色和黄色区域。这个看似不错的调色板在应用于描述同等重要的顺序数据时会导致急剧的转换,尽管底层数据变化均匀。事实上,由于非恒定的感知颜色变化,这是误导,甚至对色弱的个人更是如此。
下图描述了这些部分。
虽然许多研究人员都在抱怨它的误导,但在实际许多应用中,基于彩虹的调色板仍然在被使用,并且有可能对解决任务的准确性有潜在的负面影响。
不幸的是,由于人类通常将颜色分类,彩虹调色板的使用会给数据的解释带来偏差。此外,由于色调的自然顺序,这甚至可能被放大。然而,不同的方面可以被智能地集成。例如,不同的亮度强调某些标量值,而低亮度颜色(例如,蓝色)可能隐藏高频。
生物学描述了生物组织的不同层次(从分子到细胞、有机体到生态系统),整合了多种领域,如生物化学和生物物理学。这涉及到大量不同风格的数据,这些数据可能受特定领域惯例的约束。
我们简要讨论4个与生物化学、生物物理学、解剖学和细菌学相关的显著例子。
生物化学
在化学中,一个分子中不同原子的颜色遵循标准的科里·鲍林·科尔顿(CPK)规则。最重要的颜色是氢的白色(H),碳的黑色(C),氮的蓝色(N),氧的红色(O),硫的深黄色(S),磷的紫色(P)。其余的原子呈现出亮、中、暗、卤素组为深绿色,金属组为银色。生物化学遵循这些惯例,例如,给20种蛋白质氨基酸的生化结构着色。
生物物理学
在过去的几年里,已经开发了广泛的荧光蛋白遗传变异体,其特征是荧光发射光谱分布几乎跨越了整个可见光谱。借助这种分子和显微镜技术,科学家可以看到特定的细胞反应甚至亚细胞机制。例如,这种特定的分子可以在不同的光谱范围内(例如青色、绿色、黄色或红色)发出荧光。当然,最著名的分子是绿色荧光蛋白。如果数据集涉及荧光图谱,或包括光谱范围的信息,惯例是根据它们给数据着色。
解剖学
解剖学上,颜色约定从第一张解剖草图就已经存在。虽然第一幅彩色印刷的医学插图显示了文字颜色的用法,但现代颜色的用法是相当象征性的。事实上,颜色通常用于肤色、内脏、循环和神经系统,甚至是选定的身体组织(如肌肉或脂肪)。尽管在体内动脉和神经呈白色,静脉呈淡蓝色,但既定的颜色惯例是动脉为红色,静脉为蓝色,神经为黄色。
细菌学
在细菌学中,科学家对许多细菌特性和机制感兴趣,例如革兰氏染色、形态学、遗传学和抗生素抗性。前者通过细胞壁的化学和物理特性来区分细菌(革兰氏阳性细菌有厚厚的肽聚糖细胞壁,保留了结晶紫的主要染色)。后者发生在细菌和真菌等细菌有能力击败用来杀死它们的抗生素(如青霉素)时。
基于包含3种最流行的抗生素对16种细菌的性能的数据,我们在下图中展示了青霉素与新霉素的有效性的2个实例数据。
虽然选择蓝色/橙色的配色方案是为了为名义比较提供可感知的可分辨颜色(左),但采用革兰氏染色颜色惯例呈现出更适合具体问题的颜色用法(右)。
其他生物领域
其他实践存在于特定的生物研究领域。例如,在分子和进化生物学中,基因表达水平和基因保护的视觉编码依赖于红/蓝发散调色板。然而,我们不能谈论颜色惯例,因为在红/绿、红/蓝以及断点不是白色而是黄色的其他情况下,这个值会有很大差异。
值得一提的是要注意文化习俗。事实上,在不同的国家或文化中,颜色可能具有非常不同的象征意义,如果不是相反的话。一个很好的例子是红色,它在西方社会象征着危险和激情,在东方社会象征着幸福和繁荣。
人类有3种感光细胞或视锥细胞,每一种都对视觉光谱的不同部分敏感,以促进丰富的彩色视觉。我们需要尊重一些人的颜色感知是不同的,并评估所选择的调色板是否适合有色弱或色盲的人。
如果一个或多个视锥细胞不能正常工作,就会导致色觉缺失。红色锥细胞缺乏症被归类为红色盲。绿色锥细胞缺陷被归类为绿色盲。蓝锥细胞缺陷被归类为蓝色盲。
当创建或选择调色板时,不同的网络工具允许测试色弱和色盲。一方面,可以使用Adobe Color web工具(color.adobe.com)或Paletton–配色方案设计师(paletton.com)来测试调色板的颜色缺陷。另一方面,网络工具Coblis (Matthew Wickline和人机交互资源网络)使我们能够评估数据可视化是否对更大的受众可用,包括颜色缺陷。
另一个值得注意的工具是Viz调色板。它允许通过模拟选定的信息可视化示例来测试特定调色板的颜色缺陷。下图结合了3个工具,ColorBrewer, Viz Palette和 Coblis,提供了一个用例的例子。
在许多情况下,生物数据可视化超越了研究工作,成为一般在线(如网站)和印刷(如期刊论文)出版物的一部分。对于这些情况,我们简要讨论了网络内容的可访问性和打印现实。
对于基于网络或桌面和移动设备,我们建议遵循万维网联盟(W3C)制定的网络内容可访问性指南(WCAG)。网站必须是可感知的、可操作的、可理解的和健壮的,根据4个原则组织有12个指南。
虽然有一些技术可以帮助作者满足指导方针和成功标准,但是这些技术会随着时间的推移而发展和适应。在列出的技术中,有8种与颜色有关。我们将范围限制在非交互式数据可视化,并借用有利于数据可视化可访问性的技术:
· 确保通过颜色差异传达的信息在文本中也可用
· 使用颜色和图案
·使用颜色提示时使用语义标记
·当使用文本颜色差异来传达信息时,确保附加的视觉提示可用
·对周围的文本使用3:1的对比度,并在链接或控件的焦点上提供额外的视觉提示,仅用颜色来识别它们
·包括用于彩色表单控件标签的文本提示
事实上,其中大部分是为了网页颜色的使用,但我们认为它们是相关的。所报道的技术解决了如何提高看不见颜色的用户的可访问性,因此可以寻找或倾听文本线索;使用盲文显示器或其他触觉界面的人可以通过触摸来检测文本提示。
此外,一些技术解决了实现文本信息和内容的更好对比度的问题。即G17:确保文本(和文本的图像)和文本后面的背景之间存在至少7:1的对比度。
事实上,这个想法是为了确保阅读文本时亮度有对比,而不是色调有对比。
网络工具 Colorable 允许使用十六进制格式的web十六进制代码测试两种颜色,并提供滑块来控制色调、饱和度和亮度。
观看和阅读生物数据可视化取决于目标受众使用的媒介。一方面,使用桌面和移动设备,其中光源用于在RGB颜色空间中混合不同强度的红色、绿色和蓝色。当所有颜色混合时,出现白色。
另一方面,使用纸张打印件,其中打印机将不同程度的CMYK颜色与物理墨水颜色(青色、品红色、黄色和黑色)相结合。当所有颜色混合在一起时,就会产生黑色。为了方便起见,我们可在以下工作时提出一项易于遵守的入围名单要求:
台式机和移动设备,最适合的色彩空间是RGB。关于在网页上应用颜色的指导性文件可以在这里找到:w3.org/TR/css-color-3/#rgb-color
小印刷件,如小册子,或期刊纸图,我们鼓励在300 DPI分辨率的CMYK色彩空间的图像。
非常大的图形并不总是控制它们的质量,我们建议从灰度、位图或RGB颜色空间转换到打印机友好的CMYK颜色空间。
在某些需要考虑印刷成本的情况下,黑白配色方案可能是首选。此外,黑白会增加那些色盲者以与您相同的方式看到和阅读数据可视化的机会。
在不同的领域,如图形和渲染,甚至摄影,这条规则通常被表述为“检查它在黑白和彩色中是否工作良好”。在数据可视化中,这通常与测试所呈现的故事是否仍然可见或可辨别有关。
黑白分明意味着两件事。当不确定调色板时,尝试用灰度显示数据,或者比较两个彩色版本的数据,当不确定哪个更易读时,用黑白打印出来。大多数情况下,后者是找到对比度更好的可视化。
此外,一个建议是关于影印友好的调色板。为了对抗影印过程的损耗,单色或连续调色板是最有弹性和最合适的。
着色并不容易。如果对颜色有需求,可以选择适合并使用少量的颜色,避免饱和的颜色,并且要符合阅读者的期望。
以上两图详细说明了根据示例任务的黑白数据可视化的变化。安全选择的一个例子是选择一种颜色和几种灰色阴影。
最后,总结一下这十种规则。
【参考文献】
Hattab G, Rhyne T-M, Heider D (2020) Ten simple rules to colorize biological data visualization. PLoS Comput Biol 16(10): e1008259.
Rhyne T. M. (2017). Applying Color Theory to Digital Media and Visualization., CRC Press, Boca Raton, Florida, ISBN 9781498765497
Smith N, van der Walt S. A better default colormap for Matplotlib. SciPy2015. 2015
Stokes D., Matthen M., & Biggs S. (Eds.). (2015). Perception and its modalities. Oxford University Press, USA
Gramazio CC, Laidlaw DH, Schloss KB. Colorgorical: Creating discriminable and preferable color palettes for information visualization. IEEE Trans Vis Comput Graph. 2016; 23(1):521–530.