提起数学史,你首先会想到什么?
第一个浮现的可能是最开始的欧几里得、毕达哥拉斯;再想想会有牛顿、高斯、欧拉、柯西;怜惜少年英才的会想到阿贝尔、伽罗瓦;对统计学感兴趣的会想起贝叶斯、凯特勒;对近现代数学有了解的则可能会提到康托尔、黎曼、格罗滕迪克等等。
但以上巨擘无法代表群星光芒的全部(虽然高斯确实占了很大一部分),在文明的发展史中,无数有名或无名的、前赴后继的数学家的光辉历程无疑推动了主流研究的前进。
然而,有一个领域的历史足够冷门,那就是统计图表的历史。
有一个被大多数人认可的规律,就是在教学大纲中出现得越早的东西在学科中就越基础和重要。而统计图表在大部分人的记忆中是在小学数学课就开始接触的,没有人会忘记用直尺铅笔在试卷上小心翼翼地画出条形图,再打上斜线阴影的感觉。
统计图表的发明是如此自然且符合人类直觉,以至于几乎让人想不起来去思考它是如何发源、又是如何润物无声地嵌入生活和科学研究中的。 它们是「最熟悉的陌生人」,这可能就是数据可视化这门学科的神秘与魅力之处。
下面我们就来挖掘下我们熟知的统计图表中,一般公认的**「第一个」**是谁发明的。可以通过下面的视频大致了解下(视频借助开源图表库 @VisActor/VChart 制作),同时下文也将详细讲述每个图表的故事。
jvideo
总体时间轴
Nicole Oresme(尼科尔·奥雷姆)生年不详,卒于1382年,法王查理五世顾问。他同时也是斜杠青年,经济、数学、物理、天文、哲学、音乐、神学、心理学无一不通。虽然知名度不高,但他是中古晚期的代表性哲学家之一,也是近代科学主要奠基者之一。
在物理学领域,他提出了一个在当时十分有开创性的观点,就是当自由落体在加速时,其重量并没有增加,而是下落的「冲力」增加。为此他又提出了一个现在经常被作为思维实验或者教学案例的假设,就是一拳打爆地球——啊不是,挖穿地球,从地球表面的 A 点挖穿地心,挖掘到地球另一侧表面的 B 点,然后将一个重物落入这隧道。则它会从 A 点经过地心移动到 B 点,就好像单摆从一边摇摆到另外一边。但是,从地心到 B 点的路途中,它是呈升起状态,而重量只能造成物体掉落,因此证明了「冲力」与重量是两个概念[1]。
Oresme 另一个代表性工作是用几何方法证明了平均速度定理。那么他是如何发明条形图的雏形呢?
其实源于 Oresme 在物理领域的一次尝试,他尝试用一种包含「经纬度」体系的平面图形来形象化一些物理概念,其实已经非常接近我们现在所说的直角坐标。
例如用他提出的「经纬度」体系来表达点的运动,时间为经度(x 轴),速度为纬度(y 轴);那么,位移数量就是给定时间内覆盖的空间。由此,后世的伽利略赖以成名的工作,Oresme 其实在两个世纪以前就开始研究并发表成果了。
如下图,是 Oresme 在 On the Latitude of Forms 中绘制的加速物体的速度与时间的 5 幅关系图,这些被认为是 Oresme 发明的条形图原型。
那么为什么说是「原型」呢?一种原因可能是 Oresme 没有对条形图的图元和视觉编码[2]方式做明确的定义。
在数据可视化理论中,所有的统计图表都有视觉编码的过程。具体来讲是将数据通过某种设计好的方式映射到具体的图元的视觉通道上。图元和视觉通道的概念可以这样定义:
下图为常见的图元种类(横轴)和常见的视觉通道(纵轴)示意图[3]:
Oresme 画的图更像是对一个坐标系中的闭合曲线进行分割,而现代的条形图,图元被规定为一个个明确的矩形,在两个轴张成的空间内映射对应的数据项的值。矩形高度和表示数值的数据严格绑定和映射,同时矩形的 x 坐标也和表示类别的数据进行绑定和映射,每个图元都有一个严格而清晰的视觉编码过程。
通过 VChart 可以很方便地制作现代柱状图示例,而且开发者并不需要了解感知视觉编码的细节。下图示例可以与 Oresme 的原型版本进行对比:
Michael van Langren(米希尔·范·朗格伦,1598—1675)是一位荷兰的天文学家和制图师,他的主要贡献是对经度测量的尝试。比较浪漫和超前的是,他不止测量地球,还尝试测量过月球。他率先找到了一个比较聪明的办法:通过观察整个月相周期中,月球上山峰和环形山的出现和消失,就可提高经度测定的准确度。这一想法促使他在1645年绘制了一幅质量很好的月面图[4]。同时,他也是第一个尝试给月球地貌命名的人:
而在地球经度测量的研究上, Van Langren 通过分析已知的测量值,催生了第一张统计图表的产生。1644 年, Van Langren 提供了统计数据的第一个视觉表示:
上图其实是一张一维 散点图,显示了当时已知的 12 个从托莱多(西班牙城市)和罗马(意大利城市)之间经度差异的估计值,以及提供估计值的每位天文学家的姓名。可以看到,托莱多(TOLEDO)的经度所对应的点位于图中一维轴的原点,而代表罗马(ROMA)的经度点有 12 个,分别标上了 12 个数据来源方的名字。从某种角度看,也算是条条大路通罗马(「omnes viae romam ducunt」)。
事实上,虽然 Van Langren 完全可以在表格中提供此信息,但使用图表更能真正直观地显示经度估计中的广泛差异。
和前面两位相比,Joseph Priestley(约瑟夫·普利斯特利)的名字就更如雷贯耳了。普里斯特利(1733—1804)是一位英国化学巨擘、自然哲学家和自由主义政治理论家。我们熟悉他主要是凭借他发现了氧气(O2)的存在, 以及一氧化碳(CO)、一氧化氮(NO)、一氧化二氮(N2O)、氨(NH3)、二氧化硫(SO2)和过氧化氮(N2O4)等 9 种气体,另外他还在其他科学领域进行过研究。他是美国开国元勋本杰明·富兰克林的密友,并与本杰明·富兰克林密切合作从事电学实验[5]。
Priestley 在可视化领域的代表作主要有两张时间轴图表:The Chart of Biography 以及 A New Chart of History。
Priestley 在从事自然科学研究之余也对政治、历史很有研究心得。他于 1765 年创造了第一张时间轴图表,名为 The Chart of Biography(《传记图表》),并分享给了圈中好友本杰明·富兰克林 。
版本一
版本二[6]
总体上,《传记图表》类似于现代的条形图,其独特的特点在于横轴是时间轴,而 柱状图 元在横轴上表达一个在时间上的区间。单独的柱状图元被用来可视化一个著名人物的寿命,而整体可以用来比较多个人的生卒年和寿命。
Priestley 的时间轴图表在商业上取得了成功,引起了广泛的轰动,并经历了数十个版本的修改。完整的《传记图表》,涵盖了一个广阔的时间跨度:公元前 1200 年到公元 1800 年。图表一共包括两千个名字。Priestley 将他的名单分为六类:政治家和战士;神学家和玄学家;数学家和医生(自然哲学家);诗人和艺术家;演说家和评论家(散文小说作家);历史学家和考古学家(律师)。
另外,这张图表的纵轴是 Priestley 按照人物的重要性排列的。而他又在笔记写到,「政治家的名字被放置在较低的页边空白处,在那里他们更容易被看到,因为他们是读者最熟悉的名字。」[7]
由于《传记图表》已经非常类似于现代的条形图,目前的主流图表库,以及 VChart 都可以很方便地模仿。不同的是,VChart 封装了两种实现方式可供选择,一种是通过绘制时序图:
另一种是绘制区间条形图:
除了《传记图表》,1769年,Priestley 还出版了一份信息量同样很大的图表,A New Chart of History(《新历史图表》),附带随笔解释,作为其《历史与一般政策讲座》的补充。和献给朋友本杰明·富兰克林的《传记图表》一样,Priestley 相信这些图表将使学生:[8]
清楚地追溯事件的相关性,将它们分布到这样的阶段和不同领域:我们在未来将以公正有序的方式阐述过去事物的全部主张。
Trace out distinctly the dependence of events to distribute them into such periods and divisions as shall lay the whole claim of past transactions in a just and orderly manner.
版本一
版本二
《新历史图表》列出了 106 个不同位置的事件,类似于现在的河流图。其基本图元为多边形,每个图元代表一个历史中的国家。横轴仍是时间轴,纵轴为地理类别,包括:斯堪的纳维亚半岛、波兰、俄罗斯、英国、西班牙、法国、意大利、欧洲的土耳其、亚洲的土耳其、德国、波斯、印度、中国、非洲和美洲。有些大的帝国可以跨越多个地理类别,如罗马帝国。
这张图表表明了 Priestley 的一个信念,即整个世界的历史都是重要的,而不仅仅是西方历史乃至自己民族的历史。这个理念代表了18世纪相对较新的思想发展,起源于伏尔泰和威廉·罗伯逊。在这张图里,Priestley 旨在展示帝国的历史和权力的传递。他写道:
图表的使用是对历史知识的一种极好的机械性帮助,它以世界上所有曾经存在过的重要帝国的崛起、进步、范围、持续时间以及当代状态的公正形象,给人们留下不可磨灭的印象。
The capital use [of the Charts was as] a most excellent mechanical help to the knowledge of history, impressing the imagination indelibly with a just image of the rise, progress, extent, duration, and contemporary state of all the considerable empires that have ever existed in the world.
至于图表中包含的丰富信息量,对这一系列图表做过专门研究的学者 Arthur Sheps 曾评价道[9]:
水平线(横轴)传达了对名誉、影响力、权力和统治的持续时间的概念。垂直阅读(纵轴)传达了对思想、事件和人物的同时性的印象。这些条目的数量或密度……可以告诉我们任何时代是否有「活力」。
The horizontal line conveys an idea of the duration of fame, influence, power and domination. A vertical reading conveys an impression of the contemporaneity of ideas, events and people. The number or density of entries . . . tells us about the vitality of any age.
这两张图表的设计,以及其中蕴含的人文气息,看起来都与 Priestley 的化学家本职相距甚远,但是 Priestley 仍在这个领域展现了其专业性,甚至为了这项研究首次将时间轴图表引入历史。这里不得不感慨一句,从文艺复兴到近代,出现了太多文理兼长的大家。而现在重理轻文、功利主义的风气一直存在,文理素质也越来越不均衡。我们在仰慕之余,同样需要破除浮躁和不断追赶。
William Playfair(威廉·普莱费尔,1759—1823),是苏格兰工程师和政治经济学家,也是一位经历特殊的神人。他曾参加过著名的攻占巴士底狱的行动,并在与法国的战争期间代表英国担任秘密间谍。作为一名间谍,Playfair 报告了法国大革命的消息,提议采取各种秘密行动来推翻法国政府,并于 1793 年组织了一次秘密制造假币的行动,以瓦解法国货币[10]。
当然,Playfair 也是一个斜杠青年,比如他依次做过磨坊匠、工程师、绘图员、会计师、发明家、银匠、商人、投资经纪人、经济学家、统计学家、小册子作者、翻译、公关人员、土地投机者、罪犯、银行家、热心的保皇党、编辑、勒索者和记者。
更传奇的是,他被认为是图形统计方法的创始人。因为 Playfair 正式发明了几种基本图表:折线图、面积图、条形图,以及饼图、圆堆图。这些图表的诞生和他曲折的经历以及对政治经济学的研究息息相关。
事实上,正是上节提到的 Priestley 的时间轴图表直接激发了 Playfair 发明条形图的灵感,该条形图首次出现在他于 1786 年出版的《商业和政治地图集》中:
这张条形图中展示了 1781 年苏格兰对 17 个国家的进出口数据,其中每个国家的进口和出口分别用两种颜色的矩形图元来表示。其中灰色阴影表示进口,黑色着色表示出口。
根据后世学者 Beniger 和 Robyn (1978) 的说法,「这张条形图是第一种既不像坐标系和表格那样在空间中定位数据,也不像 Priestley 的时间轴图表那样在时间中定位数据的定量图形形式。它构成了一个离散定量比较问题的纯粹解决方案。」[11]
第一张条形图除了没有图例(采用文字描述作为补充),其他一切必要元素都和现代的条形图一致。下图为使用 VChart 实现的包含现代图例的分组条形图,可作为对比:
在 1786 年出版的《商业和政治地图集》中,同样出现了历史上第一张折线图、面积图。由于 Priestley 在《新历史图表》中用过的时间轴给了 Playfair 灵感,因此 Playfair 在设计经济金融相关的信息图表时也引用了它。如下图:
这张图表现了从 1700 到 1780年,英格兰对丹麦以及挪威的进出口贸易趋势。其中进口额用黄色线条表示,出口额用红色线条表示。值得注意的是,Playfair 用红色面积表示贸易逆差的量(进口额 > 出口额),用黄色面积表示贸易顺差的量(出口额 > 进口额) 。这使得图表拥有了更丰富的信息,除了可以看到英格兰出口额的不断增加,还能对这段时间的逆差和顺差有一个大致的比较。
这张图表同样造成了深远的影响。据现代学者 Rosenberg 等在著作 Cartographies of Time 中所说,「在接下来的半个世纪里,Playfair 的线图确立了两个定量轴(一个是时间轴,另一个是描述出口、进口和债务等经济指标的轴)的作图形式,并成为当时不断被沿用也最有辨识度的年表形式。」[12]
VChart 同样可以很方便地实现这张图表。这张图表的仿制品已经进了官方 demo:
Playfair 的《统计祈祷书》于1801年在伦敦出版,其中包含了通常被认为是第一张饼图的内容。这张饼图乍一看其貌不扬,长这样:
它展示了 1789 年之前土耳其帝国位于亚洲、欧洲和非洲的面积占比。饼图中间标明了当时土耳其帝国的面积:790000 平方英里。
而如果把这个饼图放在整张图表中,从整体看是这样的:
每张饼图代表一个国家,饼图两侧各伸出来两个柱状图元,分别代表这个国家的人口和财政收入。也就是说这是一张复合图表,巧思竟能如此。
然而,这项发明最初并没有得到广泛应用,后来才被南丁格尔发扬光大以后才遍地开花。比如下图是一张 1888 年巴黎地图和饼图混用的例子。[13]
现代的饼图已经有了很多变种,且应用范围更为广泛。下图是 VChart 嵌套饼图的实现效果,数据是美国 2021 年各个年龄段的人口分布:
John Herscherl(约翰·赫歇尔爵士,1792—1871)是一位英国博学家,同时也是数学家、天文学家、化学家、发明家、实验摄影师,他是蓝图(blueprint)的发明人,在天文学和摄影技术领域也有很多建树。他的作品《初步论述》(1831年出版)提倡以归纳的方法进行科学实验和理论建设,是对科学哲学的重要贡献。[14]
【激发创造】汤姆猫正在使用 Herscherl 发明的蓝图来设计超厉害的捕鼠器
而他的父亲 William Herschel 同样是个狠人,是天王星和红外光线的发现者。
1833年,John Herscherl 发表了一篇观察双星轨道的文章,其中使用了散点图展现观测时间和位置角之间的关系,这是第一个具有现代意义的散点图:
该散点图的现代重制版
不难理解的是,散点图的发明离不开平面直角坐标系。虽然笛卡尔在 17 世纪就首次构建笛卡尔坐标系,并成为了散点图以及其他很多图表的构建基础,但是直到 John Herscherl,才有第一个在坐标系上绘制单个数据点的图表被公布出来。
现在散点图已经变成了基本图表类型之一,而且最适合于数据点两个轴上 投影 都是连续值(并非离散值)的情况。下图是用 VChart 实现的现代散点图,不但通过数据点的位置来表达两个维度的特征,还通过数据点的大小表达了数据点在第三个维度上的特征。
Florence Nightingale(弗洛伦斯·南丁格尔,1820—1910)绝对算是这篇文章提到的最著名的人物之一,但她的首要身份却是一名护士。事实上,Nightingale 被尊为现代护理的创始人,同时也是社会改革家和统计学家。[15]
南丁格尔在克里米亚战争期间担任护士经理和培训师时就声名鹊起,并在君士坦丁堡组织了对受伤士兵的护理。她通过改善卫生和生活水平大大降低了死亡率,并给护理学带来了良好的声誉。
她凭借自己的功绩和人格魅力成为了维多利亚文化的象征。特别是有**「提灯女神」(The Lady with the Lamp)** 的美誉,因为有首诗和照片描述了她在晚上提一盏油灯巡视受伤士兵的情景。在 70 年代的 10 英镑背面,就描绘了这个充满了希望和救赎感的名场面:
Nightingale 从小就表现出对数学的天赋,并在父亲的指导下在这门学科上表现出色。后来,Nightingale 成为了信息和统计图形视觉呈现的先驱。她使用了饼图等工具,上文介绍最初是由 Playfair 在1801年发明的。虽然现在使用饼图被认为是理所当然的,但在当时这是一种相对新颖的数据呈现方法。
19 世纪 50 年代,英国、法国、土耳其和俄国爆发了克里米亚战争。Nightingale 主动申请,自愿担任战地护士。当时的医院卫生条件极差,甚至连干净的水源与厕所都没有,伤士死亡率高达 42%,直到 1855 年卫生委员会来到医院改善整体的卫生环境后,死亡率才戏剧性地降至 2.5% 。当时的Nightingale 注意到这件事,认为政府应该改善战地医院的条件来拯救更多年轻的生命。
由于担心自己资料统计的成果会不受人重视,她发明出一种新的色彩缤纷的图表形式,也就是南丁格尔玫瑰图,让数据能够更加让人印象深刻。
下图就是 Nightingale 当时报告这件事时所用的图表,以表达军医院季节性的死亡率:
Diagram of the causes of mortality in the army in the East by Florence Nightingale
从整体上来看,这张图是用来说明和比较战地医院伤患因各种原因死亡的人数,每块扇形代表着各个月份中的死亡人数,面积越大代表死亡人数越多。其中:
这张图里有一大一小两个玫瑰图,右侧较大的玫瑰图,展现的是 1854 年 4 月至 1855 年 3 月的数据;而左侧的玫瑰图,展现的则是 1855 年 4 月至 1856 年 3 月的数据,以 1855 年 4 月做为分界。将 24 个月的资料切分为左右两张图再用黑色线条连接,是因为这个时间点大约便是卫生委员会来改善环境时的日期,也因此我们可以比较两个年度的死亡人数与其原因的大致比例。
她设计的可视化报告打动了当时的高层,包括军方人士和维多利亚女王本人,于是医事改良的提案才得到支持,因该图的外形酷似一朵绽放的玫瑰,因此「南丁格尔玫瑰图」也就由此而来。
实际上,玫瑰图 可以看作是极坐标系下的 柱状图 ,只不过将横轴和纵轴变成了角度轴和径向轴,就像把柱状图卷成了一个圆形。下图是使用 VChart 制作的玫瑰图实现,并且使用一个额外的动态环图来充当鼠标滑过时的提示信息(在线示例地址)。
Georg von Mayr(冯·迈尔,1841—1925)是德国行政和官僚统计的最重要代表。他反对在解决统计问题时普遍使用概率微积分和数学。
同时,von Mayr 将统计学视为一门独立学科,具有自己的方法和目标。这一观点在逻辑上为统计方法的研究奠定了基础。他为将描述性统计从政治经济学、地理学、社会学和其他学科混杂在一起的混乱环境中解脱出来做出了积极贡献,并且是将描述性统计进行扩展,形成「大众社会现象的精确科学」的最热心的推动者之一。[16]
而雷达图的历史非常模糊,关于谁首先发明和使用它们存在混淆。现在最流行的观点是 von Mayr 是第一个创建和使用雷达图来表示数据的人,他在1877年使用了这个图表:
在这项发明之后,雷达图才开始在科学家中流行起来,并成为一种流行的数据表示方式。
雷达图和玫瑰图类似,但是雷达图可以看作是极坐标系下的折线图 / 面积图,只不过同样将横轴和纵轴变成了角度轴和径向轴,就像把折线图图卷成了一个圆形。下图是使用 VChart 制作的现代版雷达图实现:
是谁发明了词云?新的工种出现了——是一位心理学家。词云的前身首次出现在心理学家 Stanley Milgram(斯坦利·米尔格拉姆,1933—1984)和他的合作者 Denise Jodelet(丹尼斯·乔德莱特)的工作中。
Stanley Milgram
Milgram 被广泛认为是社会心理学史上最重要的人物之一,另外一个使他知名的原因,就是备具争议的「米尔格拉姆实验」。[17]
这个实验的概念最先开始于 1963 年 Milgram 在《变态心理学杂志》里所发表的 Behavioral Study of Obedience 一文。实验的目的是为了测试受测者,在面对权威者下达违背良心的命令时,人性所能发挥的拒绝力量到底有多少。这一试验被视为有关服从试验的典型性试验,并在社会心理学界产生了强烈反响。[18]
而在 1976 年的研究工作「巴黎的心理地图」中,Milgram 和 Jodelet 曾经让一些巴黎市民做一些小练习。其中之一就是画巴黎地图。研究人员对参与者在地图中提及的地标进行了统计,并根据提及频率编制了一个单一的地图表示。[19]
经统计,有 218 名参与者提到了 4132 个元素。50个被提及最多的地标每个都有至少 9% 的参与者命名它们。Milgram 和 Jodelet 在纸上排列地标名称,并大致根据巴黎的实际位置来放置。受 Rand McNally(兰德·麦克纳利)地图集的启发,Milgram 和 Jodelet 选择了更大的字体来打印更经常提到的地标,从而将字号和频率数据绑定起来。初版词云效果如下图:
Milgram 和 Jodelet 指出,巴黎市民心目中的第一印象,正如他们在市场营销中所说的那样,地标其实非常接近于「旅游景点」,就像城市的明信片一样。
此外,在 Milgram 的映射中,词云中的「词」也可以是由多个词汇组成的名称或术语。
现代的词云几乎完全摆脱了地理属性,变得更加自由。VChart 支持普通词云、形状词云和三维词云,下图为 VChart 形状词云的展示效果:
基于区域的可视化已经存在了几十年。例如,马赛克图(也称为 Marimekko 图)使用小矩形的平铺来显示联合分布(最常见的情况是,它们本质上是堆叠的柱状图,其中柱子的宽度可能不同)。下图为 VChart 实现的百分比堆叠柱状图,属于 Marimekko 图的一种:
然而,树图的主要特点是 递归结构,允许它扩展到任意级别的分层数据。这个想法是由马里兰大学人机交互实验室的 Ben Shneiderman 教授在90年代早期提出的。然后,Shneiderman 和他的合作者通过引入各种交互式技术来过滤和调整树图来深化这一想法。
矩形树图在计算机 UI 中应用十分广泛,特别是重视交互功能(如下钻)的图表,在计算机上更是如鱼得水。矩形树图在软件界面中经常用来可视化树形文件结构。[20]
而旭日图是一种相对较新的可视化树结构的方法,通常被定位为矩形树图的替代品。
旭日图的首次出现可以追溯到 1921 年,这时候还是作为嵌套饼图出现。如下图是当年《机械工程》杂志上刊载的图表,显示了 1910 年至 1919 年美国联邦政府的平均年净支出:
现代的旭日图从上世纪 90 年代开始被提出并迎来研究高峰。旭日图在计算机上同样比较常用,是较为美观的表达树结构的方法[21]:
VChart 实现的矩形树图和旭日图如下所示:
矩形树图
旭日图
本文按照时间顺序回顾了一些最基本的统计图表的创生历史,但是数据可视化发展至今日以来,新图表和新的图形语法理论层出不穷,远远不是这一篇文章可以涵盖的。
但是不难发现的是,图表发明的时间越古早,发明人的主业跟数据统计的关系似乎就越「远」,似乎更像作为副业发展出来的。可见数据可视化尚属一门比较新的研究领域,未来随着交互形式的不断变革,还会有更多的趣味和可能性。
我们坚信可视化的未来是叙事可视化和智能可视化的结合发展,所以我们结合在字节跳动的业务实践,启动了开源可视化解决方案 VisActor ,图表库 VChart 正是其中一员,期待为可视化的发展做出一份贡献。
开源不易,欢迎star:https://github.com/VisActor/VChart
联系方式:
1)VisActor 微信订阅号留言(可以通过订阅号菜单加入微信群):
2)VisActor 官网:www.visactor.io