作者:可乐
来源:可乐的数据分析之路
转载请联系授权
你好,我是可乐
今天,当我们游刃有余地使用图表来进行数据可视化操作的过程中,不知道你有没有想过一个问题:
这些图表都是怎么来的?
一开始,人们并没有意识到可以用图形来描述枯燥的文字,通过图形来表示数量,还是一个相对较新的发展领域。
前人栽树,后人乘凉,这篇文章就带你了解那些图形/图表的发展历史。
1、折线图
1786年,William Playfair绘制了英格兰在1700年到1780年的进出口数据的线图,被认为是历史上最早的线图,也就是折线图,横轴是时间刻度,年份,纵轴是数值。
(插一个题外话,1786年对应我国清朝乾隆时期,我们总说数据分析要具备对比的思维,对比来了)
折线图是由直角坐标系、点和线组成的图表。通常用来展示数值型数据随时间的变化,相比条形图,它更能体现数据趋势。
使用需注意:
- 纵坐标轴一般从0开始
- 选用相对较粗的线型
- 尽量不要超过5条线。
- 若为预测值,请用虚线表示
2、 条形图
还是这一年,William Playfair在《商业与政治图解》中创造性地使用条形图来呈现离散数量的比较,描述了苏格兰在1780年~1781年的进出口数据,从下面这张他的原稿中我们可以看到,横坐标表示进出口的具体数值,纵坐标表示不同的国家,这已经和我们今天所使用的条形图没什么区别了。
条形图可用来表示比例,对相对大小进行比较,更精确,更容易发现细微的差别,条形图可以垂直也可以水平,水平条形图用于展现类别数据,垂直条形图用于展现数值型数据。
使用时需注意:
• 同一系列数据使用相同的颜色
• 尽量不要用倾斜的标签
• 若添加了数据标签,就删掉网格线吧
• 让数据由大到小排列。
3、饼图
Playfair坚信一图胜千言,他又发明了饼图、折线图等,他一生从事过很多职业,商人、统计学家、邮递员、翻译、会计等,可以说是一个妥妥的斜杠青年,或许正是这些职业经历,带给了他图形创作的灵感。
发明条形图后的15年,也就是1801年,Playfair在他的《统计学摘要》中,他用饼图描述了当时的土耳其帝国在亚洲、欧洲和非洲的领土面积的比例,从他的原稿中可以看出,欧洲占比25%(右上直角),亚洲占比60%,非洲占比15%。这是饼图的首次亮相。
(1801年,此时中国进入清朝嘉庆帝时代)
饼图,是将数据划分为几个有明显区别的扇形的圆形统计图表。在饼图中,每个扇形的弧长(以及圆心角和面积)大小,表示该种类占总体的比例,且这些扇形合在一起刚好是一个完全的圆形。
饼图主要体现的是比例,但是,由于人类对角度的感知力并不如长度,当所有扇区大小相近时,使用饼图就无太大意义,建议用柱状图或条形图代替。
如下图所示,用饼图分不清细微差别,但是用柱状图则一目了然。
使用时需注意:
- 使用时,须确认各个扇形的数据加起来等于100%;
- 避免扇区超过5个,尽量让图表简洁明了;
- 注意扇形的排布顺序,一般情况下,将最大的扇形放在12点钟方向,接下来按面积依次排列;
- 最后,正确使用颜色,既区分出需要强调的扇形,又不致于让人眼花缭乱。
4、散点图
1833年,John Herscherl 发表了一篇观察双星轨道的文章,其中使用了散点图展现观测时间和位置角之间的关系,这是第一个具有现代意义的散点图。John Herscherl是发现了天王星和红外光的威廉·赫歇尔的儿子。
(1833年,清朝道光时期,第一次鸦片战争即将爆发)
前面我们说的图表都是一维的,而散点图是一个典型的二维图表,它是由两组数据构成的多个坐标点的统计图表,主要用于数据趋势的展示和数据间相关性的说明。
使用时需注意:
- 散点图适用于变量之间关系的探索
- 在用散点图做相关性分析时,数据量若太少则没有太大的说明意义
- 数据点过大、过多,也会影响数据图的可读性
- 数据分类不宜过多,分类太多会失去对比的意义
5、南丁格尔玫瑰图
南丁格尔玫瑰图,是饼图的变种,它是弗罗伦斯·南丁格尔女士发明的,又名为极区图、鸡冠花图。
要说到南丁格尔女士,也是很传奇,她首先是一位护士,其次也是一名统计学家,更是英国皇家统计学会的第一位女性会员。
19世纪50年代,英国、法国、土耳其和俄国进行了克里米亚战争。南丁格尔主动申请,自愿担任战地护士。当时的医院卫生条件极差,甚至连干净的水源与厕所都没有,伤士死亡率高达42%,直到 1855 年卫生委员会来到医院改善整体的卫生环境后,死亡率才戏剧性地降至 2.5% 。当时的南丁格尔注意到这件事,认为政府应该改善战地医院的条件来拯救更多年轻的生命。
出于对资料统计的结果会不受人重视的忧虑,她发明出一种色彩缤纷的图表形式,让数据能够更加让人印象深刻。
这张图就是南丁格尔当时报告这件事时所用的图表,以表达军医院季节性的死亡率,从整体上来看:这张图是用来说明、比较战地医院伤患因各种原因死亡的人数,每块扇形代表着各个月份中的死亡人数,面积越大代表死亡人数越多。
(19世纪50年代,对应清朝咸丰时代,此时第一次鸦片战争已经爆发,中国已经沦为半殖民地半封建社会,1856年第二次鸦片战争爆发)
这张图里有一大一小两个玫瑰图,右侧较大的玫瑰图,展现的是1854 年 4 月至 1855 年 3 月的数据;而左侧的玫瑰图,展现的则是 1855 年 4 月至 1856 年 3 月的数据,以1855 年4 月做为分界,将24 个月的资料切分为左右两张图再用黑色线条连结,是因为这大约便是卫生委员会来改善环境时的日期,也因此我们可以比较两个年度的死亡人数与其原因的概略比例。
• 灰色的区域的面积明显大于其他颜色的面积。这意味着大多数的伤亡并非直接来自战争,而是来自糟糕医疗环境下的感染。
• 卫生委员到达后(1855年3月),死亡人数明显的下降。
她的方法打动了当时的高层,包括军方人士和维多利亚女王本人,于是医事改良的提案才得到支持,因该图的外形酷似一朵绽放的玫瑰,因此“南丁格尔玫瑰图”也就由此而来。
关于该图形的制作方法,我在 教你做超惊艳的南丁格尔玫瑰图 这篇文章中有详细的说明。
使用时需注意:
- 饼图是用角度的大小体现数值或占比;
- 南丁格尔玫瑰图是用扇形的半径表示数据的大小,各扇形的角度则保持一致。
- 可以说南丁格尔玫瑰图实际上是一种极坐标化的圆形直方图。它夸大了数据之间差异的视觉效果,适合展示数据原本差异小的数据
6、斯诺的霍乱地图
霍乱,是因摄入的食物或水受到霍乱弧菌污染而引起的一种急性腹泻性传染病,能在数小时内造成腹泻脱水甚至死亡。
1854年伦敦苏荷区爆发霍乱,当时人们还不知道霍乱是为何引起的,更不知该如何应对。面对这种传染率强,致死率也高的传染病,当时的人们束手无策。
英国麻醉学家、流行病学家John Snow走访疫区,在地图上用散点来表示霍乱案例与周围水泵的关联,并且用统计数据来说明水源水质与霍乱的相关性,最终锁定了一个公共水井。
(1856年第二次鸦片战争爆发,清政府被迫签订了一系列不平等条约)
虽然约翰·斯诺并没有发现霍乱病的病原体,但创造性地使用空间统计学查找到传染源,给了后人无限的利用价值。
随着公共卫生体系的成熟,配合抗生素治疗,霍乱已经没有那么可怕了。
7、桑基图
1812年拿破仑向俄国宣战,从法国出发进军莫斯科,最后失败。
法国土木工程师Charles Joseph Minard于1869年11月20日发表了一幅统计图形,将桑基图与制图以及温度线图表结合在一起,对这场战争的进程进行了非常直观的展示。42.2万人的军队是如何在战斗、地理和冰冻的影响下付出惨痛代价,最终减少到只有1万人的,这就是著名的拿破仑东征图,也是最早的桑基图。
这幅图展示了拿破仑军队的数量、行进的路程、维度、经纬度、行进方向、特定日期或事件的位置。
(1869年,清朝同治时期,慈禧掌权)
桑基图,是一种表现流程的示意图,用于描述一组值到另一组值的流向。分支的宽度对应了数据流量的大小。如下图所示,对用户转化情况进行了描述,多少用户加入购物车,又有多少用户付款等流程。
使用时需注意:
- 颜色避免太过花哨,影响阅读
- 桑基图的特点是能量守恒,因此每条边,宽度应是保持不变的
参考:
- http://www.tuzhidian.com/chart?id=5c553ca258461d3fa6136677
- https://blog.csdn.net/weixin_38754337/article/details/113532959
- 《统计之美》
- http://finance.sina.com.cn/money/fund/fundzmt/2020-01-21/doc-iihnzahk5562348.shtml
- https://www.datavis.ca/papers/friendly-scat.pdf