《鲜活的数据》- 阅读索引

简单概括每一节的表达核心,注重整本书的结构

第一章 用数据讲故事

1.1 不只是数字

可视化在新闻、艺术性、娱乐性、引入注目方面的例子。让数据得以被分析、传达情感等。

1.2 我们要寻求什么

关注处理数据的模式、数据间的相互关系以及异常数据。

1.3 设计

设计图表时的注意点:

  • 解释性的内容:标签、说明文字、图解等
  • 标注坐标轴
  • 正确的几何图形
  • 提供数据来源
  • 考虑需求场景

1.4 小结

以实际问题为出发点,保证数据正确性,把握图表的设计意图和受众群体。


第二章 处理数据

2.1 收集数据

介绍了几个数据来源:

  • 他人提供
  • 搜索引擎
  • 专业网站等

提供了 python 实现网页爬虫的示例。

2.2 设置数据的格式

数据的三种格式:

  • 带分隔符的文本
  • JSON
  • XML

处理数据格式的几种工具。

用代码处理数据格式的示例。

2.3 小结

如何获取数据并处理数据格式。


第三章 选择可视化工具

3.1 开箱即用的可视化工具

excel、google doc、tableau 等

3.2 编程工具

python、processing、javascript、R 等

3.3 绘图软件

Adobe Illustrator、Inkscape 等

3.4 地图绘制工具

google 地图、polymaps、R 等

3.5 衡量各种选项

按需

3.6 小结

可视化工具介绍


第四章 有关时间趋势的可视化

4.1 在时间中寻求什么

趋势性、全局和细节

4.2 时间中的离散点

柱形图:

  • 可以表现离散时间
  • 柱形高度是其体现数值的视觉线索,柱形的宽度和间隔不代表任何信息
  • 柱形图的数值轴必须从 0 开始,否则难以从视觉上比较柱形的高度
  • 示例:历年热狗大胃王比赛成绩

堆叠柱形图:

  • 柱形高度代表总数值,内部柱形高度代表子类别的数值
  • 示例:历年热狗大胃王比赛前三甲成绩

散点图:

  • 可以表示离散时间
  • 用点的位置作为数值的视觉线索,数值轴不必从 0 开始
  • 示例:网站订阅者数量

4.3 延续性数据

延续性数据源也是离散数据集,表现的是不断变化的现象。

折线图:

  • 缺陷是必须要表现两点间的稳定变化

阶梯图:

  • 适用于跃变的情况
  • 示例:美国邮费变化情况

拟合线:

  • 帮助在杂乱的数据中表现出趋势
  • 常用的有局部加权散点平滑法(LOESS)
  • 示例:历年美国失业率

4.4 小结

  • 直观体现出事物的变化趋势
  • 引导某个时间段变化的原因
  • 引导关注值得注意的部分

第五章 有关比例的可视化

不同于时间序列数据中以时间为分组依据,在比例数据中以样本空间作为分组。

5.1 在比例中寻求什么

比例的分配。

5.2 整体中的部分

既希望呈现各部分和其他部分的相对关系,又希望保持整体上的感觉。

饼图:

  • 不精确,角度不易衡量
  • 不要分成太多块
  • 颜色也可以作为视觉线索,深浅代表重点的强弱
  • 示例:用户对数据各相关领域感兴趣的情况

面包圈图:

  • 只能通过弧形的长度来衡量数值
  • 中间可以放标签或其他内容
  • 也不适合较多分类
  • 示例:用户对数据各相关领域感兴趣的情况

堆叠柱形图:

  • 多饼图与堆叠柱形图的案例:与角度相比,人们对柱形更敏感
  • 示例:奥巴马在各问题上的支持率

板块层级图(treemap):

  • 基于面积的可视化方式,通过每一个板块的尺寸大小度量
  • 适合树状结构的数据(如磁盘使用情况)
  • 示例:网站上各文章的受欢迎程度

5.3 带时间属性的比例

堆叠面积图:

  • 堆叠总高度表示某一时刻总量,内部堆叠高度表示某一时刻某一类别的数值
  • 水平轴表示时间,多个时间序列图表堆叠
  • 不适用于分类多的情况
  • 每一层的变化趋势难以识别
  • 示例:历年各年龄段人群占总人口的比例、历年消费开支的比例

时间序列图:

  • 数值轴为百分比
  • 解决了堆叠面积图难以识别每一层的变化的问题
  • 但失去了整体性和比例分布信息
  • 示例:历年各年龄段人群占总人口的比例

5.4 小结

比例分布数据主要特点在于每个单独的数值有意义,各部分相加的子集和总和也有意义,可视化需要体现出这些方面。

  • 少量数值:饼图、面包圈图
  • 多个类别的多个数值:堆叠柱形图(非多个饼图)
  • 时间信息:堆叠面积图、时间序列图

第六章 有关关系的可视化

如何通过可视化的方法挖掘出并强调这些关系

6.1 在关系中寻求什么

关联性、因果性、分布、交叠等,通过展现的图表发现关系和意义

6.2 关联性

关联性和因果性的区别,关联性可以帮助我们根据某一已知指标预测另一指标

散点图:

  • x 轴不仅可以是时间
  • (x, y) 坐标,拟合曲线
  • 正相关、负相关、不相关
  • 示例:美国各州谋杀率和入市盗窃率的关系

散点图矩阵:

  • 绘制出每一种可能的配对,以尽可能的发现关系
  • 削弱杂乱感,强调重要内容
  • 示例:7 个类型的犯罪率之间的关系

气泡图:

  • 三个维度:x、y、气泡面积
  • 示例:美国各州谋杀率和入市盗窃率的关系,加上各州人口作为第三维度

6.3 分布

茎叶图:

  • 一种古老的表示分布的图表
  • 基础性数字位于左侧(茎),相关数字依次排列在右侧(叶)
  • 示例:世界各国出生率分布图

直方图:

  • 柱形的高度表示频率,宽度表现数值轴上某个值域
  • 水平轴和垂直轴都是连续的
  • 合适的分段数量
  • 示例:世界各国出生率分布图

密度图:

  • 用曲线代替柱形,曲线下面积为 1
  • 示例:世界各国出生率分布图

6.4 对照和比较

直方图矩阵:

  • 示例:过去几十年出生率的分布变化
  • 示例:过去几年家庭电视尺寸的分布变化

系列组图:

  • 将大量小图标归于一起的技巧
  • 方便多个群组和分类之间及其内部比较
  • 示例:三部曲系列影片的评价趋势

6.5 小结

如何在多个变量中找寻关联性


第七章 发现差异

如何从全体中找出满足多种标准的集合,以及利用常识找出异常值

7.1 在差异中寻求什么

每一个变量间的差异,所有变量间的差异,相似性和背后的关联性

7.2 在多个变量间比较

先一次性观察所有数据

热点图:

  • 每一列代表该对象的一个变量
  • 每一行表示一个对象或观察角度
  • 每一个单元格根据颜色表现数值
  • 示例:NBA 球员的数据统计

脸谱图:

  • 将多个变量一次性展现在人脸的各个部位上
  • 依据人们对人的面部特征的敏感性
  • 面部:整体表现某个对象
  • 特征:头发高度、眼镜大小、嘴角曲线等表现代表的数值
  • 相似的脸 -> 相似的数据特征
  • 提供充分的图表描述
  • 示例:NBA 球员的数据统计

星图(雷达图、蜘蛛图):

  • 通过形状来表现多变量数据的特征
  • 到中心的长度代表一个变量的值
  • 链接各端点以方便表现变量之间的关系
  • 星图矩阵
  • 示例:美国各州犯罪率
  • 变体:
    • 所有数据限制在圆形上半部分
    • 南丁格尔图(极坐标区图):各扇形的长度、颜色

平行坐标图:

  • 描述群组或各变量之间的关系
  • 各个变量是一条轴,平行放置
  • 每个对象是一条线,可在多个变量间寻找共同的变化趋势
  • 示例:美国各州 SAT 得分

7.3 减少维度

多维量法,根据某些标准将对象划分为不同的群集

  • 将一个对象的各项指标转换为距离,分布到 x - y 坐标轴上
  • 相似的对象距离近,形成各个集群
  • “基于模型聚类”

7.4 寻找异常值

图表 + 常识 + 数据的上下文

7.5 小结

入手点:一次性展现所有数据,将范围缩小到令人感兴趣的点


第八章 有关空间关系的可视化

8.1 在空间中寻求什么

x、y、时间维度

8.2 具体位置

带经纬度点的地图:

  • 示例:好市多店铺在美国的分布

带有线的地图:

  • 示例:位置追踪轨迹、与世界各地连接线

带有气泡的地图:

  • 气泡的面积 -> 数值
  • 示例:全球为成年人生育率

8.3 地区

等值区域图:

  • 各个地区根据颜色标尺着色
  • 示例:美国各县的失业率
  • 示例:各国获得安全饮用水源的城市居民百分比

8.4 跨越空间和时间

加时间维度的系列组图:

  • 示例:2004 - 2006 全美各县失业率的变化

表现差额的地图:

  • 示例:2005 - 2009 全球城市人口的变化

动画地图:

  • 直观,有机展现变化
  • 示例:1962 - 2010 沃尔玛的增长情况

8.5 小结

  • 处理维度
  • 直观性、更丰富的形式
  • 处理空间数据时有很多的可能性

第九章 有目的的设计

降低理解门槛

9.1 让自己作好准备

  • 了解数据,上下文背景

9.2 让读者作好准备

  • 假设读者都是盲目的,不要假设读者可以发现所有细节
  • 解释、描述

9.3 视觉提示

  • 颜色
  • 几何形状
  • 可视化就是将数据(数字、文本、类别等)转换为视觉元素,选择合适的视觉元素

9.4 好的可视化

  • 设计图表的目的
  • 想将什么样的故事
  • 打算跟谁讲

9.5 小结

数据 + 可视化方法

你可能感兴趣的:(《鲜活的数据》- 阅读索引)