数据的不确定性及可视化方法

1、什么是数据的不确定性?

我们来想几个问题,如果想知道某个城市每个人春节购买了多少烟花爆竹庆祝新年,那么我们如何去统计?会去找到这个城市的每个人去采访询问吗?询问之后,获得的结果真的是实际的、真实的吗?
我想我们并不会去采访每个人,而是划分样本区,采集样本数据,根据样本去估算结果。获取的样本数据也不能确定完全真实有效,而是仅供参考。所以就产生了数据的不确定性。

2、数据的不确定性如何产生的?

数据从采集到使用的过程中,不可避免的会带来误差和不确定性。在数据的收集、处理和可视化过程中都存在不确定性。

  • 原始数据不准确

这是产生不确定性数据最直接的因素。比如,采集数据的工具精度制约,存在误差;采集过程中,收到环境、传输等条件的影响。

  • 使用粗粒度数据集合

很明显,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设某人口分布数据库以乡为基础单位记录全国的人口数量,而某应用却要求查询以村为基础单位的人口数量,查询结果就存在不确定性。

  • 处理缺失值

缺失值产生的原因很多,装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。另外,也可以删除所有含缺失值的记录,但这个操作也从侧面变动了原始数据的分布特征。

  • 数据集成

不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,Web中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。

3、不确定性可视化方法?

可视化不确定性有助于用户准确的理解数据并做出正确的决策。不确定性的可视化被认为是数据可视化的关键问题之一,其中包括:

  • 不确定性的清晰表示
  • 降低或避免因不确定性可视化所带来的视觉混乱
  • 降低可视化不确定性所引起的对确定性数据可视化结果的负面影响
  • 不确定性表达的可是隐喻

根据不确定性的可视化表达形式的不同,现有的不确定性可视化方法课大致分为4大类:

  • 图标法
  • 视觉元素编码法
  • 几何体表达法
  • 动画表达法
可视化方法 优势 不足
图标法 简单、易于理解 易产生视觉混乱等问题
视觉元素编码法 可帮助用户迅速定位可视化结果中不确定性所在的区域和大小 需要精心选择视觉元素才能有效的表达不确定性
几何体表达法 形象、直观,可编码高纬度的不确定性 易污染原有的确定性数据的可视化结果
动画表达法 可帮助用户更加生动、形象地理解不确定性,提供了更高的自由度调节可视化结果 理解曲线较长,易引起视觉疲劳

内容参考:《数据可视化》《数据之美》

你可能感兴趣的:(信息可视化,数据分析,python)