数据是真实生活的象征。这是抽象的,而且不可能封装一切在电子表格中,导致数字的不确定性。
一个样本代表了一个完整的人口是多少?数据集代表真理有多大可能?你相信这些数字多少钱?
统计是一个游戏,你可以计算出这些不确定性并根据你的计算做出估计判断。但是标准错误、置信区间和数据集往往会丢失数据图形中的视觉空间,从而导致基于简单摘要的判断,即指、中值或极端。
那可不是好事。你错过了有趣的事情重要的东西。因此这里有一些可视化选项,用于数据中的不确定性,每一个都有其优缺点和示例。
范围
首先,我们首先从传统的可视化方法入手,这至少是显示一个范围或置信区间。中间点表示平均值或中值,而条形或线条显示其他可能的值或覆盖范围。
优点
行或栏表示值范围,因此您可以看到平均值或中值仅表示估计数的一部分。当比较多个估计数时,该范围特别有用,因为您可以看到类别之间的重叠。你从根本上得不到这个。
缺点
如果您有完整的值分布,则不会看到数据中的所有细节。此外,很多人都不理解置信区间的概念或者标准错误栏是什么,所以您需要用注释来清楚地解释。
实例
FiveThirtyEight通常在评估工作中的不确定性方面做得很好。在他们的篮球运动员的评分和预测它们显示了一个黑点后面的轻灰色杆,代表可能的玩家随着时间的影响。
另见:经典盒形和-图|||按行业分列的薪金我的尝试动画潜在价值当然,你怎么能忘记抖动量规.。
分布
显示可能值的扩展直方图或a变异的你可能会看到一个中间位置永远不会显示的东西。
优点
通过显示样本中的变化,您或读者可以对样本是否可信作出更多的教育判断。奇怪的扭曲吗?有多重峰值吗?还是它是一个预期的钟曲线?
缺点
再次,很多人不理解发行版,所以你需要解释一下发生了什么。有时变化只是噪音,或者细节可能掩盖森林为树木。
实例
当人们在他们的关系中经历了第一次时,就会有很多差异,而不是仅仅是平均年龄,我使用了发行版.。
另见:人们如何度过时光用平行坐标可视化。
多项成果
当谈到预测和预测时,可以看到各种结果来看看会发生什么。关键词:可能.。
优点
不确定性显示得更加明确。人们可以看到没有设置路径,而是看到了一系列可能的路径。
缺点
如果噪音太大或者太多的可能性,图表可能不会提供任何用途。但这可能是预测比图表选择更重要的问题。
实例
为了显示选举的模拟不确定性,在显示多个委托结果同时使用各种模型。
另见:飓风追踪以及风扇图对于时间序列数据,以及bootstrap密度曲线.。
模拟
类似于显示多个结果,看到各种结果逐个地生成一个整体图,从而为预测的模糊性提供直观。
优点
当数据出现在同一次或聚合时,对于许多人来说,解释结果并将其链接回实际表示的数据是一个挑战。通过展示仿真,你会得到一个建立起来的感觉和一个与个人结果的联系。
缺点
过多的重量可能会被放在个人结果上,从而掩盖了整个画面。
实例
社会保障管理局规定了预期寿命和死亡概率。我用它来模拟你可能已经离开了多少年.。
另见:你怎么会死|||1000美国人之日还有多边形的寓言.。
朦胧
估计越不确定,越难看到,与更多的估计相比,视觉上的突出程度就越低。您可以通过一些方法实现此效果,例如透明、颜色大小或非透明。
优点
隐喻是有道理的。如果你对估计值不太确定,那么它就会使它看起来更不突出。因此,空气中较少的数据会引起更多的关注。
缺点
模糊或模糊如何感知?不同层次实际上是解释还是是二元性的东西?这需要更多的研究。
实例
我还没见过这么多事情,但是风预报图由莫里茨·Stefaner想到了。
线条代表风的预测,而不透明度代表着预测的力量。
词语
也许可视化并不是你想要的。毕竟,你不必观想一切通过避免在描述数字时避免绝对,您可以将不确定性添加到您的写作中。当你使用这些估计时,就会考虑估计数,并考虑到数字中的不确定性。