箱线图因形状如箱子而得名,“箱子”从上到下展示的是上四分位数(75thQuantile,箱子上边线)、中位数(median,箱子中间的线)和下四分位数(25thQuantile,箱子的下边线),其中上四分位数和下四分位数之间的距离称为四分位距(Inter-QuartileRange,IQR),“胡须”即延伸线,延伸至除离群值外的最大值和最小值,超出上下四分位数1.5倍IQR的值被认为是离群值。
关于箱线图其它的一些基本情况大家可以参见我们以前的推送《试验研究中的利器--强大的直方图和箱线图》。这种漂亮的展示图还发展出许多变体,是数据可视化的重要工具,也帮助克服了传统箱线图的一些缺陷。今天小编就给大家介绍一些常用的变体箱线图。
1. 可变宽度箱线图(Variable Width Box Plot):箱子的宽度反映出样本的大小,样本量越大,箱子越宽。这种形式可以结合其他形式同时使用。
2. 缺口箱线图(Notched Box Plot):中位数的值用缺口表示,缺口的宽度可表示中位数的置信区间,方便比较几组数据中位数的差别。
3. 花瓶图(Vase Plot):箱子由花瓶形状代替,引入参数估算数据的密度。
4. 基于对数据的密度估算,又发展出几种相似的形式——小提琴图(Violin Plot)、豆荚图(Bean Plot)、蜂群图(Beeswarm Box Plot)等。这类图相当于是箱线图和密度分布图的结合,箱线图展示了分位数的位置,密度分布图展示了任意位置的密度,通过图形我们可以知道哪些位置的密度较高,也方便比较几组数据密度分布的差别。
箱线图发展于电脑普及前的时期,可以手动计算并绘制出。然后也是由于这个原因,传统箱线图对于较大样本数据的展示会有一些缺陷。例如,对于较小样本的数据集(200以下),箱线图计算出的离群值一般不超过10个,但对于大样本数据集(10,000以上)则会出现较多的离群值,但实际上这些值可能都是正常观测值。如果使用上述提及的方式结合数据的密度分布,则会引入调整曲线平滑的参数,但这些都不能最客观地反映数据本身的特征。
最近HeikeHofmann、Hadley Wickham和KarenKafadar提出的增强箱图(直译“字母值图”,Letter-ValuePlot)可以解决这一问题,基本原理是用一系列的箱图代替了延伸线,绘制出更多的分位数来提供数据分布的信息,对大数据时代的数据可视化非常有帮助。
参考资料和延伸阅读:
Hofmann H., Wickham H. & Kafadar K.(2017). Letter-value plots: Boxplots for large data. Journal ofComputational and Graphical Statistics, 26, 469-477. https://doi.org/10.1080/10618600.2017.1305277
Wickham H. & Stryjewski L. (2011).40 years of boxplots. http://vita.had.co.nz/papers/boxplots.pdf
Ribecca S. (2017). Further Exploration#4 Box Plot Variations. The Data Visualisation Catalogue. http://datavizcatalogue.com/blog/box-plot-variations/
系列相关推送:
试验数据统计中常用的量,图,和线--再也不担心文章的统计用图了!
试验研究中的利器--强大的直方图和箱线图
发表SCI 论文很迷茫?来找「投必得」帮忙