多组数据的比较:箱线图
单组数据的比较:直方图 \quad 可视化更直观
箱线图Box plot(箱须图、盒图):
箱须图(Box-whisker Plot)
反映一组或多组连续型定量数据分布的 中 心 位 置 \color{blue}{中心位置} 中心位置和 散 布 范 围 \color{blue}{散布范围} 散布范围。
上四分位数(Q3)和下四分位数(Q1),箱体包含了50%的数据。
上下边缘:该组数据的最大值和最小值
箱子的高度在一定程度上反映了数据的波动程度。
箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。
补充
四分位数
一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。
第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。
.
偏态
众数和平均数之差可作为分配偏态的指标之一:
如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。
参考:博客1
博客2
Def:箱线图与核密度图的结合
箱线图展示了分位数的位置;
核密度图则展示了任意位置的密度。
通过小提琴图可以知道哪些位置的数据点聚集的较多,
seaborn,violinplot详解
matplotlib之violinplot详解
matplotlib向seaborn转化
plt.violinplot(dataset=np.random.normal(size=1000))
参数
vert,控制图形的方向
showmeans, 是否在图中显示均值
showmedians,是否在图中显示中位数
showextrema, 是否在图中显示最大值和最小值