统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图

直方图

    除了上面各种描述数据整体状态的数值类指标,另外一种更形象的描述方法就是画图。最容易想到的就是以数据组的各个数值为横轴,各个数值在组中出现的次数为纵轴作条形图,即所谓的直方图。
    对stroke_clean.sav中的age做直方图,连同数值类指标,如图3所示。

 

统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图_第1张图片

统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图_第2张图片

图3:数据组age的直方图


    很简单的一张图,却可以反映出很多信息:
• 横轴上以中值(62.00)为点做一垂直于横轴的竖线,则竖线两边的直方图面积相等。
• 最长的条形对应的横轴的值就是众数(如果每个条形对应数据组的每个值,而不是一个区间)。
• 数据组的均值越大,直方图就越往横轴增大的方向移动。
• 数据组的标准差越小,直方图就越往图形的中间缩(峰顶变高,峰侧变窄),表明数据组的变异性越小。
    除了上述已经介绍过的指标,若将图3的直方图中所有条形的定点连接起来(假设无限逼近最小组距),可以得到一根曲线,这根曲线就是所谓的分布曲线。对于不同分布曲线,将会在后面进行详细的介绍。这儿先来看看从分布曲线上看出来的,能够反映数据的整体状态的两个指标,那就是偏度和峰度。
    偏度(skewness):简单来讲,就是反映分布曲线往哪儿偏的指标。见图4[Wikipedia: http://en.wikipedia.org/wiki/Skewness]。当分布的大数值比较多时,称为负偏度分布(negative skew),反之,称为正偏度分布(positive skew)。

统计学 学习笔记 (四)—— 掌握数据的整体状态 直方图_第3张图片
图4:偏度的示意


    峰度(kurtosis):反映分布扁平或陡峭的程度。偏度的正负大小可以和两边均匀分布的曲线来比较,而峰度的正负大小一般就是和正态分布曲线来比了。峰度为正值,说明该曲线比正态分布要陡峭,为负值则比正态分布要平缓。

你可能感兴趣的:(图形)