统计学笔记1:数据的图表展示

一、品质数据的整理与展示

1.1、分类数据的整理与图示

1.频数与频数分布

频数 (frequency)

是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布( frequency distribution)。

列联表(contingency table)和交又表(cross table)

由两个或两个以上变量交又分类的频数分布表也称为列联表(contingency table)。二维的列联表(两个变量交又分类)也称为交又表(cross table)。

用 Excel生成定性数据频数分布表有几种途径:

1、其中最简单的办法是使用数据透视表进行计数和汇总。
2、此外,使用【数据分析】工具①中的【直方图】命令也可以生成频数分布表。

Excel中的【数据分析】工具提供了一些常用统计方法的程序。如果你的机器还没有安装此项功能,需要安装后才能使用。具体的安装步骤如下:第1步:在Excl工作表界面中点击【文件】和【选项】,在弹出的对话框中选择【加载项】。第2步:在【加载项】中选中【分析工具库】,然后点击【转到】,再点击【确定】即可。

2.分类数据的图示

(1)条形图

统计学笔记1:数据的图表展示_第1张图片
1.png

(2)帕累托图

通过对条形的排序,容易看出哪类数据出现得多,哪类数据出现得少。


统计学笔记1:数据的图表展示_第2张图片
2.png

(3)饼图

统计学笔记1:数据的图表展示_第3张图片
3.png

统计学笔记1:数据的图表展示_第4张图片
4.png

(4)环形图

统计学笔记1:数据的图表展示_第5张图片
5.png

1.2、顺序数据的整理与图示

1.累积频数和累积频率

累积频数(cumulative frequencies)

是将各有序类别或组的频数逐级累加起来得到的频数,频数的累积方法有两种,通过累积频数,可以很容易看出某一类别(或数值)以下或某一类别(或数值)以上的频数之和。

向上累积

一是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;

向下累积

二是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。


统计学笔记1:数据的图表展示_第6张图片
6.png

二、数值型数据的整理与展示

2.1、数据分组

数据分组的主要目的是观察数据的分布特征。数据分组的方法有单变量值分组和组距分组两种。

单变量值分组

单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。

组距分组

在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将一个区间的变量值作为一组。在组距分组中,一个组的最小值称为下限(lower limit),一个组的最大值称为上限(upper limit)

等距分组和不等距分组

在组距分组时,如果各组的组距相等,则称为等距分组;如果各组的组距不相等,则称为不等距分组。

组中值(class midpoint)

组距分组掩盖了各组内的数据分布状况,为反映各组数据的一般水平,我们通常用组中值作为该组数据的一个代表值。组中值(class midpoint)是每一组中下限值与上限值中间的值,即


7.png

2.2、数值型数据的图示

1.分组数据:直方图

条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。


8.png

2.未分组数据:茎叶图和箱线图

(1)茎叶图。

茎叶图(stem-and-leaf display)是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况, 比如,分布是否对称,数据是否集中,是否有离群点,等等。

与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。


统计学笔记1:数据的图表展示_第7张图片
9.png

(2)箱线图。

箱线图(box plot)是根据一组数据的最大值( maximum)、最小值(minimum)、中位数( median)、两个四分位数( quartiles)D这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。


统计学笔记1:数据的图表展示_第8张图片
16.png

10.png

3.时间序列数据:线图

统计学笔记1:数据的图表展示_第9张图片
11.png

4.多变量数据的图示

(1)散点图

散点图(scatter diagram)是用二维坐标展示两个变量之间关系的一种图形。


12.png

(2)气泡图。

统计学笔记1:数据的图表展示_第10张图片
13.png

(3)雷达图雷达图(radar chart)

是显示多个变量的常用图示方法,也称为蜘蛛图(spider chart)。设有n组样本S1,S2,…,Sn,每个样本测得P个変量X1,X2,…,Xp。


统计学笔记1:数据的图表展示_第11张图片
14.png

总结了数据的类型与主要图示方法。

统计学笔记1:数据的图表展示_第12张图片
15.png

你可能感兴趣的:(统计学笔记1:数据的图表展示)