第三篇 数据的图标展示

通过各种渠道将数据收集上来之后,接下来的任务就是对数据进行加工整理。使之符合统计分析的需要,同时对数据进行图标展示,以发现数据中的一些基本特征,为进一步分析提供思路。

1数据的的预处理:审核-筛选-排序

数据的审核

数据的审核就是检查数据中是否有错误。

对于通过调查获取的原始数据(raw data),应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要检查数据是否有错误,是否存在异常值等。对于异常值要仔细的鉴别:如果异常值属于记录时的错粗,在分析之前应该予以纠正;如果异常值是一个正确的值,则应该予以保留。

对于通过其他渠道得来的二手数据,应着重审核数据的适用性和时效性。

数据的筛选(data filter):包含两方面的内容:一是将某些部分和要求的数据或有明显错误的数据予以剔除;而是将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除,数据的筛选可借助计算机自动完成。

透视表的计算与练习

2品质数据的整理与展示

对品质数据主要做分类整理,对数值型数据则主要做分组整理。品质数据包括分类数据和顺序数据。

分类数据的整理与图示

分类数据本身就是对事物的一种分类,因此,在整理时首先列出所分的类别,然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示,以便对数据即其特征有一个初步的了解。

由连个个或两个以上变量交叉分类的频数分布表也称为列联表(contingency  table);二维的列联表(两个变量交叉分类)也称为交叉表(cross table)。

分类数据相关图标介绍

(1)条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据多少的图形。当条形图横置或纵置时称为柱状图(column chart)。

(2)帕累托图(pareto chart)该图是按照各类数据出现的频数多少排序后绘制的条形图。

(3)饼图(pie chart)

(4)环形图 (doughnut  chart)

顺序数据的整理与图示

上面介绍的分类数据的频数分布和图示方法,如频数、比例、百分比、比率、条形图和饼图,也都是用于顺序数据的整理与显示。对于顺序数据,除了可使用上面整理和显示技术,还可以计算累计频数和累计频率。

累计频数(cumulative frequencies)是将各累有序类别或组的频数逐级累加起来得到的频数。通过累积频数,可以很容易看出某一类别(或数值)一下或某一类别(或数值)以上的频数之和。

累计频率或累积百分比(cumulative percentages)是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。

3数值型数据的整理与展示

数据的分组

将原始数据按照某种标准化分成不同组别,分组后的数据成为分组数(grouped data)。数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。数据精分组后再计算出各组中数据出现的频数,就形成了一个频数分布表。数据分组的方法有单变量分组和组距分组两种。单变量分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且唉变量值较少的情况下使用。在连续变量或变量值较多的情况下,通常采取组距分组。它是将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值成为下限(lower limit);一个组的最大值称为上限(upper limited)

第一步:组数的确定。一般情况下:5到15组

第二步:确定各组的组距。组距(class width)是一个上限与下限的差。

第三步:根据分组整理频数分布表。

采用组距分组时,需要遵循不重不漏的原则。补充是指一项数据只能在其中的某一组,不能在其他组中重复出现;不漏是指组别能够穷尽,即在所分的全部组别中没想数据能分在其中的某一组,不能遗漏。

为了解决不重的问题,统计分组时习惯上规定“上组限不在内”。

在组距分组时,如果个组的组距相等则成为等距分组。有时,对于某些特殊现象或为了特定的研究需要,也可以采用不等距分组。

组距分组掩盖了各组内的数据分布状况,为了反映各组数据的一般水平,我们通常采用组中值作为给组数据的一个代表值。组中值(classmidpoint)

需要注意的是试用组中值代表一组数据时有一个必要的假设条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假设,用组中值作为一组数据的代表会有一定的误差。

为了统计分析的需要,有时需要观察某一数值一下或者以上的频数或频率之和,这时候可以计算出了极品书或者累积频率。

数值型数据的图示

(1)分组数据:直方图(histogram)

(2)未分组数据:茎叶图和箱线图

茎叶图 (tem and leafdisplay是反映原始数据分布的图形。它由茎和叶两部分组成。通过茎叶图,可以看出数据的分布形状即数据的离散状况。比如,分布是否对称,数据是否集中,是否有离散等等。

绘制茎叶图的关键是设计好树茎,而且也上只保留该数值的最后一个数字。例如,125分成12/5,12分成1/2,1.25分成12/5(单位:0.01),等等。前部分是树精,后部分是树叶。树茎一旦确定,树叶就自然地长在相应的树茎上了。

茎叶图类似与横置直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原是数值,即保留了原始数据信息。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

箱线图(box plot)是一组数据的最大值(maxiumu)、最小值(minimum)、中位数(median)和四分卫数(quartiles)。这五个特征值绘制而成的箱线图,主要反映原始数据的特征,还可以进行多组数据分布特征的比较。

(3)时间序列数据:线图(line plot)

如果数值型数据是在不同的时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。

4多变量数据的图表

上面介绍的一些图形描述都是单变量数据。当有两个或两个以上变量时,可以采取用多变量的图示方法,常见的有散点图、气泡图、雷达图等。

(1)散点图(scattered diagram)

(2)气泡图(bubble chart)可用于展示三个变量之间的关系。它与散点图绘制时候类似,将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用旗袍的大小来表示

(3)雷达图(radar chart)是显示多个变量常用的图示方法,也称为蜘蛛图(spider chart)。


第三篇 数据的图标展示_第1张图片
选择合理的图表

4合理使用图标表

一个好的图标具备的特征:

(1)显示数据

(2)让读者把注意力集中在图形的内容上,而不是制作图形的程序上

(3)避免歪曲

(4)强调数据之间的比较

(5)服务于一个明确的目的

(6)有对图形的统计描述和文字说明

统计表的设计

统计表主要由四部分组成:即表头、航标题、列标题和数字资料,此外在有必要的收购可以在统计表的下方加上表外附加。


你可能感兴趣的:(第三篇 数据的图标展示)