数据处理是根据数据分析目的,将收集到的数据,用适当的处理方法进行加工、整理,形成适合数据分析的要求样式,它是数据分析前必不可少的工作,并且在整个数据分析工作量中占据了大部分比例。数据处理包括数据清洗、数据抽取、数据合并、数据计算、数据分组等操作。在进行数据处理之前,先要了解数据变量。
数据变量
变量就是我们常说的字段,在数据库中,称为字段;在统计学中,称为变量。常用的数据类型有字符型数据、数值型数据、日期型数据。
1.字符型数据
也称为文本数据,由字符串组成,它是不能进行算术运算的文字数据类型,它包括中文字符、英文字符、数字字符(非数值型)等字符。字符型数据是一种分类数据,例如,性别可以分为男、女,省份可以按各省进行分类,我们就可以通过这些分类数据进行分类研究,从而更全面的掌握事物的特征。
2.数值型数据
数值型数据是直接使用自然数或度量单位进行计量的数值数据。例如:收入、年龄、体重、身高这几个变量均为数值型数据。对于数值型数据,可以直接用算术运算方法进行汇总和分析。
3.日期型数据
日期型数据用于表示日期或时间数据,它可以进行算术运算,所以它是特殊的数值型数据。日期型数据主要应用在时间序列分析中。
变量尺度
在统计学中,按照对事物描述的精准程度,将采用的测量尺度从低到高分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。
1.定类尺度
定类尺度是对事物类别或属性的一种测度。定类变量的特点是其值只能代表事物的类别和属性,不能比较各类别之间的大小,例如性别、职业两个变量。使用“名义N”来表示定类尺度。
2.定序尺度
定序尺度是对事物之间等级或者顺序的一种测度。其计算结果只能排序,不能进行算术运算,例如学历、职级两个变量。使用“序列O”来表示定序尺度。
3.定距尺度
定距尺度是对事物次序之间间距的一种测度,只可进行加减运算,不可进行乘除运算。它不仅能够对事物进行排序,还能准确计算次序之间的差距是多少,例如温度、时间两个变量。
4.定比尺度
定比尺度是测算两个测量值之间比值的一种测度。它能够进行加减乘除运算,例如收入、用户数两个变量。定比尺度与定距尺度最大的区别是它有一固定的绝对“0”值,而定距尺度没有。在定距变量中“0”不表示没有,只是一个测量值;而在定比变量中“0”就是表示没有。
定距尺度和定比尺度在绝大多数统计分析中没有本质上的区别,通称为“度量S”。
数据清洗
数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
数据抽取
数据抽取也称为数据拆分、是指保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新记录。主要方法有字段拆分和随机抽样。随机抽样方法主要有简单随机抽样、分层抽样、系统抽样等。
数据合并
数据合并,是指综合数据表中某几个字段的信息或不同的记录数据,组合成一个新字段、新记录数据,主要有两种操作:字段合并、记录合并。字段合并,是将某几个字段合并为一个新字段。记录合并,也称为纵向合并,是将具有共同的数据字段、结构,不同的数据表记录信息,合并到一个新的数据表中。
数据分组
数据分组,根据分析的目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,如消费分布、收入分布、年龄分布等。其中,用于绘制分布图X轴的分组变量,是不能改变其顺序的,一般按分组区间从小到大进行排列,这样才能观察数据的分布规律。在SPSS里可使用可视分箱进行数据分组。
对于不等距的操作,可以重新编码为不同变量。重新编码可以把一个变量的数值按照指定要求赋予新的数值,也可以把连续变量重新编码成离散变量,如把年龄重新编码为年龄段。
数据标准化
数据标准化是将数据按比例缩放,使之落在一个特定区间。数据标准化就是为了消除量纲(单位)的影响,方便进行比较分析。常用的数据标准化方法有0-1标准化和Z标准化。
0-1标准化也称离差标准化,它是对原始数据进行线性变换,使结果落到【0,1】区间。0-1标准化还有个好处,就是很方便做十进制、百分制的换算,只需乘上10或100即可,其他分制同理。
Z标准化也称标准差标准化,它是将变量中的观察值(原数据)减去该变量的平均值,然后除以该变量的标准差。经过处理的数据符合标准正态分布,即均值为0,标准差为1。