《数据处理的SPSS和SAS EG实现》的读书笔记

《数据处理的SPSS和SAS EG实现》的读书笔记

作    者:经管之家、曹正凤

出版社:电子工业出版社

版    次:2015年2月第1次出版

作者简介:

经管之家:原人大经济论坛,于2003年成立。经管之家从2006年起在国内最早开展数据分析培训教材,累计培训学员数万人。在大数据的趋势背景下,创立“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供最优质、最科学、最系统的数据分析教育。

曹正凤:统计学博士,经管之家大数据中心总工程师,经管之家CDA大数据分析师培训负责人,北京博宇科技有限公司技术总监。致力于大数据分析前沿领域研究,主持人大经济论坛基于Hadoop架构的论坛主题歌推荐系统项目。

本书的重点内容和理解:

这是一个用数据说话的时代,也是一个依靠数据竞争的时代。目前世界500强企业中,有90%以上都建立了数据分析部门。IBM、微软、Google等知名公司都积极投资数据业务,建立数据部门,培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为日益倚重的技术手段。

第1章、软件入门介绍

1、SPSS与SAS、SYSTAT是世界三大统计分析软件。SPSS软件"社会科学统计软件包"已有40多年的历史,全球约有25万产品用户,遍布于通信、医疗、银行、证券、保险、制造、市场研究、科研教育等行业。

2、SPSS及菜单。菜单可以生成代码,也可以直接编码,实现菜单和程序做完善结合。SPSS的主要窗口功能包括:数据编辑窗口、结果输出窗口、变量编辑器窗口、语法编辑器窗口、图表编辑窗口。

3、数据挖掘的流程介绍

目前应用较多的数据挖掘流程主要有三种:一是KDD(数据库知识发现),二是CRISP-DM(跨行业的数据挖掘标准),三是SAS公司提出的SEMMA数据挖掘流程。

1)KDD:数据挖掘是属于KDD中最重要的一环,是发现数据中有效的、新奇的、潜在有用的,并被最终形成可理解模式的过程。

2)CRISP-DM:是一种跨行业的数据挖掘标准。其流程为:第一、商业理解:即期望通过数据挖掘获得什么;第二、数据理解,即访问数据及探索数据;第三、数据准备,是数据挖掘最重要的阶段之一,实际的数据准备工作通常占60%~80%的工程时间和工作量。主要包括合并数据集和/或记录,选择数据子集样本汇总记录,导出新的属性,排序数据以便建模,删除或替换空值或缺失值,分为训练数据集和测试数据集。第四、建立模型:即根据需求寻找合适的数据挖掘模型;第五、模型评估:即评估模型的效果,稳定性;第六、方案实施:将模型发现的规则部署到实际业务系统中去。如SPSS系统采用。

3)SEMMA:其数据挖掘流程由SAS公司提出。

三种方法都强调了数据理解和数据准备的过程,数据的预处理约占数据挖掘60%~80%的时间,数据预处理的好坏直接影响到后续的建模,本书将侧重于数据准备的相关任务。

第2章 使用数据

1、本章主要介绍如何通过SPSS访问外部数据,这些数据可能是一个数据库,也可能是一些SPSS文件,或是XLS、TXT等格式的数据,这是访问外部数据后续进行建模分析的基础。

2、SPSS连接数据库:通过ODBC(开放数据库连接)进行连接。开放数据库互连(ODBC)是Microsoft提出的数据库访问接口标准。开放数据库互连定义了访问数据库API的一个规范,这些API独立于不同厂商的DBMS,也独立于具体的编程语言。

3、SPSS数据集的定义

1)理解数据集的含义:在进一步进行数据分析之前,我们还需要了解数据集的基本信息,比如修改日期、属性、标签等,了解每个字段的含义、类型及相关的长度、格式等。

2)商业背景:如果你是一名数据分析的新手,当你拿到一些以SAS为格式存储的文件集时,你应该从哪些方面去了解这些数据,以便为下一步的数据分析做好准备呢?

3)SPSS相关概念:

A、SPSS创建的文件类型主要包括4种,SPSS的数据文件,以sav为扩展名;SPSS的语法文件以sps为扩展名;SPSS的输出文件,以spv为扩展名;SPSS的脚本文件,以sbs为扩展名。分别对应于数据编辑窗口、语法编辑窗口、结果管理窗口和脚本窗口。

SPSS是一个有别于其他文件的特殊格式的文件,SPSS数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。

基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。

B、SPSS菜单解决方案:代码本可以用来对当前文件中的变量信息进行描述,并可对分类变量进行计数和百分比计算,对数值变量进行均值、标准差、中位数、四分位数间距的计算。

4、导入其他格式的数据文件

5、数据来源

从使用者的角度来说,数据来源分为两种:一种是直接来源,即通过使用者的调查或实验活动直接获得;二是间接来源,数据由别人通过调查或实验的方式搜索,使用者只能找到他们并加以使用。

1)直接来源------概率抽样:依据随机原则,可以用样本推断总体,但需要对总体较为熟悉,调查成本较高;非概率抽样优点为操作简便,时效快,成本低,适用于探索性研究,为更深入的数量分析做准备。缺点是由于不是依据随机原则抽取,无法使用样本的结果对总体参数进行推断。

2)间接来源:二手数据的特点如下:收集容易,采集成本低;作用广泛,可以提供研究问题的影响、帮助研究者更好地定义问题,寻找研究问题的思路和途径。

使用二手数据时一定要注意,需要对数据进行评估。数据是谁收集的?分析搜集者的实力和可信度;为什么目的而收集的?分析是否与现有的分析目的相吻合;什么时候收集的?分析数据的时效性,过时的数据作用也就有限了;数据是怎样收集的?了解数据的生产过程,分析数据的质量。相对来说,二手数据容易获取,一手数据由于针对分析目标而采集可用性更强。

第3章 探索性数据分析及数据的清理

1、探索性数据分析EDA:它是指对已有的数据在尽量少的先验假定下进行探索,通过作图、制表、函数拟合、计算统计特征量等手段探索数据的内在结构和规律的一种数据分析方法。特别是当我们对这些数据的信息没有足够的经验,不知道该用体种传统统计方法进行分析时,探索性数据分析就会非常有效。

2、探索性数据分析角度:检验每个单变量的统计量;检验所有类型变量的分布及连接性变量的正态性;计算顺序变量和连续性变量的相关系数;检验异常值;借助散点图探索变量之间的非线性关系;检查每个变量的缺失值及缺失值的简单替换或删除后所引起的偏差;检验来自于同一个总体的不同样本假设;检验变量的交叉分布表;使用多元方法如因子分析、主成分分析等探测内部的结构。

3、SPSS共有三个菜单命令可以实现,分别是探索、频数、描述。

1)探索:可以实现三项功能。识别数据的分布形式,绘制箱型图和茎叶图,反应数据的分布形式,有助于判断数据中是否包含异常值、影响点和错误数据。正态性检验。方差齐性检验。用Levene检验比较各组数据的方差是否相等,以判定数据的离散程度是否存在差异,如进行独立样本T检验,就需要事先检验是否相等,若不相等,则需要对数据进行转换使其方差基本相同。Levene进行方差齐性检验时,不强求数据必须服从正态分布。

4、数据清理介绍

1)商业背景:高质量的数据是数据挖掘的关键。数据库及日常收集到的数据极易受到缺失值、异常值、无效值、重复值等不一致数据的影响,如果不对这些数据在建模前进行恰当的处理,极容易产生"gabage in,gabage out",即垃圾进,垃圾出的结果,很难得到有用的数据挖掘信息。

2)需要清理的数据类型

A、缺失值。缺失的处理方式:忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;单独作为一类。

B、异常值。离群值、极端值。明显偏大或偏小的值,异常值不一定为错误值。识别异常值的常用方法有三种:

第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。本方法是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。

第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判的点为异常值。

第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点。但是在数据量较大的情况下,聚类对系统的资源要求比较大。

C、无效值。在录入时导致的错误,比如性别在录入时F代表女,M代表男。但是在录入时出现了FM的情况,这种情况就是无效值。还有数据存在有效期,随着周围情况的变化,数据也会发生变化。无效值的处理方式可以通过查询数据来源、重复收集等修改为有效值,也可以作为单独的一类。

D、数据的重复值。对于有些值,比如ID,根据数据表示的含义,一条记录代表一个唯一的ID,但是在数据整合过程中出现了多个ID,对于重复观测,一般的方式是确定好原因之后删除。

5、类别变量的清理

变量的类型分为三类:类型变量、顺序变量、数值变量。

6、数值型变量的清理

1)缺失值的处理方式:

删除缺失值:最常用的方式是直接删除,一般适合于样本比较小的情况,这种方法的局限性是以丢弃样本量来换取信息的完备,会造成信息丢失。

替换缺失值:如用全局平均值或中位数;局部的平均数或中位数;线性插值;线性趋势插值。

缺失值分析:缺失值的描述和快速诊断,生成诊断报告,包含哪些变量存在缺失,比例为多少,是否与其他变量的取值有关等。

重复值处理:

7、正态分布的验证

1)商业背景:自然界的多数自然现象,很多实验数据,行为数据等都服从正态分布,很多统计方法应用前提或者效果检验用到正态分布的假设。

2)SPSS菜单解决方案

P-P图与Q-Q图:P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合所指定的分布,则代表样本数据的点应当基本在代表理论分布的对角线上。P-P图是用分布的累计比,而Q-Q图用的是分布的分位数来做检验。Q-Q图的结果与P-P图相似,如果数据为正态分布,则在Q-Q正态分布图中,数据点应基本在图中对角线上。

第4章 数据的行处理

1、数据筛选:商业背景:数据表中有10个分店的所有客户资料数据,而你仅需要分析其中位于上海的两个分店的年龄介于18~30岁的会员的消费行为数据,这时候你就要用到筛选功能。

2、排序与求秩:商业背景:你需要分析按照购买额排序最大的5个客户的特征,或者你需要分析10个分店中,每个分店购买额最大的5个(或者前1%)客户的特征。

3、抽样:商业背景:你有几百万近一年的购买行为数据,由于购买行为较为频繁,数据量较大,分析全国数据较慢,为快速了解数据的特征你可以采用抽样方式。

4、数据分组和汇总:商业背景:你现在有2013.1.1~2013.12.31每个工作日的销售数据,怎样分析每个月的销售变动情况?你现在有每个销售员的业绩,他们隶属于15个销售团队,怎样比较这些销售队的业绩?

第5章 数据的列处理

1、计算新变量:商业背景:需要在数据集中基于现有变量构造新变量,以便于更好地分析数据。

2、拆分列:商业背景:假如你现在有每个销售员6个月的销售数据,但是这些月份是全部放在一列的,不适合展示和按月对比。所以需要“重组”.

3、堆叠列:商业背景:假设你现在有销售员6个月的销售数据,每个月作为一列,为了满足你的分析目的,你想转换成所有的月份都在一列。和拆分列相反。

4、转置列:为方便分析数据,将行和列直接转置。

5、对列重编码:商业背景:现在有一列关于会员家庭收入的数据,部分会员没有填写,你现在想用其他会员的平均收入代替缺失值,应该如何实现呢?

重新编码有三种主要的类型:第一、重编码为相同变量是对原变量取值进行修改,用新编码直接取代原变量的取值;第二、重编码为不同变量是将编码存入新的变量,根据原始变量的取值生成一个新变量来表示分组情况;第三、自动编码。将字符串值或数字值重新编码为连续整数。字符型变量按照字母顺序排列,大写字母排在小写字母前面,缺失值编码大于任何非缺失值。

6、标准化:商业背景:在需要用到计算距离的模型中,距离很容易受到量纲的影响,比如A的身高为185CM,B的身高为160CM,若用厘米做单位两人身高的差异为25CM,若用米作单位,身高的差异为0.25M,但0.25<25,我们看到单位不同影响了差异的比较,为了消除量纲影响和变量自身差异大小和数值大小的影响,经常将数据标准化。

第6章 数据集的操作

1、纵向连接:商业背景:你现在有公司各个分店会员客户的基本信息,由于每家分店是手工填写的,这些信息散布在不同的表中,为了便于分析,你需要将这些信息整合到一张表中。

纵向连接的五种类型:第一、包含A、B中所有的观测(含重复);第二、包含A、B中所有的观测(不含重复);第三、包含A中所以不在B中的观测;第四、包含AB共有的观测;第五、包含B中所有不在A中的观测。

注意:第一、纵向连接表中变量不一致。若某个变量仅存于部分数据集中,则结果数据集中会包含此变量,并将不包含此变量的相关观测中的变量置为空缺值。第二、纵向连接表中变量名称、类型不一致。要在连接表中直接进行变量修改;第三、纵向连接表变量的顺序不一致。可以通过合并参数的调整来顺利实现表的连接。

2、横向连接:商业背景:假如你现在需要建立客户评分卡,需要使用客户的人口属性信息、购买行为信息等,但这些信息分属于不同的表或者不同的数据库,在这些表中每个都有一个共同的主键客户ID。

横向连接的四种类型:第一、左联接:返回包括左表中的所有记录和右表中联结字段相等的记录;第二、右联接:返回包括右表中的所有记录和左表中联结字段相等的记录;第三、内连接:只返回两个表中联结字段相等的行;第四、全连接:返回两个表中所有的字段。

3、数据集的比较:商业背景:你有一份几年前的客户资料数据集,最近市场部分又重新设计了表格更新了部分收集字段,让老客户重新进行填写,形成了一个新数据集。你现在需要快速地了解前后两个数据集修改了哪些字段,同一个客户的哪些信息变更了。

第7章 数据的展示:图形及报告的编制

1、数据可视化与图表:你现在有一批数据,如何形象地探索数据及展示数据之间的规律,如何将复杂的数据挖掘结果清晰地向使用者展示清楚,都需要用到数据的可视化及图表制作。

2、统计图分为描述性统计图和检验统计图。前者多用于数据可视化,是对代表某业务运营情况的指标进行图形描述,主要是对其分布、比例、趋势的描述,大量出现在工作报告中,比如饼图、条形图。后者是对特定统计检验和统计量的形象展示,仅出现在特定统计报告中,一般不在工作报告中出现,比如直方图、P-P图、ROC曲线。

3、以数据为基础,制作图表的步骤:1)整理原始数据。通过前面我们介绍的行处理、列处理,将来自不同数据流的数据整合成规整的数据,是做好后续数据展示的基础。2)确定要表达的信息。3)确定比较的类型。4)确定图表的类型。

4、数据可视化是当今数据挖掘的一个热门方向。

你可能感兴趣的:(《数据处理的SPSS和SAS EG实现》的读书笔记)