SPSS学习笔记(1)

SPSS学习笔记(1

 

SPSS是世界上最早的统计分析软件,美国斯坦福大学的三位研究生研制,于20世纪60年代末成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。

2009728日,IBM收购统计分析软件公司SPSS

SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按粘贴按钮就可以自动生成标准的SPSS程序。极大的方便了中、高级用户。

SPSS输出结果虽然漂亮,但不能为WORD等常用文字处理软件直接打开,只能采用拷贝、粘贴的方式加以交互。这可以说是SPSS软件的缺陷。

SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。

SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCELDBF数据文件,现已推广到多种各种操作系统的计算机上,它和SASBMDP并称为国际上最有影响的三大统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。最新的12.0版采用DAADistributed Analysis Architechture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,依靠于诸多竞争对手。但是它很难与一般办公软件如Office或是WPS2000直接兼容,在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表,已经遭到诸多统计学人士的批评;而且SPSS作为三大综合性统计软件之一,其统计分析功能与另外两个软件即SASBMDP相比仍有一定欠缺。

SPSS发展历史简介

  1968年:斯坦福大学三位学生创建了SPSS

  1968年:诞生第一个用于大型机的统计软件

  1975年:在芝加哥成立SPSS总部

  1984年:推出用于个人电脑的SPSS/PC+

  1992年:推出Windows版本,同时全球自SPSS 11.0起,SPSS全称为“Statistical Product and Service Solutions”,即统计产品和服务解决方案

  2009年:SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件(Predictive Analytics Software)PASW,包括四部分:

  PASW Statistics (formerly SPSS Statistics):统计分析

  PASW Modeler (formerly Clementine) :数据挖掘

  Data Collection family (formerly Dimensions):数据收集

  PASW Collaboration and Deployment Services (formerly Predictive Enterprise Services):企业应用服务

2010年:随着SPSS公司被IBM公司并购,各子产品家族名称前面不再以PASW为名,修改为统一加上IBM SPSS字样。

SPSS Statistics功能介绍

1.增强的数据管理功能

  在10版以后,SPSS的每个新增版本都会对数据管理功能作一些改进,以使用户的使用更为方便。13版中的改进可能主要有以下几个方面:

  1)超长变量名:在12版中,变量名已经最多可以为64个字符长度,13版中可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。

  2)改进的Autorecode过程:该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ASCII码顺序进行变量值的重编码。另外,Autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。

  3)改进的日期/时间函数:本次的改进将集中在使得两个日期/时间差值的计算,以及对日期变量值的增减更为容易上。

2.完善的结果报告功能

  从10版起,对数据和结果的图表呈现功能一直是SPSS改进的重点。在16版中,SPSS推出了全新的常规图功能,报表功能也达到了比较完善的地步。13版将针对使用中出现的一些问题,以及用户的需求对图表功能作进一步的改善。

  1)统计图:在经过一年的使用后,新的常规图操作界面已基本完善,本次的改进除使得操作更为便捷外,还突出了两个重点。首先在常规图中引入更多的交互图功能,如图组(Paneled charts),带误差线的分类图形如误差线条图和线图,三维效果的简单、堆积和分段饼图等。其次是引入几种新的图形,目前已知的有人口金字塔和点密度图两种。

  2)统计表:几乎全部过程的输出都将会弃用文本,改为更美观的枢轴表。而且枢轴表的表现和易用性会得到进一步的提高,并加入了一些新的功能,如可以对统计量进行排序、在表格中合并/省略若干小类的输出等。此外,枢轴表将可以被直接导出到PowerPoint中,这些无疑都方便了用户的使用。

3Complex Samples模块增加统计建模功能

  Complex Samples12版中新增的模块,用于实现复杂抽样的设计方案,以及对相应的数据进行描述。但当时并未提供统计建模功能。在13版中,这将会有很大的改观。一般线形模型将会被完整地引入复杂抽样模块中,以实现对复杂抽样研究中各种连续性变量的建模预测功能,例如对市场调研中的客户满意度数据进行建模。对于分类数据,Logistic回归则将会被系统的引入。这样,对于一个任意复杂的抽样研究,如多阶段分层整群抽样,或者更复杂的PPS抽样,研究者都可以在该模块中轻松的实现从抽样设计、统计描述到复杂统计建模以发现影响因素的整个分析过程,方差分析模型、线形回归模型、Logistic回归模型等复杂的统计模型都可以加以使用,而操作方式将会和完全随机抽样数据的分析操作没有什么差别。可以预见,该模块的推出将会大大促进国内对复杂抽样时统计推断模型的正确应用。

4Classification Tree模块

  这个模块实际上就是将以前单独发行的SPSS AnswerTree软件整合进了SPSS平台。笔者几年前在自己的网站上介绍SPSS 11的新功能时,曾经很尖锐地指出SPSS目前的产品线过于分散,应当把各种功能较单一的小软件,如AnswerTreeSample Power等整合到SPSS等几个平台上去。看来SPSS公司也意识到了这一点,而AnswerTree就是在此背景下第一个被彻底整合的产品。

  Classification Tree模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细分,而不需要用户有太多的统计专业知识。目前在市场细分和数据挖掘中有较广泛的应用。现在已知该模块提供了CHAIDExhaustive CHAIDC&RT三种算法,在AnswerTree中提供的QUEST算法尚不能肯定是否会被纳入。

  为了方便新老用户的使用,Tree模块在操作方式上不再使用AnswerTree中的向导方式,而是SPSS近两年开始采用的交互式选项卡对话框。但是,整个选项卡界面的内容实际上是和原先的向导基本一致的,另外,模型的结果输出仍然是AnswerTree中标准的树形图,这使得AnswerTree的老用户基本上不需要专门的学习就能够懂得如何使用该模块。

  由于树结构模型的方法体系和传统的统计方法完全不同,贸然引入可能会引起读者统计方法体系的混乱。为此,本次编写的高级教程并未介绍该模块,而将在高级教程的下一个版本,以及关于市场细分问题的教材中对其加以详细介绍。

5.更好的SPSS系列产品兼容性

  随着自身产品线的不断完善,SPSS公司的产品体系已经日益完整,而不同产品间的互补和兼容性也在不断加以改进。在13版中,SPSS软件已经可以和其他一些最新的产品很好的整合在一起,形成更为完整的解决方案。例如,SPSSSPSS Data Entry和新发布的SPSS Text Analysis for Surveys一起就形成了对调查研究的完整解决方案。而新增的SPSS Classification Trees模块将使得SPSS软件本身就能够针对市场细分工作提供更为完整的方法体系。

SPSS的特点

1 操作简便

  界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击菜单按钮对话框来完成。

2 编程方便

  具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由对话框的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。

3 功能强大

  具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。

4 全面的数据接口

  能够读取及输出多种格式的文件。比如由dBASEFoxBASEFoxPRO产生的*.dbf文件,文本编辑器软件生成的ASC数据文件,Excel*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt, word, PPThtml格式的文件。

5 灵活的功能模块组合

  SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。

6 针对性强

  SPSS针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析,大多青睐于SPSS,像薛薇的《基于SPSS的数据分析》一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS,因为他们可以通过编程来实现更强大的功能。

SPSS 18.0简介

  业界领先的预测分析软件提供商 SPSS 公司推出其旗舰统计分析软件 SPSS 的最新版本 SPSS 18.0 for Windows。该版本继承了原有产品的特点之外还增加了许多显着的新特性。公司从大量的客户反馈信息中提取有益的建议,并加入到最新的版本之中。

  SPSS 18 在数据管理丶统计分析和可编程性方面增加了许多新的特性。除此之外,SPSS 18 还提供了新的

  图形选项以及 PDF 格式输出功能-这些都是用户强烈要求的新特性。如果用户使用了 Dimensions™ 软件用于调查研究,

  SPSS 同样能够直接导入和导出各种 Dimensions 数据模型。对于企业用户来说,SPSS 服务器不仅性能得到加强,其中用于 SPSS 预测企业服务 SPSS 适配器能够让企业内部的各个部门能够更有效地使用一致性的数据。

  SPSS广泛应用于各个领域,但是每个行业都存在着自己与众不同的行业特点和行业需求,因此SPSS根据各个行业数据分析和数据挖掘的特点,设计了更具有针对性的解决方案。

  图形和输出

  在SPSS 以往版本中已经使用的一种高度可视化的构造图表交互界面-图形构建器在 SPSS 新版中得到了进一步的加强。新式的图表能够让用户将复杂的信息清晰地表现出来。而 PDF 格式的输出功能够让用户更好地同其它人员进行信息共享。

  数据和访问管理

  SPSS Base 18 提供了更强大的数据管理功能帮助用户通过 SPSS 使用其它的应用程序和数据库。用户还可以定制 SPSS 内部信息显示的方式,这样在管理数据的时候能够节省时间,也具备一定的灵活性。

  分析功能

  SPSS Base 18 还包括了 ordinal regression(次序回归)分析算法,该算法在以前的版本中包含在 SPSS Advanced Models™ 附属模块中。在 18.0 中用户可以直接在 Base 模块中直接使用这种新的算法来对两种以上的变量的次序输出进行预测。例如,预测客户忠诚度及其与客户满意度的相关性。

  可编程性

  SPSS 18.0 中包括了 SPSS Programmability Extension™ 功能,在 SPSS 命令语法语言的基础上提供与其它编程语言的结合功能。用其它语言编写的程序代码,如 Python®,可以管理使用 SPSS 语法所编写的任务流。使用 SPSS 18.0 提供的扩展编程功能和特性,让 SPSS for Windows 成为了最强大的统计开发平台之一。

你可能感兴趣的:(windows,数据挖掘,图形,产品,statistics,classification)