R语言期末复习资料
第一章 多元统计分析概述
1.列出常用的统计软件,说明其使用范围和各自的优缺点
解:
(1)SAS:组合软件系统,入门比较困难
(2)SPSS:操作简单,无需编程,有方便的数据接口和灵活的功能模块组合
(3)S-PLUS:操作界面简单,兼容性极好,全面的统计模型和分析手段,具有很强的图形处理能力
(4)MATLAB:数值分析,数值和符号计算,工程与科学绘图,控制系统的设计与仿真,数字图像处理技术,数字信号处理技术,通讯系统设计与仿真,财务与金融工程
(5)R:功能强大,免费、开源,前景广阔,初学比较麻烦,需要有一定的编程基础
(6)Rstudio: 支持多平台,有很多辅助性按钮窗口,开源。
第二章 多元数据的数学表达及R使用
1.数组,矩阵和数据框有何不同
解:
(1)数据框是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据,数据框中每列是一个变量,每行是一个观测值
(2)数组不限维度,但是数据类型必须一致
(3)矩阵是一个特殊的数组,维数为2的数组
2.R命令读取文本数据
解:
第一行作为标题:
X = read.table(“textdata.txt”,header=T)
第一行作为数据:
X = read.table(“textdata.txt“)
3.如何用R命令读取Excel数据:
(1)下载readxl包
(2)library(readxl)
(3)X = read_excel(“data.xls”,sheet=n)
读取csv格式数据
X = read.csv(“textdata.csv”)
用剪切板读取excel的数据:
第一行作为标题:
X = read.table(“clipboard”,header=T)
第一行作为数据:
X = read.table(“clipboard”,header=F)
4.如何利用R命令绘制直方图和散点图
直方图:hist(x1) 散点图:plot(x1,x2)
5.定性数据分析和定量数据分析有何不同
解:
(1)定性数据分析:通常从宏观上对数据进行分析,判断数据的整体趋势,通常采用一种归纳的方法进行推理,通常用于个人和案例研究
(2)定量数据分析主要采用统计数据、建立数学模型的方法,通过具体影响整体的某个因素进行分析,通过科学准确的数学模型来计算出分析对象的各项指标,任何一项定量数据分析需要有定性数据分析的基础来提供正确的方向。
第三章 多元数据的直观表示及R使用
1.箱尾图的组成和作用是什么
解:
组成:P43
作用:比较清晰的表示数据的分布特征,表示一段时间内数据的变化情况
2.星相图有什么特点
解:
他将每个变量的各个观察单位的数值表示为一个图形,n个观察单位就有n个图,每个图的每个角表示每个变量,星相图是雷达图的多元表示形式
3.调和曲线图有何特点和作用
调和曲线图是D.F.Andrewsl972年提出的三角多项式作图法,所以又称为三角多项式图。在多变量分析中,三角多项式图在对多变量分析中,将对象看作一个多维空间点,然后把这一空间点展示为平面上的一条曲线,并使其充分保留研究对象所具有的全部信息,以便于研究对象之间的比较。由空间点展示为平面曲线主要借助三角多项式来完成。其思想是把高维空间中的一个样品点对应于二维平面上的一条曲线。
调和曲线图对聚类分析帮助很大。如果选择聚类统计量为距离的话,同类的曲线非常靠近拧在一起,不同类的曲线拧成不同的束,非常直观
4.雷达图与星相图的区别
星相图是雷达图的多元表示,星相图能够容纳的样本点比雷达图大,但是不能对各个变量进行直观的比较。雷达图用于研究样本间的关系,并对样品进行分类。
library(fmsb)
radarchart(data.frame(x),axistype=0,seg=21,centerzero=TRUE)
第四章 多元相关与回归分析及R使用
1.回归分析与相关分析的区别和联系是什么
解:
回归分析和相关分析主要区别是:
(1 在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;
(2 相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;
(3 相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制.
(4 相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。
(5 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛。
回归分析与相关分析的联系:
(1 回归分析和相关分析都是研究变量间关系的统计学课题。
(2 在专业研究上,有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关分析和回归分析。
(3 从研究的目的来说:若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析.
2.相关关系和回归关系各有哪些类型
解:
相关关系:一元相关分析,多元相关分析
(1)按相关的程度可分为完全相关、不完全相关、不相关;
(2)按相关的方向可分为正相关和负相关;
(3)按相关的形式可分为线性相关和非线性相关;
(4)按所研究的变量多少可分为单相关、复相关和偏相关。
回归关系:一元回归分析,多元回归分析
(1)按照因变量的多少,可分为简单回归分析和多重回归分析;
(2)按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析
3.多元线性回归模型有哪些基本假定,为什么要求多元线性回归模型满足一些基本假定,当这些假定不满足时对回归模型有哪些影响
解:
基本假定(P66,67):
(1)解释变量为非随机变量
(2)误差等方差及不相关假设(G-M条件)
(3)误差正态分布的假定条件为
(4)样本容量个数多于解释变量个数
原因:
满足这些基本假定是为了确保计算的可靠性。
影响:
估计标准误差可能严重低估σ的真实值
样本方差可能严重低估参数β的真实值
估计回归系数不真实
F检验和t检验不再有效
根据最小二乘估计量的预测将无效
4.为什么对多元回归系数进行标准化
解:P68
5.应用多元回归分析和相关分析时应注意哪些事项
解:
(1)作回归分析要有实际意义
(2)应绘制散点图
(3)两变量间有线性关系存在,不一定确有因果关系
(4)以自变量的取值范围为限 ,不可随意外延
(5)满足线性、独立、正态和方差齐性条件
(6)绘制散点图后,若出现特大特小值,则应及时复核检查
6.自变量选择对回归参数的估计有何影响,自变量选择对回归预测有何影响
解:P73
如果模型中丢掉了自变量,那么会出现模型的设定偏差,这样模型容易出现异方差或自相关性,影响回归结果;如果模型中增加了不必要的自变量,或者数据质量很差的自变量,不仅使得建模计算量增大,自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。
当全模型(m元)正确采用选模型(p元)时,如果舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的。当选模型正确采用全模型时,全模型回归系数的最小二乘估计是相应参数的有偏估计,似的用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大。
7.变量选择方法的基本思想与向前逐步回归和向后逐步回归的思想方法,向前引入法、向后剔除法逐步回归各有哪些缺点
解:
基本思想:P75,78,79
第五章 广义与一般线性模型及R使用
1.一般线性模型包括哪些类型
同下
2.广义线性模型包括哪些类型
3.解释变量一般有几种取值方式
P88
第六章 判别分析及R使用
1.判别分析的基本思想P106
2.Fisher判别的具体思想P106,108
3.距离判别的基本思想P111
4.Bayes判别的基本思想P121
第七章 聚类分析及R使用
1.聚类分析中为什么提出马氏距离P136
2.聚类分析有哪几种类型,哪几种方法,聚类分析中相似性度量的统计指标有哪些P133,P134,135
3.试述系统聚类的基本思想、系统聚类中的常用的基本方法P138
第八章 主成分分析及R使用
1.试述主成分分析的基本思想P157,P158
2.主成分分析的计算步骤P161,P162
3.试述主成分分析在多指标统计分析应用中的注意事项P167
第九章 因子分析及R使用
1.比较因子分析和主成分分析模型的关系,说明相同与不同之处
P175
区别:(1)主成分分析是通过线性组合将原变量综合成几个主成分
(2)因子分析通过构筑若干意义较为明确的公因子
(3)主成分分析是“变异数”导向的方法
(4)因子分析是“共变异数”导向的方法
相同之处:都是用较少的综合变量来代替原来较多的变量,而这几个变量又能尽可能多的反映原来变量的信息,并且彼此之间不相关,利用这种降维的思想,产生主成分分析和因子分析
2.使用因子分析时需要注意哪些问题
(1)各指标及样本的综合评价值有正负号之分,其正负号仅表示样本相对于整个评价对象的平均水平位置
(2)在综合评价中,对各指标效用的评价,着眼于全局,单个指标与总评价值可能存在逆向动作关系
(3)综合评价本身不是目的,其目的在于通过综合评价,找出影响经济效益的主因素。
(4)因子分析法不是万能的,应结合研究问题的特点、资料的保障情况以及评价的目的和效果要求,在多次试验比较中选择评价方法
(5)运用因子分析法对规模相近样本的综合评价结果更符合实际情况。
第十章 对应分析及R使用
1.对应分析产生的原因及背景是什么?
解:
P204
2.对应分析的基本思想?
解:
对数据做对应分析之前,需要先了解因素间是否独立,如果因素间相互独立,那么就没有必要在做对应分析,对应分析是分析两组或多组因素之间关系的有效方法,在离散情况下,建立因素间的多维列联表来对数据进行分析。
第十一章 典型相关分析及R使用
1.指出根据协方差矩阵和相关矩阵所作的典型相关分析的区别和联系?
解:
区别:
协方差矩阵中的每一个元素是表示的随机向量X的不同分量之间的协方差,而不是不同样本之间的协方差。
相关矩阵也叫相关系数矩阵,是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。
协方差矩阵和相关矩阵的关系 :
由二者的定义公式可知,经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。这里所说的标准化指正态化,即将原始数据处理成均值为0,方差为1的标准数据。
2.分析一组变量的典型变量与其主成分的联系与区别?
解:
一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系,而典型变量则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间的强度。
第十二章 多维标度法MDS及R使用
1.简述多维标度法的基本思想?
解:P235
2.简述多维标度法的计算步骤?
解:p242
第十三章 综合评价方法及R使用
1.指出综合评价中指标体系的权重计算方法,简要分析多指标综合评价中的权重问题?
解:p255
2.列举常用的综合评价方法,并指出其优缺点?
解:
综合评分法:优点:简便易行、不用另寻比较标准、各单项评价值有统一的值域、适用范围广。缺点:过于粗糙、原始数据信息的损失较大。
综合指数法:优点:原理简单、易于计算、数据分布无严格要求。缺点:综合指数较为复杂,没有统一的表达形式。
秩和比法:优点:参与计算的是秩次,可解决0值问题,RSR值无量纲,综合能力强。
层次分析法:优点:能对定性和定量综合进行分析,得出明确的定量化结论。缺点:指标过多时数据统计量大,且权重难以确定。
TOPSIS法:优点:直观可靠、能消除不同量纲带来的影响。缺点:权重是主观值,结果不准确。
模糊综合评价法:优点:模糊评价通过精确的数字手段处理模糊的评价对象,能对蕴藏信息呈现模糊性的资料作出比较科学、合理、贴近实际的量化评价;评价结果是一个矢量,而不是一个点值,包含的信息比较丰富,既可以比较准确的刻画被评价对象,又可以进一步加工得到参考信息。缺点:计算复杂,对指标权重矢量的确定主观性较强;当指标集U较大,即指标集个数凡较大时,在权矢量和为1的条件约束下,相对隶属度权系数往往偏小,权矢量与模糊矩阵R不匹配,结果会出现超模糊现象,分辨率很差,无法区分谁的隶属度更高,甚至造成评判失败。
数据包络分析法:优点:无需考虑投入与产出之间的生产函数关系,不需要预先估计任何参数或权重。缺点:难以给出具体的政策建议。
选择填空题
1.对皮尔森相关系数的描述不正确的是:C
A.如果r>0,x和y是正相关
B.如果r<0,x和y是负相关
C.如果r=0,x和y是不相关
2.对皮尔森相关系数的R语言命令为cor(x,y)
1.对线性回归模型评价的两种方法是 方差分析 , t检验。
2.回归系数t检验的R语言函数为summary()
1.下面属于一般线性模型的是:D
A.Logistic回归模型
B.对数线性模型
C.Cox比例模型
D.实验设计模型
2.因变量y为连续变量时不可以选择的模型是:C
A.线性回归模型
B.方差分析模型
C.对数线性模型
D.协方差分析模型
3.广义线性模型函数glm的参数可以设置为:ABCD
A.gaussian
B.binomial
C.poisson
D.gamma
4.解释变量一般有3种取值方式
5.反映变量一般有5种取值方式
1.常见的系统聚类方法:ABC
A.最短距离法
B.重心法
C.离差平方和法
D.K-means方法
2.聚类方法有系统聚类法和快速聚类法
3.可以进行聚类的两个统计量是距离和相似系数
4.聚类分析中的Q型聚类是对变量进行聚类,R型聚类是对样品进行聚类。错
5.离差平方和法是基于方差分析的思想,如果分类正确,同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大。对
1.主成分分析是利用降维的思想
2.主成分分析可以利用协方差矩阵和相关矩阵求解主成分
3.因子旋转分为正交旋转和斜交旋转
4.因子分析中对于因子载荷求解最常用的是极大似然法和主因子法
5.因子分析中因子载荷系数aij的统计意义是第i个变量与第j个公因子的相关系数
1.做因素独立性检验时一般采用什么检验:A
A.卡方检验
B.t检验
C.正态性检验
D.异方差检验
2.对应分析是将R型因子分析和Q型因子分析结合起来进行的统计分析方法
3.对应分析反应的是样品和行变量的交叉关系
1.典型相关分析是研究:C
A.两个变量之间的相关关系
B.一个变量与一组变量的相关关系
C.两组变量之间的相关关系
D.将其他变量的影响删除,另外两个变量之间的关系
2.两组变量,一组有p个变量,另一组有q个变量,且pB
A.只有一个典型相关系数
B.有p个典型相关系数
C.有q个典型相关系数
D.有p+q个典型相关系数
3.下面不属于典型相关变量的性质的是:D
A.每一对典型变量的方差都为1
B.同组任意两个典型相关变量都不相关
C.只有i=j时,ui与vi才相关
D.每一对典型变量的相关系数不一定最大
4.每一对典型相关系数显著性检验统计服从:D
A.标准正态分布
B.t(n-1)
C.X^2(pq)
D.X^2[(p-1)(q-1)]
5.下面对典型变量分析描述正确的是:A
A.典型相关系数越大,则说典型变量u对典型变量v的解释能力越高
B.典型相关系数越大,则说明典型变量u对另一组全部变量解释能力越高
C.典型相关系数的取值范围为[-1,1]
D.对样本进行典型相关分析时样本容量n可以小于max(p,q)
1.多维标度分析的古典解法是哪种多元分析方法的扩展:B
A.判别分析
B.主成分分析
C.因子分析
D.对应分析
2.如果多维标度分析的距离阵D为非欧氏型,则:B
A.可以求得D的构造点
B.只能求的D的拟合构造点
C.古典解释是唯一的
3.如果多维标度分析的距离矩阵D是欧式型的,则:B
A.必须求n*p的构造点
B.若p较大时,也可以选择求D的拟合构造点
C.古典解释是唯一的
4.多维标度分析非度量法的特点不包括:D
A.可以拟合单调递增的非线性关系
B.拟合维度k需要实现给定
C.通过压缩指数寻找合理的维度k
D.通过矩阵求特征根和特征向量求解
5.非度量多维标度法的R语言函数是:A
A.isoMDS
B.cmdscale
C.cancor
D.pricomp
D.灵活可操性
2.对计数数据,无量纲化变换主要采用:B
A.标准化变换
B.功效系数变换
C.规格化变换
D.指数化变换
3.主成分的综合评价法中指标权重有:B
A.专家反复讨论
B.判断矩阵求平均
C.指标的方差贡献
D.主观设定
4.层次分析法的判断矩阵使用前需要进行:A
A.一致性检验
B.选择性检验
C.正定性检验
D.非奇异检验
5.层次分析法的权重有判断矩阵各行的:A
A.几何平均
B.调和平均
C.算术平均
D.平方和
34. 评价指标体系的构建原则不包括:C
A、系统全面性
B、稳定可比性
C、简单节约性
D、灵活可操性