随机变量(random variable)就是随机事件的数量化,随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达:
随机变量表示随机试验各种结果的实值;
随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,掷硬币正面向上的次数等等,都是随机变量的实例。
如果微积分是研究变量的数学,那么概率论与数理统计是研究随机变量的数学。
这句就是本文的核心内容,这篇文章里的所有概念都在是描述一件东西,那就是概率!概率!概率!
统计分析是指收集数据、整理分析数据和由数据得出结论的一组概念、原则和方法。
目的:
手段:
人工智能有三大领域:统计学、机器学习和深度学习,统计学与其他两个领域最大的区别就是通过抽样推断总体特征。
抽样:为了了解全体调查对象的倾向,需要以抽样的方式统计性地抽取一部分调查对象,然后根据样本中所包含的信息对总体的状况进行估计和推算。
人文社科的分类:
定类变量(nominal):例如性别、喜欢的艺人
仅有分类功能。
定序变量(ordinal):例如年级、喜欢的艺人的排名
具备分类、排序功能。
定距变量(scale):例如温度
具备定序和定类功能的同时多了个加减的功能,但是不具备乘除功能。
定比变量(scale):例如体重、身高、年龄、年收入等;
具备以上功能的同时增加了乘除功能。
工科或其他行业分类:
定类与定序合称分类变量
分类变量的描述统计方法只能用频次统计。
定距和定比合称连续变量
对于连续变量的描述统计方法既可以用频次统计,也用标准差、均值。
tips:数据分析算出来的均值要有代表性,要删除异常值,相对占比较少的值就是异常值。
中位数:当一组序列数据之间差异较大时,导致平均值代表性较弱,可通过中位数来表示数据的集中趋势。平均值和中位数通常应用在连续变量中,即数值型变量。
众数:即可以应用在连续变量,也可以应用在分类变量中。
偏度(Skewness)可以用来度量随机变量概率分布的不对称性。
例如上图中,两个概率分布图都是均值=0.6923,标准差=0.1685的,但是他们的形状是不一样的,左图偏度=-0.537,形状左偏,右图偏度=0.537,形状右偏。
峰度(Kurtosis)可以用来度量随机变量概率分布的陡峭程度。
例如上图中,左图是标准正太分布,峰度=3,右图的峰度=4,可以看到右图比左图更高尖。
通常我们将峰度值减去3,也被称为超值峰度(Excess Kurtosis),这样正态分布的峰度值等于0,当峰度值>0,则表示该数据分布与正态分布相比较为高尖,当峰度值<0,则表示该数据分布与正态分布相比较为矮胖。
抽样误差
由个体变异产生的、抽样造成的样本统计量与总体参数的差别。原因:
标准误
表示样本统计量抽样误差大小的统计量。
t分布只有一个参数,即自由度v。当自由度不同时,曲线的形状不同;当自由度趋向无穷大时,t分布趋近标准正态分布。
Z值转换公式:用来将t分布转换为(0,1)z分布,又称为标准化,或者Z值标准化。
Z=(xi-x)/s,用于判断哪些数值为异常值,Z值绝对值大于3为异常值,大于5为极端值。
定义:用样本统计量推断总体参数。
点估计:用相应样本统计量直接作为总体参数的估计值。
区间估计:按预先给定的概率所确定的包含未知总体参数的一个范围。
tips:注意总体标准差是否已知和样本量n的大小。总体标准差未知且样本量较小,按t分布估计。样本量较大,按z分布估计。
置信度:
T=1.65 对应90%的置信度
T=1.98 对应95%的置信度
T=2.58 对应99%的置信度
基本思想:小概率反证法: 利用小概率反证法思想,从问题对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后得到P值来判断。当P值小于预先设定的显著性水平a时,就属于小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果发生了,则有理由怀疑原假设H0,认为其对立面H1是成立的。
步骤:
第Ⅰ类错误和第 Ⅱ 类错误:
抽样:指在不能进行全数调查时,为了推测总体的倾向,抽取真实地代表调查总体的调查对象。
抽样误差
抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全局指标的绝对离差。
非抽样误差
抽样过程:
抽样单元:为了便利地实现随机抽样,常常把总体划分为有限个互不重叠的部分,每一部分叫做一个抽样单元。
例如:XX省XX市XX区XX街道XX居委会
抽样框:抽样框是包含全部抽样单元的资料。
抽样方法 | 优点 | 缺点 |
---|---|---|
简单抽样方法 | 精度高 | 费事费时进行调查总体范围广的访问调查时,实施费用多 |
系统抽样方法 | 不费事,不费时 | 精度比简单抽样方法低调查总体清单有规律地排列时,抽取出来的可能只是特定性质的样本(见下例) |
分层原则:层内差异小,层间差异大
优点
如何选择分层变量:
概念:在访问调查中,由于居民基本登记名册使用起来不方便,一级抽样选出街区后,在二级抽样中抽取样本(家庭户和个人)时,也有用住宅地图来代替抽样名册的情况。这种将住宅地图用作抽样名册的方法,称为区域抽样。
区域抽样,用来抽取单门独户的房子、有院子的房子,有车子的房子等家庭户有时也很方便。首先,用从市面上买来的住宅地图通过随机数从中选出一页,接着,随机抽取起始住宅。在住宅地图上定好起始住宅后,预先用箭头按顺时针方向标明访问住宅的路线。抽样间隔定为3~10所住宅。
特征:在没有调查对象清单的访问调查中使用
优点:没有居民基本登记名册,也可以实施访问调查 ,便于寻找通过外表即可看出是否符合条件的家庭户(有院子的家庭、有车的家庭等)
缺点:有可能偏向经常在家的调查对象无法从外表看出是否符合条件和以个人为对象进行调查时,效率低下(访问家庭与调查条件不符,调查对象正在外出等)
作为电话调查所独有的抽样方法,有RDD(Random Digit Dialing ) 和Plus1。
无论是RDD还是Plus1 ,由于都用计算机自动拨出生成的电话号码,所以不需要进行人工抽样。也有用印刷版的电话簿进行抽样的方法,但这种方法也存在一个问题,那就是有些电话号码可能会出现空号。
TIPS:概率抽样的时候要思考每个样本被选中的概率是多少,是否一样。
卡方检验能检验所有类别是否包含相同频率或者用户指定比例一致。
卡方检验的重要性:
卡方检验的应用场景:
独立样本:两组不同不重叠的样本,比如男性和女性。
独立样本非参数检验能检验在收入、年龄等等分布上是否有差异,即检验不同人群在特定变量取值上是否有差异。
原假设:两组来自总体的变量数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异。
注意:比较独立样本的时候,分组变量一定是分类变量,比较变量一定是连续变量
配对样本:同一组人群在不同时间采集的两组或多组数据;或同一组人群不同身体部位采集的两组或多组数据。
配对样本非参数检验能检验同一组人群在不同时间采集的数据是否有差异。
原假设:来自总体的同一组人群的两组数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异。
注意:t1、t2是分类变量,比较的变量必须是连续变量
交易分析能检验两个分类变量是否存在相关性。如果场景中需要对连续变量进行卡方检验,首先需要将连续变量转换为分类变量,如将收入分为低中高收入。
SPSS操作:
卡方检验结果解读:
看卡方统计结果,根据P值判断两个变量是否存在相关性,如P<0.05,则说明两者存在显著相关性。
看相关系数,判断两者之间的相关性到底有多大。
我们一般认为:
相关系数 | 相关性 |
---|---|
0 - 0.2 | 较弱相关 |
0.2 - 0.4 | 弱相关 |
0.4 - 0.6 | 一般 |
0.6 - 0.8 | 较强相关 |
0.8 - 1 | 极强相关 |
看频次分布,具体分析两者的相关关系是怎样变化的。
当总体分布已知(如总体为正态分布),参数检验可以根据样本数据对总体分布的统计参数进行推断。此时,总体的分布形式是给定的或是假定的,只是其中一些参数的取值或范围未知,分析的主要目的是估计参数的取值,或对其进行某种统计检验。这类问题往往用参数检验来进行统计推断。它不仅仅能够对总体的特征参数进行推断,还能够实现两个或多个总体的参数进行比较 。
而非参数统计方法,对变量的分布没有要求。
用来检验样本中某个连续变量的样本均值与给定的总体均值是否存在差异。
用到的变量:一个连续变量。
例子:
周岁儿童的平均身高是否为75厘米。
居民平均存(取)款金额是否为2000元。
某工厂用自动打包机打包,每包标准质量为100kg。为了保证生产的正常运行,每天开工后需要先行试机,检查打包机是否有系统偏差,以及时进行调整。某日开工后在试机中共打了9 个包,测得9包的质量(kg)为:99.3、98.7、100.5、101.2、98.3 、99.7、99.5、102.1、100.5。现希望作出判断,明确打包机是否需要进行调整。
数据要求:小样本时来自的总体服从正态分布,如果大样本或者是数据收集的时候没有特殊性,可以忽略正态分布的假设。
单样本均值检验过程:
用来检验两组独立样本中某个连续变量的总体均值是否存在差异。
用到的变量:一个分类变量(也可以用连续变量分组)和一个连续变量。
例子: 某证券公司调查到到散户股民买进、卖出和投资的有关数据,要检验文化程度高的股民和文化程度低的股民各项指标的均值有无不同。
数据要求:
独立样本均值t检验过程:
用来检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异。
用到的变量:同一组样本的两个连续变量(其实是针对同一组人群不同时间/部位/处理条件测量得到的两组数据)。
例子:某种减肥茶是否有效。
数据要求:
配对样本均值t检验过程:
对3个以上的组之间的平均值的差进行比较,从统计学意义上判断是否有显著差异,用来揭示作用于一个因变量的几个分类自变量(称为因素)的主效应和交互效应。
用到的变量:自变量既可以是分类变量,也可以是连续变量;因变量必须是连续变量。
需在两个前提成立下才能使用:
原理:
因素(Factor): 因素是可能对因变量有影响的变量,一般来说,因素会有不止一个水平,而分析的目的就是考察或比较各个水平对因变量的影响是否相同。
水平(Level): 因素的不同取值等级称作水平,例如性别有男、女两个水平。
单元(Cell): 单元亦称试验单位(Experimental Unit),指各因素的水平之间的每种组合。指各因素各个水平的组合,例如在研究性别(二水平)、血型(四水平)对成年人身高的影响时 ,该设计最多可以有2*4=8个单元。注意在一些特殊的试验设计中,可能有的单元在样本中并不会出现,如正交设计。
元素(Element):
均衡(Balance): 如果在一个实验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数均相同,则该试验是均衡的,否则,就被称为不均衡。不均衡的实验设计在分析时较为复杂,需要对方差分析模型作特别设置才能得到正确的分析结果。
协变量(Covariates): 指对因变量可能有影响,需要在分析时对其作用加以控制的连续性变量,实际上,可以简单的把因素和协变量分别理解为分类自变量和连续性自变量。当模型中存在协变量时 ,一般是通过找出它与因变量的回归关系来控制其影响。
交互作用(Interaction):
固定因素(Fixed Factor): 指的是该因素在样本中所有可能的水平都出现了。从样本的分析结果中就可以得知所有水平的状况,无需进行外推。 绝大多数情况下,研究者所真正关心的因素都是固定因素。 例如:
随机因素(Random Factor):
检测3组以上人群在某个连续变量均值上是否存在差异,或者某个分类变量对某个连续变量是否存在显著相关。
用到的变量:因变量是一个且为连续变量;自变量是一个分类变量
原假设:自变量与因变量之间不存在显著相关(不同人群之间在该连续变量的均值上没有显著差异)。
分析结果:
检测多个连续变量在某个连续变量均值上是否存在差异,或者多个变量对某个连续变量是否存在显著相关。
用到的变量:因变量是一个且为连续变量;自变量是多个分类变量或连续变量。
原假设:多个自变量与因变量之间不存在显著相关。
分析模型:
全因子模型:既考虑所有自变量对于因变量直接效应,又考虑所有分类变量的交互作用对因变量的影响。
定制模型:可根据研究者自身需求,定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应,或部分自变量的交互作用。
当自变量特别多时,尤其是分类自变量特别多时,且样本量不多时,应该使用定制模型,否则可能导致某些单元格里没有元素。
指一个因变量,在多个时刻重复测量多次,自变量可以有也可以没有
可以看做配对样本T检验,应用场景一样
数据中无因变量,则建立无监督模型:
无监督模型的目的:
无监督的规则:
当模型中需要加入潜变量(通过多个客观指标(显变量)测量的抽象概念)或需要考虑多个变量之间的因果关系时,可选择结构方程模型、路径模型、协方差分析等。
综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法、因子分析等。
总结:
相关分析:职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的相关分析。
还有更加复杂的诸多变量之间的相互关系:比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。
相关分析常用方法:
相关分析场景:
相关系数:相关系数能用来衡量两个变量之间变化趋势的相似性。 它表示在2个变量之间,其中一个增加,另一个也随之直线增加或者减少的关系的指标。 相关系数表示线性关系,不表示曲线关系。在统计中,相关系数用 r 这个符号来表示。
不同变量类型的相关系数:
三个重要相关系数:
pearson相关系数:属于参数检验方法,需要两个参数服从双变量正态分布(与两个变量均服从正态分布有差别),针对两个都是连续变量的数据进行相关性判断。
相关系数 | 相关性 |
---|---|
0 - 0.2 | 较弱相关 |
0.2 - 0.4 | 弱相关 |
0.4 - 0.6 | 一般 |
0.6 - 0.8 | 较强相关 |
0.8 - 1 | 极强相关 |
spearman等级相关系数:用来测量两个定序变量的相关系数。小样本时,spearman等级相关系数服从spearman分布;大样本时近似服从正态分布。属于非参数统计方法,对变量的分布没有要求。
Kendall’s tau-b等级相关系数:同样是测量两个定序变量的相关系数。小样本时,该相关系数服从kendall分布;大样本时近似服从正态分布。属于非参数统计方法,对变量的分布没有要求。
两个参数之间有相关性,不一定背后就存在因果关系,也有可能是伪相关,例如太阳落下和月亮升起。
伪相关,又称伪关系、虚假关系,顾名思义是虚假的“关系”,但此处的关系指的是因果,而非相关,即两因素间本不存在因果关系,却被误认为存在。这种错误出现的原因包括忽略了第三方潜在因素的影响,如前文介绍伪相关的例子,地球自转对太阳落山与月亮上山的影响。严格意义上说,因为伪关系描述的是因果,如两事物间的本身不被认为有因果关系,那也不会是伪关系。根据一些学者的说法,伪关系是相关向因果迈进的必经阶段,排除了伪关系因素的相关研究才可能进一步探索因果关系。
对于伪关系的剔除目前主要有两种方法:实验与纯统计检验。前者通过尽可能控制其它潜在影响因素,操纵其中某一变量并观测另一变量的变化来明确两者间的关系;后者则更多应用于一些无法付诸实验而采用观测数据的学科,如经济学。
原假设:两个变量来自的总体中没有显著相关性。
研究假设:两个变量来自的总体中有显著相关性。
显著性检验的目的:是用来判断两个变量在总体中是否存在相关性。
相关系数的目的:是计算两个变量在样本数据中的相关性强弱。
TIPS:偏相关分析计算相关性的变量为连续变量时,加入控制的变量必须也是连续变量
上面所学的内容都属于假设检验,是为建模分析做的探索性分析方法,属于基础分析方法。从这章开始,我们真正地进入多变量建模分析方法,接下来的方法都要遵循一定的建模过程。
当需要用一个数学表达式(模型)表达多个因素(原因)与另外一个因素(因素)之间的关系时,可选用回归分析法。
R²是皮尔森相关系数r的平方,用来衡量自变量对因变量的解释能力,即模型的解释能力。R²的取值为0-1之间。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。
回归分析模型的应用:
回归分析模型:探察变量之间的数量变化规律,并通过一定的数学表达式(即模型)来描述这种关系,进而确定一个或几个变量(即自变量)的变化对另一个变量(即因变量)的影响程度 。
回归分析是研究变量间统计关系的方法,回归分析模型的类型如下:
回归分析的分类
线性趋势: 自变量和因变量的关系是线性的,如果不是,则不能采用线性回归分析。是否线性可以通过散点图来加以判断。
独立性: 因变量的取值相互独立,之间没有联系。反映到模型中要求残差间相互独立,不存在自相关,否则应采用自回归模型分析。
正态性: 自变量的任何一个线性组合,因变量均服从正态分布。反映到模型中要求残差服从正态分布
方差齐性: 就自变量的任何一个线性组合,因变量的方差均相同。反映到模型中要求残差的方差齐性。
回归的步骤
确定变量:
确定自变量与因变量之间的关系:
首先,逐一将自变量与因变量画散点图,判断每个自变量与因变量之间是线性还是非线性关系。
其次,通过卡方检验、T检验、F检验或相关分析法,逐一分析每个备选的自变量与因变量之间是否存在显著的相关性,将与因变量明显没有相关性的自变量剔除掉,不加入到后期模型中。
TIPS:筛选自变量的方法:
向前筛选法:是自变量不断进入回归模型的过程。首先,选择与因变量具有最高线性相关系数的自变量进入模型,并进行回归分析的各种检验;然后,在剩余的变量中寻找与自变量偏相关系数最大且通过检验的变量进入模型,并对新建立的模型进行各种检验;这一过程一直重复,直到再也没有可进入模型的变量为止。
向后筛选法:是自变量不断剔除出回归模型的过程。首先,所有变量全部选入回归模型中,并对回归方程进行各种检验;然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值(或其他检验值)最小的变量,并重新建立回归方程并进行各种检验;如果新建回归模型中所有变量的回归系数检验都显著,则回归方程建立结束。否则按照上述方法再依次剔除最不显著的变量,直到再也没有可剔除的变量为止。
逐步筛选法:是向前筛选和向后筛选的综合。随着变量的不断引入,自变量之间可能存在一定程度的多重共线性,使得某些已经进入模型的自变量不再显著,这样造成最终回归模型可能包含一些不显著的自变量。逐步回归是在向前筛选基础上,结合向后筛选,在每个变量进入模型后再次判断是否存在应该剔除的自变量。
建立回归方程:
回归方程计算与检验,对模型进行全方位检验:
自变量与因变量关系的检验:
自变量之间关系的检验:
模型拟合优度检验:
参数显著性检验:
预测: 通过已知的自变量取值,利用回归方程预测未知的因变量。
原因:分类变量无法参与到回归模型中的加减乘除运算。
操作:将原先的分类变量编码统一转换为0、1数值。
解决问题:分析影响人们家庭收入的因素有哪些,建立预测收入的回归方程。(数据源:SPSS自带数据telco.sav)
因变量:家庭收入
自变量:年龄、工作年限、性别、学历
SPSS操作: 分析-回归-线性(先全部输入,再用逐步筛选法)
SPSS回归分析结果解读:
拟合优度检验:
由R方值和方差检验构成,如F值对应的概率P值小于0.05,则研究假设成立,即至少有一个自变量对因变量存在显著影响。
参数显著性检验:
根据每个自变量的T值对应的概率P值是否小于0.05,如小于0.05,则研究假设成立,即该自变量对因变量存在显著影响。
根据上表得出,工作年限和学历对收入有显著影响,而年龄和性别则没有显著影响。
通过标准化系数来判断两者对收入影响程度的程度,可知工作年限的影响明显大于学历。
通过非标准化系数可知:
共线性检验: 若VIF>10,则表示自变量之间存在共线性,容差和VIF值之间是倒数关系。
残差检验: DW值约等于2,表示残差不存在自相关性。
回归方程: 先通过逐步回归法,将对因变量没有显著影响的自变量从模型中删除(ed1-4要放到下一层,否则部分会被筛选出去),得到干净的模型。
方程:y=22.629+6.087*工作年限-51.637*ed1-25.174*ed2+16.717*ed3+28.459*ed4*
非线性回归的两种求解方式:
非线性回归计算时注意的几个问题:
样本量大小: 样本量(行)与变量数(列)的比例应在5:1以上,且总样本量不得少于100,而且原则上越大越好。
TIPS:如果软件提示数据不正定,则代表样本量不够(应增加样本量或者减少变量数量)。
各变量间必须有相关性:
因子分析的程序:从相关矩阵出发,在公因子方差推定和因子数推定的基础上,计算因子载荷,然后旋转因子轴,计算因子得分。
所谓因子,是指造成某种现象的原因和先行条件。因子分析是心理学家为了把握人的心理能力而开发出来的。原来是为了解释多种学力测试的相关关系而着力开发出来的方法。
在心理学中,通过测试相互间的相关关系数表(相关行列)思考如下的问题:英语的得分和社会的得分相关性最高,数学和理科、语文和社会的相关性最大。因此,把它们存在共同作用的潜在部分称为因子(factor)。
持有某种因子多的人(即潜在变量的值,也称为因子得分),两科的测试都取得高分;相反,持有某种因子少的人,两方的测试都取得低分。因此,测试的相关性是可以解释的。
相关矩阵:
在公因子方差的推定结果的基础上,用把相关矩阵的对角元素置换成公因子方差的矩阵,来进行因子数的推定。
为了推定因子数要进行主成分分析,求特征值。特征值是表示变量的信息量大小的指标。特征值越大,可以说就是越重要的元素。
主成分分析与因子分析一样,它分析相关关系,以尽可能少的变量的变动来说明所有数据所拥有的信息量(方差)。
推定因子数的方法主要有3种:
在计算出来的因子载荷的基础上对因子进行解释,寻找意识结构,才是因子分析的最高境界。但是,对计算出来的因子载荷,原封不动地进行解释是有困难的。
变量的因子载荷为1或者0时,因子的解释比较简单。例如,第1因子,由于变量a• b• c三者相关,其他变量不相关,就要对让abc三者产生印象的情况进行解释。我们把这样的想法称为“单纯形”。为了得到单纯形,应该把因子载荷矩阵的数字变成1或者0,让因子轴旋转。
旋转方法有多种,常用的有:
旋转后的因子载荷,正交旋转在+1到-1之间取值,斜交旋转有时会超出±1的数值范围。
因子旋转的目的:
因子解释是根据旋转后的因子载荷矩阵(斜交旋转时的因子模型矩阵)的数字来进行探讨。
适用单纯结构的想法,因子载荷的绝对值在0.4以下时可以忽略。把因子载荷看作因子和项目(变量)的相关关系。因子载荷的绝对值越大,其与它的因子的关系就越强。 每个因子,如果按照因子载荷绝对值大小的顺序,变更排列项目(变量),对解释会更加方便。
因子的命名: 一种是简称,还有一种是详细的名字。如果简称可以很好地命名,详细的名字就不需要了。
在调查报告会上,在对因子分析进行说明时,分析能否得到理解的关键是命名。站在报告接受者的立场,请用容易理解的语言,做一个给因子起名的人。
因子得分,通过如下因子分析模型来求得:
F = Z R − 1 A F=ZR^{-1}A F=ZR−1A
F:因子得分矩阵(n人×m因子,已经进行标准化)
Z:变量的标准化得分矩阵(n人×p个变量)
R-1:相关矩阵的逆矩阵
A:旋转后的因子载荷矩阵
求出来的因子得分,以平均数0,标准差1进行标准化处理。利用因子得分,可以考虑进行以下的分析:
SPSS操作: 分析-降维-因子
结果解读:
KMO和巴特利特检验:KMO>0.7,适合做因子分析;P值<0.05,适合。
公因子方差:初始栏中的数据代表原始变量包含的信息(为1,代表100%),提取栏中的数据代表因子从中提取了X%的信息量。
总方差解释:提取特征值大于1的因子数;方差百分比代表每个因子提取的信息量;累积方差贡献率代表加一起总共提取了多少信息量(效度检验和降维后做其他分析,起码要提取60%以上的信息量才有代表性,效度检验甚至可以不看累积方差贡献率;如果通过因子分析降维后做综合评价,那么累积方差贡献率要大于80%)。
成分矩阵:没有进行旋转的初始提取因子的因子载荷值分布图。
旋转后的成分矩阵:按因子载荷值(绝对值)>0.5选择每个变量所对应的因子。
旋转后的载荷图:一般不看。
成分得分系数矩阵:用来做因子得分计算,公式如下。
F n = X 1 × A 1 + X 2 × A 2 + ⋯ + X n × A n F_n=X_1\times A_1+X_2\times A_2+\cdots+X_n\times A_n Fn=X1×A1+X2×A2+⋯+Xn×An
应用场景: 分类预测模型,且为非参数检验方法,可以用于二分类、无序多分类、有序多分类。
理论背景:
例如,看不看广告,或者购买不购买商品的概率,会因性别、年龄和职业的不同而有所变化。
在这里,将看广告(或者购买)的概率[P]和不看广告(或者非购买)的概率 [1-P]的比,称作奇数比(OR值)。
奇数比,如果用赌输赢来比喻,就是胜的概率与负的概率的比。在医学上则变成了治愈率与死亡率的比。
因变量取值为0、1,P为因变量取值为1的概率。
因变量的组分为2组时,称作二项逻辑斯谛回归分析。3组以上时,则称为多项逻辑斯谛回归分析。
SPSS操作: 分析 - 回归 - 二元logistic
结果解读:
根据参数检验中(下图)的P<0.05,得到自变量对因变量存在显著影响;
根据wald值,判断自变量对因变量的影响程度排名,wald值越大对因变量的影响程度越高;
优势比B值(OR值)大于1,表示该自变量会增加因变量取1的情形的发生概率,反之会降低概率;
连续自变量对因变量的影响程度:在其他变量不变的情况下,当年龄增加一个单位(岁)时,优势比增加1.385倍(年龄越大,退休概率越大);
分类自变量对因变量的影响程度:在其他变量不变的情况下,大专学历的优势比是研究生学历优势比的0.120倍(大专学历的退休概率低于研究生学历的退休概率);
二元逻辑回归方程:
l n ( p 1 − p ) = − 20.305 − 0.782 e d 1 − 0.561 e d 2 − 2.121 e d 3 − 1.897 e d 4 − 0.429 G e n d e r + 0.326 A g e ln(\frac{p}{1-p})= -20.305-0.782ed1-0.561ed2-2.121ed3-1.897ed4-0.429Gender+0.326Age ln(1−pp)=−20.305−0.782ed1−0.561ed2−2.121ed3−1.897ed4−0.429Gender+0.326Age
SPSS操作: 分析 - 回归 - 有序
结果解读:
拟合优度检验:判断期望频数与观察频数是否有显著差异,P值越大越好;
平行线检验:概率P值大于0.05才能进行有序逻辑回归分析,否则改用无序回归分析模型;
有序多元逻辑回归方程:
p1表示学历取1的概率:
l n ( p 1 − p ) = − 2.494 − 0.032 A g e + 0.003 i n c o m e ln(\frac{p}{1-p})= -2.494-0.032Age+0.003income ln(1−pp)=−2.494−0.032Age+0.003income
p1表示学历取1、2的概率:
l n ( p 1 − p ) = − 1.110 − 0.032 A g e + 0.003 i n c o m e ln(\frac{p}{1-p})= -1.110-0.032Age+0.003income ln(1−pp)=−1.110−0.032Age+0.003income
p1表示学历取1、2、3的概率:
l n ( p 1 − p ) = − 0.192 − 0.032 A g e + 0.003 i n c o m e ln(\frac{p}{1-p})= -0.192-0.032Age+0.003income ln(1−pp)=−0.192−0.032Age+0.003income
p1表示学历取1、2、3、4的概率:
l n ( p 1 − p ) = 1.649 − 0.032 A g e + 0.003 i n c o m e ln(\frac{p}{1-p})=1.649-0.032Age+0.003income ln(1−pp)=1.649−0.032Age+0.003income
时间序列分析: 按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序 列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。
历史数据越多,对预测帮助越大:样本点越多,时间序列的过去规律就越清楚。不要希望通过收集到的两个月的销售数据来预测未来两年的销售额。因为你的样本量为2,只有一个季节周期的六分之一,却要求预测未来24个月,或者未来两个完整的季节周期(一般要求有15个样本量才能预测1个未来的同周期数据)。
数据量最低限制 取决于多方面因素,但没有明确数量要求 :
两种类型的时间序列:
平稳序列:是指时间序列的所有统计性质都不会随着时间的推移而发生变化。
非平稳序列:ARIMA模型建立的前提是时间序列必须为平稳序列,可通过单位根检验(ADF)来判断一个序列是否平稳。
时间序列假设检验:模型是否能通过Ljung-Box Q检验,此检验的原假设是模型与原始数据没有显著性差异,P>0.05表示模型可以接受。
ARIMA:差分整合移动平均自回归模型
ARIMA适用场景:
时间序列中的趋势处理方法: 可通过差分的方式来消除序列数据中的趋势,以建构出平稳的序列 。
时间序列中的季节性处理方法:
ARIMA模型三个重要参数:
截尾和拖尾:
模型的选择:
专家建模法(Expert Modeler ): 该方法可以从以下的模型中自动寻找最优的模型,非常适用初学者。