经典统计包括概率论和数理统计两个部分。
一、 概率论
概率论从一个概率空间(,ℱ,P)出发,即样本空间已知,中某些子集组成的σ代数ℱ和在可测空间(,ℱ)上定义的一个概率分布P,研究这个概率空间的各种性质。
古典概率中有许多是需要使用排列组合,但是概率主要真不是这些。全概率公式和逆概公式是两个简单而又重要内容,尤其对于后者,就是大名鼎鼎的贝叶斯公式。就从这个公式出发,尤其是将事件型的公式改为了随机变量形式,有了先验分布和后验分布概念,发展成了另外一个颇有成效的统计——贝叶斯统计。
随机变量是一个核心概念。将随机试验的结果映射到实数,将静态事件变成了动态的变量,相当于从算术到代数到跨越。可以通过微积分等对结果和过程进行处理了。变量也是高等数学和初等数学区别的基本概念。
随机变量和的极限分布是大数定律定性研究的范围,中心极限定理更给出了定量的结论。在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。独立同分布(林德伯格——列维定理Lindeberg-Levy)是最常用到的。李雅普诺夫中心极限定理:(Liapunov CLT)随机变量序列相互独立, (注: 这里并没有要求同分布!!!), 则这些随机变量的和的标准化变量的极限(当n趋向无穷大时)近似服从标准正态分布。
随机变量和的极限分布中有一个特例。二项分布B(n,p),p很小(≤0.1),n很大时,其近似服从泊松分布P(λ),且λ= np,就是著名的泊松逼近,比直接套用中心极限法则精度跟高。
概率的公理化是一个重要过程,非负、规范、可列可加性,规范了分布和密度函数。而通过实分析的测度论将概率建立在了坚实的基础上(剔除了不可测集),再通过抽象代数的代数系统观念,将概率论作为概率空间来研究,将数理统计作为统计结构来研究,通过这样的抽象让这门理论更加完善。
二、 数理统计
研究的是一组受到随机性干扰的数据∈R组成样本空间。R上的 Borel集σ代数ℱ,为可测空间(,ℱ)上定义的一个概率分布族(假设的内容),三元组(, ℱ, )为统计结构。然后对其做出统计推断或预测。分布已知,参数有限就是参数估计。分布未知,或分布已知,但是参数无限就是非参数统计。二者在点估计和区间估计种有不同的方法。
统计量:是样本测量的一种属性(例如,计算样本算术平均值)。 它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。不包含未知参数。
充分统计量:对于统计量t = T(X),若数据X在已知t = T(X)时的条件分布不依赖于参数θ,则称其是关于参数θ的充分统计量。
对于方差已知,均值为未知参数μ的正态分布,样本均值是一个充分统计量。
(一) 抽样分布
通过一定的抽样方法从总体中抽取出一个样本,希望它是完全随机的。样本的某个测量值成为一个随机向量。样本预先假定服从某个分布族(不知道参数的具体值!),通过有目的的构造,对来自正态总体的随机向量往三大抽样分布靠,尽管这种情况不容易出现,但是在实际工作中却是常有的。
(二) 估计
估计包括参数估计和非参数估计。二者又都包括点估计和区间估计。对参数的点估计是一个重点和核心。一个集合和定义在其上的运算构成一个代数系统,运算(算术的、逻辑的、集合的)就是结构。数理统计研究的对象,包括参数(统计)结构和非参数(统计)结构两类。对于前者,统计模型中的分布族已知,如知道是正态分布族或者beta分布族,其分布族仅依赖于某个参数(向量)θ,如: ,甚至还可能知道特征数的值。我们要求其中未知参数的值,可以是一个估计值,也可以是一个估计区间,就是进行的参数的点估计或参数的区间估计。对于非参数结构,不依赖于某个参数(向量),如:随机误差关于0对称的连续分布。不知道分布的具体形式,只知道一个不能具体描述的结构,或者是完全没有任何分析信息。这种情况也需要进行点估计和区间估计。由于包含了更多的信息,参数(统计)结构的估计(点/区间估计)的精度要高于非参数(统计)结构的。但是目前非参数估计发展也很快,也取得了很好的成果,也需要跟踪研究。
1. 参数估计
1) 点估计
参数(统计)结构的点估计就是用一个点去估计未知参数(如泊松分布的λ等)。
1° 方法分类
参数结构确定无误。矩法(子样矩估计母体矩)、最大似然法(利用了总体的分布信息)、贝叶斯法(最大后验估计)。最小二乘估计(线性模型)、同变估计(样本做某种特定变换后估计量具有相应性质)。
实际模型与参数模型有偏离。稳健估计(一个在理想模型下的最优估计方法在该模型附近也是最优的)
2° 估计的一般准则
优良性准则:无偏、有效、一致。
估计精度:均方误差。这是一个经常使用的指标,误差平方的平均值
3° 矩估计
用样本矩及其函数估计相应的总体矩及函数。
如可以用样本均值和样本方差分别估计总体均值和总体方差。
矩估计常常出现不是唯一的情况,选择矩估计的原则:①涉及到的矩的阶数尽可能小 ②所用估计最好是(最小)充分统计量的函数。
4° 最大似然法
对参数进行点估计中,由于似然估计方法使用了总体的分布特征一般情况下比矩法具有更好的效果。但是并不好理解。
基本想法是:在有了样本观察值 x 后,用“最有可能出现”的 去估计。
1、抽取一组样本。随机总体具有密度函数, 抽取出的一组样本 (,对应观测值
2、构造似然函数。由于组中每一个样本都是相互独立,且与总体具有相同分布,故每一个样本也具有密度函数 ,这一组样本的共同影响用它们密度函数的积来表达,也叫做所谓的似然函数。在这里,!
3、估计参数思路。单独的一次抽取样本中,这些样本应该是最可能出现的一种组合,在这里也就充分的利用了密度函数的分布特点 f 。由于是最可能的结果,因此似然函数 L 在此时一定取得了极大值。由于观测值 是确定的数值,实际上似然函数是关于参数 的函数。由于此时 L 已经取得了极大值,由微积分知识知道通过求偏导并令其为 0 求因变量最大时自变量的值。
4、求解。利用对数函数的单调性和对数后化乘为和的便捷性,lnL 后再对 求偏导并令其为0,联立求解后得到估计的参数。
5°最小二乘估计
常见于线性模型。满足统计估计的优良性判断的三个标准。
2) 区间估计
参数估计的区间估计就是用一个区间去估计未知参数。
涉及到可靠性和精度的问题。准则是先保证可靠度,再尽量提高精度。
一个置信区间 的置信系数为 ,假如取5%,并不是说要估计的参数θ有95%的可能性落在区间,而是指100次抽样中得到的置信区间有95次包含有真实的θ值。而对于前面的自然的理解,在贝叶斯统计中是成立的。
1°枢轴变量法四步曲
① 找一个与要估计参数g(θ)有关的统计量T,如要估计期望值μ,可以选择样本平均数——统计量。估计选择统计量,来自均匀分布总体选择次序统计量等。
② 设法找出T和g(θ)某一个函数 S(T, g(θ)),其分布F要与θ无关!如正态总体的样本经过中心化后就服从了标准正态分布。根据参数的已知还是未知情况,要构造不同的分布。主要是希望构造的分布是我们熟悉的高斯分布和三个抽样分布。S就是“”。如有来自正态总体的样本均值 ,要μ进行区间估计。1)μ未知,已知,构造的枢轴变量 S~N(0,1)。 2)μ和都未知,构造的枢轴变量 S~t(n-1). 3)正太总体双样本的构造
③ 将 a≤S(T,g(θ))≤b 改写为等价的 A≤g(θ)≤B,A,B只与T,a,b有关,而与θ无关。如对要估计的期望值μ的不等式中,左右两边都不能出现μ。
④取分布 F 的上 α/2 分位点和1-α/2分位点,构造置信系数为 1-α 的区间估计。
2°大样本法
什么是大样本?数据量大?这是模糊的概念。凡是利用了随机变量和的极限分布,也就是用到了大数定律或者中心极限法则,就是大样本法。
当n相当大时,构造一个与要估计参数g(θ)有关的统计量 ,然后再根据枢轴变量法对四部曲推进,根据已知变量的情况以(是近似服从),及单主体还是双主体来凑需要的分布与参数θ无关的函数S。然后模式化走第三步和第四步。
2. 非参数估计
- 非参数估计
非参数(统计)结构研究的对象,分布未知,或分布已知,但是参数无限。
1) 点估计
U统计量
统计结构为(, ℱ, ),要估计参数 g(P),使g(P)能估计出的最小样本容量为 g()的阶m 。由容量为m的样本可以给出g(P)的无偏估计,称为核,若该无偏估计是样本的对称函数,则称为对称核。可由核构造。
有n个样品组成的样本(n≥m),其中任意m个样品都可以给出一个对称核,所有 个对称核的平均为 U统计,记为
对多数非参数估计问题,样本均值核样本方差分别是总体均值和方差的UMVUE(一致最小方差无偏估计)
次序统计量
在统计学中,样本的第 k顺序统计量(英语:Order Statistics)即它从小到大排列时的第k个值,常用于非参数估计与推断中。常见的顺序统计量包括样本的最大值、最小值、中位数等。
2) 区间估计
大样本下利用大数定理统一在高斯分布下再利用枢轴变量法求解。
(三) 假设检验
通过样本数据去判断一个陈述的真假,这就假设检验。通过什么方法设计操作过程,给一个合理的判断规则,根据结果是否接受假设。
有原假设 和备择/对立假设(一般来说是我们希望得到的结果),利用样本数据得到的检验统计量T是一次抽样中得到的数据,T服从某个分布F,T的具体的值在F的取值上如果落在了密度函数某个p值以外(单边或是双边),p很小,如5%或者1%,也就是说我们在一次抽样中出现了一个小概率事件,那我们就有理由怀疑原假设是错误的,接受备择假设。这个过程有可能出现两类错误。第一类是弃真,第二类是取伪。不能同时控制二者都减小,在控制住第一类错误下,减小第二类错误。
假设检验的结果的含义必须结合其他方面的考虑(样本大小、估计值等),才能得到更合理的解释。。
1. 基本操作过程
2. p值
p值是概率值,反映某一事件发生的可能性大小。假如某件事件服从某个分布(如正态分布),从其中抽样得到的一组数据(随机向量)经过一定处理形成不含未知参数的统计量,服从另外一种分布(如n-1个自由度的t 分布),根据t分布的密度函数(呈钟形,与正态分布图像类似),越到图形边上的取值出现可能性越小。从百分比来看,图形两侧(或者单侧)外边取值低于5%(每一边为2.5%)的部分,在一次抽样中居然出现了属于这个区间的密度函数值,根据小概率事件原则我们可以拒绝之前的假设,否则接受。这就是假设检验的原理。
p值取5%,1%甚至0.1%,其实并没有什么特别的原因,就是一个约定俗成的数据。对p值检验,也存在一定的争议。
3. 功效函数
同一个原假设有多种检验方法。为区分其优劣,就通过功效函数β(θ)来判断。通过功效函数来建立检验统计量T和某一个常数C(临界值,未知)关系。
功效函数β是未知参数θ的函数。
简单的理解就是如果我们在既定的参数θ下,如果希望原假设不容易被否定,则需要假设检验φ得到的值更大,其尽量属于备择假设的范围,功效函数β就是用来判断两个假设检验方法哪一个更能满足这个需求的判断方法。
4. 参数检验
单个正态总体假设检验的三种形式
一个检验,可以有以上三种检验的形式。该怎样选择?由于一般希望否定原假设,因此,希望在提问题时就有很多技巧。
同时要通过功效函数来寻找更适合的一个检验方法。说实话,主观性是否有点太强了。
给定常数θ0,两个正态总体假设检验的三种形式
经典统计的假设检验真的很复杂,要构造枢轴变量、通过功效函数判断,怎样提假设检验问题等等,思路和方法都特别复杂。贝叶斯统计则很简单,只看后验分布的大小(比例)就可以了。
2) 正态分布方差的检验
用得较少。主要用于检测一种产品质量问题主要是在于波动太大时,检验两个方差相等的简单是否合理等。
3) 常见其他分布的参数检验
4) 大样本检验
在直观上合理的一个检验统计量其确切分布求不出,利用中心极限法则求出其服从正态分布的极限分布,依据其取决定临界值C。枢轴变量让其服从正态分布,然后在给定检验水平α下求取C。带入样本的随机向量计算出实际值再进行比较确定是否接受假设。
5. 非参数检验
检验是否为对称分布。
单总体可以检验分布是否为对称的,双样本U统计量可以检验位置参数a是否相同。
连续随机变量总体X和Y的分布函数分别为 F 和 G。
:对任意的x,都有 F(x) = G(x)
等价于: G(x) = F(x-a),于是原假设变为 a = 0
利用大样本方法,其渐进分布服从 N(0,1),其他的后续方法同前面的。
2) 秩检验
单主体是对称分布的检验,两个总体位置参数的比较问题。
独立同分布样本.互不相等。设总体 X 是连续随机变量,将样本由小到大排列成 ,若 ,则称在中的秩为 。R任意的可测函数称为秩统计量。可以定义一个计分函数a(r),r=1,2,⋯,n,在 的秩为时,将xi的得分定义为.
R服从离散型分布,取 n!个值,R服从均匀分布,秩统计量
秩方法的基本思想:用xi的秩代替做作统计推断,可以理解为的得分。
线性秩统计量
讨论了位置/尺度参数检验问题中使用过的检验统计量的渐进正态性。
3) 拟合优度检验
检验观察到的一批数据是否与某种理论分布符合。主要用于分布拟合、列联表。
从大样本角度来考虑,使用到了样本容量趋于极限时的分布。
(四) 数理统计主要内容
首先是根据样本来推断和预测总体的结构。包括三个重要内容。在估计和假设检验中,又分为参数和非参数两种情况分别讨论。抽样分布常常应用于估计和假设检验中。通过样本的随机向量按照一定目的构成统计量,然后进行各种运算得到我们期望的目标。
其次,综合应用估计、假设检验和抽样分布来发现/预测给定数据可能存在的结构,并求解变量间的关系。广泛应用于实际工作中。如各种回归、因子分析等,是数据挖掘中统计分析的重要部分,也是数理统计的重要。
最后,机器学习是典型的统计学习,其“学习”的广义模式是用函数拟合出一个输入、输出模型,模型求解过程中涉及的模型优化理念及实施,如判断收益并最小化,损失函数均值成为,让风险函数最小化来降低经验风险,为减低经验风险最小化可能出现的现象,将回归中寻找合适的模型降低结构风险以便有跟好的泛化能力(加入),这些处理办法都是和统计中一个重要分支“”,后面专门作一个介绍。
(五) 二者总体关系
三、 数理统计应用分支
(一) 主要应用
数理统计在数据挖掘中有直接的应用,属于统计分析领域。另外,现在的机器学习基本还是属于统计学习。
(二) 应用简介
1. 列联表分析
根据两个变量分组,汇总得到的结果称为 列联表,实现对分类数据的描述和分析。分析离散变量或定型变量之间是否存在相关性。对结果还可以进行统计检验。对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。
定义:
列联表分析经常用来分析问卷调查的数据,可以比较好地反映出两个因素之间有无关联性,两个因素与现象之间的相关关系。 根据收集的样本数据,产生二维或多维交叉列联表。 列联表是两个或两个以上的变量交叉分组后形成的频数分布。 它由表头、行、列、排序、计算和求百分比等部分构成。
用例:
某企业想了解顾客对其产品是否满意,特别是顾客的收入是否影响对产品的满意度.在随机发放的1000份问卷中收回有效问卷792份,得到根据收入高低和满意回答的交叉分组数据
假设检验: : 收入与对产品的满意度没有关系
检验统计量及其分布: n足够大(30以下小样本)非参数估计
决策规则:大于给定的显著性水平0.05 (p值),则拒绝零假设,即收入与满意度有关联.
使用工具:
Excel 数据透视表
SPSS 分析
2. 信度分析
是指问卷的信度也就是问卷的可靠性,指采用同样的方法对同一对象重复测量时所得结果的一致性程度,也就是反映实际情况的程度。例如调查问卷的真实性。
分类:
1、外在信度:同一问卷不同时间对同一研究对象进行重复测量,其一致性程度
2、内在信度:调查问卷中,一组问题是否测量同一概念,即这组问题之间一致性如何
定义
• 在于研究 数据是否真实可靠 , 又称“可靠性分析”,通俗地讲研究样本是否真实回答问题,测试 受访者是否好好答题 ,具体来说就是用问卷对调研对象进行重复测量时,所得结果的一致性程度。 通常情况下信度分析均只能针对 量表题 进行分析。
• a信度系数法(最常用信度分析方法)
• 克隆巴赫a信度系数是目前最常用的信度系数。其公式为:。其中,K为量表中题项的总数,为第i题得分的题内方差,为全部题项总得分的方差。从公式中可以看出,a系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。在李克特量表法中常用的信度检验方法为“Cronbach’sa”系数及“折半信度”.
3. 效度分析
研究题是否有效地表达研究变量或维度的概念信息,通俗地讲,即研究题设计是否合理或题表示某个变量是否合适。通常情况下,效度分析只能分析量表题
内容效度:使用文字叙述形式对问卷的合理性、科学性进行说明。
结构效度:分析通常使用探索性因子分析(EFA)进行验证,即通过探索性因子分析对题进行分析,如果输出结果显示题和变量的对应关系基本与预期一致,则说明结构效度分析良好。
定义
• 效度检验即检验问卷有效性,简单讲,就是要确定设计的题项是否合理,是否能有效对应着研究人员的研究预期。
• 效度可以分为三类
• 内容效度,检验问卷内容是否符合研究目的和要求。
• 效标效度,问卷测量结果与效标的相关程度。
• 结构效度,是指测量题项结果能够反映预期因子(维度)的程度。
• 信度是效度的必要而非充分条件。信度低效度一定低,但信度高未必表示效度也高
4. 相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
• 变量之间的线性相关关系相关可以用相关系数来定量描述。相关系数的符号表明关系的方向,其值的大小表示关系的强弱程度。
• 相关系数是用来度量一个二维随机变量的两个分量(如:每个人的身高与体重、年收入与支出等)之间线性相关程度的,是否存在线性相关关系。相关系数的使用和样本量有很大关系。小样本(样本量小于30)情况下,相关系数可能很高,但却是相当不显著的。因此,相关系数的使用需要满足两个条件,一是两个变量属于同一个二维随机变量,二是来自大样本。
• p值是概率值,反映某一事件发生的可能性大小。假如某件事件服从某个分布(如正态分布),从其中抽样得到的一组数据(随机向量)经过一定处理形成不含未知参数的统计量,服从另外一种分布(如n-1个自由度的t 分布),根据t分布的密度函数(呈钟形,与正态分布图像类似),越到图形边上的取值出现可能性越小。从百分比来看,图形两侧(或者单侧)外边取值低于5%的部分,在一次抽样中居然出现了属于这个区间的密度函数值,根据小概率事件原则我们可以拒绝之前的假设,否则接受。这就是假设检验的原理
• 工具:SPSS、R、Excel
5. 方差分析
利用对多个样本方差的分析,得出总体 均值 是否相等的判定
假定条件:各样本中个体相互独立;来自正态分布总体;各样本方差相同。
分类
1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
• 方差分析(analysis of variance):
• 用于研究一个或多个分类型自变量(分类)与一个数值型因变量(基数)的关系。方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响。
• 因素/因子:分类型自变量
• 水平/处理:因素的不同表现
• 观测值:每个因子水平下得到的样本观测值
例如,研究行业对被投诉次数的影响,这里的行业就是因素,家电、零售、旅游等不同类别称为水评,具体样本值为观测值。
• 类别
• 单因素方差分析
• 多因数方差分析(交互作用)
• 检验某小学六年级教学质量的差异
• 从该小学六年级的三个班级中分别选取一定数量的学生,分成三个组(三个样本),对他们期末考试的平均分进行统计分析。
• 如果实验显示每组的均值相同,即三个班期末考试的成绩差异不大,则表明该小学六年级不同班级的教学质量没有差异,
• 进行方差分析有3个假定条件:
• 每个样本的值服从正态分布
• 每个样本的方差相同
• 每个样本中的个体相互独立
6. 回归分析
研究的是变量之间的不确定性依存关系
通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
类别: 线性回归、 Logistic 回归、多项式回归(自变量的指数大于1 )、逐步回归、岭回归、套索回归。
7. 聚类分析
样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
1、性质分类:
Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等
R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等
2、方法分类:
1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类
2)逐步聚类法 :适用于大样本的样本聚类
3)其他聚类法 :两步聚类、K均值聚类等
8. 判别分析
已知有k个总体,现有样本y,要根据这k个总体和当前样本的特征,判定该样本y属于哪一个总体
根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体
与聚类分析区别
1)聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本判断属于那个类别
2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类
3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类
用途:金融业,根据客户的信息对其信用等级的分类;在人力部门,根据已有的员工类别及特征对求职者进行相应的分类
9. 主成法分析
设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息.
是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推.
衣服 胸围、领围、衣长。 (L、M、S)
• PCA f: n→k
• k维是全新的 正交特征 也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
• 工作方法:
• 原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。
• 其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。
• 通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
• 通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
• 得到协方差矩阵的特征值特征向量有两种方法
• 基于特征值分解协方差矩阵实现PCA算法
• 基于SVD分解协方差矩阵实现PCA算法。
10. 因子分析
寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法(奶酪:天然、纸包装、保质期;价格、替代品比较。健康、经济)
与主成分分析比较:
相同:都能够起到重构多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
检测、降维、旋转
11. 时间序列分析
一种动态数据处理的统计方法。 该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,
以用于解决实际问题。 时间序列构成要素是:现象所属的时间,反映现象发展水平的指标数值。
时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
主要方法:自回归模型(简称AR模型)与移动平均模型(简称MA模型)为基础“混合”构成.从时间序列本身出发,力求得出前期数据与后期数据的量化关系,从而建立前期数据为自变量,后期数据为因变量的模型,达到预测的目的。
12. Monte Carlo 仿真
Monte Carlo分析是一种器件参数变化分析,使用随机抽样估计来估算数学函数的计算的方法。它需要一个良好的随机数源。这种方法往往包含一些误差,但是随着随机抽取样本数量的增加,结果也会越来越精确。
随机抽样或统计试验方法,属于计算数学的一个分支,它是在上世纪四十年代中期为了适应当时原子能事业的发展而发展起来的。目前也广泛应用于社会科学的各个方面。