因子分析(factor analysis)是一种降维、简化数据的技术。
它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量(抽象变量)来表示其基本的数据结构。
这几个假想变量(抽象变量)能够反映原来众多变量的主要信息。
例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。
但消费者主要关心的是三个方面,即
因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:
x i = μ i + α i 1 F 1 + α i 2 F 2 + α i 3 F 3 + ε i i = 1 , 2 , ⋯ , 24 x_i=\mu _i+\alpha _{i1}F_1+\alpha _{i2}F_2+\alpha _{i3}F_3+\varepsilon _i\ \ \ \ i=1,2,\cdots ,24 xi=μi+αi1F1+αi2F2+αi3F3+εi i=1,2,⋯,24
称 F 1 、 F 2 、 F 3 F_1\text{、}F_2\text{、}F_3 F1、F2、F3 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ε i \varepsilon _i εi ,称为特殊因子。
注意 |
---|
因子分析与回归分析不同:因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义; |
主成分分析与因子分析也有不同:主成分分析仅仅是变量变换,而因子分析需要构造因子模型。 主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。 |
主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向去,相当于从空间上转换观看数据的角度,突出数据变异的方向,归纳重要信息。
而因子分析从本质上看是从显在变量去提炼潜在因子的过程,因此,因子的个数 m,取多大是要通过一定规则来确定,并且因子的形式也不是唯一确定的,一般来说,作为自变量的因子 F j F_j Fj 是不可直接观测的。
用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间无相关性或相关性较小的话,它们不会有共享因子,所以原始变量间应该有较强的相关性。
相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。
实际中,因子分析前,可以用SPSS进行KMO检验和Bartlett球形检验。
百度词条
KMO检验:用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。
Bartlett球形检验:用于检验相关阵中各变量间的相关性,是否为单位阵,即检验各个变量是否各自独立。在因子分析中,若拒绝原假设,则说明可以做因子分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做因子分析。
这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小,只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小。或者按照因子的累计方差贡献率来确定,一般认为要达到60%才能符合要求。
通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子的实际意义更容易解释,也更容易为每个潜在因子赋予有实际意义的名字。
求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。
常用的因子分析类型是 R 型因子分析和 Q 型因子分析。在实际中,我们的主要目的是化多指标为一个综合指标,因此,R 型因子分析是关注的重点。
R 型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即
设 X i ( i = 1 , 2 , ⋯ , p ) X_i\left( i=1,2,\cdots ,p \right) Xi(i=1,2,⋯,p) p p p 个变量,如果表示为
X i = a i 1 F 1 + ⋯ + a i m F m + ε i ( m ≤ p ) X_i=a_{i1}F_1+\cdots +a_{im}F_m+\varepsilon _i\ \ \ \left( m\le p \right) Xi=ai1F1+⋯+aimFm+εi (m≤p)
或者写为
[ X 1 X 2 ⋮ X p ] = [ a 11 a 12 ⋯ a 1 m a 21 a 22 ⋯ a 2 m ⋮ ⋮ ⋮ a p 1 a p 2 ⋯ a p m ] [ F 1 F 2 ⋮ F m ] + [ ε 1 ε 2 ⋮ ε p ] \left[ \begin{array}{c} X_1\\ X_2\\ \vdots\\ X_p\\ \end{array} \right] =\left[ \begin{matrix} a_{11}& a_{12}& \cdots& a_{1m}\\ a_{21}& a_{22}& \cdots& a_{2m}\\ \vdots& \vdots& & \vdots\\ a_{p1}& a_{p2}& \cdots& a_{pm}\\ \end{matrix} \right] \left[ \begin{array}{c} F_1\\ F_2\\ \vdots\\ F_m\\ \end{array} \right] +\left[ \begin{array}{c} \varepsilon _1\\ \varepsilon _2\\ \vdots\\ \varepsilon _p\\ \end{array} \right] ⎣⎢⎢⎢⎡X1X2⋮Xp⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡a11a21⋮ap1a12a22⋮ap2⋯⋯⋯a1ma2m⋮apm⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡F1F2⋮Fm⎦⎥⎥⎥⎤+⎣⎢⎢⎢⎡ε1ε2⋮εp⎦⎥⎥⎥⎤
或者写为
X = A F + ε \mathbf{X}=\mathbf{AF}+\boldsymbol{\varepsilon } X=AF+ε
这里
A = [ a 11 a 12 ⋯ a 1 m a 21 a 22 ⋯ a 2 m ⋮ ⋮ ⋮ a p 1 a p 2 ⋯ a p m ] = ( A 1 , A 2 , ⋯ , A m ) A=\left[ \begin{matrix} a_{11}& a_{12}& \cdots& a_{1m}\\ a_{21}& a_{22}& \cdots& a_{2m}\\ \vdots& \vdots& & \vdots\\ a_{p1}& a_{p2}& \cdots& a_{pm}\\ \end{matrix} \right] =\left( A_1,A_2,\cdots ,A_m \right) A=⎣⎢⎢⎢⎡a11a21⋮ap1a12a22⋮ap2⋯⋯⋯a1ma2m⋮apm⎦⎥⎥⎥⎤=(A1,A2,⋯,Am)
其中 F 1 , F 2 , ⋯ , F m F_1,F_2,\cdots ,F_m F1,F2,⋯,Fm 称为公共因子,是不可观测的变量,它们的系数称为因子载荷,即模型中的 a i j a_{ij} aij 称为因子“载荷”,是第 i i i 变量在第 j j j 个因子上的负荷。
如果把变量 X i X_i Xi 看成 m 维空间中的点,则 a i j a_{ij} aij 表示它在坐标轴 F j F_j Fj 上的投影,因此矩阵 A 称为因子载荷矩阵。
ε i \varepsilon _i εi 是特殊因子,是不能被前 m 个公共因子包含的部分。并且满足:
cov ( F , ε ) = 0 \text{cov}\left( \boldsymbol{F,\varepsilon } \right) =0\text{} cov(F,ε)=0
即公共因子与特殊因子是不相关的。
D F = D ( F ) = [ 1 1 ⋱ 1 ] = I m D_F=D\left( F \right) =\left[ \begin{matrix} 1& & & \\ & 1& & \\ & & \ddots& \\ & & & 1\\ \end{matrix} \right] =I_m DF=D(F)=⎣⎢⎢⎡11⋱1⎦⎥⎥⎤=Im
即 各个公共因子 F 1 , F 2 , ⋯ , F m F_1,F_2,\cdots ,F_m F1,F2,⋯,Fm 互不相关,且方差为1。
D ( ε ) = [ σ 1 2 σ 2 2 ⋱ σ p 2 ] D\left( \varepsilon \right) =\left[ \begin{matrix} \sigma _{1}^{2}& & & \\ & \sigma _{2}^{2}& & \\ & & \ddots& \\ & & & \sigma _{p}^{2}\\ \end{matrix} \right] D(ε)=⎣⎢⎢⎡σ12σ22⋱σp2⎦⎥⎥⎤
即各个特殊因子互不相关,方差不要求相等, ε i ∼ N ( 0 , σ i 2 ) \varepsilon _i\thicksim N\left( 0,\sigma _{i}^{2} \right) εi∼N(0,σi2)
用矩阵的表达方式
X = A F + ε , E ( F ) = 0 , E ( ε ) = 0 , V a r ( F ) = I \mathbf{X}=\mathbf{AF}+\boldsymbol{\varepsilon \,\,\,\,}\text{,}E\left( \mathbf{F} \right) =0\,\,\text{,}E\left( \boldsymbol{\varepsilon } \right) =0\,\,\text{,}Var\left( \mathbf{F} \right) =\mathbf{I} X=AF+ε,E(F)=0,E(ε)=0,Var(F)=I
cov ( F , ε ) = E ( F ε ′ ) = ( E ( F 1 ε 1 ) E ( F 1 ε 2 ) ⋯ E ( F 1 ε p ) E ( F 2 ε 1 ) E ( F 2 ε 2 ) ⋯ E ( F 2 ε p ) ⋮ ⋮ ⋮ E ( F p ε 1 ) E ( F p ε 2 ) ⋯ E ( F p ε p ) ) = 0 \text{cov}\left( \mathbf{F,}\boldsymbol{\varepsilon } \right) =E\left( \mathbf{F\varepsilon '} \right) =\left( \begin{matrix} E\left( F_1\varepsilon _1 \right)& E\left( F_1\varepsilon _2 \right)& \cdots& E\left( F_1\varepsilon _p \right)\\ E\left( F_2\varepsilon _1 \right)& E\left( F_2\varepsilon _2 \right)& \cdots& E\left( F_2\varepsilon _p \right)\\ \vdots& \vdots& & \vdots\\ E\left( F_p\varepsilon _1 \right)& E\left( F_p\varepsilon _2 \right)& \cdots& E\left( F_p\varepsilon _p \right)\\ \end{matrix} \right) =0 cov(F,ε)=E(Fε′)=⎝⎜⎜⎜⎛E(F1ε1)E(F2ε1)⋮E(Fpε1)E(F1ε2)E(F2ε2)⋮E(Fpε2)⋯⋯⋯E(F1εp)E(F2εp)⋮E(Fpεp)⎠⎟⎟⎟⎞=0
V a r ( ε ) = d i a g ( σ 1 2 , σ 2 2 , ⋯ , σ p 2 ) Var\left( \boldsymbol{\varepsilon } \right) =diag\left( \sigma _{1}^{2},\sigma _{2}^{2},\cdots ,\sigma _{p}^{2} \right) Var(ε)=diag(σ12,σ22,⋯,σp2)
类似的,Q 型因子分析的数学模型可表示为
X i = a i 1 F 1 + ⋯ + a i m F m + ε i ( i = 1 , 2 , ⋯ , n ) X_i=a_{i1}F_1+\cdots +a_{im}F_m+\varepsilon _i\,\,\,\,\,\,\left( i=1,2,\cdots ,n \right) Xi=ai1F1+⋯+aimFm+εi(i=1,2,⋯,n)
Q 型因子分析模型和 R 型因子分析模型的区别在于,
1、原始变量X的协方差矩阵的分解
∣ ∵ X = A F + ε ∴ V a r ( X ) = A V a r ( F ) A ′ + V a r ( ε ) V a r ( F ) = I V a r ( ε ) = D = d i a g ( σ 1 2 , σ 2 2 , ⋯ , σ p 2 ) Σ x = A A ′ + D \left| \begin{array}{l} \because \mathbf{X}=\mathbf{AF}+\mathbf{\varepsilon }\\ \\ \therefore \,\,Var\left( \mathbf{X} \right) =\mathbf{A}Var\left( \mathbf{F} \right) \mathbf{A'}+Var\left( \boldsymbol{\varepsilon } \right)\\ \\ \ \ \ \ \ Var\left( \mathbf{F} \right) =\mathbf{I}\\ \\ \,\,\,\,\,\,\ Var\left( \boldsymbol{\varepsilon } \right) =\mathbf{D}=diag\left( \sigma _{1}^{2},\sigma _{2}^{2},\cdots ,\sigma _{p}^{2} \right)\\ \\ \ \ \ \ \ \ \Sigma _{\mathbf{x}}=\mathbf{AA'}+\mathbf{D}\\ \end{array} \right. ∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∵X=AF+ε∴Var(X)=AVar(F)A′+Var(ε) Var(F)=I Var(ε)=D=diag(σ12,σ22,⋯,σp2) Σx=AA′+D
A A A 是因子模型的系数
D的主对角线上的元素值越小,则公共因子共享的成分越多。
2、模型不受计量单位的影响
3、因子载荷不是惟一的
设 T T T为一个 p × p p\times p p×p的正交矩阵,令 A = A T , F = T ′ F A=AT,F=T'F A=AT,F=T′F也是一个满足因子模型条件的因子载荷。
在因子变量不相关的条件下,因子载荷 a i j a_{ij} aij 是第 i i i 个原始变量与第 j j j 个公共因子的相关系数
模型为
X i = a i 1 F 1 + ⋯ + a i m F m + ε i X_i=a_{i1}F_1+\cdots +a_{im}F_m+\varepsilon _i Xi=ai1F1+⋯+aimFm+εi
在上式的左右两边乘以 F j F_j Fj ,再求数学期望
E ( X i F j ) = a i 1 E ( F 1 F j ) + ⋯ + α i j E ( F j F j ) + ⋯ + a i m E ( F m F j ) + E ( ε i F j ) E\left( X_iF_j \right) =a_{i1}E\left( F_1F_j \right) +\cdots +\alpha _{ij}E\left( F_jF_j \right) +\cdots +a_{im}E\left( F_mF_j \right) +E\left( \varepsilon _iF_j \right) E(XiFj)=ai1E(F1Fj)+⋯+αijE(FjFj)+⋯+aimE(FmFj)+E(εiFj)
根据公共因子的模型性质,有 r X i F j = a i j r_{X_iF_j}=a_{ij} rXiFj=aij(载荷矩阵中第 i i i 行,第 j j j 列的元素)反映了第 i i i 个原始变量与第 j j j 个公共因子的相关重要性。
a i j a_{ij} aij 绝对值越大, X i X_i Xi与 F j F_j Fj相关的密切程度越高。
定义:变量 X i X_i Xi 的共同度是因子载荷矩阵的第 i i i 行的元素的平方和。记为
h i 2 = ∑ j = 1 m a i j 2 h_{i}^{2}=\sum\limits_{j=1}^m{a_{ij}^{2}} hi2=j=1∑maij2
表示, X i X_i Xi 的共同度,它描述了全部公共因子对变量 X i X_i Xi 的总方差所作的贡献,反映了公共因子对变量 X i X_i Xi 的影响程度。
统计意义:
X i = a i 1 F 1 + ⋯ + a i m F m + ε i X_i=a_{i1}F_1+\cdots +a_{im}F_m+\varepsilon _i Xi=ai1F1+⋯+aimFm+εi
两边求方差
V a r ( X i ) = a i 1 2 V a r ( F 1 ) + ⋯ + a i m 2 V a r ( F m ) + V a r ( ε i ) Var\left( X_i \right) =a^2_{i1}Var\left( F_1 \right) +\cdots +a^2_{im}Var\left( F_m \right) +Var\left( \varepsilon _i \right) Var(Xi)=ai12Var(F1)+⋯+aim2Var(Fm)+Var(εi)
1 = ∑ j = 1 m a i j 2 + σ i 2 1=\sum\limits_{j=1}^m{a_{ij}^{2}+\sigma _{i}^{2}} 1=j=1∑maij2+σi2
所有的公共因子和特殊因子对变量 X i X_i Xi 的贡献为1。如果 ∑ j = 1 m a i j 2 \sum\limits_{j=1}^m{a_{ij}^{2}} j=1∑maij2 非常靠近1, σ i 2 \sigma _{i}^{2} σi2 非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。
因子载荷矩阵中各列元素的平方和 S j = ∑ i = 1 p a i j 2 S_j=\sum\limits_{i=1}^p{a_{ij}^{2}} Sj=i=1∑paij2
表示所有的公因子 F j ( j = 1 , ⋯ , m ) F_j\left( j=1,\cdots ,m \right) Fj(j=1,⋯,m) 对各变量 X i X_i Xi 所提供的方差贡献总和,它衡量了每一个公共因子 F j F_j Fj 的相对重要性,决定着公因子的选择数量。
求解因子载荷矩阵方法有:主成分分析法、主因子法、极大似然估计法。常用方法为主成分分析法。
设存在一组随机向量 X = ( x 1 , x 2 , ⋯ , x p ) ′ \boldsymbol{X}=\left( x_1,x_2,\cdots ,x_p \right) ' X=(x1,x2,⋯,xp)′,将变量数据 z 值标准化后,得到其均值为 μ \boldsymbol{\mu } μ 以及方差-协方差矩阵 Σ \boldsymbol{\Sigma } Σ(也即其相关系数矩阵)。
计算方差-协方差矩阵 Σ \boldsymbol{\Sigma } Σ 的变化方向(特征向量)和变动程度(特征值),即有:
λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0 \lambda _1\ge \lambda _2\ge \cdots \ge \lambda _p\ge 0 λ1≥λ2≥⋯≥λp≥0 为 Σ \boldsymbol{\Sigma } Σ 的特征根, u 1 , u 2 , ⋯ , u p \mathbf{u}_1,\mathbf{u}_2,\cdots ,\mathbf{u}_{\mathbf{p}} u1,u2,⋯,up 为对应的标准化特征向量,则
Σ x = R ( X ) = U λ U ′ \boldsymbol{\Sigma }_{\boldsymbol{x}}=R\left( \boldsymbol{X} \right) =\boldsymbol{U\lambda U'} Σx=R(X)=UλU′
其中 U \boldsymbol{U} U 是特征向量组合而成的矩阵, λ \boldsymbol{\lambda } λ 是特征值对角矩阵。
根据原始变量 X \boldsymbol{X} X 的协方差矩阵的分解
∣ ∵ X = A F + ε ∴ V a r ( X ) = A V a r ( F ) A ′ + V a r ( ε ) V a r ( F ) = I V a r ( ε ) = D = d i a g ( σ 1 2 , σ 2 2 , ⋯ , σ p 2 ) Σ x = A A ′ + D = R ( X ) \left| \begin{array}{l} \because \mathbf{X}=\mathbf{AF}+\mathbf{\varepsilon }\\ \\ \therefore \,\,Var\left( \mathbf{X} \right) =\mathbf{A}Var\left( \mathbf{F} \right) \mathbf{A'}+Var\left( \boldsymbol{\varepsilon } \right)\\ \\ \,\,\,\,\,\,\,\,Var\left( \mathbf{F} \right) =\mathbf{I}\\ \\ \,\,\,\,\,\,\,\,Var\left( \boldsymbol{\varepsilon } \right) =\mathbf{D}=diag\left( \sigma _{1}^{2},\sigma _{2}^{2},\cdots ,\sigma _{p}^{2} \right)\\ \\ \,\,\,\,\,\,\,\,\,\Sigma _{\mathbf{x}}=\mathbf{AA'}+\mathbf{D}=R\left( \boldsymbol{X} \right)\\ \end{array} \right. ∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∵X=AF+ε∴Var(X)=AVar(F)A′+Var(ε)Var(F)=IVar(ε)=D=diag(σ12,σ22,⋯,σp2)Σx=AA′+D=R(X)
A A A 是因子模型的系数
D的主对角线上的元素值越小,则公共因子共享的成分越多。
矩阵变换:
Σ x = R ( X ) = U [ λ 1 λ 2 ⋱ λ p ] U ′ = A A ′ + D \boldsymbol{\Sigma }_{\boldsymbol{x}}=R\left( \boldsymbol{X} \right) =\mathbf{U}\left[ \begin{matrix} \lambda _1& & & \\ & \lambda _2& & \\ & & \ddots& \\ & & & \lambda _p\\ \end{matrix} \right] \mathbf{U'}=\mathbf{AA'}+\mathbf{D} Σx=R(X)=U⎣⎢⎢⎡λ1λ2⋱λp⎦⎥⎥⎤U′=AA′+D
[ u 1 u 2 ⋯ u p ] ( λ 1 0 ⋱ 0 λ p ) [ u ′ 1 u ′ 2 ⋮ u ′ p ] \left[ \begin{matrix} \mathbf{u}_1& \mathbf{u}_2& \cdots& \mathbf{u}_{\mathbf{p}}\\ \end{matrix} \right] \left( \begin{matrix} \lambda _1& & 0\\ & \ddots& \\ 0& & \lambda _p\\ \end{matrix} \right) \left[ \begin{array}{c} \mathbf{u'}_1\\ \mathbf{u'}_2\\ \vdots\\ \mathbf{u'}_{\mathbf{p}}\\ \end{array} \right] [u1u2⋯up]⎝⎛λ10⋱0λp⎠⎞⎣⎢⎢⎢⎡u′1u′2⋮u′p⎦⎥⎥⎥⎤
= λ 1 u 1 u ′ 1 + λ 2 u 2 u ′ 2 + ⋯ + λ m u m u ′ m + λ m + 1 u m + 1 u ′ m + 1 + ⋯ + λ p u p u ′ p =\lambda _1\mathbf{u}_1\mathbf{u'}_1+\lambda _2\mathbf{u}_2\mathbf{u'}_2+\cdots +\lambda _m\mathbf{u}_m\mathbf{u'}_m+\lambda _{m+1}\mathbf{u}_{m+1}\mathbf{u'}_{m+1}+\cdots +\lambda _p\mathbf{u}_{\mathbf{p}}\mathbf{u'}_{\mathbf{p}} =λ1u1u′1+λ2u2u′2+⋯+λmumu′m+λm+1um+1u′m+1+⋯+λpupu′p
= [ λ 1 u 1 λ 2 u 2 ⋯ λ p u p ] [ λ 1 u ′ 1 λ 2 u ′ 2 ⋮ λ p u ′ p ] =\left[ \begin{matrix} \sqrt{\lambda _1}\mathbf{u}_1& \sqrt{\lambda _2}\mathbf{u}_2& \cdots& \sqrt{\lambda _p}\mathbf{u}_p\\ \end{matrix} \right] \left[ \begin{array}{c} \sqrt{\lambda _1}\mathbf{u'}_1\\ \sqrt{\lambda _2}\mathbf{u'}_2\\ \vdots\\ \sqrt{\lambda _p}\mathbf{u'}_{\mathbf{p}}\\ \end{array} \right] =[λ1u1λ2u2⋯λpup]⎣⎢⎢⎢⎡λ1u′1λ2u′2⋮λpu′p⎦⎥⎥⎥⎤
其中,
[ λ 1 u 1 λ 2 u 2 ⋯ λ p u p ] \left[ \begin{matrix} \sqrt{\lambda _1}\mathbf{u}_1& \sqrt{\lambda _2}\mathbf{u}_2& \cdots& \sqrt{\lambda _p}\mathbf{u}_p\\ \end{matrix} \right] [λ1u1λ2u2⋯λpup]
为因子载荷矩阵 A A A。
上式给出的 Σ \boldsymbol{\Sigma } Σ 表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的 p − m p-m p−m 项的贡献。
即上式有一个假定:模型中的特殊因子是不重要的,因而从 Σ \boldsymbol{\Sigma } Σ 的分解中忽略了特殊因子的方差 D D D。
确定因子个数(特征根大于所对应的特征向量;碎石原则:把特征根从大到小排列,把特征根减小速度变缓的特征根都删掉)。
主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。则
∣ R ( X ) = A A ′ + D R ∗ ( X ) = A A ′ = R ( X ) − D \left| \begin{array}{l} R\left( \boldsymbol{X} \right) =\boldsymbol{AA'}+\boldsymbol{D}\\ \\ R^*\left( \boldsymbol{X} \right) =\boldsymbol{AA'}=R\left( \boldsymbol{X} \right) -\boldsymbol{D}\\ \end{array} \right. ∣∣∣∣∣∣R(X)=AA′+DR∗(X)=AA′=R(X)−D
称 R ∗ ( X ) R^*\left( \boldsymbol{X} \right) R∗(X) 为约相关矩阵, R ∗ ( X ) R^*\left( \boldsymbol{X} \right) R∗(X) 对角线上的元素是 h i 2 h_{i}^{2} hi2 ,而不是1。
R ∗ ( X ) = R − D ^ = [ h ^ 1 2 r 12 ⋯ r 1 p r 21 h ^ 2 2 ⋯ r 2 p ⋮ ⋮ ⋮ r p 1 r p 2 ⋯ h ^ p 2 ] R^*\left( \boldsymbol{X} \right) =\boldsymbol{R}-\mathbf{\hat{D}}=\left[ \begin{matrix} \hat{h}_{1}^{2}& r_{12}& \cdots& r_{1p}\\ r_{21}& \hat{h}_{2}^{2}& \cdots& r_{2p}\\ \vdots& \vdots& & \vdots\\ r_{p1}& r_{p2}& \cdots& \hat{h}_{p}^{2}\\ \end{matrix} \right] R∗(X)=R−D^=⎣⎢⎢⎢⎡h^12r21⋮rp1r12h^22⋮rp2⋯⋯⋯r1pr2p⋮h^p2⎦⎥⎥⎥⎤
直接求 R ∗ ( X ) R^*\left( \boldsymbol{X} \right) R∗(X) 的前 p 个特征根和对应的正交特征向量。得如下的矩阵:
A = [ λ 1 ∗ u 1 ∗ λ 2 ∗ u 2 ∗ ⋯ λ p ∗ u p ∗ ] \boldsymbol{A}=\left[ \begin{matrix} \sqrt{\lambda _{1}^{*}}\mathbf{u}_{1}^{*}& \sqrt{\lambda _{2}^{*}}\mathbf{u}_{2}^{*}& \cdots& \sqrt{\lambda _{p}^{*}}\mathbf{u}_{p}^{*}\\ \end{matrix} \right] A=[λ1∗u1∗λ2∗u2∗⋯λp∗up∗]
R ∗ ( X ) 特征根: λ 1 ∗ ≥ ⋯ ≥ λ p ∗ ≥ 0 R^*\left( \boldsymbol{X} \right) \text{特征根:}\lambda _{1}^{*}\ge \cdots \ge \lambda _{p}^{*}\ge 0 R∗(X)特征根:λ1∗≥⋯≥λp∗≥0
正交特征向量: u 1 ∗ , u 2 ∗ , ⋯ , u p ∗ \text{正交特征向量:}\mathbf{u}_{1}^{*},\mathbf{u}_{2}^{*},\cdots ,\mathbf{u}_{p}^{*} 正交特征向量:u1∗,u2∗,⋯,up∗
当特殊因子 ε i \boldsymbol{\varepsilon }_{\boldsymbol{i}} εi 的方差已知时
R ∗ ( X ) = R − [ σ 1 2 σ 2 2 ⋱ σ p 2 ] R^*\left( \boldsymbol{X} \right) =\boldsymbol{R}-\left[ \begin{matrix} \sigma _{1}^{2}& & & \\ & \sigma _{2}^{2}& & \\ & & \ddots& \\ & & & \sigma _{p}^{2}\\ \end{matrix} \right] R∗(X)=R−⎣⎢⎢⎡σ12σ22⋱σp2⎦⎥⎥⎤
= [ λ 1 ∗ u 1 ∗ λ 2 ∗ u 2 ∗ ⋯ λ p ∗ u p ∗ ] [ λ 1 ∗ u ′ 1 ∗ λ 2 ∗ u ′ 2 ∗ ⋮ λ p ∗ u ′ p ∗ ] =\left[ \begin{matrix} \sqrt{\lambda _{1}^{*}}\mathbf{u}_{1}^{*}& \sqrt{\lambda _{2}^{*}}\mathbf{u}_{2}^{*}& \cdots& \sqrt{\lambda _{p}^{*}}\mathbf{u}_{p}^{*}\\ \end{matrix} \right] \left[ \begin{array}{c} \sqrt{\lambda _{1}^{*}}\mathbf{u'}_{1}^{*}\\ \sqrt{\lambda _{2}^{*}}\mathbf{u'}_{2}^{*}\\ \vdots\\ \sqrt{\lambda _{p}^{*}}\mathbf{u'}_{p}^{*}\\ \end{array} \right] =[λ1∗u1∗λ2∗u2∗⋯λp∗up∗]⎣⎢⎢⎢⎡λ1∗u′1∗λ2∗u′2∗⋮λp∗u′p∗⎦⎥⎥⎥⎤
A = [ λ 1 ∗ u 1 ∗ λ 2 ∗ u 2 ∗ ⋯ λ m ∗ u m ∗ ] \mathbf{A}=\left[ \begin{matrix} \sqrt{\lambda _{1}^{*}}\mathbf{u}_{1}^{*}& \sqrt{\lambda _{2}^{*}}\mathbf{u}_{2}^{*}& \cdots& \sqrt{\lambda _{m}^{*}}\mathbf{u}_{m}^{*}\\ \end{matrix} \right] A=[λ1∗u1∗λ2∗u2∗⋯λm∗um∗]
D = ( 1 − h ^ 1 2 0 ⋱ 0 1 − h ^ p 2 ) \mathbf{D}=\left( \begin{matrix} 1-\hat{h}_{1}^{2}& & 0\\ & \ddots& \\ 0& & 1-\hat{h}_{p}^{2}\\ \end{matrix} \right) D=⎝⎛1−h^120⋱01−h^p2⎠⎞
在实际的应用中,个性方差矩阵一般都是未知的,可以通过一组样本来估计。估计的方法有如下几种:
首先,求 h i 2 h_{i}^{2} hi2 的初始估计值,构造出 R ∗ ( X ) R^*\left( \boldsymbol{X} \right) R∗(X)
1)取 h i 2 h_{i}^{2} hi2=1 ,在这个情况下主因子解与主成分解等价;
2)取 h i 2 = R i 2 h_{i}^{2}=R_{i}^{2} hi2=Ri2 , R i 2 R_{i}^{2} Ri2 为 x i x_i xi 与其他所有的原始变量 x j x_j xj 的复相关系数的平方,即 x i x_i xi 对其余的 p − 1 p-1 p−1 个 x j x_j xj 的回归方程的判定系数,这是因为 x i x_i xi 与公共因子的关系是通过其余的 p − 1 p-1 p−1 个 x j x_j xj 的线性组合联系起来的;
3)取 h ^ i 2 = max | r i j ∣ ( j ≠ i ) \hat{h}_{i}^{2}=\max\text{|}r_{ij}|\left( j\ne i \right) h^i2=max|rij∣(j=i) 这意味着取 x i x_i xi 与其余的 x j xj xj 的简单相关系数的绝对值最大者;
4)取 h i 2 = 1 p − 1 ∑ j = 1 , i ≠ j p r i j h_{i}^{2}=\frac{1}{p-1}\sum\limits_{j=1,i\ne j}^p{r_{ij}} hi2=p−11j=1,i=j∑prij
其中要求该值为正数。
5)取 h i 2 = 1 / r i i h_{i}^{2}=1/r^{ii} hi2=1/rii , 其中 r i i r^{ii} rii 是 R − 1 \boldsymbol{R}^{-1} R−1 的对角元素。
略
建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。
由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。
有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法
设 Γ \boldsymbol{\Gamma } Γ 正交矩阵,做正交变换 B = A Γ \boldsymbol{B}=\boldsymbol{A\Gamma } B=AΓ
方差最大法从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时,对因子的解释最简单。
方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于±1,另一部分趋于0。
例如,构造两个公共因子
A = [ a 11 a 12 a 21 a 22 ⋮ ⋮ a p 1 a p 2 ] A=\left[ \begin{matrix} a_{11}& a_{12}\\ a_{21}& a_{22}\\ \vdots& \vdots\\ a_{p1}& a_{p2}\\ \end{matrix} \right] A=⎣⎢⎢⎢⎡a11a21⋮ap1a12a22⋮ap2⎦⎥⎥⎥⎤
X 1 = a 11 F 1 + a 12 F 2 X 2 = a 21 F 1 + a 22 F 2 ⋯ X p = a p 1 F 1 + a p 2 F 2 \begin{array}{l} X_1=a_{11}F_1+a_{12}F_2\\ X_2=a_{21}F_1+a_{22}F_2\\ \begin{matrix} & \cdots\\ \end{matrix}\\ X_p=a_{p1}F_1+a_{p2}F_2\\ \end{array} X1=a11F1+a12F2X2=a21F1+a22F2⋯Xp=ap1F1+ap2F2
设旋转矩阵为:
T = ( cos ϕ − sin ϕ sin ϕ cos ϕ ) T=\left( \begin{matrix} \cos \phi& -\sin \phi\\ \sin \phi& \cos \phi\\ \end{matrix} \right) T=(cosϕsinϕ−sinϕcosϕ)
则
B = A T = A ( cos ϕ − sin ϕ sin ϕ cos ϕ ) \boldsymbol{B}=\boldsymbol{AT}=\boldsymbol{A}\left( \begin{matrix} \cos \phi& -\sin \phi\\ \sin \phi& \cos \phi\\ \end{matrix} \right) B=AT=A(cosϕsinϕ−sinϕcosϕ)
= ( a 11 cos ϕ + a 12 sin ϕ − a 11 sin ϕ + a 12 cos ϕ ⋮ ⋮ a p 1 cos ϕ + a p 2 sin ϕ − a p 1 sin ϕ + a p 1 cos ϕ ) =\left( \begin{matrix} a_{11}\cos \phi +a_{12}\sin \phi& -a_{11}\sin \phi +a_{12}\cos \phi\\ \vdots& \vdots\\ a_{p1}\cos \phi +a_{p2}\sin \phi& -a_{p1}\sin \phi +a_{p1}\cos \phi\\ \end{matrix} \right) =⎝⎜⎛a11cosϕ+a12sinϕ⋮ap1cosϕ+ap2sinϕ−a11sinϕ+a12cosϕ⋮−ap1sinϕ+ap1cosϕ⎠⎟⎞
= ( a 11 ∗ a 12 ∗ ⋮ ⋮ a p 1 ∗ a p 2 ∗ ) =\left( \begin{matrix} a_{11}^{*}& a_{12}^{*}\\ \vdots& \vdots\\ a_{p1}^{*}& a_{p2}^{*}\\ \end{matrix} \right) =⎝⎜⎛a11∗⋮ap1∗a12∗⋮ap2∗⎠⎟⎞
令
d i j = a i j ∗ h i i = 1 , 2 , ⋯ , p ; j = 1 , 2 d_{ij}=\frac{a_{ij}^{*}}{h_i}\ \ i=1,2,\cdots ,p;j=1,2 dij=hiaij∗ i=1,2,⋯,p;j=1,2
d ˉ j = 1 p ∑ i = 1 p d i j 2 \bar{d}_j=\frac{1}{p}\sum\limits_{i=1}^p{d_{ij}^{2}} dˉj=p1i=1∑pdij2
简化准则为:
V ( θ ) = ∑ j = 1 m ∑ i = 1 p ( d i j 2 − d ˉ j ) 2 = max V\left( \theta \right) =\sum\limits_{j=1}^m{\sum\limits_{i=1}^p{\text{(}d_{ij}^{2}-\bar{d}_j}\text{)}^2}=\max V(θ)=j=1∑mi=1∑p(dij2−dˉj)2=max
即:
V 1 + V 2 + V 3 ⋯ + V m = max V_1+V_2+V_3\cdots +V_m=\max V1+V2+V3⋯+Vm=max
令
∂ V ∂ θ = 0 \frac{\partial V}{\partial \theta}=0 ∂θ∂V=0
则可以解出 θ 0 \theta _0 θ0
则旋转矩阵为:
T = ( cos θ 0 − sin θ 0 sin θ 0 cos θ 0 ) T=\left( \begin{matrix} \cos \theta _0& -\sin \theta _0\\ \sin \theta _0& \cos \theta _0\\ \end{matrix} \right) T=(cosθ0sinθ0−sinθ0cosθ0)
前面主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。