应用多元分析复习笔记

应用多元分析复习笔记

Created: May 23, 2022 10:11 AM

第一章**. 随机向量**

一个向量的分量全是随机变量,则称之为随机向量

1.1 多元分布的一些概念

  • 多元概率密度分布
    • 多项分布
    • 多元超几何分布
  • 多元概率密度函数
  • 边缘分布
  • 条件分布
  • 独立性

1.2 数字特征

  • 数学期望

    矩阵的每个元素都是随机变量称为随机矩阵

  • 协方差矩阵

    表示随机变量之间的线性联系程度

    • 协方差矩阵的判断方法:
    1. 对称性cov(x,y)与cov(y,x)互为转置;

    2. 计算相关矩阵(除了对角元素外小于1)

    • 不相关
    • 条件协方差矩阵
    • 性质
    1. 非负定矩阵;

    2. 线性性质 ;

    3. 方差相等的两个随机变量的和与差是不相关的;

    4. 行列式等于0时,以概率1存在线性关系

    V ( A X + b ) = A V ( x ) A ′ C o v ( A x , B y ) = A C o v ( x , y ) B ′ V(AX+b)=AV(x)A'\\ Cov(Ax,By)=ACov(x,y)B' V(AX+b)=AV(x)ACov(Ax,By)=ACov(x,y)B

  • 相关矩阵

    随机变量之间的线性依赖关系强弱

    • 相关系数 正负相关性
    • 不随各变量度量单位的改变而变化,元素是无单位的纯数值
    • 相关矩阵与协方差矩阵
    • 标准化后的协方差矩阵是原始向量的相关矩阵,非负定矩阵
  • 随机变量的数字特征:

    期望,方差,矩,分位数,偏度,峰度,变异系数

  • 总变异性的度量

    • 单个随机变量的变异性

    方差可以描述单个随机变量的变异程度

    • 随机变量的变异性

    总方差 t r ( Σ ) = ∑ ( σ i i ) tr(\Sigma)=\sum(σ_{ii}) tr(Σ)=(σii)

    1. 广义方差
      • 广义方差的概念
        • 最常用的度量: ∣ Σ ∣ |\Sigma| Σ
    • 广义方差的解释
      • 几何解释:(x-)'∑^{-1}(x-)=c²
        相应超椭球的体积体积是广义方差的常数倍当其中最小特征值为接近0时,体积也接近于0
      • ∣ Σ ∣ = ( σ 11 σ 22 . . . σ p p ) ∣ R ∣ = ( σ 11 σ 22 . . . σ p p ) ( λ 1 ∗ λ 2 ∗ . . . λ p ∗ ) |\Sigma|=(\sigma_{11}\sigma_{22}...\sigma_{pp})|R|=(\sigma_{11}\sigma_{22}...\sigma_{pp})(\lambda_1^*\lambda_2^*...\lambda_p^*) Σ=(σ11σ22...σpp)R=(σ11σ22...σpp)(λ1λ2...λp)
         前者依赖于x各分类的方差,后者与x个分类直接线性依赖关系相关,因此**若广义方差很小,意味着x有变异程度很小的分量或其分量之间存在多重共线性

1.3 距离

  • 欧式距离

    d 2 ( x , y ) = ( x − y ) ′ ( x − y ) d^2(x,y)=(x-y)'(x-y) d2(x,y)=(xy)(xy)

    • 几何:两点之间的距离,若各分量之间单位不全相同,之间使用是没有意义的
      • 应从平均意义上来看各项所起作用的大小;
      • 变异性大的分量在平方和中起的作用就大;实际问题若变异性相差过大则使得计算欧式距离没有意义
      • 几何意义上:散布程度,方差大的散布程度大,标准化使得在变量轴上相对压缩,散布程度小的变量拉伸,大的压缩,使得各个变量散布程度一致。
  • 马氏距离

    d 2 ( x , y ) = ( x − y ) ′ Σ ( x − y ) d^2(x,y)=(x-y)'\Sigma(x-y) d2(x,y)=(xy)Σ(xy)

    • 克服变量之间相关性对距离计算的不利影响
      • 马氏距离对于p维向量x度量单位改变具有不变性
        也即线性变换的不变性
      • 马氏距离是一个与各变量度量单位无关的纯数值
        各分类不相关时马氏距离即为各分量经标准化后的欧式距离
        相关系数为单位矩阵时退化为欧式距离
    • 注:定义中,x不一定必须要来自π总体

第二章. 多元正态分布

2.1 多元正态分布定义

∗ ∗ f ( x ) = ( 2 π ) − p / 2 ∣ Σ ∣ − 1 / 2 e − 1 2 ( x − μ ) ′ Σ − 1 ( x − μ ) ∗ ∗ **f(x)=(2\pi)^{-p/2}|\Sigma|^{-1/2}e^{-\frac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu)}** f(x)=(2π)p/2Σ1/2e21(xμ)Σ1(xμ)

  • 几何图像:

    f ( x 1 , x 2 ) = 1 2 π σ 1 σ 2 1 − ρ 2 e x p { − 1 2 ( 1 − ρ 2 ) [ ( x 1 − μ 1 σ 1 ) 2 − 2 ρ ( x 1 − μ 1 σ 1 ) ( x 2 − μ 2 σ 2 ) + ( x 2 − μ 2 σ 2 ) 2 } f(x_1,x_2)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\{-\frac{1}{2(1-\rho^2)}[(\frac{x_1-\mu_1}{\sigma_1})^2-2\rho(\frac{x_1-\mu_1}{\sigma_1})(\frac{x_2-\mu_2}{\sigma_2})+(\frac{x_2-\mu_2}{\sigma_2})^2\} f(x1,x2)=2πσ1σ21ρ2 1exp{2(1ρ2)1[(σ1x1μ1)22ρ(σ1x1μ1)(σ2x2μ2)+(σ2x2μ2)2}

    • 二元正态情形下几何等高线:

      概率密度等高线是一个椭圆;
      相关系数 ∣ ρ ∣ |\rho| ρ值越大,长轴越长,短轴越短,椭圆越扁平,等高线为同中心同方向的椭圆

    • 指数上的马氏距离:

      x处的密度值完全取决于d²的大小,离越远,密度越小,越近密度越大;

2.2 多元正态分布的性质

  1. 多元正态分布的边缘分布为多元正态分布;但边缘分布均为正态不一定是正态分布

  2. x ∼ N p ( μ , Σ ) , y = C x + b , C 是 r × p 常 数 矩 阵 , b 为 r 维 常 数 向 量 , 则 y ∼ N r ( C μ + b . C Σ C ′ ) x \sim N_p(\mu,\Sigma),y=Cx+b,C是r\times p常数矩阵,b为r维常数向量,则y\sim N_r(C\mu+b.C\Sigma C') xNp(μ,Σ),y=Cx+b,Cr×p,bryNr(Cμ+b.CΣC)

  3. 各个元素之间给定元素条件下的均值与方差s

    μ 1.2 = μ 1 + Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) Σ 11.2 = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 \mu_{1.2}=\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)\\\Sigma_{11.2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} μ1.2=μ1+Σ12Σ221(x2μ2)Σ11.2=Σ11Σ12Σ221Σ21

(注意)

  1. 正态变量的线性组合不一定是正态变量
  2. 正态变量之间互不相关与相互独立不等价,有反例

Normally distributed and uncorrelated does not imply independent - Wikipedia

2.3 极大似然估计及估计量的性质

  • 估计量的性质
    • 无偏性
      • 期望是无偏的
      • 方差是有偏的
      • 样本系数是有偏的,但一般来说当样本足够大时偏差影响可以忽略
        • 除了可用来对相应的总体参数值进行估计,常常可以用于多元样本数据做数值概括的描述;样本协方差样本相关系数对异常值非常敏感;且不适用于变量间存在明显非线性结合模式的场合
    • 有效性
      • 一致最小方差无偏估计:单变量
      • 一致最优无偏估计:被估的未知参数不止一个
    • 一致性
      • 也称相合性(估计),大样本情景下矩估计都有此性质,但对于小样本来说不能成为评价估计量好坏的准则
    • 充分性
      • 信息一点不损失充分提取

一致最优无偏性与充分性需要正态性假设

第三章. 多元正态总体的统计推断

不一定必须要依赖于总体的正态分布

3.1 一元情景

  • 均值的置信区间与假设检验

    • sigma已知时,正态u检验 u = x ‾ − μ 0 σ / n u=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}} u=σ/n xμ0

    • sigma未知时,t检验 t ( n − 1 ) = x ‾ − μ 0 s / n t(n-1)=\frac{\overline{x}-\mu_0}{s/{\sqrt{n}}} t(n1)=s/n xμ0

    • 正态总体均值 s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)s22

    • 两个正态总体均值之差

      u = x ‾ − y ‾ σ 1 2 / n 1 + σ 2 2 / n 2 t ( n 1 + n 2 − 2 ) = x ‾ − y ‾ s p 1 / n 1 + 1 / n 2 u=\frac{\overline{x}-\overline{y}}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\\ t(n_1+n_2-2)=\frac{\overline{x}-\overline{y}}{s_p\sqrt{1/n_1+1/n_2}} u=σ12/n1+σ22/n2 xyt(n1+n22)=sp1/n1+1/n2 xy

      • t²(n-1)可以看成F(1,n-1)
  • 假设检验与置信区间

    H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 H_0: \mu=\mu_0,H_1:\mu\neq\mu_0 H0:μ=μ0,H1:μ=μ0

    • 结果与被检验值偏离真值程度有关,也与样本容量大小有关:
      n越小,置信区间越宽;n越大,置信区间越宽
    • 对于过大n,也可能存在拒绝原假设,但这只表明存在统计学意义上的差异,科学意义上无关紧要,并不是科学上的差异;n较小时,就需要偏离很大才能拒绝。因此n过大时拒绝和n过小时接受,说明不了问题,检验没有实际意义。
  • 多个总体均值的方差分析

    • ∗ ∗ S S T = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ‾ ) 2 **SST=\sum_{i=1}^k \sum_{j=1}^{n_i }(x_{ij}-\overline{x})^2 SST=i=1kj=1ni(xijx)2 总平方和自由度n-1,反应所有数据之间的总变异程度**
    • ∗ ∗ S S E = ∑ i = 1 k ∑ j = 1 n 1 ( x i j − x ‾ i ) 2 **SSE=\sum_{i=1}^k\sum_{j=1}^{n_1}(x_{ij}-\overline{x}_i)^2 SSE=i=1kj=1n1(xijxi)2 误差(组内)平方和自由度n-k,各总体内数据的变异程度**
    • ∗ ∗ S S T R = ∑ i = 1 k n i ( x ‾ i − x ‾ ) 2 **SSTR=\sum_{i=1}^kn_i(\overline{x}_i-\overline{x})^2 SSTR=i=1kni(xix)2处理(组间)平方和k-1,(原假设不真时)各总体均值之间的差异程度**
      n是所有的数据个数,k是种类数

    S S T = S S E + S S T R F = S S T R / ( k − 1 ) S S E / ( n − k ) ∼ F ( k − 1 , n − k ) SST=SSE+SSTR\\F=\frac{SSTR/(k-1)}{SSE/(n-k)}\sim F(k-1,n-k) SST=SSE+SSTRF=SSE/(nk)SSTR/(k1)F(k1,nk)

3.2 单个总体均值的推断

  • 均值向量的检验

    x 1 , . . . x p 来 自 多 元 正 态 总 体 N p ( μ , Σ ) 的 一 个 样 本 , 检 验 H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 x_1,...x_p来自多元正态总体N_p(\mu,\Sigma)的一个样本,检验H_0: \mu=\mu_0,H_1:\mu\neq\mu_0 x1,...xpNp(μ,Σ)H0:μ=μ0,H1:μ=μ0

    • ∑已知时

      • 卡方检验 T 0 2 = n ( x ‾ − μ 0 ) ′ Σ − 1 ( x ‾ − μ 0 ) ∼ χ 2 ( p ) T_0^2=n(\overline{x}-\mu_0)'\Sigma^{-1}(\overline{x}-\mu_0)\sim \chi^2(p) T02=n(xμ0)Σ1(xμ0)χ2(p)
        • 平方马氏距离,不受单位的影响,距离越大倾向于拒绝H0
      • 霍特林检验
        • T²分布与∑无关
    • ∑未知时

      T 0 2 = n ( x ‾ − μ 0 ) ′ S − 1 ( x ‾ − μ 0 ) T_0^2=n(\overline{x}-\mu_0)'S^{-1}(\overline{x}-\mu_0) T02=n(xμ0)S1(xμ0):霍特林T²统计量

      • 霍特林T²检验

        n − p p ( n − 1 ) T 2 ∼ F ( p , n − p ) n − p p ( n − 1 ) T 2 ≥ F α ( p , n − p ) 拒 绝 H 0 \frac{n-p}{p(n-1)}T^2\sim F(p,n-p)\\\frac{n-p}{p(n-1)}T^2\geq F_{\alpha}(p,n-p)拒绝H_0 p(n1)npT2F(p,np)p(n1)npT2Fα(p,np)H0

      • 联合置信区间

      x 1 . . . x n ∼ N p ( μ , Σ ) , y i = a ′ x i 来 自 N ( a ′ μ , a ′ Σ a ) 样 本 x_1...x_n\sim N_p(\mu,\Sigma),y_i=a'x_i来自N(a'\mu,a'\Sigma a)样本 x1...xnNp(μ,Σ),yi=axiN(aμ,aΣa)

      1. a ′ x ‾ − T α ( p , n − 1 ) a ′ S a / n ≤ a ′ μ ≤ a ′ x ‾ + T α ( p , n − 1 ) a ′ S a / n a'\overline{x}-T_\alpha(p,n-1)\sqrt{a'Sa}/\sqrt{n}\leq a'\mu\leq a'\overline{x}+T_\alpha(p,n-1)\sqrt{a'Sa}/\sqrt{n} axTα(p,n1)aSa /n aμax+Tα(p,n1)aSa /n 对一切a成立,一切置信区间的 1 − α 1-\alpha 1α联合置信区间
      2. Bonferroni检验改进(适用于k较小的情况,上面的置信区间较宽)

      a ′ x ‾ − t α / k ( n − 1 ) a ′ S a / n ≤ a ′ μ ≤ a ′ x ‾ + t α / k ( n − 1 ) a ′ S a / n a'\overline{x}-t_{\alpha/k}(n-1)\sqrt{a'Sa}/\sqrt{n}\leq a'\mu\leq a'\overline{x}+t_{\alpha/k}(n-1)\sqrt{a'Sa}/\sqrt{n} axtα/k(n1)aSa /n aμax+tα/k(n1)aSa /n

      1. 区别:1范围是个椭圆,2范围是个方形,1对一个变量的坐标轴投影大于2,但2整体的面积大于1
      2. 拉奥悖论,由于椭圆与方形的中间空隙,因此会存在接受1而拒绝2的存在取值
      • 注意k较大时用的是T²检验,区间个数不会影响分位数的平方根,所以在确定的分位数内会包含无穷多个置信区间;
        k较小时使用的是Bonferroni的t检验提高精度,区间个数越多,涉及的分位数越大
        • T²检验是一个椭圆,t检验是正方形,对于坐标轴上的投影来说,t检验更精确,但T²的椭圆面积明显小于t检验的正方形面积

3.3 两个总体均值的比较推断

  • 两个独立样本 H 0 : μ 1 = μ 2 , H 1 : μ 1 ≠ μ 2 H_0:\mu_1=\mu_2,H_1:\mu_1\neq\mu_2 H0:μ1=μ2,H1:μ1=μ2

    T 2 = ( 1 n 1 + 1 n 2 ) − 1 ( x ‾ − y ‾ ) ′ S p − 1 ( x ‾ − y ‾ ) T^2=(\frac{1}{n_1}+\frac{1}{n_2})^{-1}(\overline{x}-\overline{y})'S_p^{-1}(\overline{x}-\overline{y}) T2=(n11+n21)1(xy)Sp1(xy)

    n 1 + n 2 − p − 1 p ( n 1 + n 2 − 2 ) T 2 ∼ F ( p , n 1 + n 2 − p − 1 ) \frac{n_1+n_2-p-1}{p(n_1+n_2-2)}T^2\sim F(p,n_1+n_2-p-1) p(n1+n22)n1+n2p1T2F(p,n1+n2p1)

    • 1与2存在显著差异,并不意味着它们存在显著差异的分量在同样水平下存在显著性差异。
      一般是1与2存在显著差异,则存在一个系数向量a,a1与a2存在显著性差异。
  • 成对实验, d i = x i − y i d_i=x_i-y_i di=xiyi此时假设检验为: H 0 : δ = 0 , H 1 : δ ≠ 0 H_0:\delta=0,H_1:\delta\neq 0 H0:δ=0,H1:δ=0

    • 成对出现的数据之间不相互独立,通过作差排除其他因素的影响,对差di数据进行T²检验
    • 不需要假定x,y两者都服从正态分布

    T 2 = n d ‾ ′ S d − 1 d ‾ , d ‾ = x ‾ − y ‾ , S d = 1 n − 1 ∑ i = 1 n ( d i − d ‾ ) ( d i − d ‾ ) ′ T α 2 ( p , n − 1 ) = p ( n − 1 ) n − p F α ( p , n − p ) T^2=n\overline{d}'S_d^{-1}\overline{d},\overline{d}=\overline{x}-\overline{y},S_d=\frac{1}{n-1}\sum_{i=1}^n(d_i-\overline{d})(d_i-\overline{d})'\\T_{\alpha}^2(p,n-1)=\frac{p(n-1)}{n-p}F_{\alpha}(p,n-p) T2=ndSd1d,d=xy,Sd=n11i=1n(did)(did)Tα2(p,n1)=npp(n1)Fα(p,np)

3.4 轮廓分析

( 1 , μ 1 ) , ( 2 , μ 2 ) , . . . ( p , μ p ) (1,\mu_1),(2,\mu_2),...(p,\mu_p) (1,μ1),(2,μ2),...(p,μp)称为总体的轮廓

  • 单总体的轮廓分析

    • C矩阵,对比矩阵 [ 1 − 1 0 . . . 0 0 1 − 1 . . . 0 . . . 1 0 0 . . . − 1 ] 或 [ 1 − 1 0 . . . 0 1 0 − 1 . . . 0 . . . 1 0 0 . . . − 1 ] \begin{bmatrix} 1&-1&0&...&0\\ 0&1&-1&...&0\\ &&...\\ 1&0&0&...&-1 \end{bmatrix}或\begin{bmatrix} 1&-1&0&...&0\\ 1&0&-1&...&0\\ &&...\\ 1&0&0&...&-1 \end{bmatrix} 10111001...0.........00111110001...0.........001
    • C矩阵乘上后进行T²检验 T 2 ( p − 1 , n − 1 ) = n x ‾ ′ C ′ ( C S C ′ ) − 1 C x ‾ T^2(p-1,n-1)=n\overline{x}'C'(CSC')^{-1}C\overline{x} T2(p1,n1)=nxC(CSC)1Cx
    • 检验问题:轮廓是水平的
  • 两总体的轮廓分析

    (1).两轮廓外表相似,是否平行;

    c = [ 1 − 1 0 . . . 0 0 1 − 1 . . . 0 . . . 1 0 0 . . . − 1 ] , H 0 : C μ 1 = μ 2 , H 1 : C μ 1 ≠ C μ 2 , T 2 ( p − 1 , n 1 + n 2 − 2 ) = n 1 n 2 n 1 + n 2 ( x ‾ − y ‾ ) ′ C ′ ( C S p C ′ ) − 1 C ( x ‾ − y ‾ ) c=\begin{bmatrix} 1&-1&0&...&0\\ 0&1&-1&...&0\\ &&...\\ 1&0&0&...&-1 \end{bmatrix},H_0:C\mu_1=\mu_2,H_1:C\mu_1\neq C\mu_2,\\T^2(p-1,n_1+n_2-2)=\frac{n_1n_2}{n_1+n_2}(\overline{x}-\overline{y})'C'(CS_pC')^{-1}C(\overline{x}-\overline{y}) c=10111001...0.........001,H0:Cμ1=μ2,H1:Cμ1=Cμ2,T2(p1,n1+n22)=n1+n2n1n2(xy)C(CSpC)1C(xy)
    (2).假如两轮廓平行,是否重合;

    C = 1 ′ , H 02 : ∑ i = 1 p μ 1 i p = ∑ i = 1 p μ 2 i p , t ( n 1 + n 2 − 2 ) = 1 ′ ( x ‾ − y ‾ ) ( 1 n 1 + 1 n 2 ) 1 ′ S p 1 C=1',H_{02}:\frac{\sum_{i=1}^p{\mu_{1i}}}{p}=\frac{\sum_{i=1}^p{\mu_{2i}}}{p},\\t(n_1+n_2-2)=\frac{1'(\overline{x}-\overline{y})}{\sqrt{(\frac{1}{n_1}+\frac{1}{n_2})1'S_p1}} C=1,H02:pi=1pμ1i=pi=1pμ2i,t(n1+n22)=(n11+n21)1Sp1 1(xy)
    (3).假如两轮廓重合,是否水平.

    z ‾ = n 1 n 1 + n 2 x ‾ + n 2 n 1 + n 2 y ‾ , C = [ 1 − 1 0 . . . 0 1 0 − 1 . . . 0 . . . 1 0 0 . . . − 1 ] , H 03 : C μ = 0 , H 13 : C μ ≠ 0 T 2 ( p − 1 , n 1 + n 2 − 1 ) = ( n 1 + n 2 ) z ‾ ′ C ′ ( C S C ′ ) − 1 C z ‾ \overline{z}=\frac{n_1}{n_1+n_2}\overline{x}+\frac{n_2}{n_1+n_2}\overline{y},C=\begin{bmatrix} 1&-1&0&...&0\\ 1&0&-1&...&0\\ &&...\\ 1&0&0&...&-1 \end{bmatrix},\\H_{03}:C\mu=0,H_{13}:C\mu\neq0\\T^2(p-1,n_1+n_2-1)=(n_1+n_2)\overline{z}'C'(CSC')^{-1}C\overline{z} z=n1+n2n1x+n1+n2n2y,C=11110001...0.........001H03:Cμ=0,H13:Cμ=0T2(p1,n1+n21)=(n1+n2)zC(CSC)1Cz

    • 先检验两者轮廓的平行性(1),在接受轮廓的平行假设后,检验轮廓是否重合(2),最后在接受两个轮廓重合的前提下检验共同轮廓水平(3)

3.5 多元方差分析

  • 多元方差分析是一元方差分析的直接推广,但多元方差分析的检验统计量并不唯一,有多个。
  • 一些假定:各总体为正态总体;各总体协方差矩阵相同,各总体的样本彼此独立
  1. S S T = ∑ i = 1 k ∑ j = 1 n 1 ( x i j − x ‾ ) ( x i j − x ‾ ) ′ = ∑ i = 1 3 ∑ j = 1 n i x i j x i j ′ − n x ‾ x ‾ ′ SST=\sum_{i=1}^k\sum_{j=1}^{n_1}(x_{ij}-\overline{x})(x_{ij}-\overline{x})'=\sum_{i=1}^3\sum_{j=1}^{n_i}x_{ij}x_{ij}'-n\overline{x}\overline{x}' SST=i=1kj=1n1(xijx)(xijx)=i=13j=1nixijxijnxx 总平方和及叉积和矩阵
  2. S S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ‾ i ) ( x i j − x ‾ i ) ′ = ( n − 1 ) ∑ S i ( 各 个 组 内 n 相 同 时 ) SSE=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\overline{x}_i)(x_{ij}-\overline{x}_i)'=(n-1)\sum S_i(各个组内n相同时) SSE=i=1kj=1ni(xijxi)(xijxi)=(n1)Si(n) 误差平方和及叉积和矩阵(组内矩阵)
  3. S S R = ∑ i = 1 k n i ( x ‾ i − x ‾ ) ( x ‾ i − x ‾ ) ′ = n ( ∑ i = 1 k x ‾ i x ‾ i ′ − k x ‾ x ‾ ) SSR=\sum_{i=1}^kn_i(\overline{x}_i-\overline{x})(\overline{x}_i-\overline{x})'=n(\sum_{i=1}^k \overline{x}_i\overline{x}_i'-k\overline{x}\overline{x}) SSR=i=1kni(xix)(xix)=n(i=1kxixikxx) 处理平方和及叉积和矩阵(组间矩阵)
    T=E+H
    wilks统计量| Λ = ∣ E ∣ ∣ T ∣ \Lambda=\frac{|E|}{|T|} Λ=TE,服从 Λ ( p , k − 1 , n − k ) \Lambda(p,k-1,n-k) Λ(p,k1,nk)的分布,H=0时等于1

第四章. 判别分析

4.1 距离判别

∗ ∗ d 2 ( x , π 1 ) − d 2 ( x , π 2 ) ∗ ∗ **d^2(x,\pi_1)-d^2(x,\pi_2)** d2(x,π1)d2(x,π2)

欧式距离未能将变量之间的相关性考虑在内,结果不合理;马氏距离可以弥补不足

  • 两组距离 π 1 , π 2 \pi_1,\pi_2 π1,π2的判别
    • 协方差相等时的判别 Σ 1 = Σ 2 = Σ \Sigma_1=\Sigma_2=\Sigma Σ1=Σ2=Σ

      d 2 ( x , π 1 ) − d 2 ( x , π 2 ) = − 2 a ′ ( x − μ ‾ ) , a = Σ − 1 ( μ 1 − μ 2 ) , μ ‾ = 1 / 2 ( μ 1 + μ 2 ) d^2(x,\pi_1)-d^2(x,\pi_2)=-2a'(x-\overline{\mu}),a=\Sigma^{-1}(\mu_1-\mu_2),\overline{\mu}=1/2(\mu_1+\mu_2) d2(x,π1)d2(x,π2)=2a(xμ),a=Σ1(μ1μ2),μ=1/2(μ1+μ2)

      • W ( x ) = a ′ ( x − μ ‾ ) W(x)=a'(x-\overline{\mu}) W(x)=a(xμ) 判别函数/线性判别函数
      • a是判别系数向量
      • 误判概率

      Δ 2 = ( μ 1 − μ 2 ) ′ Σ − 1 ( μ 1 − μ 2 ) = a ′ ( μ 1 − μ 2 ) = a ′ Σ a W ( x ) ∼ N ( 1 / 2 Δ , Δ 2 ) P ( W ( x ) ≥ 0 ) = Φ ( − Δ 2 ) \Delta^2=(\mu_1-\mu_2)'\Sigma^{-1}(\mu_1-\mu_2)=a'(\mu_1-\mu_2)=a'\Sigma a\\W(x)\sim N(1/2\Delta,\Delta^2)\\P(W(x)\geq 0)=\Phi(-\frac{\Delta}{2}) Δ2=(μ1μ2)Σ1(μ1μ2)=a(μ1μ2)=aΣaW(x)N(1/2Δ,Δ2)P(W(x)0)=Φ(2Δ)

      因此两组分的越开,判别效果越佳,

      • 回代法
        • 简单直观易于计算;
          在n不是很大时,给出的估计值通常偏低
          偏低的误判率
      • 划分样本
        • 样本一分为二:一部分作为训练样本,构造判别函数;一部分作为验证样本,评估判别函数;
          缺陷:大样本;损失较多有价值信息,误判概率高于使用所有数据构造的判别函数
      • 交叉验证法/刀切法
        • 最值得推荐,计算量有些大
    • 协方差不相等时的判别

      • 基本思路还是两个距离相减进行判别
    • 除非分离的很好,不然距离判别不太有效

  • 多组距离的判别
    • 协方差阵相等情景:

      • d 2 ( x , π i ) = ( x − μ i ) ′ Σ − 1 ( x − μ i ) = x ′ Σ − 2 ( I i ′ x + c i ) d^2(x,\pi_i)=(x-\mu_i)'\Sigma^{-1}(x-\mu_i)=x'\Sigma-2(I'_ix+c_i) d2(x,πi)=(xμi)Σ1(xμi)=xΣ2(Iix+ci)
      • 判 别 规 则 为 找 到 m a x 1 ≤ i ≤ j ( I i ′ x + c i ) , I i = Σ − 1 μ i , c i = − 1 2 μ i ′ Σ − 1 μ i 判别规则为找到max_{1\leq i \leq j}(I'_ix+c_i),I_i=\Sigma^{-1}\mu_i,c_i=-\frac{1}{2}\mu_i'\Sigma^{-1}\mu_i max1ij(Iix+ci),Ii=Σ1μi,ci=21μiΣ1μi

      实际中用样本期望和协方差矩阵代替总体的期望和协方差矩阵
      步骤上可以先进行多元方差分析,若均值有显著性差异,则可以进行多组距离的判别

      • 方法:线性判别(基于协方差矩阵相等的假定)与二次判别(不全相等的假定)
        策略:1. 样本容量较小,选择线性判别函数;2. 容量较大时,选择二次判别函数,各个协方差可以得到较精确的估计。
        1. 齐次性检验,需要各组的正态性假定,若不满足正态性假定,检验较为困难;检验结果只能作为重要的参考依据,不宜作为决定性依据

4.2 贝叶斯判别

  • 最大后验概率法

    • P ( π i ∣ x ) = p i f i ( x ) ∑ j = 1 k p j f j ( x ) P(\pi_i|x)=\frac{p_if_i(x)}{\sum_{j=1}^kp_jf_j(x)} P(πix)=j=1kpjfj(x)pifi(x),最大后验则是 arg max ⁡ π l P ( π i ∣ x ) \argmax_{\pi_l} P(\pi_i|x) πlargmaxP(πix)

    • k组正态情形 P ( π i ∣ x ) = e x p [ − 0.5 D 2 ( x , π i ) ∑ j = 1 k e x p [ − 0.5 D 2 ( x , π j ) ] P(\pi_i|x)=\frac{exp[-0.5D^2(x,\pi_i)}{\sum_{j=1}^k exp[-0.5D^2(x,\pi_j)]} P(πix)=j=1kexp[0.5D2(x,πj)]exp[0.5D2(x,πi),不一定需要正态假定
      D²广义平方距离

      D 2 = d 2 ( x , π i ) + g i ( 如 果 Σ 不 全 相 等 则 为 l n ∣ Σ i ∣ , 全 相 等 为 0 ) + h i ( 如 果 p i 不 全 相 等 为 − 2 l n p , 全 相 等 为 0 ) D^2=d^2(x,\pi_i)+g_i(如果\Sigma不全相等则为ln|\Sigma_i|,全相等为0)+h_i(如果p_i不全相等为-2lnp,全相等为0) D2=d2(x,πi)+gi(ΣlnΣi0)+hi(pi2lnp0)

      ∑i全相等时,化为

      max ⁡ ( I i ′ x + c i + l n p i ) , I i = Σ − 1 μ , c i = 0.5 μ i ′ Σ − 1 μ i \max (I_i'x+c_i+lnp_i),Ii=\Sigma^{-1}\mu,ci=0.5\mu_i'\Sigma^{-1}\mu_i max(Iix+ci+lnpi)Ii=Σ1μ,ci=0.5μiΣ1μi

      • 基于线性判别函数且不受变量单位影响;
        对于正态组且各协方差矩阵相同时,距离判别等价于各先验概率相同的贝叶斯判别
  • 最小期望误判代价

    最大后验概率法没有涉及误判代价,在各误判代价明显不同的场合下,判别就不适宜了

    • 两组一般情形
      • π1的样品被误判到π2条件概率:P(2|1)
        平均/期望误判代价 E C M = c ( 2 ∣ 1 ) p 1 P ( 2 ∣ 1 ) + c ( 1 ∣ 2 ) p 2 P ( 1 ∣ 2 ) ECM=c(2|1)p_1P(2|1)+c(1|2)p_2P(1|2) ECM=c(21)p1P(21)+c(12)p2P(12)
        最小ECM需要三个比值:密度函数比,误判代价比(最富有实际意义)和先验概率比。
      • f 1 ( x ) f 2 ( x ) ≥ c ( 1 ∣ 2 ) p 2 c ( 2 ∣ 1 ) p 1 \frac{f_1(x)}{f_2(x)}\geq \frac{c(1|2)p_2}{c(2|1)p_1} f2(x)f1(x)c(21)p1c(12)p2将x判给 π 1 \pi_1 π1, f 1 ( x ) f 2 ( x ) < c ( 1 ∣ 2 ) p 2 c ( 2 ∣ 1 ) p 1 \frac{f_1(x)}{f_2(x)}< \frac{c(1|2)p_2}{c(2|1)p_1} f2(x)f1(x)<c(21)p1c(12)p2判给 π 2 \pi_2 π2
      • 当误判概率c相同或未知(假定相同),此时判别规则是将使总的误判概率(=ECM/c)达到最小,为最小总误判概率判别规则。
      • p 1 p 2 = c ( 1 ∣ 2 ) c ( 2 ∣ 1 ) \frac{p_1}{p_2}=\frac{c(1|2)}{c(2|1)} p2p1=c(21)c(12)时,一般p=0.5,判别规则是使平均误判概率达到最小,但未必是使总概率达到最小。
    • 两个正态组
      • 协差阵相等情形:

        a ′ ( x − μ ) ≥ l n [ c ( 1 ∣ 2 ) p 2 c ( 2 ∣ 1 ) p 1 ] a'(x-\mu)\geq ln[\frac{c(1|2)p_2}{c(2|1)p_1}] a(xμ)ln[c(21)p1c(12)p2]判x为 π 1 \pi_1 π1, a ′ ( x − μ ) < l n [ c ( 1 ∣ 2 ) p 2 c ( 2 ∣ 1 ) p 1 ] a'(x-\mu)< ln[\frac{c(1|2)p_2}{c(2|1)p_1}] a(xμ)<ln[c(21)p1c(12)p2]判x为 π 2 \pi_2 π2
        距离判别等价于正态组和协差阵相等时不考虑先验概率和误判代价的贝叶斯判别。
        在两组皆为正态组且协方差相等时,距离判别规则在使两个误判概率之和达到最小意义上是最优的

      • 协差阵不相等时

        d 2 ( x , π 1 ) − d 2 ( x , π 2 ) ≤ l n [ c ( 2 ∣ 1 ) p 1 ∣ Σ 2 ∣ 1 / 2 c ( 2 ∣ 1 ) p 1 ∣ Σ 1 ∣ 1 / 2 ] d^2(x,\pi_1)-d^2(x,\pi_2)\leq ln[\frac{c(2|1)p_1|\Sigma_2|^{1/2}}{c(2|1)p_1|\Sigma_1|^{1/2}}] d2(x,π1)d2(x,π2)ln[c(21)p1Σ11/2c(21)p1Σ21/2]判x为 π 1 \pi_1 π1,

        d 2 ( x , π 1 ) − d 2 ( x , π 2 ) ≤ l n [ c ( 2 ∣ 1 ) p 1 ∣ Σ 2 ∣ 1 / 2 c ( 2 ∣ 1 ) p 1 ∣ Σ 1 ∣ 1 / 2 ] d^2(x,\pi_1)-d^2(x,\pi_2)\leq ln[\frac{c(2|1)p_1|\Sigma_2|^{1/2}}{c(2|1)p_1|\Sigma_1|^{1/2}}] d2(x,π1)d2(x,π2)ln[c(21)p1Σ11/2c(21)p1Σ21/2]判x为 π 2 \pi_2 π2.
        先验概率与误判概率相同情况下,使得两个误判概率之和(平均误判概率)达到最小意义是最优的,二次函数相比于线性判别函数判别效果更依赖于多元正态性的假定

      • 误判代价是误判后果的数量表现
        最大后延概率法没有涉及误判代价,误判代价明显不同时不适宜

    • 多组情形
      • E C M = ∑ i = 1 k p i ∑ l = 1 , l ≠ i k c ( l ∣ i ) P ( l ∣ i ) ECM=\sum_{i=1}^kp_i\sum_{l=1,l\neq i}^k c(l|i)P(l|i) ECM=i=1kpil=1,l=ikc(li)P(li)
      • 因此判别规则是 min ⁡ 1 ≤ i ≤ k ∑ j = 1 , j ≠ i k p j c ( i ∣ j ) f j ( x ) \min_{1\leq i \leq k} \sum_{j=1,j\neq i}^k p_jc(i|j)f_j(x) min1ikj=1,j=ikpjc(ij)fj(x)
      • 误判代价均相同时: max ⁡ 1 ≤ i ≤ k p i f i ( x ) \max_{1\leq i \leq k} p_if_i(x) max1ikpifi(x)
        最大后验概率法可以看成是误判代价均相同的最小期望误判代价法

4.3 费希尔判别

  • 引言:判别变量为定量变量(也称间隔变量)

    除了分类,还可以分离,图形和代数方法描述差异性,费希尔判别用于此目的

    是否中心化都本质上都相同

  • 基本思想是投影,降维,用 x = ( x 1 , x 2 . . . x p ) ′ 的 少 数 几 个 线 性 组 合 y 1 = a 1 ′ x . . . y r = a r ′ x 代 替 p 个 变 量 达 到 降 维 目 的 x=(x_1,x_2...x_p)'的少数几个线性组合y_1=a_1'x...y_r=a_r'x代替p个变量达到降维目的 x=(x1,x2...xp)线y1=a1x...yr=arxp

    可用于分类也可用于分离,但在实际更多用于分离。

    有各组协方差矩阵 Σ \Sigma Σ相同的假定
    S S T R = a ′ H a S S E = a ′ E a SSTR=a'Ha\\ SSE=a'Ea SSTR=aHaSSE=aEa
    反映分离程度的量 Δ ( a ) = a ′ H a a ′ E a \Delta(a)=\frac{a'Ha}{a'Ea} Δ(a)=aEaaHa

    a’Spa=1,判别函数的联合样本方差为1,y2在线性意义上不重复y1中的信息

    E − 1 H E^{-1}H E1H的全部非0特征根

    费希尔第一线性判别函数 y = t 1 ′ x y=t_1'x y=t1x

    a i = t i 时 , Δ ( a i ) 到 达 最 大 值 λ i , 称 y i = t i ′ x 为 第 i 判 别 函 数 a_i=t_i时,\Delta(a_i)到达最大值\lambda_i,称y_i=t_i'x为第i判别函数 ai=ti,Δ(ai)λi,yi=tixi

  • 特点:

    1. 各判别函数都具有单位方差
    2. 各判别函数彼此不相关
    3. 判别函数方法一般并不正交,但作图时仍把他们画成直角坐标系
    4. 判别函数不受变量单位影响
    5. 这里只关心判别函数的分离各组的能力,对其变异性不感兴趣

    在低维空间分离的好,在高维空间也分离的好;反之未必

  • 判别规则:(分离时不涉及判别规则,只有在分类中才涉及)
    m i n ∣ y − y ‾ ∣ min|y-\overline{y}| minyy
    如果使用所有s个判别函数做判别,费希尔判别等价于距离判别,自然对各组皆为正态也等价于协方差矩阵相等且先验概率和误判代价均相等的贝叶斯判别
    r

第五章. 聚类分析

  • 聚类分析目的是把分类对象按一定规则分成若干类,事先未给定

  • 判别与聚类:

    判别分类中,组的数目是已知;聚类是未知的

    如果组不是已有的可以通过聚类探索,聚类效果可以通过费希尔判别函数散点图直觉上评估

  • Q型聚类分析:对样本

  • R型聚类分析:对变量

5.1 距离与相似系数

  • 间隔变量:连续的变量,也叫定量变量

  • 有序变量:等级制

  • 名义变量:类,无数量与等级关系

    有序和名义统称为定性变量,属性变量,分类变量

  • 距离

    • 实际上是一个不相似性的度量

    • 三个条件:非负性,对称性,三角不等式(但实际应用中经常主观指定距离,可能并不满足这三个条件)

    • (都需要间隔尺度)

      1.明考夫斯基距离 d ( x , y ) = [ ∑ i = 1 p ∣ x i − y i ∣ q ] 1 / q d(x,y)=[\sum_{i=1}^p|x_i-y_i|^q]^{1/q} d(x,y)=[i=1pxiyiq]1/q

      • q=1时绝对值距离,也是城市街区距离;
      • q=2,欧式距离,
      • q=∞,切比雪夫距离
      • 欧式距离对异常值敏感,但绝对值距离对异常值相对不太敏感,q越大,差值大的起的作用越大。
      1. 兰氏距离 d ( x , y ) = ∑ i = 1 p ∣ x i − y i ∣ x i + y i d(x,y)=\sum_{i=1}^p\frac{|x_i-y_i|}{x_i+y_i} d(x,y)=i=1pxi+yixiyi

        与各变量的单位无关,适用于高度倾斜或含有异常值的数据

      2. 马氏距离 d ( x , y ) = ( x − y ) ′ S − 1 ( x − y ) d(x,y)=\sqrt{(x-y)'S^{-1}(x-y)} d(x,y)=(xy)S1(xy)

        考虑了各变量之间的相关性,聚类过程中类一直变化使得协方差矩阵难以确定,不是理想的距离

  • 相似系数

    • 相似性的度量,有的时候是相似系数大小,有的时候是绝对值的大小

      1.夹角余弦

      2.相关系数

      可以度量变量之间的相似性,样品之间的相似性

5.2 系统聚类法

系统聚类法通过一系列相继的合并或相继的分割进行的,分为聚集(少集多)的和分割(多分少)两种,n不大的情景

  • 系统聚类法的性质:

    单调性

    最短距离法,最长距离法,类平均法,离差平方和法,可变法和可变类平均具有单调性;

    重心法,中间距离法不具有单调性

  • 最短距离法

    • 某一步D(m)中最小的元素不止一个,称为结;最短距离法容易产生结,且挑选长链聚类的倾向,链接倾向,不适合对分离很差群体聚类。
  • 最长距离法

    • 最长距离法算出的距离法被异常值过分夸大,容易被异常值严重扭曲
  • 类平均法

    • 比较好的系统聚类方法
  • 重心法

    • 在处理异常值方面更稳健,在别的方面不如类平均法与离差评分和法效果好
  • 中间距离法

  • 离差平方和法(ward方法)

    • D 2 = W m − W k − W l , W u = ∑ i ∈ G u ( x i − x ‾ u ) ′ ( x i − x ‾ u ) D^2=W_m-W_k-W_l,W_u=\sum_{i\in G_u}(x_i-\overline{x}_u)'(x_i-\overline{x}_u) D2=WmWkWl,Wu=iGu(xixu)(xixu)
      固定类内样品数,反映了各自类内样品的分散程度
      离差平方和优于重心法,比较好的系统聚类方法
      对异常值很敏感,可以将异常值影响放大许多倍数

5.3 动态聚类法

系统聚类中被错误分类的样品不提供重新分类的机会,而动态聚类法允许样品从一个类到另一个类

  • 动态聚类法:只能用于对样品的聚类,但不能用于对变量的聚类,Q型聚类
  • k均值法:对初值有一定敏感性。经验表明:聚类过程中绝大多数重要变化均发生在第一次再分配中

(补)注意的点:

  1. 变量数p=2或者3时,可通过观测散点图或旋转图从直观角度判断正规方法所做序列是否合适;
  2. 直接观察效果未必不如正规聚类方法;
  3. 类数目确定方法:给定阈值,观测散点图,使用统计量
  4. 最短,最长距离法,类平均法样品(Q型聚类)变量(R型聚类)聚类都可以使用
  5. 聚类个数为1时,不建议系统聚类或K均值法等正规聚类方法聚类

第六章. 主成分分析

定义:降维技术,用较少(不相关)变量代替大量相关变量的统计降维方法

应用:1)用少数几个主成分代替原始变量进行分析,因此需要对主成分给出符合实际背景意义的解释;
2)主成分只要达到目标的中间步骤:聚类,回归,评估正态性,寻找异常值,发现多重共线性,不必解释

是否中心化本质相同,

主成分不如原变量解释清楚

6.1 总体的主成分

∣ ∣ a 1 ∣ ∣ = 1 条 件 下 V ( y 1 ) = a 1 ′ Σ a 1 ||a_1||=1条件下V(y_1)=a_1'\Sigma a_1 a1=1V(y1)=a1Σa1达到最大,y1称为第一主成分

y2则应该信息与y1不重叠, 使 得 C o v ( y k , y i ) = 0 , ∣ ∣ a i ∣ ∣ = 1 且 V ( y i ) = a i ′ Σ a i 达 到 最 大 使得Cov(y_k,y_i)=0,||a_i||=1且V(y_i)=a_i'\Sigma a_i达到最大 使Cov(yk,yi)=0ai=1V(yi)=aiΣai

  • 主成分之间相互垂直,正交
  • y i = t i ′ x ( t i ′ 是 a i 满 足 条 件 下 取 的 值 ) 方 差 为 特 征 根 λ i y_i=t_i'x(t_i'是a_i满足条件下取的值)方差为特征根\lambda_i yi=tix(tiai)λi

6.2 主成分的性质

  • m个主成分对原始变量的贡献率
  • 原始变量对主成分的影响 y k = t 1 k x 1 + t 2 k x 2 + . . . + t p k x p , k = 1 , 2... , p y_k=t_{1k}x_1+t_{2k}x_2+...+t_{pk}x_p,k=1,2...,p yk=t1kx1+t2kx2+...+tpkxp,k=1,2...,p
    • t i k t_{ik} tik为第k主成分 y k y_k yk在第i个原始变量上的载荷,反映了xi对yk的重要程度.
    • 在考察载荷时,也需要考察相关系数。
    • 载荷从多变量的角度出发,相关系数从单变量角度,因而在从协方差矩阵出发是合适的场合下前者一般应更值得重视。相关系数同载荷同符号,成正比。(载荷更好
    • 大特征值的主成分与方差大的原始变量有密切联系,小特征值的主成分与方差小的原始变量有较强的联系。
    • 特征根(相对)非常小时说明存在多重共线性
  • 相关矩阵求解主成分
    • 两种情况不适合从协方差矩阵进行主成分:
    1. 单位不全相同;
    2. 方差差异较大。
    • 此时需要先进行标准化之后在进行求解,等价于相关矩阵R
    • 原始变量方差之间差异越大,相关矩阵和协方差贡献率之间差异越明显,标准化不是无关紧要的

6.3 样本的主成分

  • 用样本协方差矩阵与样本相关矩阵代替总体的进行求解;

样本主成分是使样本方差而非方差到达最大,是使样本协方差而非协方差为零

6.4 主成分分析的应用与注意问题

  • 样本n的大小

不涉及求逆,允许 n ≤ p n\leq p np,但不建议

  • 关于时间序列数据

相关性较强,不适合

  • 用于聚类分析
    • 目测法在主成分得分图上聚类(可以的,且不一定比专业的差,但一般只限于两个主成分的聚类)

    • 样品之间距离的计算主成分不如原始变量

    • 费希尔判别函数比主成分更适用于对聚类结果的图像评估:两个(或三个)费希尔判别得分构成的散点图能最大限度显示类之间的差别,但主成分得分构成的图形最大限度显现的是样品之间的差异,相对不太好。虽然主成分得分构成的散点图可以基本反映聚类效果,但效果逊色与费希尔判别

    • 但是费希尔判别函数得分图不适合聚类,它算是分类。

    • 不同时期的不能用主成分比较,也不能说明两个时期主成分分析都能成功

    • 定性数据问题:

      有序变量一般将其转化为间隔变量数据,再进行主成分分析;
      名义变量不能进行主成分分析

第七章. 因子分析

主成分推广与发展,目的用途与主成分类似

主成分与因子分析的区别:

  1. 主成分涉及的只是一般的变量交换,不能作为一个模型描述,且不需要任何假定;因子分析有一个因子模型,有关键性假定
  2. 主成分是原始变量的线性组合;但在因子分析中,原始变量是因子的线性组合,但因子却一般不能表示为原始变量的线性组合
  3. 主成分分析中强调的是少数几个主成分解释总方差,但在因子分析中强调的是少数几个因子取描述协方差或相关系数
  4. 主成分的解是唯一的,但因子分析的解可以有很多,较为灵活且在降维之后易得到解释
  5. 主成分不会因提取个数而变化,因子分析会变化

7.1 正交因子模型

x i = μ i + ∑ j a i j f j + ϵ i x_i=\mu_i+\sum_{j}a_{ij}f_j+\epsilon_i xi=μi+jaijfj+ϵi

  • 数学模型

    x = μ + A f + e 假 定 如 下 : E ( f ) = 0 E ( e ) = 0 V ( f ) = I V ( e ) = D = d i a g ( e 1 2 , e 2 2 . . . e n 2 ) C o v ( f , e ) = E ( f e ′ ) = 0 x=\mu+Af+e\\ 假定如下:\\ E(f)=0\\ E(e)=0\\ V(f)=I\\ V(e)=D=diag(e_1^2,e_2^2...e_n^2)\\ Cov(f,e)=E(fe')=0 x=μ+Af+eE(f)=0E(e)=0V(f)=IV(e)=D=diag(e12,e22...en2)Cov(f,e)=E(fe)=0

  • 解释:f是公共因子, a i j 是 x i 在 f j 上 的 载 荷 , 反 映 了 因 子 f j 对 变 量 x i 的 重 要 性 , A = ( a i j ) 是 因 子 载 荷 矩 阵 , ϵ 是 误 差 或 特 殊 因 子 , 模 型 为 正 交 因 子 模 型 a_{ij}是x_i在f_j上的载荷,反映了因子f_j对变量x_i的重要性,A=(a_{ij})是因子载荷矩阵,\epsilon是误差或特殊因子,模型为正交因子模型 aijxifjfjxiA=(aij)ϵ

  • 理解:
    公共因子互不相关,线性关系意义上信息互不重复;
    e与f1,f2,…fm都不相关
    协方差或相关系数与e都无关
    误差变异性难以控制,允许误差的方差不同

7.2 正交因子模型的性质

  • ∑=AA’+D
    模型不受单位的影响
    模型不是唯一的

7.3 因子载荷矩阵的统计意义

  1. A的元素

    C o v ( x , f ) = A , r ( x i , f j ) = C o v ( x i , f j ) = a i j Cov(x,f)=A, r(x_i,f_j)=Cov(x_i,f_j)=a_{ij} Cov(x,f)=A,r(xi,fj)=Cov(xi,fj)=aij

  2. A的行元素平方和

    σ i i = h i 2 + σ i 2 , h i 2 = ∑ a i j 2 σ_{ii}=h_i^2+σ_i^2,hi^2 =\sum a_{ij}^2 σii=hi2+σi2,hi2=aij2反映了公共因子对xi的影响,可以看出是公共因子f对xi的共性方差
    σi^2是特殊因子ei对xi的方差贡献,也称为特殊方差

  3. A的列元素平方和 g j 2 = ∑ i = 1 p a i j 2 g_j^2 =\sum_{i=1}^p a_{ij}^2 gj2=i=1paij2
    gj^2反映了公共因子fj对x的影响,衡量公共因子fj重要性的一个尺度,可以视为fj对x1…xp的总方差贡献。

  4. A的元素平方和
    tr(AA’)=∑hi^2
    tr(A’A)=∑gj^2

    这是f对总方差的累计贡献

    因子模型拟合得好,公共因子所解释方差占比较高(通常)

7.4 参数估计

主成分与主因子求解过程中确定因子数m,极大似然估计必须在求解之前确定m

因子数增加时,原来因子的估计载荷并不变的解有主成分解和主因子解

  • 主成分法
    • 是一种参数估计方法,不计算任何主成分,且旋转后因子解释与主成分明显不同
    • 主成分法和主成分分析:解释完全相同;但主成分法是参数估计方法,不计算任何主成分
  • 主因子法
    • R ∗ = R − D = A A ′ R^*=R-D=AA' R=RD=AA 约相关矩阵,对角线元素是 h i 2 h_i^2 hi2,而不是1,非对角线元素与R完全一样
      迭代主因子法,某些数据迭代是不收敛的,可能导致共性方差大于1
    • 需要指出 R ^ ∗ \hat{R}^* R^是非负定矩阵,但常常会有一些小的负特征根
      • 因子假设未必完全成立
      • 是相减得到的,估计误差可能使得非负定
    • 因子数增加时,原来的因子估计载荷不变,fi对x的总方差贡献不变g^2
    • 若从样本协方差矩阵S出发主因子解,可以将1/sii作为初始估计进行迭代,sii是S^{-1}的第i个对角线元素
    • 主成分法可以看做是特殊的主因子法
  • 极大似然法
    • 各因子所解释总方差比例未必像主成分解和主因子解得到的依次递减,且需要正态性假设,但离开正态性假定未必不可用,主要是残差矩阵接近于0

7.5 因子旋转

  • 因子是否易于解释,取决于因子载荷A的元素结构;
  • 为了改善因子解释时考虑因子旋转,每一列上的元素的绝对值尽量地大小拉开(注意:并非一定有利于因子的解释,可用于因子的聚类,提供了因子解释成功的更大可能性与更多机会
  • 经过正交旋转之后残差矩阵保持不变,主要是AA’不变的
  • 因子正交旋转不改变共性方差,累计贡献率
  • 因子载荷图中坐标轴是因子的取值

7.6 因子得分

  • 加权最小二乘法(无偏)
  • 回归法(更高精度,有偏,因此常用)

第八章. 对应分析

8.1 行轮廓与列轮廓

列联表

对应矩阵的元素和为1

行,列轮廓

8.2 独立性检验和总惯量

  • 行、列独立性检验(卡方检验)

    χ 2 [ ( p − 1 ) ( q − 1 ) ] = n ∑ i = 1 p ∑ j = 1 q ( p i j − p i . p . j ) 2 p i . p . j \chi^2[(p-1)(q-1)]=n\sum_{i=1}^p\sum_{j=1}^q\frac{(p_{ij}-p_{i.}p_{.j})^2}{p_{i.}p_{.j}} χ2[(p1)(q1)]=ni=1pj=1qpi.p.j(pijpi.p.j)2

  • 总惯量:行与列变量之间关联性的度量

    I = χ 2 n = ∑ i = 1 p ∑ j = 1 q ( p i j − p i . p . j ) 2 p i . p . j = ∑ i p i . ( r i − c ) ′ D c − 1 ( r i − c ) = ∑ j p . j ( c j − r ) ′ D r − 1 ( c j − r ) I=\frac{\chi^2}{n}=\sum_{i=1}^p\sum_{j=1}^q\frac{(p_{ij}-p_{i.}p_{.j})^2}{p_{i.}p_{.j}}=\sum_i p_{i.} (r_i-c)'D_{c}^{-1}(r_i-c)\\=\sum_j p_{.j} (c_j-r)'D_{r}^{-1}(c_j-r) I=nχ2=i=1pj=1qpi.p.j(pijpi.p.j)2=ipi.(ric)Dc1(ric)=jp.j(cjr)Dr1(cjr)

  • 总惯量可看成是行轮廓到其中心的卡方距离的加权平均,列轮廓到其中心的卡方距离的加权平均。度量行、列轮廓之间的总变差,行与列的关联性越强,轮廓之间的差异性就越大。

    • 总惯量为0的情况
      1.行列独立
      2.行轮廓相等
      3.列轮廓相等

8.3 行、列轮廓的坐标

各行点和列点在第i坐标轴上的坐标平方的加权平方等于i²,第i主惯量,度量在第i坐标轴上的变差,列联表数据在第i维上的信息量

各行点与各列点在每一坐标轴的中心都是0,且变差程度相同。

8.4 对应分析图

  • 行(列)相近,表明相应的两个行(列)轮廓越相近,如果两个行(列)点越接近(远离),两个行(列)轮廓越相似(不相似),但列点与行点之间的距离没有意义
  • 对于相近的行点与列点,离原点越远,说明关联性越强,其类别组合的实际频数越是明显高于两变量独立情形下的期望频数,如果在原点附近则其关联性弱,或者几乎无关联性
  • 考察关联性,不能值是比较原始评书大小

寻找列联表行与列之间关联的一种低维图形表示法

你可能感兴趣的:(概率论,算法,机器学习,矩阵,人工智能)