关于统计学的基本概念的自学笔记

No.1 方差、协方差、协方差矩阵

方差

  • 方差提供的是样本中数据与均值在数值上差距的情况信息,通俗的说就是样本数据集不集中。
    s2=ni=1(xix)2n1 s 2 = ∑ i = 1 n ( x i − x ¯ ) 2 n − 1

协方差

  • 协方差反映的是不同类型的两组样本数据之间的关系。
    例如:cov的值为正数,说明正相关-> x越怎样,y就越怎样;cov的值为负数,说明负相关:x越怎样,y就越不怎样;cov的值为0,则说明没有关系。

    cov(X,Y)=ni=1(xix¯)(yiy¯)n1 c o v ( X , Y ) = ∑ i = 1 n ( x i − x ¯ ) ( y i − y ¯ ) n − 1

  • 协方差矩阵则反映的是三个及以上的样本数据组之间的相关性信息。
    协方差矩阵主对角线上是方差信息,其他反映的是协方差信息,且各样本数据两两之间的相关信息均可以从协方差矩阵里面读出来。

    C=cov(x1,x1)cov(x2,x1)cov(x3,x1)cov(x1,x2)cov(x2,x2)cov(x3,x2)cov(x1,x3)cov(x2,x3)cov(x3,x3) C = { c o v ( x 1 , x 1 ) c o v ( x 1 , x 2 ) c o v ( x 1 , x 3 ) c o v ( x 2 , x 1 ) c o v ( x 2 , x 2 ) c o v ( x 2 , x 3 ) c o v ( x 3 , x 1 ) c o v ( x 3 , x 2 ) c o v ( x 3 , x 3 ) }

NO.2 主成分分析

先明白这几个概念:

  • 数据样本:具有p个采样所关心特性的一类事物的数值描述,例如:人的身高、体重、性别、居住地等特性的数据组合。那么一个人的这些数据的组合叫一个样本。每个特性就是一个变量,记为: Xi(i=1,2,3,,p) X i ( i = 1 , 2 , 3 , … , p ) ,每个 Xi X i 包含n个数据,n即为样本数据的个数。
  • 标准化指z_score规范化(正态化),即将原始数据处理成均值为0,方差为1的标准数据,此时 Xi X i 变为 Zi Z i 。方法如下:

    zij=xijxj¯σj(i,j=1,2,3,,n) z i j = x i j − x j ¯ σ j ( i , j = 1 , 2 , 3 , … , n )

    (1) xij x i j 表示第i个数据样本的第j个指标;
    (2) xj¯ x j ¯ 表示所有n个数据样本的第j个指标的值的平均值;
    (3 σj σ j 表示第j个指标的标准差;

  • 相关矩阵就是相关系数矩阵
    1.经标准化的样本数据 zij z i j 的协方差矩阵就是原始样本数据的相关矩阵 rij r i j ,其中 i,j=1,2,3,,p i , j = 1 , 2 , 3 , … , p ,计算协方差时,不再考虑n个样本数,而是考虑成 Zi Z i 变量之间的关系。
    2.相关矩阵是对称矩阵,其一定是满秩,故一定有p个特征值 λi(i=1,2,3,,p) λ i ( i = 1 , 2 , 3 , … , p ) ,p个特征向量 ei(i=1,2,3,,p) e i ( i = 1 , 2 , 3 , … , p ) ,即一个特征值对应一个特征向量。
    3.特征向量 ei=(ei1,ei2,,eij,,eip) e i = ( e i 1 , e i 2 , … , e i j , … , e i p ) ,其中 eij e i j 表示 ei e i 的第j维上的分量,满足 pj=1e2ij=1 ∑ j = 1 p e i j 2 = 1 ,即 ei=1 ‖ e i ‖ = 1 。(说明已经正交化)

主成分分析所关心的几个概念

  • 方差贡献率: λkpk=1λk λ k ∑ k = 1 p λ k 、累计方差贡献率: ik=1λkpk=1λk(i=1,2,3,,p) ∑ k = 1 i λ k ∑ k = 1 p λ k ( i = 1 , 2 , 3 , … , p )
    目的:为了确定综合变量个数m,取累计方差贡献>85%时候的个数

  • 主成分表达式: Yi=pj=1eijZj(i,j=1,2,3,,n) Y i = ∑ j = 1 p e i j ⋅ Z j ( i , j = 1 , 2 , 3 , … , n )

你可能感兴趣的:(统计)