统计学知识回顾(四)

目录

  • 线性回归
    • 平方误差
    • 公式推导
    • 决定系数
  • 协方差
  • 卡方分布
    • 皮尔逊卡方检验
    • 列联表卡方检验
  • 方差分析
    • F统计量假设检验
  • 因果性和相关性
  • 演绎推理

线性回归

平方误差

  • 每个点同直线的误差,也就是它到直线的竖直距离
  • 平方误差 S E l i n e = ∑ i = 1 n ( y i − ( m x i + b ) ) 2 SE_{line} = \sum_{i=1}^{n}(y_{i}-(mx_{i}+b))^{2} SEline=i=1n(yi(mxi+b))2
  • 可看作直线对这些点拟合程度的一种度量

公式推导

S E l i n e = ∑ i = 1 n y i 2 − 2 m x i y i − 2 b y i + m 2 x i 2 + 2 m b x i + b 2 SE_{line} = \sum_{i=1}^{n}y_{i}^{2}-2mx_{i}y_{i}-2by_{i}+m^{2}x_{i}^{2}+2mbx_{i}+b^{2} SEline=i=1nyi22mxiyi2byi+m2xi2+2mbxi+b2

∵ ∑ y i 2 n = y 2 ‾ , ∑ x i y i n = x y ‾ , ∑ x i 2 n = x 2 ‾ , ∑ x i n = x ‾ , ∑ y i n = y ‾ \because \frac{\sum y_{i}^{2}} {n} = \overline{y^{2}},\frac{\sum x_{i}y_{i}} {n} = \overline{xy},\frac{\sum x_{i}^{2}} {n} = \overline{x^{2}},\frac{\sum x_{i}} {n} = \overline{x},\frac{\sum y_{i}} {n} = \overline{y} nyi2=y2,nxiyi=xy,nxi2=x2,nxi=x,nyi=y

∴ S E l i n e = n y 2 ‾ − 2 m n x y ‾ + n m 2 x 2 ‾ − 2 b n y ˉ + 2 m n b x ˉ + n b 2 \therefore SE_{line} = n\overline{y^{2}}-2mn\overline{xy}+nm^{2}\overline{x^{2}}-2bn\bar{y}+2mnb\bar{x}+nb^{2} SEline=ny22mnxy+nm2x22bnyˉ+2mnbxˉ+nb2

假设 x , y x,y x,y均已知,这条方程就可以看成是 m , n , S E l i n e m,n,SE_{line} m,n,SEline值构成的曲面,其中

S E l i n e SE_{line} SEline为纵轴,最小化平方误差就是找出曲面的最低点,即找出对应的 m m m n n n。则

问题可转化为 ∂ S E l i n e ∂ m = 0 \frac{\partial SE_{line}} {\partial m}=0 mSEline=0 ∂ S E l i n e ∂ b = 0 \frac{\partial SE_{line}} {\partial b}=0 bSEline=0

∴ − 2 n x y ‾ + 2 m n x 2 ‾ + 2 b n x ˉ = 0 , − 2 n ˉ y + 2 m n x ˉ + 2 n b = 0 \therefore -2n\overline{xy}+2mn\overline{x^{2}}+2bn\bar{x}=0,-2n\bar{}y+2mn\bar{x}+2nb=0 2nxy+2mnx2+2bnxˉ=0,2nˉy+2mnxˉ+2nb=0

∴ − x y ‾ + m x 2 ‾ + b x ˉ = 0 , − y ˉ + m x ˉ + b = 0 \therefore -\overline{xy}+m\overline{x^{2}}+b\bar{x}=0,-\bar{y}+m\bar{x}+b=0 xy+mx2+bxˉ=0,yˉ+mxˉ+b=0

∴ m x 2 ‾ + b x ˉ = x y ‾ , m x ˉ + b = y ˉ \therefore m\overline{x^{2}}+b\bar{x}=\overline{xy},m\bar{x}+b=\bar{y} mx2+bxˉ=xy,mxˉ+b=yˉ

从第二个等式可以看出点 ( x ˉ , y ˉ ) (\bar{x},\bar{y}) (xˉ,yˉ)必然存在于最优直线上

而由第一个等式可知 m x 2 ‾ x ˉ + b = x y ‾ x ˉ m\frac{\overline{x^{2}}} {\bar{x}}+b=\frac{\overline{xy}}{\bar{x}} mxˉx2+b=xˉxy,便可得到最优直线上第二个点 ( x 2 ‾ x ˉ , x y ‾ x ˉ ) (\frac{\overline{x^{2}}} {\bar{x}},\frac{\overline{xy}}{\bar{x}}) (xˉx2,xˉxy)

求解方程得: m = x ˉ y ˉ − x y ‾ ( x ˉ ) 2 x 2 ‾ , b = y ˉ − m x ˉ = x y ‾ x ˉ − x 2 ‾ y ˉ x ˉ 2 − x 2 ‾ m=\frac{\bar{x}\bar{y}-\overline{xy}}{(\bar{x})^{2}\overline{x^{2}}},b=\bar{y}-m\bar{x}=\frac{\overline{xy} \bar{x}-\overline{x^{2}}\bar{y}}{\bar{x}^{2}-\overline{x^{2}}} m=(xˉ)2x2xˉyˉxy,b=yˉmxˉ=xˉ2x2xyxˉx2yˉ

决定系数

  • 内涵: y y y 的波动程度有多少百分比能被 x x x 的波动程度所描述
  • S E y ˉ SE_{\bar{y}} SEyˉ y y y 的总波动,即 y y y 的方差 * n n n
  • S E l i n e SE_{line} SEline:总波动中有多少百分比没有被回归线所描述
  • R-Squared:即决定系数—— 1 − S E l i n e S E y ˉ 1-\frac{SE_{line}}{SE_{\bar{y}}} 1SEyˉSEline
  • 所以如果直线的平方误差很小,意味着直线拟合的很好,此时R-Squared接近1;相反如果平方误差很大,则R-Squared就会接近于0

协方差

  • 定义:两随机变量离各自均值距离之积的期望值,同步程度决定协方差大小
  • C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] = x y ‾ − x ˉ y ˉ Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]=\overline{xy}-\bar{x}\bar{y} Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]=xyxˉyˉ,即回归线的斜率分子。所以回归线斜率也可以写成 C o v X , Y V a r ( X ) \frac{Cov{X,Y}}{Var(X)} Var(X)CovX,Y 的形式

卡方分布

  • 假设 X i X_{i} Xi~ N ( 0 , 1 ) , i = 1 , . . . , n N(0,1),i=1,...,n N(0,1)i=1,...,n,且互相独立。令变量 Q = ∑ i = 1 n X i 2 Q=\sum_{i=1}^{n}X_{i}^{2} Q=i=1nXi2,则 Q Q Q 服从自由度为 n n n 的卡方分布

皮尔逊卡方检验

  • 注意在计算每个独立的标准正态分布时需要标准化,分母为当个数据点的容量
  • 值得注意的是自由度的计算—— n 个数据点只有 n - 1 个自由度,因为根据 n - 1 个数据点可以推算出第 n 个数据的信息

列联表卡方检验

  • 列联表
Contingency Table Herb 1 Herb 2 Placebo Total
sick 20 30 30 80
Expected 25.3 29.4 25.3 21%
not sick 100 110 90 300
Expected 94.7 110.6 94.7 79%
Total 120 140 120 380
  • 自由度:(行数 - 1) * (列数 - 1)

方差分析

  • 定义:分析数据总波动有多少是由于组内波动造成,有多少是由于组外波动造成
  • SST:方差的分子部分,自由度为 m*n-1
  • SSW:组内平方和,即不同分组内数据对组均值差的平方和之和,自由度为 m*(n - 1),因为知道各组内 n - 1 个数据就可以求出第 n 个数据的值
  • SSB:组间平方和,内涵为总波动有多少是因为组均值之间的波动,即不同分组均值对总均值差的平方和,自由度为 m - 1,因为知道 m - 1 个组的均值就可以求出第 m 个组的均值
  • 从上述可以发现SST的自由度恰好等于SSB与SSW自由度之和,可以说明数据的总波动可以分解为两个分量的波动之和,一个是组内,一个是组间

F统计量假设检验

  • F统计量: S S B m − 1 \frac{SSB}{m-1} m1SSB/ S S W m ( n − 1 ) \frac{SSW}{m(n-1)} m(n1)SSW,如果分子比分母大很多,则说明波动大多数来自于各组之间

因果性和相关性

  • 存在因果关系则一定相关,但存在相关关系并不一定因果

演绎推理

  • 归纳推理:用已有信息进行趋势外推,趋势不一定继续;例如根据历史数据推测人口模式
  • 演绎推理:从事实出发演绎得到另一个事实,但知道事实肯定正确;例如解方程

你可能感兴趣的:(统计学知识回顾(四))