统计学基础

机器学习,深度学习中的统计学基础,注意是基础!!!
up阶段性学习整理自用,可能不是那么严谨,各位看个乐子

一、大数定律与中心极限定理

1.1 大数法则

在随机事件的大量重复出现中,往往呈现几乎必然的规律,这类规律就是大数法则。在实验不变的条件下,重复实验多次,随机事件的出现次数近似于它的概率。简单地说,把频率当做概率。

1.2 小数法则

小数法则不是定律或法则,而是一种常见的心理误区。就是这一次的实验结果会受到上一次实验的影响。比如,玩抛硬币游戏,连续五次结果都是正面,会有很多人倾向于猜测下一次抛硬币反面概率比正面大,这就是小数法则带来的心理误区。

由于每一次都是独立的实验,下一次的概率并不会受前几次的结果影响。

1.3 中心极限定理

中心极限定理是指,随机变量序列的部分和分布,渐近于正态分布,或者说大量随机变量的分布趋近于正态分布。

含义:大量(n->∞)、独立、同分布的随机变量之和,近似服从于一维的正态分布。

通俗的讲:中心极限定理指的是给定一个随机分布的总体。每次从这些总体中随机抽取n个样本,一共抽取m次。然后把这m组样本分别求出平均值。这些平均值的分布接近正态分布。服从 x ‾ ∽ N ( μ , ( σ n ) 2 ) {\overline x}\backsim N\bigg(\mu, \big(\frac{\sigma}{\sqrt n}\big)^2\bigg) xN(μ,(n σ)2)

二、参数估计

统计推断是依据从总体中抽取的一个简单随机样本对总体进行分析和判断。统计推断的基本问题可以分为两大类,一类是参数估计问题,一类是假设检验问题。
点估计和区间估计的核心思想分别是离散和连续

2.1 参数的点估计

点估计问题就是要构造一个只依赖于样本的量,作为未知参数或者未知参数函数的估计值。构造点估计常用方法:

  1. 矩估计法,样本矩估计总体矩
  2. 最大似然估计法。利用样本分布密度函数构造似然函数来求出参数的最大似然估计
  3. 最小二乘法。主要用于线性统计模型中的参数估计问题
  4. 贝叶斯估计法
  • 对估计的评估
    1. 无偏性:对同一个总体反复抽样多次,要求各个样本所得出的估计量(统计量)的平均值等于总体参数,符合这样要求的估计量称为无偏估计量。 如果 E ( θ ^ ) = θ ^ 那么我们称 θ ^ 是无偏估计 如果E(\hat \theta) = \hat \theta那么我们称\hat \theta是无偏估计 如果E(θ^)=θ^那么我们称θ^是无偏估计
  1. 有效性:也称为最小方差性,指的是估计量在所有无偏估计量中具有最小方差。估计量与总体之间必然存在一定误差,衡量这个误差大小的一个指标就是方差,方差越小,估计量对这个整体的估计也就越准确,这个估计量就越有效。
  2. 一致性:一致性是指随着样本量的增大,估计量的值越来越接近被估计的总体参数。如果一个估计量是一个一致估计量,那么样本容量越大代表性就越好,估计的可靠性就越高。如果不是一致估计量,增大样本容量则不会提高其代表性。

2.2 参数的区间估计

区间估计实在点估计的基础上,给一个合理的取值范围。

范围具有多大的可信度则用置信区间来衡量,一般用1-α表示。如果α取0.05,则置信水平为0.95,即95%的把握。α指的是显著性水平。

三、统计量和抽样分布

3.1 统计量

用于评估总体中各个样本情况的适当样本函数称为统计量,我们可以通过这些样本函数进行统计推断。

简单的统计量有样本均值,众数,中位数,四分位数,样本方差,标准差等等。
除此之外还有基于抽样本分的统计量,z值,t值,f值和卡方值

3.2 抽样分布

我们通过抽样的方式,从容量为N的整体中多次取出容量为n个个体的样本,通过n的某个统计量的情况来预估总体的情况,就叫做抽样分布。

3.2.1 正态分布和z分布

样本量足够大时是正态分布,不够大是t分布

正态分布又称高斯分布。统计量z值又称标准分数。通过 ( x − μ ) σ \frac{(x-\mu)}{\sigma} σ(xμ)
将两组或多组数据转化为无单位的Z score分值,是的数据标准统一化,提高了数据的可比性,削弱了数据解释性。z值的量代表了实测值和总体均值之间的距离,以标准差为单位计算。大于平均数的实测值会得到一个正数的值,小于平均是的实测值会得到一个负数的值。

根据中心极限定理,当样本量足够大时(一般大于30),从总体中多次抽样得到的均值服从正态分布: x ‾ ∽ N ( μ , ( σ n ) 2 ) {\overline x}\backsim N\bigg(\mu, \big(\frac{\sigma}{\sqrt n}\big)^2\bigg) xN(μ,(n σ)2)
将这个分布求z值得到的z分布服从标准正态分布 z = x ‾ − μ σ n z=\frac{\overline x-\mu}{\frac{\sigma}{\sqrt n}} z=n σxμ

3.2.2 t分布

在z分布中,这个总体标准差σ往往很难得到,不得已需要用样本标准差s来代替,这时候得到的t统计量就服从t分布,即
t = x ‾ − μ s n ∽ t ( n − 1 ) t=\frac{\overline{x}-\mu}{\frac{s}{\sqrt n}} \backsim t(n-1) t=n sxμt(n1)
t分布的概率密度函数如图。
统计学基础_第1张图片

我们发现,当样本量接近30时,t分布逐渐开始接近标准正态分布(中心极限定理)。因此,t分布被广泛使用,因为不管对于小样本还是大样本来说都是正确的,而正态分布只针对大样本(样本超过30)。在实际使用中,我们通常都使用t检验,相较于正态分布,t分布特点是尖峰肥尾。t分布可以很好消除异常值带来的标准差波动。
t分布可以看成是升级之后的正态分布。

3.2.3 卡方分布

  1. 定义:设随机变量均服从正态分布 X 1 , X 2 , . . . , X n ∽ N ( 0 , 1 ) X_1,X_2,...,X_n\backsim N(0,1) X1,X2,...,XnN(0,1)且相互独立,记 χ 2 = X 1 2 + X 2 2 + ⋅ ⋅ ⋅ + X n 2 \chi^2=X_1^2+X_2^2+···+X_n^2 χ2=X12+X22+⋅⋅⋅+Xn2则称随机变量 χ 2 \chi^2 χ2服从自由度为n的卡方分布, χ 2 ( n ) \chi^2(n) χ2(n)

  2. 概率密度函数统计学基础_第2张图片

  3. 推论 ( n − 1 ) s 2 σ 2 ∽ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\backsim \chi^2(n-1) σ2(n1)s2χ2(n1)
    样本方差 s 2 s^2 s2乘上自由度n-1,再除以总体方差 σ 2 \sigma^2 σ2,服从 χ 2 ( n − 1 ) \chi^2(n-1) χ2(n1)

  • 符号说明:
    总体均值: μ \mu μ
    总体方差: σ 2 \sigma^2 σ2
    样本均值: x ‾ \overline{x} x
  1. 统计量 χ 2 \chi^2 χ2
    • 残差:假设O代表某样本中某个类别的观察频数,E为期望频数,O与E之差称为残差。所以对于多个观察值,只要将这些残差平方相加,得到的数值就是 χ 2 \chi^2 χ2值。 χ 2 \chi^2 χ2服从卡方分布。
      χ 2 = ∑ ( O − E ) 2 E \chi^2=\sum\frac{(O-E)^2}{E} χ2=E(OE)2上面统计量卡方值的计算方法与样本方差的计算方法类似,实际上,样本方差的抽样分布都将趋于卡方分布,严格来讲就是之前提到的推论。
      从卡方分布图就可以看出,卡方值都是正值,呈右偏态,随着自由度k的增大,其分布趋于正态分布。(卡方分布的极限就是正态分布)

3.2.4 F分布

  1. 定义:设随机变量U,V相互独立,且服从卡方分布,即 U ∽ χ 2 ( n 1 ) U\backsim \chi^2(n_1) Uχ2(n1), V ∽ χ 2 ( n 2 ) V\backsim \chi^2(n_2) Vχ2(n2)
    则称随机变量 F = U n 1 V n 2 F=\frac{\frac{U}{n_1}}{\frac{V}{n_2}} F=n2Vn1U 服从自由度为(n1,n2)的F分布,记为 F ∽ F ( n 1 . n 2 ) F\backsim F(n_1.n_2) FF(n1.n2)

  2. 概率密度函数统计学基础_第3张图片

    F分布的概率密度函数图像随 n 1 , n 2 n_1,n_2 n1,n2取值不同而不同。

  3. 统计量f值:将多个样本之间的方差(组间方差)除以样本内部的方差(组内方差)得出的比率称为F值,F值服从F分布。

    1. 计算公式 F = ∑ n k ( x k ‾ − x g ) 2 k − 1 x i − x k N − k F=\frac{\frac{\sum n_k(\overline {x_k}-x_g)^2}{k-1}}{\frac{x_i-x_k}{N-k}} F=Nkxixkk1nk(xkxg)2其中,x_G是总均值, x G = x 1 + x 2 + ⋅ ⋅ ⋅ + x n N x_G=\frac{x_1+x_2+···+x_n}{N} xG=Nx1+x2+⋅⋅⋅+xn,k是样本数量,N是k个样本的总观察值的数量
      如果组间方差和组内方差相差不大,那么F值应该在1附近,说明这些样本的均值是一致的;如果F值远远大于1,那么说明不是所有的样本均值都是一致的。
      2. F统计值的计算:
      1. 把n组数据放在一起,看成一个总体,算出这个总体的均值 μ ^ \hat \mu μ^
      2. 计算出每组数据的组内均值: μ ^ 1 , μ ^ 2 , . . . , μ ^ n \hat \mu_1,\hat \mu_2,...,\hat \mu_n μ^1,μ^2,...,μ^n
      3. 计算出组间差异 s s b = n 1 ( μ ^ 1 − μ ^ ) 2 + n 2 ( μ ^ 2 − μ ^ ) 2 + ⋅ ⋅ ⋅ + n n ( μ ^ n − μ ^ ) 2 ssb = n_1(\hat \mu_1-\hat \mu)^2+n_2(\hat \mu_2-\hat \mu)^2+···+n_n(\hat \mu_n-\hat \mu)^2 ssb=n1(μ^1μ^)2+n2(μ^2μ^)2+⋅⋅⋅+nn(μ^nμ^)2
      4. 计算组内差异 s s w = ∑ i = 1 n 1 ( x i − μ ^ 1 ) 2 + ∑ i = 1 n 2 ( y i − μ ^ 2 ) 2 + ⋅ ⋅ ⋅ ssw = \sum^{n_1}_{i=1}(x_i-\hat\mu_1)^2+\sum^{n_2}_{i=1}(y_i-\hat\mu_2)^2+··· ssw=i=1n1(xiμ^1)2+i=1n2(yiμ^2)2+⋅⋅⋅
      5. 计算F值: F = s s b n − 1 s s w m − n ∽ F ( n − 1 , m − n ) F=\frac{\frac{ssb}{n-1}}{\frac{ssw}{m-n}} \backsim F(n-1,m-n) F=mnsswn1ssbF(n1,mn)
      3. 作用:F值可以检验样本是否来自一个整体

3.2.5 小结

  • 样本均值和样本标准差的比值趋于t分布
  • 样本均值在样本量大于30时,将趋于正态分布
  • 样本方差的抽样分布将趋于卡方分布
  • 多个样本之间的方差(组间方差)除以样本内部的方差(组内方差)服从f分布
  • 可以看出,样本均值与t分布和正态分布相关,样本方差与卡方分布和f分布相关

研究样本均值的统计量是z值,t值
研究样本方差的统计量是f值和 χ 2 \chi^2 χ2

四、假设检验

  • 假设检验和参数估计的目的都是为了根据样本求总体的参数,但是思想正好相反。如果把参数估计看成正推,即根据样本推测总体,那么假设检验就是反正,即先在总体上作某项假设,再从总体中随机抽取的一个样本来检验假设是否成立。

  • 假设检验依据小概率思想,即小概率事件在一次试验中基本不会发生。如果样本拒绝该假设,那么我们说该假设检验结果具有统计显著性。

  • 一项检验结果在统计上是显著的,意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的,而是设立的假设错误。

4.1 假设检验常见术语

  1. 零假设:原假设,通常记为H0

  2. 备择假设:试验者想收集证据予以支持的假设

  3. 双尾检验:备择假设没有特定方向性统计学基础_第4张图片

  4. 单尾检验:单尾检验分为左单侧检验和右单侧检验

    1. 左单侧检验:考虑总体均值是否低于预先假设统计学基础_第5张图片

    2. 右单侧检验:考虑总体均值是否高于预先假设统计学基础_第6张图片

  5. 第一类错误(弃真错误):零假设为真时错误地拒绝了零假设。犯第一类错误的最大概率记为α。

  6. 第二类错误(存伪错误):零假设为假时错误地接受了零假设。犯第二类错误的最大概率记为β。

  7. 显著性水平:零假设为真时,错误拒绝零假设的临界概率,即犯第一类错误的最大概率,用α表示。显著性水平一般根据正态分布的经验法则(68%,95%,99%)进行选取,通常选α为1-95%,也就是α=5%。

  8. 置信度:置信区间包含总体参数的确信程度,即1-α。

  9. 置信区间:包含总体参数的随机区间

  10. 功效:正确拒绝零假设的概率,即1-β。当检验结果是不能拒绝零假设,人们又需要进行决策时,需要关注功效。功效越大,犯第二类错误的可能性就越小。

  11. 临界值:与检验统计量的具体值进行比较的值。实在概率密度分布图上的分位数。这个分位数在实际计算中比较麻烦,需要对数据分布的密度函数积分来获得。

  12. 临界区域:拒绝原假设的检验统计量的取值范围,也称拒绝域。是由一组临界值组成的区域。如果检验统计量在拒绝域内,那么我们拒绝原假设。

4.2 假设检验的一般步骤

  1. 定义总体
  2. 确定原假设和备择假设
  3. 选择检验统计量(根据研究对象确定用哪种统计量进行研究:z值,t值,f值还是 χ 2 \chi^2 χ2
  4. 选择显著性水平α(一般约定俗成的定义为0.05)
  5. 从总体进行抽样,得到一定的数据
  6. 根据样本数据计算检验统计量的具体值
  7. 依据所构造的检验统计量的抽样分布和显著性水平,确定临界值和拒绝域
  8. 比较检验统计量的值域临界值,如果检验统计量的值在拒绝域内,则拒绝原假设
  • 案例分析
    统计学基础_第7张图片

4.3 假设检验决策标准

  • P值
    • 对于两个数据比较相近的的假设检验,我们无法知道哪一个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样犯第一类错误的最大概率,而无法知道具体在多大概率水平上犯错。故而引入P值解决这个问题。
    • P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量算出来的。通过直接比较P值与给定的显著性水平α大小就可以知道是否拒绝原假设。通过这种方法我们还可以知道P值小于α的情况下犯第一类错误的实际概率是多少。加入P=0.03<α(0.05),那么拒绝假设,这一决策可能犯错的概率就是0.03.
    • 因此,假设7,8步可以改成
        1. 利用检验统计量的具体值计算p值
        1. 将给定的显著性水平与p值比较,作出结论:如果p值<=α,则拒绝原假设。

4.4 假设检验的种类

4.4.1 z检验

  1. 定义:z检验用于比较样本和总体的均值是否不同,或者两个样本的均值是否不同。检验统计量z值的分布服从正态分布。
  2. 使用条件:需要事先知道总体标准差。另外根据中心极限定理,如果总体不服从正态分布,那么样本量需要大于等于30,如果总体服从正态分布,那么对样本量没有要求。由于总体标准差一般都是位置的,并且z检验只适合大样本的情况,而t检验同时适用于大样本和小样本的情况,因此t检验使用较多
  3. 步骤:假设检验步骤的第7,8可以改成:
    7. 利用检验统计量的具体值计算p值
    8. 将和给定的显著性水平α与p值比较,作出结论:如果p value < α,则拒绝原假设

4.4.2 t 检验

  1. 定义:与z检验一样,用于比较样本和总体均值是否不同,或者两个样本的均值是否不同。检验统计量t值的分布服从t分布。
  2. 使用条件:t检验事先可以不知道总体标准差,因为可以用样本方差进行代替。可分为配对样本t检验,单样本t检验和两独立样本t检验三种类型。
  3. 参考资料:一文详解t检验 - 知乎 (zhihu.com)

4.4.3 卡方检验

  1. 定义:卡方检验是非参数检验,因此不需要有总体服从正态分布的假设。卡方检验主要是对两个或以上样本率(构成比)以及两个分类变量的关联性分析进行比对。简单说,卡方检验就是检验两个变量之间有没有关系。根本思想基于大数定律,就是比较理论频数和实际频数的温和程度或者拟合优度问题。
  2. 主要用途:卡方检验分为拟合优度检验和独立性检验。
  3. 拟合优度检验:用样本中各个变量的观察频数与期望频数进行比较,来检验总体的经验概率分布是否服从理论概率分布。换句话说,他将多个观察到的比例与预期概率进行比较,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大越不符合,越小越符合。若两个值完全相等,卡方值就为0,表明实际观测值与理论推断值完全符合。
  4. 独立性检验:用样本中各个变量的观察频数与期望频数进行比较,使用列联表,即两个分类变量形成的频率表来检验样本中两个类别型变量是否相互独立。
  • 注意:之前的z检验和t检验的是数值型数据(例如检验均值),而卡方检验时检验类别型数据(例如检验样本中两个类别型变量是否相互独立)

4.4.4 F检验

  1. 方差齐性检验
    1. 定义:从两个不同总体抽取出的样本的方差进行比较,来检验两个总体的方差是否相同
    2. 公式: F = s 1 2 s 2 2 F=\frac{s_1^2}{s_2^2} F=s22s12
  2. 方差分析
    1. 定义:从两个或两个以上不同总体,抽取出的样本的组内方差和组间方差进行比较,来检验多个总体均值的差异性。又分为单因素方差分析和多因素方差分析。
    2. 公式: F = ∑ n k ( x k − x G ) 2 k − 1 ∑ ( x i − x k ) 2 N − k F=\frac{\frac{\sum n_k(x_k-x_G)^2}{k-1}}{\frac{\sum(x_i-x_k)^2}{N-k}} F=Nk(xixk)2k1nk(xkxG)2

五、相关性分析

5.1 回归分析基础概念

  • 数量关系归纳起来可以分为两种:函数关系(确定性)、相关关系(不确定性)

  • 函数关系:现象建存在一一对应的确定关系。

  • 相关关系:现象之间存在的非确定性的数量依存关系
    统计学基础_第8张图片

  • 相关关系与函数关系的关系:现实中由于存在观察误差和测量误差,函数关系通过相关关系表现;研究相关关系需要利用函数关系作为工具。

5.2 皮尔森相关系数及其假设检验

  1. 用于总体时:
    记作 ρ \rho ρ 给定两个随机变量X,Y, ρ \rho ρ 的公式为 ρ X , Y = c o v ( X , Y ) σ X σ Y \rho_{X,Y}=\frac{cov(X,Y)}{\sigma_X\sigma_Y} ρX,Y=σXσYcov(X,Y)其中cov(X,Y)是X,Y的协方差, σ X \sigma_X σX 是X的标准差, σ Y \sigma_Y σY 是Y的标准差
  2. 用于样本时:
    记作r,给定两个随机变量X,Y,r的公式为 r = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ) ∑ i = 1 n ( X i − X ) 2 ∑ i = 1 n ( Y i − Y ) 2 r=\frac{\sum_{i=1}^n(X_i-\overline X)(Y_i-Y)}{\sqrt{\sum^n_{i=1}(X_i-X)^2}\sqrt{\sum^n_{i=1}(Y_i-Y)^2}} r=i=1n(XiX)2 i=1n(YiY)2 i=1n(XiX)(YiY)其中n是样本数量,Xi,Yi是变量X,Y对应的i点观测值,X是X样本的平均数,Y是Y样本的平均数。
  3. 协方差:统计学上用方差和标准差来度量数据的离散程度,但是方差和标准差是用于描述一维数据的,现实生活照常常会碰到多维数据,因此协方差被发明出来度量两个随机变量之间的关系。我们仿照方差的公式来定义协方差。
  4. ρ \rho ρ 的意义: ρ \rho ρ 的取值在-1到1之间。
    1. 取值为1表示两个随机变量之间呈现完全正相关关系;
    2. 取值-1表示两个随机变量呈现完全负相关;
    3. 取值为0表示两个随机变量之间无线性关系。统计学基础_第9张图片

5.3判断p值显著的假设检验

  1. 提出原假设和备择假设
    假设我们计算出一个皮尔逊相关系数r,我们想检验一下是否显著地异于0。那么我们可以这样设定原假设和备择假设 H 0 : r = 0 , H 1 : r ≠ 0 H_0:r=0,H_1:r\neq0 H0:r=0,H1:r=0

  2. 构造统计量
    在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计量。这里分布一般有四种:标准正态分布、t分布、 χ 2 \chi^2 χ2 分布和f分布。对于皮尔逊相关系数r而言,在满足一定条件下,我们可以构建统计量: t = r n − 2 1 − r 2 t=r\sqrt{\frac{n-2}{1-r^2}} t=r1r2n2 可以证明t是服从自由度为n-2的t分布,即 t ∽ t ( n − 2 ) t\backsim t(n-2) tt(n2)

  3. 将要检验的值代入,得到检验值
    将要检验的值代入这个统计量中,可以得到一个特定的值(检验值),例如我们计算出关系系数为0.5,n=30,那么我们可以得到 t ∗ = 0.5 ∗ 30 − 2 1 − 0. 5 2 = 3.05505 t^*=0.5*\sqrt{\frac{30-2}{1-0.5^2}}=3.05505 t=0.510.52302 =3.05505

  4. 画出概率密度函数,给出置信水平,找到临界并画出接受与和拒绝域
    由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平通过查表找到临界值,并画出检验统计量的接受与和拒绝域。
    常见置信水平有三个:90%,95%,99%,其中95%是最常用的。
    因为这里是双侧检测,所以我们需要找出能覆盖0.95的概率的部分。查表可知,对应临界值为2.048,因此我们可以做出接受域和拒绝域。
    例如我们知道上述统计量服从自由度为28的t分布,其概率密度函数图形如下。统计学基础_第10张图片

  5. 判断接受还是拒绝原假设,并得出结论
    看计算出来的检验值是落在了接受域还是拒绝域,并下结论。
    因为我们得到的 t ∗ = 3.05505 > 2.048 t^*=3.05505>2.048 t=3.05505>2.048 因此得到以下结论,在95%置信水平上,我们拒绝原假设H0:r=0,因此r是显著不为0的

5.4 斯皮尔曼等级系数

对不符合正态分布的统计量进行相关性检测。

用数据的大小顺序来代替数值本身。连续数据满足正态分布,判断是否具有线性的相关性的时候使用皮尔逊相关系数较为合适,如果不满足条件的话,我们应该使用斯皮尔曼相关系数。

  • 注意:两个变量之间的相关关系并不意味着它们之间的因果关系,可能有另一个(或多个)变量与这个两个变量相关,而正式这个变量对它们都有因果影响。

你可能感兴趣的:(机器学习,概率论,算法)