《概论-浙大第4版-第六章》

样本及抽样分布

前面的五章学习和研究的都是概率论的知识,接下来的四章将学习和研究数理统计的知识。

数理统计以概率论为理论基础。根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。

数理统计是机器学习的许多交叉学科之一,其统计学的思想对机器学习的许多算法设计提供了很大的理论支撑。好好的学习数理统计对入门机器学习有着很好的帮助。

概率论研究的随机变量X都是事先知道其总体分布的,而数理统计就是对一个未知总体分布的随机变量进行研究和学习,通过实验来求得其总体分布。

 

一、随机样本

1、基本概念:

  • 总体:试验中某个指标的全部可能的观察值,一个总体就是一个随机变量。
  • 个体:每个可能观察值。
  • 容量:总体中所包含的个体的个数。
  • 有限总体:容量有限的总体。
  • 无限总体:容量无线的总体。

2、简单随机样本

  • 定义:从总体中随机的抽出相互独立的个体X1,X2,...,Xn。

3、样本值

  • 定义:上述简单随机样本的观察值。

《概论-浙大第4版-第六章》_第1张图片

二、直方图和箱线图

为了更好的研究总体分布的性质,通过将试验得到的观察值数据加以整理,借助表格或者图形等可视化的工具来展示出来。

1、直方图

  • 频率直方图

2、箱线图

  • 样本分位数
  • 箱线图
  • 疑似异常值(机器学习有专门的算法来检测和移除异常数据)

三、抽样分布

样本是进行统计推断的依据,在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推理。

1、基本概念:

  • 统计量:

  • 样本平均值:
  • 样本方差:
  • 样本标准差
  • 样本k阶(原点)矩
  • 样本k阶中心距

2、经验分布函数

根据样本来估总体随便变量的分布函数,有点类似于机器学习中的最大似然估计之类的。

《概论-浙大第4版-第六章》_第2张图片

3、正态总体的几个常见统计量的分布:

统计量的分布成为抽样分布,也就是抽样样本的分布。

(1)\chi ^{2}分布

《概论-浙大第4版-第六章》_第3张图片

  • 定义:
  • 分布的可加性
  • 分布的数学期望和方差
  • 分布的分为点

(2)t分布

《概论-浙大第4版-第六章》_第4张图片

  • 定义:
  • 分布的分为点:

(3)F分布

《概论-浙大第4版-第六章》_第5张图片

  • 定义:
  • 分布的分为点:

(4)正太总体的样本均值与样本方差的分布

  • 定理一
  • 定理二
  • 定理三
  • 定理四

 

你可能感兴趣的:(概率论)