统计学习02:概率分布及正态分布

要点一:从直方图到概率密度图

1、直方图 histogram

  • 直方图是一种直观的,对数据分布情况的图形表示,如下图加入为某校随机抽取50位教师平均年龄


    histogram
  • 如上,直方图最主要的是矩形bins宽度的设置,对应的高度即代表数据在bins范围内的分布情况。
  • 直方图很好地反映了这组数据的分布情况,但换一组同类型数据(再抽50位老师)直方图很大可能存在差异,但大体分布情况相同。

针对分类变量的分布情况观察一般采用条形图bar chart(可认为等同于柱状图 column chart)展现

2、概率密度函数 probability distribution function,PDF!!划重点

  • 根据直方图分布,想象下,我们把bins宽度尽可能变小(实际上难以实现),然后尝试用一条曲线进行拟合。


    fit example1
  • 拟合分布情况曲线最主要的目的就是推而广之,从而描述/预测从总体中任意抽样样本分布情况。
  • 简单来说,概率密度函数就是这条曲线(y轴为概率变换,对应纵坐标除以数据总数)。用来描述一组数据范围中,随机变量在某个确定的取值点附近的可能性的函数。

概率密度函数可理解通过复杂的方程式里的关键的若干个参数约定曲线的形状与位置

  • 一般用f(x)表示


    fit example2
  • 通常所说的正态分布、二项分布、泊松分布等都是概率密度函数(也被称为概率分布函数),最主要的特征就是曲线下面积为1,即总概率一定为1
  • 拿到一组数据后,一般首先绘制数据的直方图与密度图(根据数据)。然后尝试寻找最合适的,已知公式的概率密度函数(形状固定)。而第二步往往就要基于足够的统计学知识的积累。


    6 Common Probability Distributions

3、累计分布函数 cumulative distribution function,CDF

  • 一般用F(x)表示
  • CDF:结合直观图形来看,就是用来描述在x点左侧事件发生的总和,所以从左到右,点的纵坐标从0到1。


    右图CDF
  • 从数学角度来看,PDF是CDF的微分(求导:CDF点的斜率值为PDF对应点的纵坐标);
    CDF是PDF的积分(面积:PDF点至左侧的线下面积为CDF对应点的纵坐标)


    CDF & PDF

以上重点还是介绍概率分布函数。主要目的是使用一条已知参数(确定分布)限制的曲线代表数据分布情况,用于后续深入的预测等研究。在下面结合最常见的概率分布模型说明确定分布的意义。

要点二:正态分布 Normal distribution

也称为高斯分布(Gaussian distribution)

1、基本特征 basic feature

函数
  • 作为一个函数密度函数,其函数方程如下图


    f(x)
  • 而一般只关注两个参数均值μ、标准差σ,因此常简记为下图形式


    f(x)

一般概率密度函数都采用这种简记方法,例如泊松分布poisson distribution:X ~ P(λ)

曲线
  • 正态分布的概率密度函数描述了围绕均值波动的一组数据分布情况,分布曲线呈钟形,因此人们又经常称之为钟形曲线。
  • 正态分布描述的分布情况确实是实际生活中最常见的一种分布,故称为normal,例如一般情况下的大学生身高情况,全班考试成绩等


    Normal Distribution
参数
  • 均值μ:位置参数,决定了曲线的基于X轴的位置;
  • 标准差σ:形状参数,想象下标准差越小,即数据变异越少,数据越集中在中间的均值,曲线就越瘦高。


    Normal Distribution Parameter

许多概率分布都有类似性质的参数,有的只有形状参数

分布规律

经前人总结一组符合正态分布的数据分布曲线线下面积:以均值为中心,

  • ±1σ面积为68.2%;
  • ±2σ面积为95.4%
  • ±3σ面积为99.7%
分布规律

当从均数往左右各1.96倍标准差时,左右两侧的面积之和为0.05%,即在一组符合正态分布的数据中(假设有100个),只有5个分布在该区域。这里先记住它,之后再学习P值时,还会用到这个知识点。

2、标准正态分布 Standardized Normal Distribution

特征
  • 简单来说均值为0,标准差为1的正态分布。
  • 其特殊之处在于:探寻正态分布的规律更加简单。
    均值为0,左右对应的x横坐标绝对值相等;
    标准差为1,横坐标1,2,3则直接表示1σ、2σ、3σ,例如可以说标准正态分部总,±2范围内面积为95.4%


    standardized mormal distribution
Z值转换
  • 任何一个正态分布都可以转换为标准正态分布,方法就是计算Z值


    Z score
  • 从公式来说:计算正态分布的数据与均值的差值,再与标准差的比。它反映了某个值x偏离均数μ的标准差倍数。


    transformation
  • 将数据转为标准正态分布后,观察数据分布位置更简单。例如若Z值大于1.96(<-1.96),则可以判断分布区域面积
    大于0.025(两侧即0.05)。


    probability of Z score

经常在统计检验结果中看到Z值,即指代转化为标准正态分布的结果。

3、中心极限定理central limit theorem,CLT

定义

假定有一个总体数据,如果从该总体中多次抽样,那么理论上,每次抽样所得的统计量(如均数)与总体参数应该差别不大,大致围绕在总体参数中心,并且呈正态分布。


central limit theorem
关键点
  • 无论原总体数据是什么分布,多次抽样的样本统计量都呈正态分布;
    注意是样本统计量,常见的就是均值。所以CLT描述的是统计量的分布,而不是原始数据的分布。
  • 抽样的样本量越大(一般样本量大于30),越容易得到一个接近总体参数的统计量。
    极端例子:把全部总体抽样,那么样本统计量=总体统计量

4、由正态分布衍生的常见分布

这里简单介绍下与正态分布有关的,几种常见分布。在后面的统计方法中会经常遇到。

4.1 t分布 t distribution
  • 简单理解:可以视为小样本的标准正态分布。
    对于一个符合正态分布的总体,抽样样本量大,即符合标准正态分布(Z值转换后);抽样样本量小时即符合t分布;

抽样样本量的大小有时对于统计结果影响很大,例如在之后假设检验的p值也十分受样本量影响

  • 如下图,t分布相对于标准正态分布来说,更扁平。
  • t分布的曲线形状主要受自由度(样本量-1)影响。自由度越小,t分布与标准正态分布偏离就越大。
    此前人们总结:当自由度=30时,t分布与标准正态分布就已经十分接近了。


    t distribubtion
  • 区别于标准正态分布的Z score相对固定的含义,t分布的t值含义随自由度变化而变化(计算公式不再记录,在学习t检验时再学习)
    例如n-1=5时,则右侧2.5%面积对应t值为2.57
    n-1=30时,则右侧2.5%面积对应t值为2.04,很接近1.96了
    更多可见前人以总结好的t分布表,网上很容易搜到,例如

由于一般生物实验设计样本数不会很多,因此t值计算相对于z值更有意义,也更常见。

4.2 χ2分布(卡方分布)
  • 简单理解:假设一组数据符合正态分布,那么转换为标准正态分布后,Z值的平方的分布情况就是自由度为1χ2分布。


    χ2分布
  • 根据上述解释,卡方分的一个特点就是非负性。

  • 若有n组独立的、均符合正态分布的数据,经Z值转换为标准正态分布。现从10组数据中分别抽取1个Z值,令x=这10个Z值平方的和。重复抽取、计算,得到一个新的x;一定次数后,则得到一组x数据,符合自由度为10的χ2分布。


    formula
  • 如上,卡方分布的参数为自由度。自由度越小,χ2越呈偏态分布;自由度越大,χ2偏态减小,趋于正态分布。

  • 因此不同自由度对应0.05面积的χ2值也不同。
    自由度=1,为3.84;
    自由度=2,为5.99;详见临界值表

4.3 F分布
  • F分布简单来说就是两个独立的卡方分布的比值的分布。


    F distribution
  • 因此F分布取决于两个自由度,即两个卡方分布的自由度:分子自由度m,分母自由度n。简记为F ~ Fm,n
  • 如下图,一般F分布为偏态分布,临界值表
    F distribution

综上t分布、卡方分布以及F分布均衍生自正态分布。t分布常用于均数的t检验;F分布常用于方差有关的统计检验;而卡方分布更多得用于分类资料的独立检验。而正态分布都是这些统计方法的基础,因此十分重要。

你可能感兴趣的:(统计学习02:概率分布及正态分布)