DataWhale概率统计3——常见分布与假设检验

5.1一般随机变量

5.1.1随机变量的两种类型

根据随机变量可能取值的个数分为离散型(取值有限)和连续性(取值无限)两类。

5.1.2离散型随机变量

对于离散型随机变量,使用概率质量函数(probability mass function),简称PMF,来变数其分布律。假定离散型随机变量X,共有n个取值,,那么

用到PMF的例子:二项分布,泊松分布

5.1.3连续型随机变量

对于连续型随机变量,使用概率密度函数(probability density function),简称PDF,来描述其分布情况。

连续型随机变量的特点在于取任何固定值的概率都为0,因此讨论其在特定值上的概率是没有意义的,应当讨论其在某一区间范围内的概率,这就用到了概率密度函数的概念。

假定连续型随机变量X,f(x)为概率密度函数,对于任意实数范围如[a,b],有

用到PDF的例子:均匀分布,正态分布,指数分布

对于连续型随机变量,通常还会用到累计分布函数(cumulative distribution function),简称CDF,来描述其性质,在数学上CDF是PDF的积分形式。

分布函数F(x)在点x处的函数值表示X落在区间(-∞,x]内的概率,所以分布函数就是定义域为R的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通函数的知识来研究概率问题,增大了概率的研究范围。

5.2常见分布

5.2.1离散型分布

5.2.1.1二项分布(Binomial distribution)

二项分布可以认为是一种只有两种结果(成功/失败)的单次试验重复多次后成功次数的分布概率。

二项分布需要满足以下条件:

1.试验次数是固定的;

2.每次试验都是独立的;

3.对于每次试验成功的概率都是一样的

一些二项分布的例子:

1.销售电话成功的次数

2.一批产品中有缺陷的产品数量

3.掷硬币正面朝上的次数

4.在一袋糖果中取糖果吃,拿到红色包装的次数

在n次试验中,单次试验成功率为p,失败率q=1-p,则出现成功次数的概率为

5.2.1.2泊松分布(Poisson distribution)

泊松分布是用来描述泊松试验的一种分布,满足以下两个特征的试验可以认为是泊松试验:

1.所考察的事件在任意两个长度相等的区间里发生一次的机会均等

2.所考察的事件在任何一个区间里发生与否和在其他区间里发生与否没有互相影响,即是独立的

泊松分布需要满足一些条件:

1.试验次数n趋向于无穷大

2.单次事件发生的概率p趋向于0

3.np是一个有限的数值

一些例子:

1.一定时间段内,某航空公司接到的订票电话数

2.一定时间内,到车站等候公交汽车的人数

3.一匹布上发现的瑕疵点的个数

4.一定页数的书刊上出现的错别字个数

一个服从泊松分布的随机变量X,在具有比率参数(rate parameter)  ()的一段固定时间间隔内,事件发生次数为i的概率为

5.2.1.3二项分布,泊松分布,正态分布的关系

这三个分布之间具有非常微妙的关联

当n很大,p很小时,如n>=100 and np<=10时,二项分布可以近似为泊松分布

当很大时,如>=1000时,泊松分布可以近似为正态分布。

当n很大时,np和n(1-p)都足够大时,如n>=100, np>=10,n(1-p)>=10 时,二项分布可以近似为正态分布

5.2.1.4其他离散型随机分布

除了二项分布和泊松分布以外,还有一些其他的不太常用的离散型分布

1.几何分布:考虑独立重复试验,几何分布描述的是经过k次试验才首次获得成功的概率,假定每次成功率为p

2.负二项分布:考虑独立重复试验,负二项分布描述的是试验一直进行到成功r次的概率,假定每次成功率为p

3.超几何分布:超几何分布描述的是在一个总数为N的总体中进行有放回的抽样,其中在总体中k个元素属于一组,剩余N-k个元素属于另一组,假定从总体中抽取n次,其中包含x个第一组的概率为

5.2.2连续型分布

5.2.2.1均匀分布

均匀分布是指一类在定义域内概率密度函数处处相等的统计分布

若X是服从区间[a,b]上的均匀分布,则记作X~U[a,b].

均匀分布的一些例子:

1.一个理想的随机数生成器

2.一个理想的圆盘以一定力度旋转后静止时的角度

5.2.2.2正态分布

正态分布又叫高斯分布,是最常见的统计分布之一,是一种对称的分布,概率密度函数呈现钟摆的形状。

正态分布的一些例子:

1.成人的身高

2.不同方向的气体分子的运动速度

3.测量物体质量时的误差

正态分布在现实生活中有非常多的例子,这一点可以从中心极限定理来解释,中心极限定理说的是一组独立分布的随机样本的平均值近似为正态分布,无论随机变量的总体符合何种分布。

5.2.2.3指数分布

指数分布通常被广泛用在描述一个特定事件繁盛所需要的时间,在指数分布随机变量的分布中,有着很少的大数值和非常多的小数值。

指数分布的一些例子

1.顾客到达一家店铺的时间间隔

2.从现在开始到发生地震的时间间隔

3.在产线上收到一个问题产品的时间间隔

关于指数分布还有一个有趣的性质:指数分布是无记忆性的,假定在等候事件发生的过程中,已经过了一些时间,此时距离下一次事件发生的时间间隔的分布情况和最开始是完全一样的,就好像中间等候的那一段时间完全没有发生一样,也不会对结果有任何的影响

5.2.2.4其他连续分布

分布

常用来描述某个事件总共要发生n次的等待时间的分布

威尔布分布

常用来描述在工程领域中某类具有‘最弱链’对象的寿命

5.3假设检验

5.3.1基本概念

假设检验问题是统计推断中的一类重要问题,在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特征,提出某些关于总体的假设,这类问题被称为假设检验。

5.3.2基本步骤

一个假设检验问题可以分为5步,无论细节如何变化,都一定会遵循这5个步骤。

1.陈述研究假设,包含原假设和备择假设:通常来说,我们会把原假设的描述写成变量之间不存在某种差异,或不存在某种关联,备择假设则为存在某种差异或关联。例如,原假设:男人和女人的平均身高没有差别,备择假设男人和女人的平均身高存在显著差别

2.为验证假设收集数据:为了统计检验的结果真实可靠,需要根据实际的假设命题从总体中抽取样本,要求抽样的数据要具有代表性,例如在上述男女平均身高的命题中,抽取样本要覆盖全面

3.构造合适的统计测试量并测试:统计检验量有很多种类,但是所有的统计检验都是基于组内方差和组间方差的比较,如果组间方差足够大,使得不同组之间几乎没有重叠,那么统计量会反映出一个非常小的P值,意味着不同组之间的差异不可能是由偶然性导致的

4.决定是接收还是拒绝原假设:基于统计量的结果做出接收或拒绝原假设的判断,通常我们会以P=0.05作为临界值(单侧检验)

5.展示结论

5.3.3统计量的选择

选择合适的统计量是进行假设检验的关键步骤,最常用的统计检验保罗回归检验,比较检验和关联检验三类

回归检验

回归检验适用于预测变量是数值型的情况,根据预测变量的数量和结果变量的类型又分为以下几种:

1.简单线性回归,预测变量:单个连续数值,结果变量:连续数值

2.多重线性回归,预测变量:多个连续数值,结果变量:连续数值

3.Logistic回归,预测变量:连续数值,结果变量:二元类别

比较检验

比较检验适用于预测变量是类别型,结果变量是数值型的情况,根据预测变量的分组数量和结果变量的数量又可以分为多种

关联检验

关联检验常用的只有卡方检验一种,适用于预测变量和结果变量均为类别型的情况

非参数检验

由于一般来说上述参数检验都需满足一些前提条件,样本之间独立,不同组的组内方差近似和数据满足正态性,所以当这些条件不满足时,我们可以用非参数检验来代替参数检验

5.3.4两类错误

当我们进行假设检验的过程中是存在犯错误的可能的,并且理论上来说错误是无法完全避免的。根据定义,错误分为两类,一类错误和二类错误

1.一类错误:拒绝真的原假设

2.二类错误:接受错误的原假设

一类错误可以通过α值来控制,在假设检验中选择的α(显著性水平)对一类错误有着直接影响。α可以认为是我们犯一类错误的最大可能性。以95%的置信水平为例,α=0.05,这意味着我们拒绝一个真的原假设的可能性是5%。从长期来看,每做20次假设检验会有一次犯一类错误的事件发生。

二类错误通常是由小样本或高样本方差导致的,二类错误的概率可以用β表示,和一类不一样的是,此类错误不能通过设置一个错误率来控制。对于二类错误,可以从功效的角度来估计,受限进行功效分析计算出功效值1-β,进而得到二类错误的估计值β。

一般来说这两类错误是无法同时降低的,在降低犯一类错误的前提下会增加犯二类错误的可能性,在实际案例中如何平衡着两类错误取决于我们更能接受一类错误还是二类错误。

你可能感兴趣的:(DataWhale概率统计3——常见分布与假设检验)