【概率论】5-3:超几何分布(The Hypergeomtric Distribution)


title: 【概率论】5-3:超几何分布(The Hypergeomtric Distribution)
categories:
- Mathematic
- Probability
keywords:
- Hypergeomtirc Distribution
- Finite Population Correction
toc: true
date: 2018-03-28 09:27:39


Abstract: 本文主要介绍超几何分布
Keywords: Hypergeomtirc Distribution,Finite Population Correction

开篇废话

实力这个东西是不能被完全表现出来的,中华民族传统文化告诉我们,有十分的能力,只显示一分,但是我们现在是有一分能力要显示出十分,这叫推销自己,而且我们自己根本不知道自己只有一分能力,人心浮躁,我们还是憋着看书学习吧,外面的是是非非自然有人去解决,我们要做的是推动人类文明的发展
上文书我们说到(改成单口相声了)二项分布就是若干个独立同分布的伯努利分布的随机变量的和的结果,而伯努利分布如果对应最原始的抽样的话应该是这样的场景:
如果我们有一个不透明的箱子,里面有 A A A 个红球, B B B 个蓝球,其被拿出来的可能性相等,在我们拿出之前我们不知道我们会拿到什么(也就是保证随机性)那么我们拿出一个球是红球(称为事件R)的概率是 P r ( R ) = A A + B Pr(R)=\frac{A}{A+B} Pr(R)=A+BA ,如果我们连续进行本实验,那么就有两种取样方式,而这就导致了从伯努利到二项分布,和从伯努利到超几何分布的变化

Definition and Examples

首先我们用一个具体的例子来看。


继续上面说的拿球的例子,假设我们要连续拿出n个球, n ≥ 0 n\geq 0 n0 (这里我们只考虑 n ≥ 2 n\geq 2 n2 的情况, n = 0 n=0 n=0 的时候说明试验不进行, n = 1 n=1 n=1 的时候是伯努利分布,上一课学习的东西,我们这里也不再说了) 我们假设每次取出时,拿到红球的随机变量为 X i = 1 X_i=1 Xi=1 拿到蓝球的随机变量是 X i = 0 X_i=0 Xi=0 并且每次试验是独立的,如果我们采用不放回的抽取方式,那么我们可以得出结论 P r ( X 2 = 1 ∣ X 1 = 0 ) ≠ P r ( X 2 = 1 ∣ X 1 = 1 ) Pr(X_2=1|X_1=0)\neq Pr(X_2=1|X_1=1) Pr(X2=1X1=0)̸=Pr(X2=1X1=1) ,因为我们第一次拿球,里面一共有 A + B A+B A+B 个球包含 A A A 个红球,如果第一次取出了红球,那么第二次我们再取相当于从 A + B − 1 A+B-1 A+B1 个球包含 A − 1 A-1 A1 红球中取,或者如果第一次取到的是蓝球,那么第二次相当于从 A + B − 1 A+B-1 A+B1 个球中含 A A A 个红球中取。
P r ( X 2 = 1 ∣ X 1 = 0 ) = A A + B − 1 > P r ( X 2 = 1 ∣ X 1 = 1 ) = A − 1 A + B − 1 Pr(X_2=1|X_1=0)=\frac{A}{A+B-1}>Pr(X_2=1|X_1=1)=\frac{A-1}{A+B-1} Pr(X2=1X1=0)=A+B1A>Pr(X2=1X1=1)=A+B1A1


这就是简单的不放回抽样,前面我们研究过,如果从抽取范围非常大的样本中抽取少量的时候,可以不考虑其概率变化,但是如果样本集本来就不是很大,那么就要考虑这个概率变化了。
从有限的样本集中不放回的抽样,这就是我们今天研究的对象超几何分布的背景。
如果考虑从包含两种情况的样本集合中抽取n个样本,其中是某一情况的样

本文节选自原文地址:https://www.face2ai.com/Math-Probability-5-3-The-Hypergeomtirc-Distribution转载请标明出处

你可能感兴趣的:(概率论,机器学习数学基础之概率论)