PMF:probability mass function,概率质量函数,是离散型随机变量在各特定取值上的概率。与概率密度函数(PDF:probability density function)的不同之处在于:概率质量函数是对离散型随机变量定义的,本身代表该值的概率;概率密度函数是针对连续型随机变量定义的,本身不是概率(连续型随机变量单点测度为0),只有在对连续随机变量的pdf在某一给定的区间内进行积分才是概率。
假设 X 是一个定义在可数样本空间 S 上的离散型随机变量 S⊆R ,则其概率质量函数PMF为:
注意这在所有实数上,包括那些 X 不可能等于的实数值上,都定义了pmf,只不过在这些 X 不可能取的实数值上, fX(x) 取值为0( x∈R∖S,Pr(X=x)=0 )。
离散型随机变量概率质量函数(pmf)的不连续性决定了其累积分布函数(cdf)也不连续。
所谓共轭(conjugate),描述刻画的是两者之间的关系,单独的事物不构成共轭,举个通俗的例子,兄弟
这一概念,只能是两者才能构成兄弟。所以,我们讲这两个人是兄弟关系,A是B的兄弟
,这两个分布成共轭分布关系,A是B的共轭分布
。
p(X|θ) :似然(likelihood)
p(θ) :先验(prior)
p(X) :归一化常数(normalizing constant)
我们定义:如果先验分布( p(θ) )和似然函数( p(X|θ) )可以使得先验分布( p(θ) )和后验分布( p(θ|X) )有相同的形式(如,Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)),那么就称先验分布与似然函数是共轭的(成Beta分布与二项分布是共轭的)。
几个常见的先验分布与其共轭分布
先验分布 | 共轭分布 |
---|---|
伯努利分布 | beta distribution |
Multinomial | Dirichlet Distribution |
Gaussian, Given variance, mean unknown | Gaussian Distribution |
Gaussian, Given mean, variance unknown | Gamma Distribution |
Gaussian, both mean and variance unknown | Gaussian-Gamma Distribution |
首先来看,大名鼎鼎的贝叶斯公式:
可将 θ 看成欲估计的分布的参数, X 表示样本, p(X|θ) 则表示似然。
现给定样本集 D={x1,x2,…,xN} ,似然函数为:
我们不妨以伯努利分布为例,利用最大似然估计的方式计算其分布的参数( p ),伯努利分布其概率密度函数(pdf)为:
整个样本集的对数似然函数为:
等式两边对 θ 求导:
令其为0,得:
Beta 分布的峰值在 a−1b+a−2 处取得。其中 Γ(x)≡∫∞0ux−1e−udu 有如下性质:
对应于python中的math.gamma()
及matlab中的gamma()
函数(matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b)
)。
given
仍然从样本空间(sample space)的角度出发。此时我们需要定义新的样本空间(给定条件之下的样本空间)。所以,所谓条件(conditional),本质是对样本空间的进一步收缩,或者叫求其子空间。
比如一个人答题,有 A,B,C,D 四个选项,在答题者对题目一无所知的情况下,他答对的概率自然就是 14 ,而是如果具备一定的知识,排除了 A,C 两个错误选项,此时他答对的概率简单计算就增加到了 12 。
本质是样本空间从 S={A,B,C,D} ,变为了 S′={B,D} 。
新样本空间下 P(A|排除A/C)=0,P(C|排除A/C)=0 ,归纳出来,也即某实验结果(outcome, oi )与某条件 Y 不相交,则:
最后我们得到条件概率的计算公式:
考虑某事件 X={o1,o2,q1,q2} ,已知条件 Y={o1,o2,o3} 发生了,则:
条件概率:
贝叶斯公式:
其实是可从条件概率推导贝叶斯公式的:
[1] 概率质量函数