公众号:ChallengeHub(机器学习,NLP,推荐系统,数据分析)
(欢迎大家关注)
概率论和统计学解决的问题是互逆的。
概率论,已经概率模型,模型的不确定性由概率分布来描述,概率论要回答的问题是该过程产生某个结果的可能性有多大这个问题。
统计学,概率模型是未知的,但是已经一系列该过程产生的结果的观测值,希望通过这些观测值来推断这个过程中的不确定性是怎么样的?即推断该过程的概率分布。
已知概率模型来精确计算各种结果的可能性就是概率论,根据已有的结果来推断模型的不确定性就是统计学
概率论有唯一的答案,但是统计学更像是一门艺术。
统计学领域有两大派,分为古典统计学和贝叶斯统计学(Bayesian,托马斯 贝叶斯)。古典统计学又被称为频率论。
古典统计学认为未知的模型或者参数是确定的,只是我们不知道它确切的形式或者值。
贝叶斯统计学认为未知模型或者参数是不确定的,但是这种不确定性可以由一个概率分布来描述。
它们本质的区别在于对待未知模型或者参数的方法。
古典统计学通过大量重复实验并统计某个特定结果出现的频率作为对未知参数的估计。以经典的猜球为例,频率论者会进行大量的放回的独立抽取实验,然后计算白球出现的概率,以此作为对小球中白球比例的推断。
贝叶斯统计学使用概率的方法来解决统计学问题。贝叶斯统计学认为未知的模型或者参数不确定,符合某个概率分布。首先会根据过去的经验对这个概率分布有一个猜测,称为先验分布。然后根据越来越多的观测值来修正对概率分布的猜测,最后得到的概率分布为后验分布。
贝叶斯统计学派对于未知变量的先验分布非常主观,这也是被诟病的核心问题,在解决实际生活中,一个合理先验猜测是比较重要的。
1 实际生活中,很多问题无法进行大量的实验,通过简单的几次实验,利用古典统计学的方法来进行推断是很不科学的。
2 合理的先验分布对未知量是非常有益的。生活中很多实际问题的判断,都和人们的学识、经验、见识有关。在这种情况下,把有限和观测数据和根据知识和经验得到的先验结合起来,会得到对未知量更好的推断。
条件概率模型:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac {P(A\cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
贝斯斯定理:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac {P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
假设有一个需要估计的参数 θ \theta θ, 并且针对该变量有一个先验分布 P ( θ ) P(\theta) P(θ)。令 D D D为一系列观测的结果,我们希望通过 D D D来修正对参数 θ \theta θ分布的认知。即 P ( θ ∣ D ) P(\theta|D) P(θ∣D)是我们感兴趣的。
P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D)=\frac {P(D|\theta)P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)P(θ)
∙ P ( θ ) : θ \bullet P(\theta): \theta ∙P(θ):θ的先验分布。它表示在没有任何观测序列 D D D时,我们对于 θ \theta θ的不确定性的认知
∙ P ( θ ∣ D ) : θ \bullet P(\theta|D): \theta ∙P(θ∣D):θ的后验分布。它是在考虑了观测序列之后,我们对于 θ \theta θ的不确定性的改进的认知
∙ P ( D ∣ θ ) \bullet P(D|\theta) ∙P(D∣θ):可能性,似然度。它是当未知分布服从 θ \theta θ的情况下,我们观测到 D D D的条件概率.
∙ P ( D ∣ θ ) \bullet P(D|\theta) ∙P(D∣θ):观测值或证据。这是在考虑所以可能的 θ \theta θ的分布下,所能够观测到 D D D的非条件概率。
贝叶斯推断可以让我们迭代性地看待问题,在每次有新的观测数据后我们可以得到一个新的后验分布,然后把它作为新的先验分布。
假设有一一枚硬币,想要推断得到证明的概率是多少。
在开始扔硬币之前,我们对 θ \theta θ的分布 P ( θ ) P(\theta) P(θ)有如下猜想。 θ \theta θ可以是0到1范围内的任何值,概率值符合均匀分布。
在进行之前,首先要用到共轭先验和Beta分布。
Beta分布是一组定义0-1区间上的连续概率分布,具体形态由参数 α , β \alpha,\beta α,β决定,其概率分布密度为:
f ( x , α , β ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x,\alpha,\beta)=\frac 1{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x,α,β)=B(α,β)1xα−1(1−x)β−1
其中 B ( α , β ) B(\alpha,\beta) B(α,β)是一个由参数 α , β \alpha,\beta α,β决定的系统,以满足 f f f在0到1上的定积分为1。将其简写为 B e ( α , β ) Be(\alpha,\beta) Be(α,β)。当 α , β \alpha,\beta α,β均为1的时候,Beta分布即为均匀分布。因此我们有 θ ∼ B e ( 1 , 1 ) \theta\sim Be(1,1) θ∼Be(1,1)。
观测实验:投掷了n次m次为整数。
P ( D ∣ θ ) = C ∙ θ m ( 1 − θ ) n − m P(D|\theta)=C\bullet\theta^m(1-\theta)^{n-m} P(D∣θ)=C∙θm(1−θ)n−m,在给定概率分布的情况下,发生这种事的概率
其中 C = n ! / ( m ! ( n − m ) ! ) C=n!/(m!(n-m)!) C=n!/(m!(n−m)!)是一个系数
由贝叶斯定理可知:
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split} …
此时后验分布满足参数为 α + m , β + n − m \alpha+m,\beta+n-m α+m,β+n−m的beta分布。在贝叶斯统计中,如果先验概率和后验概率属于同类,则称它们为共轭分布,而先验称作是似然函数(本例中是二项分布)的共轭先验。
不断调整先验分布,然后通过不断的实验来得到后验分布。