概率论学习小结(road map)

       在最近学习模式识别和机器学习时经常会用到概率论的知识,索性重新复习一遍概率论的知识。学习概率论最重要的一点不是公式的记忆,而是对公式背后的含义的理解。(其实学习任何一门知识都是如此,但是相比高数等的抽象性来说,概率可能显得更“接地气”) 
      曾经在大学时代数学中学的最差的一门课便是概率论,然而最近的学习中,在几经挣扎之后却渐渐找到了这门课的乐趣,在本科时候学习的那个小小的课本将概率论的趣味完全遮盖住了。 
       学习概率论首先要明白这门课的意义。概率论顾名思义是研究事件发生的可能性的学科,这里不使用书中严格的数学语言去描述,而是重在清晰明了的从其含义上去理解概率论。 
       在整个概率论学习过程中,都是围绕着概率的计算进行的。例如,离散随机事件的概率,连续随机事件的概率,条件概率,随机变量的联合分布、边缘分布。这里离散随机事件和连续随机事件的概率分布是指单个随机事件的情况,而联合分布、边缘分布为多个随机事件的情形。在涉及到多个事件的时候往往会有相互独立的事件,以及条件分布。概率论中还会介绍随机变量的函数的概率分布(仅仅和一个随机变量有关系),以及两个随机变量的和的概率分布(两个随机变量)、商的概率分布等。总之,这里所有介绍的内容均是计算随机变量的概率相关的。这里不得不介绍一个概率密度函数的概念,对离散随机变量,变量的每个可能取值均会对应一个概率,而在连续情况下,每个点发生的可能为0,也就是概率为0,而在随机变量在一个区间中的取值却是可能发生的,因此对连续随机变量去概率的导数,即概率密度函数。在初步了解概率分布之后,概率论还会讨论概率分布的一些重要性质如期望和方差等,这些在实际应用中均具有重要作用。以上的讨论均是在知道随机变量的概率分布的前提下(尤其是连续型随机变量的概率密度函数),然而在实际应用中我们可能不知道其具体的概率分布。有时候我们会知道概率分布的形式(多项式分布、高斯分布等),由他们的概率密度函数知,这些分布往往仅依靠少数参数即可获取(如高斯分布的均值、方差),因此,书中会介绍参数估计的方法,求已知分布形式下概率分布的具体密度函数。那么,我们该如何之后这个随机变量的概率分布形式呢?有时候是由模型自身决定的(例如,n次抛硬币的分布为伯努利分布),有时候是有一些研究结果得出的(例如大数中心定理告诉我们那些服从高斯分布的故事~~)。 
      概率论的定义到目前为止仍然没有一个统一的说法,但是比较常见的有:经验概率(e.g.明天有80%的可能性会下雨);频率概率(e.g.抛硬币得到正面和反面的可能性相同);还有一个就是我们现在概率的基础,建立在3个公理之上的概率论了。所谓的三个公理如下:

  • 0P(A)1
  • P(Ω)=1
  • 加法公理

       在学习概率论的时候,我最讨厌的内容(没有之一)就是在古典概型时介绍的排列组合求解某一事件发生的概率部分了。当初在学习概率论的时候刚开始就被麻烦的排列组合给拍死了,排列组合各种题目的多变性是有规律可循的,可以将这种题目分为几种不同的类型,加以理解,便可以求解此类题目了。然而,问题在于排列组合在概率论此处存在的意义就是作为古典概型的一种方式,去求解事件发生的可能性,也就是概率,如果被排列组合这条拦路虎给挡在了概率论的门口,只能叹息了。当初我也是因为这个地方对概率论层深深的厌恶,然而此次学习时,在了解到排列组合在这里的作用之后,了解了一下基本定理,果断先忽略之,而是去了解后面更有意思的内容了(这个对我来说,没多大用处,因此不想在此处花费过多的时间,要将时间用在刀刃上,嘿嘿)。 
学习概率论不得不提的是伟大的“贝叶斯公式”,在阅读了《pattern recognition and machine learning》之后,让大大的觉得这个公式的重要性在概率论的学习过程中被一笔带过了。一般的概率论书中对贝叶斯公式一般会举一个非常经典的例子:某种疾病化验结果为阳性时,被化验的人实际得病的概率是多少。在学习概率论的时候我们几乎都做过这样的题目,根据题目中所给的条件,对应上贝叶斯公式的每一项,从而“成功”的求解问题。这里往往还需要注意的是贝叶斯公式的分母需要使用全概率公式计算才能得出。然而此处对贝叶斯公式的机械理解做题,却忽略了贝叶斯公式的真正含义。贝叶斯公式是给我们提供了一种通过增加新的知识而改变对原有的事件发生可能性的一种方法,这里不多做说明,后面会单独写一章专门介绍贝叶斯公式及其应用初探。 
总之,概率论是一门很有意思的学问,这里仅仅是对概率论的内容做个小结,而更深入的学习,期待有机会能对我感兴趣的内容总结出不同的专题。

你可能感兴趣的:(概率论学习小结(road map))