概率导论学习心得

首先,讲什么是概率,它并不是是某个事件发生的频率,否则的话如何解释“我认为有90%的可能性是他干的”这种说法。其实概率的公理化定义非常抽象,就是(样本,事件,概率测度)组成的集合。

在古典概率模型下(等可能事件),概率的计算问题基本可以归结的排列组合之类的计数问题,而这又是技巧性非常强的问题,基本场景可以分为4类:乘积、排列、组合以及分割。然后一般会介绍条件概率和贝叶斯公式。

接下来的主线就是离散与连续的并行。但是这中间需要有一个称为随机变量的东西过度。随机变量的定义也很有意思,就是把样本空间中事件通过函数映射成的一个函数值。刻画离散随机变量使用的是pmf,连续随机变量使用的是pdf,二者都可以通过cdf来描述。常见的离散随机变量包括均匀、泊松分布、伯努利、二项分布、几何分布。常见的连续随机变量包括均匀、指数分布和正态分布。除了使用pmf或者pdf刻画随机变量以外,可以通过一些简单的特征衡量随机变量,比如均值和方差。均值衡量了随机变量的平均结果,而方差则则反映了他们发生值的分散程度。

相比于一个随机变量,多个随机变量的联合分布也是经常要考虑的。他们的相关概念与单个随机变量是平行的。例如,联合PDF(PMF)。对联合分布的1维求和或者积分,就可以得到边沿PDF或者PMF。联合相关的概念还包括条件pdf或则pmf,它代表了具有联合概率密度函数的两个随机变量中的一个发生后,另一个随机变量的可能取值情况。利用条件pdf或者pmf,我们还可以计算条件期望,它代表两个有关系的随机变量中的一个发生了以后,另一个随机变量可能取值的加权平均。它是第一个随机变量的函数,对这个函数再取期望,就能得到第一个随机变量的期望了。与之相关的概念就是独立,它代表了其中1个随机变量的取值,丝毫不能影响另一个随机变量的取值。

其他的一些问题虽然连续和离散都讲了,但是处理的方法却是完全不同的。比如随机变量分布(密度)函数的分布。离散使用的方法很简单,就是找这个函数值所对应的原始的事件的概率;而连续则通常使用先求cdf,再求导的方法。

关于随机变量,还有一些高级的内容。

首先是如何计算随机变量函数的分布。离散使用的方法很简单,就是找这个函数值所对应的原始的事件的概率;而连续则通常使用先求cdf,再求导的方法。特别的对于单调的连续随机变量,可以利用原始的PDF乘以函数g(x)的反函数的导数获得。对于两个随机变量的和,是1种特殊的情况,他们的PDF(PMF)等于原来的两个PDF(PMF)的卷积积分(卷积和)。

其次是协方差和相关系数。协方差是衡量两个随机变量(线性)相关的重要指标。相关系数则是对协方差进行了标准化,使其在不同的单位下表示同样的意义。

最后是矩母函数。其实他可以与PDF(PMF)或者CDF一样,完整的表达一个随机变量的取值概率。它叫矩母函数最重要的原因在于,对其求n阶导数,并令导数等于0,可以简单地计算出随机变量的n阶矩。

矩母函数还有一个重要的性质在于独立随机变量和的矩母函数,等于其分别求矩母函数的积,利用这个性质,可以轻易的证明泊松随机变量的和还是泊松,正态随机变量的和还是正态等等。矩母函数与拉普拉斯变换很像,这对于通信狗来说,还是很直观的。

讲完了基本的性质,就要考虑一些重要的理论问题了:大数定律和中心极限定理。弱大数定律讲的是随着试验次数的增多,随机变量的平均值趋向于该随机变量的均值。强大数定律讲的是,随着试验次数增多,随机变量的平均值依概率1收敛于随机变量的的均值。二者的差别在于,弱的不能保证在样本足够大时,二者没有偏差,而强的可以。

中心极限定理说的是大量独立的随机变量相加以后结果趋向于一个正态分布,这一点非常有用:比如我们也不知道哪里会引入噪声,噪声服从什么分布,但是大量噪声的总和趋向于高斯分布,这也是AWGN信道是通信中常用的信道的原因。

接下来就由概率论进入了随机过程。由于是初步了解,所以作者并没有给出随机过程的严格定义,只是把随机过程当做一串随机变量。但是为我们勾勒出了后续内容的轮廓:到达过程与马尔可夫过程。

到达过程分为离散版本和连续版本。离散版本为伯努利过程,可以看做是一串扔硬币的结果。扔n次硬币,每次正面朝上的概率为p,则这n次试验中总的成功次数服从参数为n和p的二项分布;第一次成功的次数服从几何分布;每次成功之间的次数是相互独立的;第k次成功的次数服从负二项分布。当n很大,p很小,而n*p趋于一个定数λ时,可以从参数为λ的泊松分布来近似伯努利分布。这也是后续泊松过程pdf的计算基础。

有了伯努利过程,泊松过程就很好理解了。它是伯努利过程的连续版本。在计算pdf时,将时间切得非常小,每段就是伯努利,而段数又很多,所以可以使用伯努利的近似——泊松来描述概率密度。在一段时间内的到达次数服从泊松分布,首次到达服从指数分布,相邻的到达也服从指数分布(因为泊松过程的时间同质性),第k次到达服从伽马分布。

与到达过程不同,马尔可夫过程是一种当前状态依赖(且仅依赖)于前一状态的过程。描述过程的关键是转移概率矩阵Pij,他描述了从当前状态i转移到下一个状态j的概率。人们也经常用状态转移图来描述,逼近更加直观。利用状态转移概率,可以推导出n步状态转移概率rij(n)(chapman-kolmogorov方程),这是一个迭代的过程当前时刻状态为i,经过n步转移到j的概率,等于当前时刻为i,经过n-1步转移到k的概率,乘以从k转移到j的概率,并把所有的从i到k的情况加起来。

当n趋于无穷大时,马尔科夫链会分为两种情况:一种是rij(n)趋于固定的常数,不依赖于初始状态,另一种是依赖于初始状态,而且对于某种特定的状态概率极限值为0。这其实与马尔科夫链的构成有关,分为两种:常返态与非常返态。常返态意味着如果A能够到达BCD,那么从BCD也能到达A;如果不能,则称为非常返的。可以互通的常返态组成了常返类。马尔科夫链可以分解为一个或者多个常返类+一些可能的非常返状态。

稳态情况下的稳态概率其实与长期频率是相符的。特别的,只能发生在相邻状态间转化的过程称为生灭过程。而对于非常返类,我们要计算到达多个吸收态中的某一个概率,以及平均吸收时间。

介绍完随机过程,接下来就进入了数理统计的内容。作者先勾勒出了数理统计的框架。分为两大派,贝叶斯方法和经典统计方法。二者的区别在于贝叶斯认为待估计的是一个随机变量(是有pmf或者pdf的),而经典统计方法认为待估计的是一个常数。

第八章先讲贝叶斯方法,其实主要思路就是利用贝叶斯公式P(Θ|x)=p(Θ)*p(x|Θ)/P(x),把已知x求Θ的后验概率,转化为Θ的先验概率以及已知Θ下的条件概率,以及x的分布。它的问题在于,一般P(x)都很难计算。

估计问题的关键是设计估计的准则。本章讲了三种准则,它们都很有用。最大后验概率准则,即最大化P(Θ|x),由于贝叶斯公式,所以最大化等于最大化p(Θ)*p(x|Θ)/P(x),又因为所有的P(x)是相同的,所以等价于最大化分母部分。

最小均方误差估计,这个估计的主要思想在于,使得估计误差在平均条件下最小。经过推到,当估计量为E(Θ|x),时最小,但是他的问题在于E(Θ|x)一般不好求。

对于这个问题的一个简化情况是线性最小均方误差估计,它假定估计量是观测量的线性函数:Θ=a1*x1+a2*x2……an*xn,经过推倒,估计量的计算只与均值、方差以及估计量与观测量的互协方差有关,这大大简化了我们的计算。

经典统计推断的内容较多,包括如下几个方面:

1. 参数估计。与贝叶斯参数估计不同,经典统计推断方法中,认为待估计的参数是一个常数。其中最重要的方法包括:

a) 极大似然估计方法,它的基本思想在于:在给定参数Θ后,被估计的随机变量的pdf(pmf)就已知了。当我们观测到一组随机变量的时,这组随机变量出现的概率最大,所以对这组随机变量出现的概率求最大值(此时的最大值还是Θ的参数),最大值对应的Θ就是被估计的Θ。

b) 最小二乘估计:它其实是一种常见的数值计算技术,它使得在给定参数下,估计值与实际值的误差最小。

2. 假设检验:它研究的基本问题就是我们对某个问题,有两种不同的假设,H0与H1,我们要通过分析数据确定接受哪个假设,最常见的做法就是似然比检验,简单地说,就是计算P(H0假设下事件发生的概率)/P(H1假设下事件发生的概率),再将这个值与某个门限比较,这样做不仅可以判决H0还是H1,还能计算错误判决的概率。错误概率包括两方面:实际为H0,判为H1,这一般称为第一类错误概率,反之称为第二类。显然,调整判决门限会导致两个错误概率一个上升,另一个必然下降。这在书中还给出了著名的奈曼-皮尔逊定理,就是说,似然比检验保证了如果有另外的判决方法,其中的第一类错误概率比似然比检验小,那么第二类错误一定比似然比检验大。

3. 显著性检验:给定一个假设,如果通过构造统计量来判断是否接受该假设。与假设检验不同的是,此时的情况不是H0与H1的对立局面。举一个例子,1枚硬币抛了1000次,其中正面朝上460次,我们能认为它是均匀的吗?准确的说,我们能以多大的概率认为它是均匀的。其实描述清楚了问题,解决方法就是顺理成章的了:加假如是均匀的,那么应该有500次,那么多余的这40次发生的概率在理论上有多大?如果很大,那么我们就该认为它是均匀的,如果很小,就认为他不是均匀的。

对于统计学,其实是一门非常深的学问,这里只是稍微勾勒了一下轮廓,讲了一点皮毛知识,等到实际使用时,再深入学习吧。

最后说一下教材的视频吧:两本书,MIT使用的《概率导论》与ROSS的《概率论基础教程》。两本书的定位是不一样的:《概率导论》勾勒出了整个概率论、随机过程、数理统计的知识轮廓,而且比较偏应用,例题很少,习题有一定难度,而且很多都是课本正文内容的补充(一些证明问题);《概率论基础教程》则是在不引进测度论的前提下,对概率论的知识做出了非常详尽的讲述:例题、习题都非常多。例如,整整使用了一章来讲条件概率。个人觉得,如果第一次学概率论,用《概率论基础教程》会好一些,但是如果学过一遍概率论,那么这本书的节奏就有点慢了。若是做其他研究,用到一些深入一点的知识,比如统计信号处理,《概率导论》的基本内容就足够了。

视频我看的觉得最好是国立交通大学的郑少为老师的视频。配套用书是《概率论基础教程》,但是其实里面感觉很多精髓的内容,其实都是《概率导论》中的。但是他给的参考书却不是这本,动机令人怀疑。视频的内容只到随机变量深入内容。后从大数定理开始,纯靠自学吧。

你可能感兴趣的:(概率论)