七月在线4月机器学习算法班课程笔记——No.2
前言
系统的学习概率论与数理统计是在大学二年级,当时还没有接触计算机应用的内容,仅把概率论作为一门纯数学课来学习,我们的老师当然也是数学系的。慢慢地发现概率论与数理统计是好多学科研究的基础,包括经济学、人工智能等等。鉴于它的重要性,有必要结合应用场景重新加深对概率论知识的理解。
1. 概率统计与机器学习
首先我们来分析概率与统计的区别。概率计算的是一个事件发生的可能性,我们已知的是事件发生的背景,概率通常针对单次操作。统计更多的是用一些调研方法,进行多次实验,推测出客观存在的数据。依然借用桶中摸球来说明问题:
上图的桶是透明的,已知了白球和黑球的数量信息,从中任意摸若干球,可能是什么颜色组合呢?这就需要用概率来回答。
上图的桶不可见其内部,需要统计内部黑白球的比例。如何统计呢?那就需要多次抓取,统计手中球的信息,用频数推算,进行一定误差内的统计。例如,根据正态分布中样本的特征,估算总体的均值和方差。
接下来讨论概率统计在机器学习中的体现。机器学习中,会用无监督、半监督和监督学习算法构成一个模型来训练样本、预测结果。这个训练模型包含了很多种的分布,即统计估计;模型训练和预测过程的一个核心评价指标是模型的误差,误差可以是概率的形式,和概率紧密相连;机器学习常用损失函数来表示系统在不同参数值之下的损失,也是概率在机器学习中的应用。
2. 重要统计量
2.1期望
期望若X为离散型随机变量,其概率分布为P(X=xk)=pk(k=1,2,…),则称和数为随机变量X的数学期望,简称期望,记为E(X),即。若X为连续型随机变量,其概率密度为f(x),则X的数学期望为。期望体现了随机变量取值的真正的“平均”,有时也称其为均值。
特别地,若特征X和Y相互独立时,E(XY)=E(X)E(Y);反之不成立。如果已知E(XY)=E(X)E(Y),只能说明X和Y不相关。那么不相关和独立有什么区别呢?独立就是两者没有任何关系,当然也不相关。相关指的是线性关系,不相关指没有线性关系,但是呢可能有其他关系,不一定独立。所以独立一定不相关,不相关不一定独立。
2.2方差
概率论中用方差来度量随机变量及其数学期望之间的偏离程度,统计学中用样本方差表示各个数据分别与其平均数之差的平方的和的平均数。在许多实际的问题中,研究方差即偏离程度有着重要意义。公式定义上,方差是函数[X-E(X)]2的期望,因此,离散型、连续型随机变量的方差可统一表示为,表示的是X的取值偏离期望值E(X)的程度。如果X和Y是独立的,那么Var(X+Y)=Var(X)+Var(Y)。方差的平方根是标准差。
总结一下,均值描述的是样本集合的中间点,它表达的信息是很有限的,而标准差描述的是样本集合的各个样本到中心点的距离的平均。比如两个集合:[1,9,13,21]和[9,10,12,13],两个集合的均值都是11,但是两个集合的差别还是很大的,后者比较集中,标准差更小一些,而前者的标准差就很大。所以标准差有效描述了集合的分散度。
2.3协方差
协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法,方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。一般说来,质量因子是可以人为控制的。 回归分析是从数量因子的角度出发,通过建立回归方程来研究实验指标与一个或几个因子之间的数量关系。但大多数情况下,数量因子是不可以人为加以控制的。在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 协方差的定义如下:Cov(X,Y)=E { [ X-E(X) ] [ Y-E(Y) ] }。
那么协方差有什么意义呢?协方差作为两个随机变量在相同方向上变化趋势的度量,Cov(X,Y)>0代表两者的变化趋势相同,Cov(X,Y)<0代表两者的变化趋势相反,Cov(X,Y)代表X和Y不相关。机器学习中,可以基于协方差来筛选特征。
上图中,一组事物划分出了n个特征,各对应一个分布,每一行代表单个事物,事物标记或者预测出来的标签作为分布Y。通过计算每个特征和标签的协方差,筛选出质量较好的特征,特征选择对后续的实验特别重要。有时,也会用相关系数矩阵来发现特征之间的相关性,可视化展示如下图所示。
3. 重要定理与不等式
3.1切比雪夫不等式
切比雪夫表达的是随机变量X及其期望和方差之间的关系,表达式如下:
这个不等式说明,X的方差越小,事件发生的概率越大,X的取值基本上集中在期望附近。为统计推断中依据样本平均数估计总体平均数提供了理论依据。特别需要注意的是,切比雪夫定理并未要求Xi 同分布,相较于大数定律更具一般性。
3.2大数定理
大数定理比较有意思哈,是概率论历史上第一个极限定理,原为“伯努利定律”,后改为大数定理,是讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。比如,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一,偶然中包含着某种必然。
大数定理的定义:设随机变量Xi相互独立,并且具有相同的期望和方差。作前n个随机变量的平均Yn,则对于任意正数ε,有公式
那么大数定理的存在,为我们的实际应用带来了哪些好处呢?很多时候,大数定理为“用频率来估计概率”提供了有力的理论依据。比如正态分布的参数估计,朴素贝叶斯做垃圾邮件分类,隐马尔科夫模型有监督参数学习等等。
3.3中心极限定理
中心极限定理指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。定义为:设随机变量X1、X2...Xn...相互独立,服从同一分布,并具有相同的期望和方差,则随机变量Yn的分布收敛到标准正态分布。
在实际问题中,很多随机现象可以看作许多因素的独立影响的综合反映,往往近似服从正态分布。比如城市耗电量——大量用户的耗电量总和。
4. 用样本估计参数
参数评估是通过抽取样本来评估总体的分布的方法。例如我们从黑盒子中抽取了一堆白球和黑球,怎样知道盒子中球是什么样的分布呢,正态分布还是二元分布呢?有两种常用的构造估计量的方法:矩估计法和极大似然估计法。矩估计的理论依据是大数定理,通过找总体矩与参数之间的关系,用样本矩替换总体矩,得到关于估计量的方程组,解方程组得到k个参数的矩估计值。
最大似然估计法是在总体分布类型已知条件下使用的一种参数估计方法,它的思想是一次试验就出现的事件有较大的概率。比如说王祖蓝和李晨撕名牌,你猜最后谁获胜了呢?因为李的获胜概率大,所以这次还是李获胜的可能性大。
具体的公式推导不赘述了,请参考矩估计的基本步骤。
参考资料:
1. 《概率论与数理统计》
2. 七月算法机器学习课程
推荐阅读:
1. 机器学习路线图
2. Github上的十大机器学习项目