传送门:数理统计|笔记整理(4)——估计量的简单性质:矩估计,极大似然估计
——————————————————————————————————————
大家好!抱歉这一节隔了这么久才发。这一节的名字也特别特别的长……
我们这一节实际上更多的关注的是统计量的其它性质。而这些性质都有一些“最优”的特点。而这些特点又多多少少与信息相关。因为它们其实是在我们上一节介绍的性质之上的更加深入,具体的一些内容,所以难度自然也稍大一些啦。
当然,统计判决函数和UMRUE是高等数理统计的内容,但是UMVUE和CR不等式却是本科需要掌握的内容。为了保证书写逻辑的一致性,我们没有对相关内容进行斜体标注(但是针对一些复杂的,实际中又用的不多的定理我们还是会保留标记),目的是让大家知道这一个框架下也可以学习和掌握本科对应的内容。同时也防止大家因为忽略了一部分的内容而导致之后的阅读出现困难。
那么我们开始吧。
从这一部分开始,我们开始关注的是统计量的一些更具体的估计性质。
首先我们来定义统计判决这个概念。听起来好像挺玄乎的。
我们已经多次强调,数理统计所关注的重点就是用样本估计总体的分布。既然我们希望做参数估计,那么我们自然希望的就是,通过一个与样本有关的函数,构造一个框架,来完成所有的我们的参数估计的任务,并且希望这个任务完成的尽量好。当一个样本出现时,我们的判决函数要给定一个判定,判定给完之后,就需要计算一个损失,这个损失计算完之后,我们自然就希望估计在这个损失的意义下是最优的,就是这么一个逻辑。
你有没有感觉这有点像三国杀里面的八卦阵,每一轮做一次判定?或者有没有感觉像强化学习的意思?但其实这个思想也正是统计判决的思想。事实上,统计判决包含很多元素:原料(样本,分布),工具(判决函数),标准(损失函数 (loss function))和量度(风险函数 (risk function))。
样本和分布不必再提,至于判决函数,直观理解就是根据样本做的一个判定。它就是一个关于样本
关于损失函数,它表示在参数
关于风险函数,我们一般都是用期望来表示的。这里给出它的定义。
Definition 1: Risk Function
定义风险函数为
再单独定义一个风险函数的原因是,损失函数是一个与
我们早已经证明过
这也就是我们的风险函数。
既然知道了怎么算,那自然还想知道,到底怎么样算是“好”的。当然,不同的量度下,也确实存在有不同的情况。我们一一来说明我们的量度。
首先是一致最优性。
Definition 2: Universal Optimality
如果存在,使得对一切的成立,那么称一致优于或者等同于。若存在一个,使得不等号成立,则称一致优。
很明显,这当然是一个非常好的性质,但是实际情况下,对非常广的情况进行求解是很困难的。所以一般都会有一些限制。我们举一个贝叶斯(Bayes)准则的例子。
Definition 3: Bayes Risk
假设,并且记,则称它为贝叶斯风险。如果存在,对一切的都有,则称为统计问题关于损失函数和分布的Bayes解。
这个东西会用的比较多,这是因为我们相当于考虑的是风险函数在参数空间上的一个加权平均,这样的话,其实就会更加关注到参数空间的那一套内容,所以这个准则被应用的也算很广。
下面我们介绍Rao-Blackwell定理,它将风险函数和充分统计量的概念很巧妙的联系在了一起。
Theorem 1: Rao-Blackwell
设为统计判决问题的一个凸损失函数,为充分统计量,为任一统计判决函数,那么一定不差于(优于或等同于)。如果为关于的一个严凸函数,那么一致优于,且二者等同的充要条件为为函数,也即。
我们证明一下这个结论。首先我们注意到,因为
(重期望公式)
这两个式子都挺长的。为了继续我们的证明,我们简单介绍一下概率论中的Jenson不等式。
Lemma 1: Jensen 若凸,则
首先根据凸性,可以得到对任意的
你可以理解为
这里我们要用的就是期望中的Jensen不等式,也就是
,凸
这就是将Jenson不等式用于
所以你肯定需要一个与
我们在之后讲到更深层次的例子之后,你就会发现充分统计量在压缩信息中的作用。
在参数估计中,这两个分别代表“一致最小风险无偏估计”和“一致最小方差无偏估计”。可以说它们算是估计的最重要的两个概念。我们慢慢来看。
首先,我们需要定义均方误差的概念。
Definition 4: Mean Squared Error
考虑设未知参数的一个估计为,则定义为的均方误差。
一个均方误差的非常常见的拆解,其实我们在机器学习中也会遇到,就是考虑以
其实最关键的就是这最后一步,交叉项去哪里了?不妨做一个计算看一下,我们有
到这里,其实问题就解决了,因为
另外两项其实需要注意,
那么,回到之前的推导。因为交叉项为0,所以自然会容易得到
其中
上面这个式子在机器学习中也异常的重要,它相当于解释了在机器学习中的训练损失来源于两个部分:偏差与方差。而这个一定程度上可以作为过拟合现象的统计解释。
好的,下面我们给出UMRUE和UMVUE的概念。
Definition 5: UMRUE
对于一般的凸损失函数,若存在的无偏估计,使得对于任意的其它的无偏估计,有,则称为的一致最小风险无偏估计。
Definition 6: UMVUE
特别的,对于均方误差,如果有,则称为的一致最小方差无偏估计。
所以其实我们可以看出,本科中学习的UMVUE,其实就是UMRUE的一个特殊情况。这里得到的估计也不完全是“一致最优”的,因为我们相当于限制了判决空间,只考虑了无偏估计。也是因为UMVUE只是特殊情况,我们在讲的时候还是会从UMRUE的框架出发,但是我们到后面可以看到,因为定理的支撑,它的计算也有套路可循,而定理的证明本身在本科并不作要求,因此非研究生也不必担心因为自己没有看UMRUE的内容就不会计算UMVUE。
这个定理算是Rao-Blackwell的一个延展,有了它我们才能说明我们究竟如何求解UMRUE。要证明这个定理不太容易,需要一步步来。
Lemma 2
设为完备统计量,若均为的无偏估计,那么一定会有
根据之前完备性的定义,只需要考虑到,不管对
这个引理总结一下就一句话:完备统计量的函数,如果无偏,则必定“几乎处处”唯一。
Lemma 3
设为的无偏估计,凸,风险函数为。考虑设为充分统计量,考虑设,那么也为无偏估计,并且,若严格凸,则等号成立的条件为
这个引理的后半句话都已经给Rao-Blackwell解决了,所以只需要证明
最后,我们给出这个最终的定理。
Theorem 2: Lehmann-Scheffe
给定样本,设,考虑的无偏估计,损失函数为凸函数,为完备充分统计量,那么
(1) 若为的函数,并且它为的无偏估计,那么它一定为的一致最小风险无偏估计。
(2) 设为的无偏估计,那么一定为的一致最小风险无偏估计。
(3) 若为严格凸,且的一致最小风险无偏估计存在,则一定为的函数。
我们证明一下这几个结论。
对于第一个,当你观察到它是一个完备统计量的函数,而又是无偏估计,你应该有所警觉。我们在之前有证明过含这两个条件的一个引理,也就是Lemma 1。有了它,我们其实就只需找到一个完备统计量的函数,证明它符合我们的条件就好(因为Lemma 1保证的就是唯一性)。
我们如果令
对于第二个其实是同理的,知道了它是完备充分统计量的函数,然后说明无偏,就可以用第一个小结论了。方法和Lemma 2一模一样,就不多说了。
对于第三个,如果我们设
所以总结起来就是两点:完备导致唯一,充分导致最优。
到了这一步,我们把计算UMRUE的方法提炼一下,其实就是下面几步。
1. 找到完备充分统计量
2. 找出它的函数,使得它满足(直接法) ,或者先找到一个无偏估计,然后使它对求条件期望(条件期望法)。
所以如果你想求的是UMVUE,其实方法和这个完全相同。不过实际操作起来,在细节上还是会有点差别。我们后面用习题给大家说明这一点,但是这里为了保证内容的完整性,我们先往下继续,而单独开一节用来强调这个概念和它对应的习题的计算技巧。
Fisher信息相当于把“信息”这个概念在统计中做了量化。但是它的要求比较高,并且对于初学者来说并不是非常友好。不过它的计算也是套路明显,因此如果对于推导理解困难,直接看如何求解计算就好。但是对于研究生阶段来说,在之后我们还有可能回到这一部分,因此如果对于研究生,可能这一块还是需要多理解理解,但是对于本科生,知道怎么计算,已经完全够用了。
首先我们给出相关的定义
Definition 7: Cramer-Rao Distribution Family
设,满足以下条件的分布族称为C-R分布族
(1) 设为上的开集,如果,那么一定有,为计数测度
(2) 分布族对数似然关于存在二阶以上的导数,对于前二阶导数记为
(3)记为得分函数,并认为它在参数空间上存在两阶矩。
(4)与无关。
(5)关于可在积分号下求导。
对于第一点,其实意思就是我们希望分布族是可识别的,如果在参数不同的时候,它们差异的地方测度为0,那么可以认为它们“几乎处处”没有差异,这显然不是我们希望的结果。对于第二点,我们要注意的是向量求导的概念。在对数似然是一个多元函数的情况下,我们对它求的一阶导,其实对应的就是它的分量导数,也就是说,它是一个长度与
所以这样的话,它的前两阶矩存在,实际上意思就是
有了这些基本的要求和定义,我们就可以开始考察Fisher信息和它的一些性质了。
Definition 8: Fisher Information
如果为正则分布族,那么定义为它的Fisher信息函数,为Fisher信息阵。
好的,下面我们开始给出它的一些统计意义。这里面会涉及到一些随机向量的内容,如果需要更系统的了解,可以参考下面这一篇文章。
学弱猹:回归分析|笔记整理(3)——多元正态分布理论(上)zhuanlan.zhihu.comProposition 1:,并且
首先要证明期望为0,这个证明还是有一些技巧性的。
既然要证明得分函数期望为0,其实只要证明它的分量期望为0就好(这是期望向量的定义)。首先我们写开这个式子,可以得到
根据积分与求导可交换性,我们可以把这里的求导号提出来。然后你会发现里面的式子就是密度函数的积分,也就是1。所以求导之后自然也就是0了。
有了这个结论,我们要考虑协差阵(也就是
其实也就是定义。
Proposition 2:
这依然是一个考验多元函数求导的证明。其实它可以拿来作为一个数学分析的小练习。
还是一样,注意到
(上面已经计算过的结论)(乘积求导法则)
然后到这里,我们只需要求期望即可。这个期望并不是很困难,因为第一个式子就是
Proposition 3:
如果独立,,那么有。
这个只需要根据样本的独立性得到
相对关键的是下面这个性质,也揭示了一些充分统计量与Fisher信息的关系。
Proposition 4:
设,那么有
(1)充要条件为为辅助统计量。
(2) 若为充分统计量,那么
说明这个性质的正确性并不困难,只需要注意到Proposition 2,得到
至于第二个性质,只需要根据因子分解定理,得到
Proposition 5:
设为参数变换,为维参数,那么分布族关于参数的Fisher信息阵可以表示为,这里为维的,且,分量形式可以写为
这个式子其实很容易推导,注意到
提出来就好了(这里要注意
很多时候,我们希望求一个估计参数的函数的Fisher的信息。这个时候就可以通过这个方法来求。式子本身是比较复杂的,但是其实关键的推导记住了,就算是考试,现推总比死记硬背来得快的多对吧?
事实上关于它的最重要的统计学意义,即充分统计量在Fisher信息意义下可以达到最小值,我们并没有提及证明。这一块的证明需要使用得分函数的条件期望性质,书上也并没有提及太多。因此我们略过这一部分内容。
我们转过头去关注一下一些计算相关的内容。其实根据我们的定义,你也可以大概的看出它的计算步骤
1. 写出密度函数(注意,这次 不再是样本联合密度函数了)的对数
2. 对参数求导
3. 对求导后的式子求Fisher信息阵
我们用这个步骤来简单的看看习题,换换脑子。
Example 1:
设,求的Fisher信息阵。
首先容易得到密度函数的对数函数,求导,可以得到
,
那么如何求矩阵呢?那就需要对两个偏导式求解期望和方差。注意我们是针对变量
,
(这里注意
还差最后一个交叉项
这就是最终的结果。
Example 2:
对于泊松分布,找一个函数,使得的Fisher信息量与无关。
这个题就是解释一下,如何求解参数的函数的Fisher信息量。事实上我们根据Proposition 5就可以得到
我们注意到泊松分布可以写成
,
这样的话,如果要求
所以可以得到
这一节的内容非常多,主要是在信息的角度进一步介绍了一些重要的统计量的性质。它们在本科数理统计中已经是最为困难的内容了(但是高等数理统计中还不是),因此读者在这一节略感不适也实属正常。
我们在下一节会给大家介绍有关指数族分布的内容作于对之前我们提到的一些知识点的复习,并且对于这一节还没有说完的性质进行补充,并添加一些计算习题。
这一节主要给大家介绍了点估计的基本方法和估计量的几大性质。在数理统计的框架下,我们对于三大性质,极大似然估计的求解方法等关注更多了一些。在下一节中,我们会继续研究估计量的性质,并由此看到“信息”这个概念在数理统计中的广泛应用。
下一节笔记传送门:数理统计|笔记整理(6)——常见分布族,估计量的进阶性质(2):UMVUE,UMRUE相关计算
——————————————————————————————————————
本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃。
个人微信公众号:cha-diary,你可以通过它来获得最新文章更新的通知。
《一个大学生的日常笔记》专栏目录:笔记专栏|目录
《GetDataWet》专栏目录:GetDataWet|目录
想要更多方面的知识分享吗?可以关注专栏:一个大学生的日常笔记。你既可以在那里找到通俗易懂的数学,也可以找到一些杂谈和闲聊。也可以关注专栏:GetDataWet,看看在大数据的世界中,一个人的心路历程。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~