mfc 算方差函数_数理统计|笔记整理(5)——估计量的进阶性质(1):统计判决函数,UMRUE,Fisher信息量...

mfc 算方差函数_数理统计|笔记整理(5)——估计量的进阶性质(1):统计判决函数,UMRUE,Fisher信息量..._第1张图片

传送门:数理统计|笔记整理(4)——估计量的简单性质:矩估计,极大似然估计

——————————————————————————————————————

大家好!抱歉这一节隔了这么久才发。这一节的名字也特别特别的长……

我们这一节实际上更多的关注的是统计量的其它性质。而这些性质都有一些“最优”的特点。而这些特点又多多少少与信息相关。因为它们其实是在我们上一节介绍的性质之上的更加深入,具体的一些内容,所以难度自然也稍大一些啦。

当然,统计判决函数和UMRUE是高等数理统计的内容,但是UMVUE和CR不等式却是本科需要掌握的内容。为了保证书写逻辑的一致性,我们没有对相关内容进行斜体标注(但是针对一些复杂的,实际中又用的不多的定理我们还是会保留标记),目的是让大家知道这一个框架下也可以学习和掌握本科对应的内容。同时也防止大家因为忽略了一部分的内容而导致之后的阅读出现困难。

那么我们开始吧。

目录

  • 再谈估计量性质与信息(上)
    • 统计判决
      • 统计判决的优劣判断定理
    • UMRUE
      • Lehmann-Scheffe定理
    • Fisher信息
      • Fisher信息的计算

再谈估计量性质与信息(上)

从这一部分开始,我们开始关注的是统计量的一些更具体的估计性质。

统计判决 (Statistical Decision)

首先我们来定义统计判决这个概念。听起来好像挺玄乎的。

我们已经多次强调,数理统计所关注的重点就是用样本估计总体的分布。既然我们希望做参数估计,那么我们自然希望的就是,通过一个与样本有关的函数,构造一个框架,来完成所有的我们的参数估计的任务,并且希望这个任务完成的尽量好。当一个样本出现时,我们的判决函数要给定一个判定,判定给完之后,就需要计算一个损失,这个损失计算完之后,我们自然就希望估计在这个损失的意义下是最优的,就是这么一个逻辑。

你有没有感觉这有点像三国杀里面的八卦阵,每一轮做一次判定?或者有没有感觉像强化学习的意思?但其实这个思想也正是统计判决的思想。事实上,统计判决包含很多元素:原料(样本,分布),工具(判决函数),标准(损失函数 (loss function))和量度(风险函数 (risk function))。

样本和分布不必再提,至于判决函数,直观理解就是根据样本做的一个判定。它就是一个关于样本

的函数
,而这个框架就可以完成几乎所有事情。比方说矩估计,其实就是一个判决,判决
哪一个是我矩估计希望得到的答案。而这个判决空间是实数集,比方说我们可以取
,它的意思就是,给定样本
之后,我认定
就是我希望得到的矩估计。

关于损失函数,它表示在参数

下,判决
带来的损失,这个就和函数的性质息息相关了。比方说我们在线性回归中,使用最小二乘法,其实本质上就是考虑了使用
作为损失函数。一般情况下我们希望它是
的。

关于风险函数,我们一般都是用期望来表示的。这里给出它的定义。

Definition 1: Risk Function
定义风险函数为

再单独定义一个风险函数的原因是,损失函数是一个与

有关的函数,但是这个
是一个随机变量,所以取期望的目的也就是把这个随机性给去掉,方便我们比较。比方说现在我们希望对分布
做一个参数估计,估计
,并且假设损失函数
(也就是说,这里的
就是
了),那么假如我们的判决为
(这也就是样本方差),这样的话,如果你要计算风险函数,其实就是考虑
,也就是
均方误差 (Mean Squared Error),我们之后还会定义这个概念。

我们早已经证明过

,所以上面那个式子本质上就是方差。那么我们要注意到的是
(第二节的抽样定理),所以实际上可以得到

这也就是我们的风险函数。

统计判决的优劣判断定理

既然知道了怎么算,那自然还想知道,到底怎么样算是“好”的。当然,不同的量度下,也确实存在有不同的情况。我们一一来说明我们的量度。

首先是一致最优性

Definition 2: Universal Optimality
如果存在
,使得
对一切的
成立,那么称
一致优于或者等同于
。若存在一个
,使得不等号成立,则称一致优。

很明显,这当然是一个非常好的性质,但是实际情况下,对非常广的情况进行求解是很困难的。所以一般都会有一些限制。我们举一个贝叶斯(Bayes)准则的例子。

Definition 3: Bayes Risk
假设
,并且记
,则称它为贝叶斯风险。如果存在
,对一切的
都有
,则称
为统计问题关于损失函数
和分布
的Bayes解。

这个东西会用的比较多,这是因为我们相当于考虑的是风险函数在参数空间上的一个加权平均,这样的话,其实就会更加关注到参数空间的那一套内容,所以这个准则被应用的也算很广。

下面我们介绍Rao-Blackwell定理,它将风险函数和充分统计量的概念很巧妙的联系在了一起。

Theorem 1: Rao-Blackwell
为统计判决问题的一个凸损失函数,
为充分统计量,
为任一统计判决函数,那么
一定不差于(优于或等同于)
。如果
为关于
的一个严凸函数,那么
一致优于
,且二者等同的充要条件为
函数,也即

我们证明一下这个结论。首先我们注意到,因为

是充分统计量,所以
与参数无关,也就不会含有参数的未知量,意思就是说
是一个统计量(注意到
本质上就是
的一个函数,所以它也就只会含有
的信息,因此它在
条件下也不会有未知参数的信息)。这样之后,我们再观察一下,在不同的参数下,风险函数会有什么变化即可。注意到
(重期望公式)

这两个式子都挺长的。为了继续我们的证明,我们简单介绍一下概率论中的Jenson不等式

Lemma 1: Jensen
凸,则

首先根据凸性,可以得到对任意的

,存在常向量
,对任意

你可以理解为

是常数,
是自变量。两边取期望即可。

这里我们要用的就是期望中的Jensen不等式,也就是

这就是将Jenson不等式用于

的条件分布后得到的结果。

所以你肯定需要一个与

有关的函数
,并且要凸。而这个我们条件是有的,就是函数
,所以我们实际上可以得到
,对比一下你就发现已经证完了。同样的,根据Jensen不等式的取等条件是
的分布退化(当然这要求
严格凸),你就不难得到
的时候取等。

我们在之后讲到更深层次的例子之后,你就会发现充分统计量在压缩信息中的作用。

UMRUE

在参数估计中,这两个分别代表“一致最小风险无偏估计”和“一致最小方差无偏估计”。可以说它们算是估计的最重要的两个概念。我们慢慢来看。

首先,我们需要定义均方误差的概念。

Definition 4: Mean Squared Error
考虑设未知参数
的一个估计为
,则定义
的均方误差。

一个均方误差的非常常见的拆解,其实我们在机器学习中也会遇到,就是考虑以

搭桥(
注意,为了保证符号和书上一致,也避免符号写的太多看着头晕,我们省去了部分下标,这里实际上是
),然后得到一个比较好的平方和拆分,也就是下面这个意思。

其实最关键的就是这最后一步,交叉项去哪里了?不妨做一个计算看一下,我们有

到这里,其实问题就解决了,因为

中的
相对于外面那一圈期望来说,其实是一个常数,所以把它拉出去,就可以得到
,这就使得里面的两项消掉了。

另外两项其实需要注意,

本身相对于
是一个常数(在频率学派框架下,这个
我们认为是不带有随机性的),所以也可以直接拉出来,就可以保证消去另外两个项。项既然全消完了,整个式子自然就变为0了。

那么,回到之前的推导。因为交叉项为0,所以自然会容易得到

其中

是指偏差,它的定义为
估计的期望与实际值的差。所以如果说一个估计是无偏的,实际上就是它的偏差为0的意思。

上面这个式子在机器学习中也异常的重要,它相当于解释了在机器学习中的训练损失来源于两个部分:偏差与方差。而这个一定程度上可以作为过拟合现象的统计解释。

好的,下面我们给出UMRUE和UMVUE的概念。

Definition 5: UMRUE
对于一般的凸损失函数
,若存在
的无偏估计
,使得对于任意的其它的无偏估计
,有
,则称
的一致最小风险无偏估计。

Definition 6: UMVUE
特别的,对于均方误差,如果有
,则称
的一致最小方差无偏估计。

所以其实我们可以看出,本科中学习的UMVUE,其实就是UMRUE的一个特殊情况。这里得到的估计也不完全是“一致最优”的,因为我们相当于限制了判决空间,只考虑了无偏估计。也是因为UMVUE只是特殊情况,我们在讲的时候还是会从UMRUE的框架出发,但是我们到后面可以看到,因为定理的支撑,它的计算也有套路可循,而定理的证明本身在本科并不作要求,因此非研究生也不必担心因为自己没有看UMRUE的内容就不会计算UMVUE。

Lehmann-Scheffe定理

这个定理算是Rao-Blackwell的一个延展,有了它我们才能说明我们究竟如何求解UMRUE。要证明这个定理不太容易,需要一步步来。

Lemma 2
为完备统计量,若
均为
的无偏估计,那么一定会有

根据之前完备性的定义,只需要考虑到,不管对

套了一个什么函数
,只要我们知道
,就可以推出
。所以只需要根据
即可得到结论。

这个引理总结一下就一句话:完备统计量的函数,如果无偏,则必定“几乎处处”唯一

Lemma 3
的无偏估计,
凸,风险函数为
。考虑设
为充分统计量,考虑设
,那么
也为无偏估计,并且
,若严格凸,则等号成立的条件为

这个引理的后半句话都已经给Rao-Blackwell解决了,所以只需要证明

也为无偏估计。这个直接通过重期望公式即可达到目的,我就不写具体的细节了。

最后,我们给出这个最终的定理。

Theorem 2: Lehmann-Scheffe
给定样本
,设
,考虑
的无偏估计,损失函数
为凸函数,
为完备充分统计量,那么

(1) 若
的函数,并且它为
的无偏估计,那么它一定为
的一致最小风险无偏估计。

(2) 设
的无偏估计,那么
一定为
的一致最小风险无偏估计。

(3) 若
为严格凸,且
的一致最小风险无偏估计存在,则一定为
的函数。

我们证明一下这几个结论。

对于第一个,当你观察到它是一个完备统计量的函数,而又是无偏估计,你应该有所警觉。我们在之前有证明过含这两个条件的一个引理,也就是Lemma 1。有了它,我们其实就只需找到一个完备统计量的函数,证明它符合我们的条件就好(因为Lemma 1保证的就是唯一性)。

我们如果令

,那么由Lemma 2即可得到,这个是一个无偏估计,并且它是一致优或等同于其它所有的估计的。通过这个事实上就已经可以说明我们的
二者是几乎处处相等的,实分析告诉我们,这样子求积分得到的值相等。所以这就说明它们俩对应的风险函数的值相等,那么自然
就是一个UMRUE。

对于第二个其实是同理的,知道了它是完备充分统计量的函数,然后说明无偏,就可以用第一个小结论了。方法和Lemma 2一模一样,就不多说了。

对于第三个,如果我们设

的UMRUE是
,那么它肯定是一个无偏估计。第二个小结论(或者Rao-Blackwell)说过,对于任何一个无偏估计,对它取关于充分统计量的条件期望,一定是会不差的。所以我们考虑一下设
,那么
,这就说明了这个等号可以取到(因为反过来的等号是条件)。又因为有严格凸的条件,所以这就相当于证明了
是一个充分统计量的函数,也就说明了这一点。

所以总结起来就是两点:完备导致唯一,充分导致最优

到了这一步,我们把计算UMRUE的方法提炼一下,其实就是下面几步。

1. 找到完备充分统计量

2. 找出它的函数
,使得它满足
直接法) ,或者先找到一个无偏估计
,然后使它对
求条件期望
条件期望法)。

所以如果你想求的是UMVUE,其实方法和这个完全相同。不过实际操作起来,在细节上还是会有点差别。我们后面用习题给大家说明这一点,但是这里为了保证内容的完整性,我们先往下继续,而单独开一节用来强调这个概念和它对应的习题的计算技巧。

Fisher信息

Fisher信息相当于把“信息”这个概念在统计中做了量化。但是它的要求比较高,并且对于初学者来说并不是非常友好。不过它的计算也是套路明显,因此如果对于推导理解困难,直接看如何求解计算就好。但是对于研究生阶段来说,在之后我们还有可能回到这一部分,因此如果对于研究生,可能这一块还是需要多理解理解,但是对于本科生,知道怎么计算,已经完全够用了。

首先我们给出相关的定义

Definition 7: Cramer-Rao Distribution Family
,满足以下条件的分布族称为C-R分布族

(1) 设
上的开集,如果
,那么一定有
为计数测度

(2) 分布族对数似然
关于
存在二阶以上的导数,对于前二阶导数记为

(3)记
得分函数
,并认为它在参数空间
上存在两阶矩。

(4)
无关。

(5)
关于
可在积分号下求导。

对于第一点,其实意思就是我们希望分布族是可识别的,如果在参数不同的时候,它们差异的地方测度为0,那么可以认为它们“几乎处处”没有差异,这显然不是我们希望的结果。对于第二点,我们要注意的是向量求导的概念。在对数似然是一个多元函数的情况下,我们对它求的一阶导,其实对应的就是它的分量导数,也就是说,它是一个长度与

长度相同的向量,分量为
。那么对于二阶导,类似的,求导出来对应的是一个矩阵(
海塞 (Hessian) 矩阵),它的分量为
。同样的,你也能看出来,得分函数的定义也即为

所以这样的话,它的前两阶矩存在,实际上意思就是

要存在。

有了这些基本的要求和定义,我们就可以开始考察Fisher信息和它的一些性质了。

Definition 8: Fisher Information
如果
为正则分布族,那么定义
为它的Fisher信息函数,
为Fisher信息阵。

好的,下面我们开始给出它的一些统计意义。这里面会涉及到一些随机向量的内容,如果需要更系统的了解,可以参考下面这一篇文章。

学弱猹:回归分析|笔记整理(3)——多元正态分布理论(上)​zhuanlan.zhihu.com
mfc 算方差函数_数理统计|笔记整理(5)——估计量的进阶性质(1):统计判决函数,UMRUE,Fisher信息量..._第2张图片
Proposition 1:
,并且

首先要证明期望为0,这个证明还是有一些技巧性的。

既然要证明得分函数期望为0,其实只要证明它的分量期望为0就好(这是期望向量的定义)。首先我们写开这个式子,可以得到

根据积分与求导可交换性,我们可以把这里的求导号提出来。然后你会发现里面的式子就是密度函数的积分,也就是1。所以求导之后自然也就是0了。

有了这个结论,我们要考虑协差阵(也就是

,对向量求方差,得到的就是一个矩阵,这个矩阵各个元素是各个分量的协方差)。而这个根据之前的小结论,其实很容易得到,就是

其实也就是定义。

Proposition 2:

这依然是一个考验多元函数求导的证明。其实它可以拿来作为一个数学分析的小练习。

还是一样,注意到

(上面已经计算过的结论)
(乘积求导法则)

然后到这里,我们只需要求期望即可。这个期望并不是很困难,因为第一个式子就是

,所以它求期望就是
,而右边那个其实只需要根据积分求导可交换,把
提出来就好,我们不再写出具体的细节。
Proposition 3:
如果
独立,
,那么有

这个只需要根据样本的独立性得到

,然后就可以推导出
,再结合独立性和Proposition 2即可。

相对关键的是下面这个性质,也揭示了一些充分统计量与Fisher信息的关系。

Proposition 4:
,那么有

(1)
充要条件为
为辅助统计量。

(2) 若
为充分统计量,那么

说明这个性质的正确性并不困难,只需要注意到Proposition 2,得到

,其中
为统计量
的密度函数。也就是说Fisher信息量为0,就可以得到
,注意到这就说明了密度函数与
无关,也就是我们的辅助统计量的含义。

至于第二个性质,只需要根据因子分解定理,得到

即可。
Proposition 5:
为参数变换,
维参数,那么分布族关于参数
的Fisher信息阵可以表示为
,这里
维的,且
,分量形式可以写为

这个式子其实很容易推导,注意到

提出来就好了(这里要注意

并不是
有关的,
在这个式子中是因变量)。

很多时候,我们希望求一个估计参数的函数的Fisher的信息。这个时候就可以通过这个方法来求。式子本身是比较复杂的,但是其实关键的推导记住了,就算是考试,现推总比死记硬背来得快的多对吧?

事实上关于它的最重要的统计学意义,即充分统计量在Fisher信息意义下可以达到最小值,我们并没有提及证明。这一块的证明需要使用得分函数的条件期望性质,书上也并没有提及太多。因此我们略过这一部分内容。

Fisher信息的计算

我们转过头去关注一下一些计算相关的内容。其实根据我们的定义,你也可以大概的看出它的计算步骤

1. 写出密度函数(注意,这次 不再是样本联合密度函数了)的对数
2. 对参数求导
3. 对求导后的式子求Fisher信息阵

我们用这个步骤来简单的看看习题,换换脑子。

Example 1:
,求
的Fisher信息阵。

首先容易得到密度函数的对数函数,求导,可以得到

,

那么如何求矩阵呢?那就需要对两个偏导式求解期望和方差。注意我们是针对变量

求的
,不是针对
。比方说这里我们容易得到
,

(这里注意

,感兴趣的可以自己算一下,我们用
计算而没有用
,也是为了计算方便)。

还差最后一个交叉项

,但是很容易得到它为0(因为两项的关于
的式子为
,都是奇数次,正态分布对应的期望为0),所以协方差就是0。因此根据Fisher信息阵的定义,不难得到我们的结果。

这就是最终的结果。

Example 2:
对于泊松分布
,找一个函数
,使得
的Fisher信息量与
无关。

这个题就是解释一下,如何求解参数的函数的Fisher信息量。事实上我们根据Proposition 5就可以得到

,根据这个,我们可以知道,其实关键还是泊松分布的Fisher信息量。

我们注意到泊松分布可以写成

,所以就有
,

这样的话,如果要求

是一个常数
的话,其实这里就是解一个常微分方程

所以可以得到

任意常数。

小结

这一节的内容非常多,主要是在信息的角度进一步介绍了一些重要的统计量的性质。它们在本科数理统计中已经是最为困难的内容了(但是高等数理统计中还不是),因此读者在这一节略感不适也实属正常。

我们在下一节会给大家介绍有关指数族分布的内容作于对之前我们提到的一些知识点的复习,并且对于这一节还没有说完的性质进行补充,并添加一些计算习题。

小结

这一节主要给大家介绍了点估计的基本方法和估计量的几大性质。在数理统计的框架下,我们对于三大性质,极大似然估计的求解方法等关注更多了一些。在下一节中,我们会继续研究估计量的性质,并由此看到“信息”这个概念在数理统计中的广泛应用。

下一节笔记传送门:数理统计|笔记整理(6)——常见分布族,估计量的进阶性质(2):UMVUE,UMRUE相关计算

——————————————————————————————————————

mfc 算方差函数_数理统计|笔记整理(5)——估计量的进阶性质(1):统计判决函数,UMRUE,Fisher信息量..._第3张图片

本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃

个人微信公众号:cha-diary,你可以通过它来获得最新文章更新的通知。

《一个大学生的日常笔记》专栏目录:笔记专栏|目录

《GetDataWet》专栏目录:GetDataWet|目录

想要更多方面的知识分享吗?可以关注专栏:一个大学生的日常笔记。你既可以在那里找到通俗易懂的数学,也可以找到一些杂谈和闲聊。也可以关注专栏:GetDataWet,看看在大数据的世界中,一个人的心路历程。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~

你可能感兴趣的:(mfc,算方差函数)