Fisher Information学习笔记

Fisher Infomation的意义

Fisher Information 顾名思义,就是用来衡量样本数据的信息量的,通常我们有一组样本,我们在机器学习中需要估计出样本的分布,我们是利用样本所具有的信息量来估计参数的,样本中具有的信息量越多,估计的参数越准,样本的分布估计的就越接近真实分布,这里的信息量就是用Fisher Information来表示的。

什么样本信息量比较大?

我们用样本发生的概率来衡量样本本身所携带的信息量,如果样本发生的概率比较大,那么说明我们在这个样本上可以学习到的东西不多,例如机器学习中,样本一上来概率就都是1,那么参数w就基本学习不出了,相反,如果样本发生的概率比较小,就可以认为该样本携带的信息很多。

Fisher Information目标

对于最大似然估计(Maximum Likelihood Estimation)的基本思想。对于随机变量X~f(x|w),直觉上,当参数w取到的值接近准确值时,似然函数的值应该很大,所以当参数w取到准确值时,似然函数的值应该取到最大值,或者(对数)似然函数的一阶导数为0。
我们定义对数似然函数log(x|w) = log(f(x|w)),令它的导数为0,这有公式 log(x|w)=logf(x|w)w=f(x|w)f(x|w)
根据上文,如果 log(x|w) 非常接近于0,那么我们基本学习不到太多跟参数w有关的知识,换句话说模型基本不会更新了;相反,如果 |log(x|w)| 很大,或者说 |log(x|w)2| 很大,那么样本就提供了比较多的关于参数w的信息。因此,我们可以用 |log(x|w)2| 来衡量提供的信息(information)。但是X是随机变量,所以我们就考虑 |log(x|w)2| 的期望值 E(log(x|w)2) 。 我们使用Info(w)表示Fisher Information。

Fisher Information三大定义

定义1:

综上所述,Fisher Information可以直接定义:
Info(w)=E(log(x|w)2)=log(x|w)2f(x|w)dx

定义2:

由于 f(x|w)dx=f(x|w)dx/w=0 以及 f′′(x|w)dx=2f(x|w)dx/w2=0 ,我们可以计算得到:
E(log(x|w))=log(x|w)f(x|w)dx=f(x|w)f(x|w)f(x|w)dx=f(x|w)dx=0
所以我们进一步可以得到定义2:
Info(w)=Var(log(x|w))
And Var(log(x|w))=E(log(x|w)2)E2(log(x|w))=E(log(x|w)2) ;

定义3:

log′′(x|w)=w[f(x|w)f(x|w)]=f′′(x|w)f(x|w)[f(x|w)]2f2(x|w)=f′′(x|w)f(x|w)[log(x|w)]2
然后我们求二次导数的期望:
E(log′′(x|w))=[f′′(x|w)f(x|w)[log(x|w)]2]f(x|w)dx=f′′(x|w)dxE(log(x|w)]2)=Info(w) ;
所以我们可以得到定义3:
Info(w)=E(log(x|w)]2)=2log(f(x|w))2wf(x|w)dx
在大多数的问题中,定义3最为常用,我们直接求log似然的二次导数来计算Fisher Information。

你可能感兴趣的:(机器学习)