PRML_决策论&信息论

决策论

分类决策
在做决策的一个准则就是如何减少误分类损失:
如在而分类中,即把所属类别为c1的数据分到c2,把所属类别为c2的数据分到c1。
p(mistake)=R1p(x,c2)dx+R2p(x,c1)dx
用矩阵表示可以为:
E(L)=kjRjLkjp(x,ck)dx
把本来属于类别ck分类到cj。L为k行j列矩阵。

在做决策时,我们考虑 p(ck|x) 主要有三种方式:
先验概率
p(ck|x)=p(x|ck)p(ck)p(x)
通过最大化 p(x|ck) ,即最大似然估计,可以求得。
先求联合分布 p(x,ck) 再求后验概率 p(ck|x)

直接求后验概率 p(ck|x) ,判别模型
直接求函数y(x)

回归决策

考虑模型
E(L)=L(t,y(x))p(x,t)dxdt
其中 L(t,y(x))=(ty(x))2 。在模型中,我们是为了找到合适的y(x)。因此对y(x)求导。
可得 (y(x)t)p(x,t)dt=0
y(x)p(x)=tp(x,t)dt ,因此
最优的 y(x)=tp(x,t)p(x)dt=Et[t|x]
另一种方法可以构造 {y(x)t}2={y(x)E[t|x]+E[t|x]t}2
同样的决策也有三:
先验概率:通过求得p(x,t)来求p(t|x)
后验概率:直接求p(t|x)
直接通过函数。

信息论

信息论,顾名思义就是谈信息。而本节对信息的定义在于:若某个数据已经确定的被分类,那么所含信息为0,尚未确定的数据分类信息则大于分类已经确定性比较大的数据信息。概括的说,包含信息内容越大,那么不确定就越强。
这就是所谓的熵,反应的是不确定性的大小。
定义:
若两个变量x,y相互独立,我们可以得出
h(x,y) = h(x)+h(y),
p(x,y) = p(x)p(y)
因此我们定义某一变量信息的公式:
h(x)=log2p(x)
基数2是因为计算机都是0-1编码。
这就涉及到了信道传播方式和计算机的编码问题。

如果有一串变量输入,那么信息的平均值(期望)为:
H(x)=xp(x)log2p(x)
而在实际应用中,我们则使用:
H(x)=ip(xi)lnp(xi)
上述是离散变量的熵,那么连续变量的熵呢?
H(x)=p(x)lnp(x)dx
在离散变量中,我们看到,当取平均分布时候,熵最大,而连续变量呢?
而我们期待最大化熵值的时候,利用拉格朗日乘子
限制条件如下:
p(x)dx=1 xp(x)dx=μ (xu)2p(x)dx=σ2 
根据拉格朗日乘子:
p(x)lnp(x)dx+λ1(p(x)dx1)+λ2(xp(x)dxμ)+λ3((xu)2p(x)dxσ2) 
分别对 p(x) 求导得:
p(x)=exp{1+λ1+λ2x+λ3(xμ)2}
在将 p(x) 带入限制条件1,2,3.
得到x符合高斯分布:

p(x)=12πσ2exp{12σ2(xu)2}

相对熵或者互信息或者KL散度
实际x的分布为p(x),假设近似估计的分布为q(x)
定义:
KL(p||q)=p(x)lnp(x)dx(p(x)lnq(x)dx) =p(x)lnq(x)p(x)dx
利用jensen不等式证明KL(p||q)大于等于0。
首先介绍了凸函数和jensen不等式。

接下来,当衡量两个变量的分布时,就涉及到了互信息问题:联合分布和两个分布之积的KL距离。若两个变量独立分布,没有关系,那么KL=0.
I(x,y)=KL(p(x,y)||p(x)p(y))=p(x,y)lnp(x)p(y)p(x,y)dx
又因为
H(x|y)=p(x,y)lnp(x|y)dxdy
可以间接得出
I(x,y)=p(x,y)lnp(x)p(y)p(x|y)p(y)dx=p(x,y)ln(p(x)p(x|y))dx
将上面的式子拆开,即可得到
I(x,y)=H(x)H(x|y)
二者之间的KL距离可以使用x的先验熵减去得知y的后验熵。

你可能感兴趣的:(信息论,决策论)