机器学习(第8章 信息论模型)

一、学习目标

1.了解信息论相关定义

2.了解熵、最大熵、互信息在机器学习中的运用

3.学习信息论优化模型的优化过程

二、信息论相关知识

        信息论之父,也是信息论创始人,香农,将物理学中的熵概念引入到信息论中,引起的影响十分的强大。

        相关定义有:

机器学习(第8章 信息论模型)_第1张图片

三、熵、最大熵在机器学习中的应用

        1.信息量与信息熵的定义

机器学习(第8章 信息论模型)_第2张图片

机器学习(第8章 信息论模型)_第3张图片

         要注意,信息量用于描述是一个变量取值的,比如:北京明天天气=下雪。而信息熵用于描述一个变量的,例如北京明天天气。

        之所以说微分熵不是信息熵,是因为信息熵应该计算概率值,而微分熵公式中的“概率值”并不是概率值,其是连续概率分布上的取值。真正的概率值是p(x)*δx,其中δx是一个极小的值。而真正的连续概率分布的信息熵推导如下:

机器学习(第8章 信息论模型)_第4张图片

        如红字所写,微分熵可以用于对比,但不能等价于信息熵。(红字错写成信息量了)

        2.微分熵性质

机器学习(第8章 信息论模型)_第5张图片

        3.最大熵

        在自然界,分子的运动总是往熵增的方向运动,当熵达到最大时,分子运动达到稳态。于是可以认为,最大熵状态是一切事物的最优状态。

        在机器学习中,并不是说只要求最大熵就行,而是需要进行一定的限制设置。如下设置:

机器学习(第8章 信息论模型)_第6张图片

        使用拉格朗日法消去约束条件,并求导等于0,可以求解出连续变量的最优解:

机器学习(第8章 信息论模型)_第7张图片

        特别地,对于离散问题,变量分布式均匀分布时熵最大。

机器学习(第8章 信息论模型)_第8张图片

         对于确定了均值和方差的连续分布,最优解是高斯分布:

 机器学习(第8章 信息论模型)_第9张图片

 机器学习(第8章 信息论模型)_第10张图片

 四、互信息

        1.条件信息量和条件熵

机器学习(第8章 信息论模型)_第11张图片

         2.联合熵

机器学习(第8章 信息论模型)_第12张图片

        3.互信息

机器学习(第8章 信息论模型)_第13张图片

         4.互信息和熵之间关系

机器学习(第8章 信息论模型)_第14张图片

         更详细的见解可以看红字描述部分。左边图还看不明白的可以看下面的图:

机器学习(第8章 信息论模型)_第15张图片

         5.互信息和相对熵的性质

机器学习(第8章 信息论模型)_第16张图片

 机器学习(第8章 信息论模型)_第17张图片

        通过相对熵,我们可以再重新定义互信息:(这样的定义容易帮助我们去计算多个变量的互信息,之前的定义不好计算)

机器学习(第8章 信息论模型)_第18张图片

五、信息论优化模型

        信息论优化模型有三种类型,我们主要讲最大熵模型:

机器学习(第8章 信息论模型)_第19张图片

         最大熵模型最大化的是条件熵,将条件熵化开并替换P(x),就得到我们的目标函数。然后再加入约束条件:

机器学习(第8章 信息论模型)_第20张图片

         约束项的第一条约束的作用是将统计得到的某些特征保存下来,比如“x与y相等的情况恒为20次”,于是我们需要映入这些特征函数:(“某一事实”就根据我们的需求来设置)

机器学习(第8章 信息论模型)_第21张图片

        列出我们的优化公式,并使用拉格朗日法消除约束条件:

机器学习(第8章 信息论模型)_第22张图片

         原问题难以求解,于是列出原问题的对偶问题来求解问题:

        对偶问题会求出一个p,这个p包含了w变量,将p代回对偶问题的式子中,就可以消去p,再去求解w。求出w再代入p的式子中,从而求解出p。

机器学习(第8章 信息论模型)_第23张图片

机器学习(第8章 信息论模型)_第24张图片

六、总结

重点学习熵相关定义和最大熵模型的优化过程。

你可能感兴趣的:(机器学习,机器学习,人工智能)