最大熵原理

最大熵原理


  近期在学习信息论,看到了最大熵原理。关于最大熵原理,之前有所了解,也知道它在信息论中的一些基本应用和推论。最近我定量地学习了最大熵原理并结合热力学问题加深了理解。


最大熵原理的思想

 
  最大熵原理的思想就是如果对一个系统存在未知部分,则不应作主观假设,而保留最大的混乱程度。即对于系统已知条件为X,那么最大熵分布 p=argmaxpH(p|X) 是最合理的分布。


简单例子

  例如骰子,求6个面概率最合理分布p。
  最合理分布为最大熵分布 p=argmaxp(H(p))=argmin(Σ6i=1pi(logpi))
  由Jensen不等式, pi=16
  即骰子是均匀分布的。


对数似然函数

  在统计学习中,perceptron,CRF,sigmoid,tanh,softmax等各种概率计算的函数都有一个共同点,概率的对数似然函数,往往是约束或者条件特征的线性函数。那么,我们称它们为指数族函数。这个背后蕴含着深刻的道理。我们可以用最大熵来解释。以下为一个推导:
  最大熵原理_第1张图片


指数函数—最大熵分布在热力学中的应用

  
  下面给两个热力学的例子:
  最大熵原理_第2张图片
  
最大熵原理_第3张图片

你可能感兴趣的:(Machine,Learing)