数学之美笔记(十四)

  1. 最大熵模型:

    在对一个随机事件的概率分布进行预测时,我们的预测应当满足所有已知条件,而对未知情况不作任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,信息熵最大的模型。

  2. 匈牙利著名数学家、信息论最高奖香农奖得主希萨证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。此外,它们都有同一个非常简单的形式——指数函数。

  3. 最大熵模型的训练

    假定我们搜索的排序需要考虑n种特征,{x1,x2,...,xn,},需要排序的网页是d,即使这些特征互相独立,对应的最大熵模型也应该是很长的:

    P(d | x1,x2,...xn)=(1 / Z(x1,x2,...,xn))eλ1(x1,d)+λ2(x2,d)+. . .+λn(xn,d)

    其中Z=Σeλ1(x1,d)+λ2(x2,d)+. . .+λn(xn,d

    这个模型里有许多参数需要通过模型的训练来获得。

    最原始的最大熵模型训练方法是通用迭代算法GIS(Generalized Iterative Scaling):

    1. 假定第0次迭代的初始模型为等概率的均匀分布。

    2. 用第N次迭代的模型来估算每种信息特征在训练数据中的分布。如果超过了实际的,就把相应的模型参数变小。否则,将它们变大。

    3. 重复步骤b直至收敛。

本文涉及到的人物及其著作:

达诺奇、拉特克里夫、达拉皮垂孪生兄弟

你可能感兴趣的:(数学之美,最大熵,不要把鸡蛋放到同一个篮子里)